提供了用于創(chuàng)建將諸如音頻書的音頻數(shù)據(jù)中的位置映射到諸如電子書的文本數(shù)據(jù)中的對應(yīng)位置的映射的技術(shù)。提供了用于采用音頻數(shù)據(jù)與文本數(shù)據(jù)之間的映射而無論該映射是自動創(chuàng)建還是手動創(chuàng)建的技術(shù)。映射可用于書簽切換,其中使用在數(shù)字作品的諸如電子書的一個版本中建立的書簽來標(biāo)識該數(shù)字作品的諸如音頻書的另一版本的對應(yīng)位置??蛇x地,該映射可用于播放對應(yīng)于用戶選擇的文本的音頻??蛇x地,該映射可用于響應(yīng)于與在播放的文本相對應(yīng)的音頻而自動地突出顯示文本。可選地,該映射可用于確定在諸如音頻的一個媒體環(huán)境中所創(chuàng)建的注釋將在諸如文本的另一媒體環(huán)境中何處被使用。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及通過分析音頻數(shù)據(jù)以檢查其中所反映的詞并將那些詞與文檔中的詞進(jìn)行比較來自動創(chuàng)建文本數(shù)據(jù)和音頻數(shù)據(jù)之間的映射。
技術(shù)介紹
隨著手持式電子設(shè)備成本的降低與對數(shù)字內(nèi)容的大量需求,曾經(jīng)發(fā)表在印刷媒體上創(chuàng)造性作品日益用于數(shù)字媒體。例如,隨著稱為電子書閱讀器(或者“電子閱讀器”)的專用手持式電子設(shè)備一起,數(shù)字圖書(也稱“電子書”)也日益流行。另外,諸如平板計算機(jī)和智能手機(jī)的其它手持式設(shè)備盡管不是單獨作為電子閱讀器設(shè)計的,但是也具有作為電子閱讀器操作的功能。格式化電子書的一種公共標(biāo)準(zhǔn)是EPUB標(biāo)準(zhǔn)(“電子出版物”的簡稱),其為國際數(shù)字出版論壇(IDPF)的免費開放的電子書標(biāo)準(zhǔn)。EPUB文件使用XHTMLI. I (或者DTBook)來構(gòu)建書的內(nèi)容。樣式和布局使用被稱為OPS樣式表的CSS子集來實現(xiàn)。對于一些書面作品,特別是那些流行的作品,創(chuàng)建該書面作品的音頻版本。例如,閱讀書面作品的名人(或嗓音悅耳的人)的錄音被創(chuàng)建并可在線或在實體店購買。購買電子書和電子書的音頻版本(或“音頻書”)兩者對使用者來說是不常見的。在一些情況下,用戶閱讀完整的一本電子書且然后期望聆聽音頻書。在其它一些情況下,基于用戶的環(huán)境,用戶在看書和聽書之間轉(zhuǎn)換。例如,在參加運動或者在上下班開車時,用戶將傾向于聆聽書的音頻版本。另一方面,睡前懶洋洋地躺在沙發(fā)椅上時,用戶將傾向于閱讀書的電子書版本。不幸的是,這樣的轉(zhuǎn)換可能是令人不快的,因為用戶必須記住她在電子書中停在哪里并且在音頻書中手動定位從哪里開始,反之亦然。即使用戶清楚記得書本中用戶退出處發(fā)生了什么,這樣的轉(zhuǎn)換仍然是令人不快的,因為知道發(fā)生了什么未必容易找到電子書或音頻書中對應(yīng)于那些發(fā)生事件的部分。因此,在電子書和音頻書之間轉(zhuǎn)換是非常耗時的。規(guī)范“EPUB媒體覆蓋(Media Overlays) 3. O”定義了 SML (同步多媒體集成語言)、包文檔、EPUB樣式表以及用于表示同步文本與音頻出版物的EPUB內(nèi)容文檔的使用。出版物的預(yù)先錄制的講述可以表示為一系列音頻剪輯,每個剪輯對應(yīng)于文本的一部分。構(gòu)成預(yù)先錄制的講述的一系列音頻剪輯中的每單個音頻剪輯通常代表單個短語或段落,但是無法推知相對于其它剪輯或文檔的文本的順序。媒體覆蓋通過使用SMIL置標(biāo)(markup)在EPUB內(nèi)容文檔中將構(gòu)建的音頻講述聯(lián)系到其對應(yīng)的文本來解決同步問題。媒體覆蓋是SMIL3. O的簡化子集,其允許定義這些剪輯的回放順序。不幸的是,創(chuàng)建媒體覆蓋文件很大程度上是手動處理。因此,作品的音頻和文本版本之間的映射的粒度是非常粗的。例如,媒體覆蓋文件可以將電子書中每段的開始關(guān)聯(lián)至?xí)囊纛l版本中的對應(yīng)位置。媒體覆蓋文件特別是對于小說不包含任何精細(xì)粒度級別的(例如,逐詞的)映射的原因在于,創(chuàng)建如此高粒度的媒體覆蓋文件可能在人力勞動上花費無法計數(shù)的時間。4本部分描述的方法是可以實施的方法,但不一定是在之前已經(jīng)設(shè)想或者實施的方法。因此,除非另行指出,否則不應(yīng)僅僅由于包括在本部分中就假定本部分中描述的任一種方法為現(xiàn)有技術(shù)。
技術(shù)實現(xiàn)思路
根據(jù)一些實施例,提供了一種方法,其包括接收反映存在文本版本的作品的音頻版本的音頻數(shù)據(jù);對所述音頻數(shù)據(jù)執(zhí)行語音至文本分析以生成用于部分所述音頻數(shù)據(jù)的文本;并且基于所生成的用于部分所述音頻數(shù)據(jù)的文本,生成所述音頻數(shù)據(jù)中的多個音頻位置與作品的文本版本中對應(yīng)的多個文本位置之間的映射。該方法由一個或多個計算設(shè)備執(zhí)行。在一些實施例中,生成用于部分所述音頻數(shù)據(jù)的文本包括至少部分地基于作品的文本上下文生成用于部分所述音頻數(shù)據(jù)的文本。在一些實施例中,至少部分地基于作品的文本上下文生成用于部分所述音頻數(shù)據(jù)的文本包括至少部分地基于作品的文本版本中所用的一個或多個語法規(guī)則生成文本。在一些實施例中,至少部分地基于作品的文本上下文生成用于部分所述音頻數(shù)據(jù)的文本包括,基于哪些詞處于作品的文本版本或其子集中而限制所述部分可被轉(zhuǎn)換到哪些詞。在一些實施例中,基于哪些詞處于作品的文本版本中而限制所述部分可被轉(zhuǎn)換到哪些詞包括,對于所述音頻數(shù)據(jù)的給定部分,標(biāo)識作品的文本版本中對應(yīng)于所述給定部分的子節(jié),并且將所述詞限于作品的文本版的所述子節(jié)中的那些詞。在一些實施例中,標(biāo)識作品的文本版本的子節(jié)包括保持作品的文本版本中的當(dāng)前文本位置,該當(dāng)前文本位置對應(yīng)于音頻數(shù)據(jù)中語音至文本分析的當(dāng)前音頻位置;并且作品的文本版本的子節(jié)是與當(dāng)前文本位置相關(guān)聯(lián)的節(jié)。在一些實施例中,所述部分包括對應(yīng)于單獨詞的部分,并且所述映射將對應(yīng)于單獨詞的部分的位置映射至作品的文本版本中的單獨詞。在一些實施例中,所述部分包括對應(yīng)于單獨句子的部分,并且所述映射將對應(yīng)于單獨句子的部分的位置映射至作品的文本版本中的單獨句子。在一些實施例中,所述部分包括對應(yīng)于固定數(shù)據(jù)量的部分,并且所述映射將對應(yīng)于固定數(shù)據(jù)量的部分的位置映射至作品的文本版本中的對應(yīng)位置。在一些實施例中,生成映射包括(I)在音頻數(shù)據(jù)中嵌入錨點;(2)在作品的文本版本中嵌入錨點;或者(3)在媒體覆蓋中存儲所述映射,該映射與音頻數(shù)據(jù)或者作品的文本版本相關(guān)聯(lián)地存儲。在一些實施例中,多個文本位置中的一個或者多個文本位置中的每一個指示作品的文本版本中的相對位置。在一些實施例中,多個文本位置中的一個文本位置指示作品的文本版本中的相對位置,而多個文本位置中的另一文本位置指示對于所述相對位置的絕對位置。在一些實施例中,多個文本位置中的一個或者多個文本位置中的每一個指示作品的文本版本中的錨點。根據(jù)一些實施例,提供了一種方法,其包括接收作品的文本版本;對所述文本版本執(zhí)行文本到語音分析以生成第一音頻數(shù)據(jù);基于所述第一音頻數(shù)據(jù)和文本版本,生成所述第一音頻數(shù)據(jù)中的第一多個音頻位置與作品的文本版本中的對應(yīng)多個文本位置間的第一映射;接收反映了存在文本版本的作品的音頻版本的第二音頻數(shù)據(jù);并且基于(I)第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)的比較以及(2)第一映射,生成第二音頻數(shù)據(jù)中的第二多個音頻位置和作品的文本版本中多個文本位置間的第二映射。該方法由一個或者多個計算設(shè)備執(zhí)行。根據(jù)一些實施例,提供了一種方法,其包括接收音頻輸入;對音頻輸入執(zhí)行語音到文本分析,以生成用于音頻輸入的部分的文本;確定所生成的用于音頻輸入的部分的文本是否與當(dāng)前顯示的文本匹配;以及響應(yīng)于確定所生成的文本與當(dāng)前顯示的文本匹配,使得當(dāng)前顯示的文本被突出顯示。該方法由一個或者多個計算設(shè)備執(zhí)行。根據(jù)一些實施例,提供一種電子設(shè)備,其包括音頻數(shù)據(jù)接收單元,該音頻數(shù)據(jù)接收單元配置用于接收反映存在文本版本的作品的音頻版本的音頻數(shù)據(jù)。該電子設(shè)備還包括耦接至該音頻數(shù)據(jù)接收單元的處理單元。該處理單元被配置以對音頻數(shù)據(jù)執(zhí)行語音到文本分析,以生成用于音頻數(shù)據(jù)的部分的文本;并且基于所生成的用于音頻數(shù)據(jù)的部分的文本,生成音頻數(shù)據(jù)中的多個音頻位置與作品的文本版本中的對應(yīng)多個文本位置之間的映射。根據(jù)一些實施例,提供一種電子設(shè)備,其包括配置以接收作品的文本版本的文本接收單元。該電子設(shè)備還包括耦接至該文本接收單元的處理單元。該處理單元配置以對該文本版本執(zhí)行文本到語音分析,以生成第一音頻數(shù)據(jù);并基于該第一音頻數(shù)據(jù)和文本版本,生成第一音頻數(shù)據(jù)中的第一多個音頻位置與作品的文本版本中的對應(yīng)多個文本位置之間的第一映射。該電子設(shè)備還包括音本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
一種方法,包括:接收反映存在文本版本的作品的音頻版本的音頻數(shù)據(jù);對音頻數(shù)據(jù)執(zhí)行語音到文本分析,以生成用于音頻數(shù)據(jù)的部分的文本;以及基于所生成的用于音頻數(shù)據(jù)的部分的文本,生成音頻數(shù)據(jù)中的多個音頻位置與作品的文本版本中的對應(yīng)多個文本位置之間的映射;其中該方法由一個或多個計算設(shè)備執(zhí)行。
【技術(shù)特征摘要】
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:曹翔,A·C·坎尼斯特拉羅,G·S·羅賓,C·M·道格赫蒂,
申請(專利權(quán))人:蘋果公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。