公開了用于選擇文本分割的語言的方法和系統(tǒng)。在一個實施例中,識別出與字符串相關(guān)聯(lián)的至少第一備選語言和第二備選語言;至少確定與第一備選語言相關(guān)聯(lián)的第一分割結(jié)果和與第二備選語言相關(guān)聯(lián)的第二分割結(jié)果;確定第一分割結(jié)果出現(xiàn)的第一頻率和第二分割結(jié)果出現(xiàn)的第二頻率;以及至少部分地基于所述出現(xiàn)的第一頻率和所述出現(xiàn)的第二頻率,從第一備選語言和第二備選語言識別可行的語言。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及文本分割,更具體地講,涉及對文本分割的語言進行選擇。
技術(shù)介紹
已經(jīng)存在了試圖解譯表示文本的數(shù)據(jù)的文本處理方法和系統(tǒng)。在接收到?jīng)]有指示單詞或其它分割段(token)的分隔符的、由字符串組成的文本時,進行文本處理更加困難。當(dāng)使用現(xiàn)有方法和系統(tǒng)處理這種字符串時,為了解譯字符串,可以將字符分割為分割段。分割段可以是單詞、首字母縮寫、縮略語、適當(dāng)名稱、地理名稱、股票市場交易符號或其它分割段。通常,可以使用現(xiàn)有的方法和系統(tǒng),將字符串分割為分割字符串的多個組合。在對文本進行分割時選擇使用正確的語言可以產(chǎn)生更加有意義的結(jié)果。
技術(shù)實現(xiàn)思路
本專利技術(shù)的實施例包括選擇用于文本分割的語言的方法和系統(tǒng)。本專利技術(shù)的一個實施例包括識別與字符串相關(guān)聯(lián)的至少第一備選語言和第二備選語言;從該字符串確定與第一備選語言相關(guān)聯(lián)的第一分割結(jié)果,并從該字符串確定與第二備選語言相關(guān)聯(lián)的第二分割結(jié)果 ’為兎一分割結(jié)果確定弟一出現(xiàn)頻率,和為弟~■分割結(jié)果確定弟~■出現(xiàn)頻率;以及至少部分地基于第一出現(xiàn)頻率和第二出現(xiàn)頻率,從第一備選語言和第二備選語言來識別可行的;五古P口口 ο所提到的該示例性實施例并不限制或限定本專利技術(shù),而是提供了有助于理解本專利技術(shù)實施例的示例。在具體實施方式中對示例性實施例進行了討論,并提供了對本專利技術(shù)進一步的描述。通過核對說明書,可以進一步理解本專利技術(shù)的各個實施例所提供的優(yōu)點。附圖說明當(dāng)參照附圖閱讀以下具體實施方式時,可以更好地理解本專利技術(shù)的這些和其它特征、方面和優(yōu)點,其中圖I示出了根據(jù)本專利技術(shù)一個實施例的系統(tǒng)示意圖;以及圖2示出了由本專利技術(shù)執(zhí)行的方法的一個實施例的流程圖。具體實施例方式引言本專利技術(shù)的實施例包括選擇用于文本分割的語言的方法和系統(tǒng)。本專利技術(shù)具有多個實施例。通過引言和示例,本專利技術(shù)的一個示例性實施例提供了通過為字符串選擇正確的語言,來改進將諸如域名之類的字符串分割為多個分割段或單詞的方法。可以基于各種信號,例如,與該字符串相關(guān)聯(lián)的語言、與用戶相關(guān)聯(lián)的IP地址、用于字符串的字符集、與用戶相關(guān)聯(lián)的瀏覽器應(yīng)用程序的瀏覽器設(shè)置、以及與該字符串相關(guān)聯(lián)的任何最高層域,來選擇用于該字符串的多種潛在或備選語言。可以使用每種備選語言將字符串分割為許多分割結(jié)果。每個分割結(jié)果可以是單詞或其它分割段的特定組合。例如,可以針對英語語言將字符串“usedrugs”分割為以下分割結(jié)果“used rugs”,“use drugs”,“us edrugs”等。根據(jù)針對每種備選語言的分割結(jié)果的數(shù)目,可以根據(jù)包含可行的分割后結(jié)果的可行語言中的文檔或搜索疑問的數(shù)目來識別可行的分割結(jié)果和可行的語言。例如,可以為每種備選語言選擇成為最可行分割結(jié)果的可能性最高的分割結(jié)果。搜索引擎可以確定包含所選擇的分割結(jié)果的文檔或搜索疑問的數(shù)目,并且可以為每種備選語言的每個所選分割結(jié)果都這樣做。在一個實施例中,可以將在特定語言的文檔或搜索疑問中以出現(xiàn)頻率最大分割結(jié)果識別為最可行的分割結(jié)果。可以將與最可行的分割結(jié)果相關(guān)聯(lián)的語言識別為最可行的語言。用于確定備選語言的語言信號也可以用于選擇可行的語言。可行的分割結(jié)果和可行的語言可以被用于各種功能,包括基于語言和結(jié)果選擇廣告。給出該引言以將讀者引導(dǎo)至該申請的一般技術(shù)主題。這并不意味著將本專利技術(shù)限制 于該技術(shù)主題。以下對示例性實施例進行描述。系統(tǒng)架構(gòu)可以構(gòu)造根據(jù)本專利技術(shù)的各種系統(tǒng)。圖I是示出了可以在其中執(zhí)行本專利技術(shù)示例性實施例的示例性系統(tǒng)的示意圖。本專利技術(shù)同樣可以操作并體現(xiàn)于其它系統(tǒng)。現(xiàn)在參照附圖,在所有多個附圖中,類似的數(shù)字指示類似的單元,圖I是示出了實施本專利技術(shù)實施例的示例性環(huán)境的示意圖。圖I中所示的系統(tǒng)100包括通過網(wǎng)絡(luò)106與服務(wù)器設(shè)備104和服務(wù)器設(shè)備150通信的多個客戶機設(shè)備102a-n。在一個實施例中,所示的網(wǎng)絡(luò)106包括因特網(wǎng)。在其它實施例中,可以使用諸如內(nèi)聯(lián)網(wǎng)、WAN或LAN之類的其它網(wǎng)絡(luò)。此外,根據(jù)本專利技術(shù)的方法可以在單個計算機內(nèi)工作。圖I中所示的客戶機設(shè)備102a_n各包括計算機可讀介質(zhì),例如,與處理器110連接的隨機存取存儲器(RAM) 108。處理器110執(zhí)行存儲器108中存儲的計算機可執(zhí)行程序指令。這種處理器可以包括微處理器、ASIC,和狀態(tài)機。這種處理器包括或可以與像例如計算機可讀介質(zhì)這樣的、存儲了指令的介質(zhì)通信,在處理器執(zhí)行指令時,使處理器執(zhí)行這里所描述步驟。計算機可讀介質(zhì)的實施例包括,但不局限于能夠向諸如客戶機102a的處理器110之類的處理器提供計算機可讀指令的電、光、磁或其它存儲或傳輸設(shè)備。其它適合介質(zhì)的示例包括,但不局限于軟盤、CD-ROM、DVD、磁盤、存儲器芯片、ROM、RAM、ASIC、配置的處理器、所有光介質(zhì)、所有磁帶或其它磁介質(zhì)、或計算機處理器可以從中讀取指令的任何其它適合的介質(zhì)。此外,各種其它形式的計算機可讀介質(zhì)可以將指令傳輸或攜帶至計算機,包括路由器、專用或公共網(wǎng)絡(luò)、或其它傳輸設(shè)備或信道(有線和無線)。指令可以包括來自任何適合的計算機編程語言的代碼,包括例如,C、C++、C#、Visual Basic、Java、Python、Perl和JavaScript。客戶機設(shè)備102a_n還可以包括多個外部或內(nèi)部設(shè)備,如,鼠標(biāo)、⑶-ROM、DVD、鍵盤、顯示器、或其它輸入或輸出設(shè)備。客戶機設(shè)備102a-n的示例是個人計算機、數(shù)字助理、個人數(shù)字助理、蜂窩電話、移動電話、智能電話、尋呼機、數(shù)字書寫板、膝上型計算機、因特網(wǎng)設(shè)備和其它基于處理器的設(shè)備。通常,客戶機設(shè)備102a可以是與網(wǎng)絡(luò)106連接并與一個或多個應(yīng)用程序交互的任何適合類型的基于處理器的平臺。客戶機設(shè)備102a-n可以在能夠支持瀏覽器或瀏覽器支持的應(yīng)用程序的任何操作系統(tǒng),例如,Microsoft Windows 或Linux,上操作。例如,所示的客戶機設(shè)備102a-n包括執(zhí)行諸如微軟公司的因特網(wǎng)Explorer 、Netscape通信公司的Netscape Navigator 、以及蘋果計算機公司的Safari 之類的瀏覽器應(yīng)用程序的個人計算機。通過客戶機設(shè)備102a_n,用戶112a_n可以通過網(wǎng)絡(luò)106彼此通信,并與同網(wǎng)絡(luò)106連接的其它系統(tǒng)和設(shè)備通信。如圖I中所示,服務(wù)器設(shè)備104和服務(wù)器設(shè)備150也可以與網(wǎng)絡(luò)106連接。服務(wù)器設(shè)備104可以包括執(zhí)行分割引擎應(yīng)用程序的服務(wù)器,服務(wù)器設(shè)備150可以包括執(zhí)行搜索引擎應(yīng)用程序的服務(wù)器。與客戶機設(shè)備102a-n類似,圖I中示出的服務(wù)器設(shè)備104和服務(wù)器設(shè)備150分別包括與計算機可讀存儲器118連接的處理器116、以及與計算機可讀存儲器154連接的處理器152。作為單個計算機系統(tǒng)來描述的服務(wù)器設(shè)備104和150可以作為計算機處理器網(wǎng)絡(luò)來實施。服務(wù)器設(shè)備104、150的示例是服務(wù)器、大型計算 機、聯(lián)網(wǎng)計算機、基于處理器的設(shè)備、以及類似類型的系統(tǒng)和設(shè)備。客戶機處理器110和服務(wù)器處理器116、152可以是如以上描述的多種計算機處理器中的任何一個,例如,來自加利福尼亞的圣克拉拉的英特爾公司的處理器、以及伊利諾斯州的紹姆堡的摩托羅拉公司。存儲器118包含分割應(yīng)用程序,也稱為分割引擎120。服務(wù)器設(shè)備104或相關(guān)設(shè)備可以接入網(wǎng)絡(luò)106,以接收來自與網(wǎng)絡(luò)106連接的其它設(shè)備或系統(tǒng)的字符串。例如,字符可以包括用于書寫系統(tǒng)本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種計算機實現(xiàn)的方法,包括:在計算設(shè)備處接收字符串;識別針對所述字符串的至少第一備選語言和第二備選語言;通過計算設(shè)備將所述字符串至少分割為針對第一備選語言的第一分割結(jié)果和針對第二備選語言的第二分割結(jié)果,其中所述第一分割結(jié)果包括第一多個分割段,所述第二分割結(jié)果包括第二多個分割段;使用確定一個或多個第一分割段的正確或優(yōu)選拼寫的拼寫檢查功能,來確定至少第一分割結(jié)果的拼寫修正后的分割結(jié)果;確定第一分割結(jié)果在與第一備選語言相關(guān)聯(lián)的第一語料庫中的第一出現(xiàn)頻率、第二分割結(jié)果在與第二備選語言相關(guān)聯(lián)的第二語料庫中的第二出現(xiàn)頻率、和拼寫修正后的分割結(jié)果在與第一備選語言相關(guān)聯(lián)的第一語料庫中的第三出現(xiàn)頻率;以及通過計算設(shè)備至少基于第一出現(xiàn)頻率、第二出現(xiàn)頻率和第三出現(xiàn)頻率來識別針對所述字符串的可操作的分割結(jié)果。
【技術(shù)特征摘要】
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:杰拉德·以色列·埃爾巴茲,雅各布·L·曼德爾森,
申請(專利權(quán))人:谷歌公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。