本發(fā)明專利技術(shù)涉及自然語言處理領(lǐng)域,提供了一種通過查詢詞進(jìn)行例句檢索的方法,包括,獲取用戶輸入的查詢詞;對用戶輸入的query進(jìn)行處理;在例句庫中檢索匹配query的例句,并進(jìn)行所述query與例句的相關(guān)性計(jì)算;根據(jù)用法多樣性或翻譯多樣性原則,進(jìn)行例句相關(guān)性打分調(diào)整,進(jìn)行例句排序;輸出例句并展示例句中的短語。本發(fā)明專利技術(shù)還提供了一種通過查詢詞進(jìn)行例句檢索的系統(tǒng)。采用本發(fā)明專利技術(shù)提供的方案,在進(jìn)行query與例句相關(guān)性計(jì)算時(shí)綜合考慮了各種因素:例句中query相關(guān)短語特征、句法特征、例句結(jié)構(gòu)完整性特征、句長特征、例句所含標(biāo)點(diǎn)數(shù)字噪音特征綜合進(jìn)行query與例句相關(guān)性計(jì)算,比起其它相關(guān)性計(jì)算方法顯示了優(yōu)勢。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及自然語言處理領(lǐng)域,特別地涉及一種例句檢索的方法及系統(tǒng)。
技術(shù)介紹
隨著互聯(lián)網(wǎng)技術(shù)的深入發(fā)展,使得人們在寫作或語言學(xué)習(xí)中獲得所需的信息更加便利。例句檢索輔助用戶獲取與輸入匹配的(雙語)例句,從而滿足用戶了解詞的用法或翻譯的需求。另外,在機(jī)器翻譯中,也會用到例句檢索從而使得翻譯更加精準(zhǔn)。截至目前為止,有關(guān)例句檢索中query (即查詢詞)與例句相關(guān)性計(jì)算方法主要有以下幾種一是根據(jù)例句中匹配的query個(gè)數(shù)或長度計(jì)算;二是根據(jù)例句長度及匹配query字符串長度計(jì)算;三是根據(jù)query與例句的編輯距離計(jì)算。如CN 102346777公開了一種對例句檢索結(jié)果進(jìn)行排序的方法和裝置,其中使用搭配來體現(xiàn)query的用法,但沒有綜合考慮例句中query的有關(guān)句法特征、例句本身的特征等因素,并且搭配概率的計(jì)算公式?jīng)]有考慮query在搭配中所起的作用或所做的成分,搭配概率計(jì)算中籠統(tǒng)的采用了統(tǒng)一的計(jì)算公式。CN 1471030公開了一種基于加權(quán)編輯距離的自動(dòng)例句檢索的系統(tǒng)和方法,其中,通過編輯距離來進(jìn)行檢索,但依然側(cè)重于query的字符串匹配。這幾種方法都側(cè)重于詞層次的字符串匹配,基于字符串匹配的相關(guān)性計(jì)算方法只側(cè)重給出包含query的例句,沒有涉及到給出的例句中是否體現(xiàn)了 query用法的多樣性及 翻譯的多樣性,這樣排序靠前的例句很可能滿足不了用戶的意圖。用戶使用例句檢索最主要是為了解query的相關(guān)用法或者翻譯,而現(xiàn)有的例句與query的相關(guān)性計(jì)算大多只考慮了字符串層次的匹配,無法滿足用戶的需求,具體輸出的例句檢索結(jié)果存在以下問題I.例句僅注重詞層次的匹配,未必體現(xiàn)query的常用(或某種)用法或翻譯的多樣性;2.可能輸出具有歧義的結(jié)果;如輸入query :有道輸出他右邊太陽穴上有道傷痕(只列出單語部分)。而用戶意圖為輸出含“經(jīng)營有道”、“取之有道”之類的例句,這樣的結(jié)果與用戶意圖相左。3.輸出結(jié)構(gòu)不完整的例句;4.輸出例句過長或過短;5.輸出例句所含信息不豐富;如輸入query :清明節(jié)輸出清明節(jié)是什么?
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)解決的技術(shù)問題在于提供了一種例句檢索的方法,以更好地滿足用戶的需求;本專利技術(shù)還提供了一種例句檢索的系統(tǒng)。本專利技術(shù)實(shí)施例提供了一種例句檢索的方法,包括,獲取用戶輸入的查詢詞;對用戶輸入的query進(jìn)行處理;在例句庫中檢索匹配query的例句,并進(jìn)行所述query與例句的相關(guān)性計(jì)算;根據(jù)用法多樣性或翻譯多樣性原則,進(jìn)行例句相關(guān)性打分調(diào)整,進(jìn)行例句排序;輸出例句并展示例句中的短語。本專利技術(shù)實(shí)施例還提供了一種例句檢索的系統(tǒng),包括,查詢詞獲取模塊,用于獲取用戶輸入的查詢詞;查詢詞處理模塊,用于對用戶輸入的query進(jìn)行處理;相關(guān)性計(jì)算模塊,用于在例句庫中檢索匹配query的例句,并進(jìn)行所述query與例句的相關(guān)性計(jì)算; 相關(guān)性調(diào)整模塊,用于根據(jù)用法多樣性或翻譯多樣性原則,進(jìn)行例句相關(guān)性打分調(diào)整,進(jìn)行例句排序;例句輸出模塊,用于輸出例句并展示例句中的短語。采用本專利技術(shù)實(shí)施例提供的方案,在進(jìn)行query與例句相關(guān)性計(jì)算時(shí)綜合考慮了各種因素例句中query相關(guān)短語特征、句法特征、例句結(jié)構(gòu)完整性特征、句長特征、例句所含標(biāo)點(diǎn)數(shù)字噪音特征綜合進(jìn)行query與例句相關(guān)性計(jì)算,引入query相關(guān)短語反映query用法,引入句法信息使得含有query句法意義的例句具有優(yōu)勢,引入例句結(jié)構(gòu)完整性信息使得輸出例句更加規(guī)整,并結(jié)合例句句長、所含數(shù)字標(biāo)點(diǎn)的噪音特征共同進(jìn)行相關(guān)性計(jì)算,比起其它相關(guān)性計(jì)算方法顯示了優(yōu)勢。對某天的query log進(jìn)行采樣,分別抽取80個(gè)中文query與英文query,比較本方法的輸出與傳統(tǒng)基于字符串匹配方法的例句輸出的效果,效果變好的占53%,效果相當(dāng)?shù)恼?7%,可見本專利技術(shù)所提方案非常有效。附圖說明此處所說明的附圖用來提供對本專利技術(shù)的進(jìn)一步理解,構(gòu)成本專利技術(shù)的一部分,本專利技術(shù)的示意性實(shí)施例及其說明用于解釋本專利技術(shù),并不構(gòu)成對本專利技術(shù)的不當(dāng)限定。在附圖中圖I是本專利技術(shù)第一實(shí)施例流程圖;圖2是query翻譯多樣性檢索結(jié)果展現(xiàn)示意圖;圖3是query用法多樣性檢索結(jié)果展現(xiàn)示意圖;圖4是query用法多樣性同種短語例句展現(xiàn)示意圖;圖5是本專利技術(shù)第二實(shí)施例系統(tǒng)結(jié)構(gòu)圖。具體實(shí)施例方式為了使本專利技術(shù)所要解決的技術(shù)問題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖和實(shí)施例,對本專利技術(shù)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本專利技術(shù),并不用于限定本專利技術(shù)。如圖I所示,是本專利技術(shù)第一實(shí)施例流程圖,提供了一種進(jìn)行例句檢索的方法,具體包括,步驟S101,獲取用戶輸入的查詢詞query ;具體地,用戶輸入的query中單個(gè)的詞占的比例較大,此處僅考慮單個(gè)詞的queryο步驟S102,對用戶輸入的query進(jìn)行處理;對用戶的query進(jìn)行處理,是指用戶輸入時(shí)可能會輸入多余的空格、標(biāo)點(diǎn)、數(shù)字或亂碼,甚至?xí)霈F(xiàn)用戶輸錯(cuò)某個(gè)字或詞,在這種情況要進(jìn)行處理,要進(jìn)行糾錯(cuò)處理。步驟S103,在例句庫中檢索匹配query的例句,并進(jìn)行所述query與例句的相關(guān)性計(jì)算;具體地,根據(jù)例句中query與其它詞構(gòu)成短語的短語概率、相關(guān)句法結(jié)點(diǎn)概率、句子完整性概率、句長概率、噪音概率進(jìn)行query與例句的相關(guān)性計(jì)算。輸出雙語例句時(shí),最終概率為中英雙語例句相關(guān)性概率的算術(shù)平均值。具體地,計(jì)算方法如下I. query在例句中的與其它詞構(gòu)成短語的短語概率Pphr用戶輸入query極有可能是想了解query的用法,這種用法在例句中由query與其它詞構(gòu)成的常用短語來體現(xiàn),在這些短語中,query有可能是短語的核心詞,也可能不是,這兩種情況區(qū)別計(jì)算短語概率,如conflict (沖突)在短語“conflict with”(與......沖突)中是一個(gè)核心詞,在“resolve conflict”中為一個(gè)非核心詞,采用如下短語概率計(jì)算公式權(quán)利要求1.一種例句檢索的方法,其特征在于,包括, 獲取用戶輸入的查詢詞query ; 在例句庫中檢索匹配query的例句,并進(jìn)行所述query與例句的相關(guān)性計(jì)算; 根據(jù)用法多樣性或翻譯多樣性原則,進(jìn)行例句相關(guān)性打分調(diào)整,進(jìn)行例句排序; 輸出例句并展示例句中的短語。2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在獲取用戶輸入的查詢詞后,還包括, 對用戶輸入的query進(jìn)行處理。3.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,所述在例句庫中檢索匹配query的例句,并進(jìn)行所述query與例句的相關(guān)性計(jì)算具體包括, 根據(jù)例句中query與其它詞構(gòu)成短語的短語概率、相關(guān)句法結(jié)點(diǎn)概率、句子完整性概率、句長概率、噪音概率進(jìn)行query與例句的相關(guān)性計(jì)算。4.根據(jù)權(quán)利要求3所述的方法,其特征在于, query在例句中的與其它詞構(gòu)成短語的短語概率Ppto5.根據(jù)權(quán)利要求4所述的方法,其特征在于,相關(guān)性概率計(jì)算公式如下 Prel= λ 11 OgPphr+ λ 2l0gpsyn+ λ 31 OgPcom+ λ 41 OgPlen+ λ 51 OgPpun 各個(gè)概率前面的加權(quán)系數(shù)λρ λ2、λ3、λ4、λ 5通過開發(fā)集訓(xùn)練或者根據(jù)實(shí)際情況調(diào)難iF. O6.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,根據(jù)用法多樣性或翻譯多樣性原則,本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種例句檢索的方法,其特征在于,包括,獲取用戶輸入的查詢詞query;在例句庫中檢索匹配query的例句,并進(jìn)行所述query與例句的相關(guān)性計(jì)算;根據(jù)用法多樣性或翻譯多樣性原則,進(jìn)行例句相關(guān)性打分調(diào)整,進(jìn)行例句排序;輸出例句并展示例句中的短語。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊振東,石志偉,周步戀,車天文,王更生,王喜民,何宏靖,徐憶蘇,
申請(專利權(quán))人:深圳市宜搜科技發(fā)展有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。