一種修正用戶詞庫的方法和系統(tǒng)技術方案

技術編號：8593962 閱讀：167 留言：0更新日期：2013-04-18 07:07

本發(fā)明專利技術提供了一種修正用戶詞庫的方法和系統(tǒng)，所述方法包括：檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分，在輸入編碼上相同或相近，而文字不同；和/或，檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分，文字相同而輸入編碼不同；如果滿足條件，則基于當前輸入內容和糾錯內容，對用戶詞庫中的數(shù)據(jù)進行修正；所述糾錯內容為已完成輸入內容中與當前輸入內容相對應的部分。本發(fā)明專利技術可以更智能的記錄用戶輸入信息，盡可能的避免對錯誤輸入進行學詞，減少在用戶詞庫中的數(shù)據(jù)噪音。本發(fā)明專利技術不需要對用戶編輯行為做更多限定，大大拓展了詞庫修正的應用廣度和深度，可以更好的去除一些現(xiàn)有技術無法發(fā)現(xiàn)的數(shù)據(jù)噪音。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及輸入法
，特別是涉及一種修正用戶詞庫的方法和系統(tǒng)。
技術介紹
隨著計算機技術以及互聯(lián)網技術的普及與發(fā)展，輸入法已經成為用戶與計算機交互的重要手段，不同專業(yè)領域、不同興趣以及使用習慣的用戶對于輸入法的智能性要求越來越高。現(xiàn)有的輸入法一般通過提高系統(tǒng)詞庫中詞條的更新程度以及詞頻信息的準確度，來提高用戶輸入字符時的效率。隨輸入法軟件安裝包安裝到用戶機器上的詞庫往往是滿足一般用戶通用輸入需要的基本詞庫，我們稱之為系統(tǒng)詞庫。而對于各個用戶輸入中那些個性化的不具有普遍性的詞條，比如自己親友同事的姓名、稱謂，自己熟悉的地名機構名，以及使用范圍非常有限的專業(yè)術語等，在系統(tǒng)詞庫中一般是不予收錄的。這種需求基本上是靠用戶詞庫解決在用戶第一次(或若干次)輸入自造詞之后，輸入法軟件會把這些詞條作為用戶詞記錄下來。如果用戶在今后再次輸入，會將用戶詞作為一個候選展現(xiàn)出來，而且往往給予比系統(tǒng)詞條更高的優(yōu)先級進行展現(xiàn)。有時用戶輸入中會存在輸入錯誤(例如由于敲擊鍵盤速度過快等原因)，而現(xiàn)有輸入法軟件對錯誤輸入和正確輸入不予區(qū)分，就不可避免的對錯誤輸入也進行學詞，從而在用戶詞數(shù)據(jù)引入噪音。比如用戶希望輸入shenme，意欲輸出“什么”，結果不小心敲成“shenem”，上屏文字為“神惡魔”。而現(xiàn)有的輸入法軟件會認為“神惡魔”是用戶的個性化輸入，作為用戶詞保存下來。日積月累，這種因誤輸入而記錄的用戶詞條越來越多，會造成如下問題1、記錄大量本不需要記錄的錯誤輸入作為用戶詞，占據(jù)用戶詞空間，降低用戶詞查找匹配效率。2、如果用戶想輸入的其他詞條恰好與這些垃圾詞條的輸入編碼(拼音、...

【技術保護點】
一種修正用戶詞庫的方法，其特征在于，包括：檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分，在輸入編碼上相同或相近，而文字不同；和/或，檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分，文字相同而輸入編碼不同；如果滿足條件，則基于當前輸入內容和糾錯內容，對用戶詞庫中的數(shù)據(jù)進行修正；所述糾錯內容為已完成輸入內容中與當前輸入內容相對應的部分。

【技術特征摘要】
1.一種修正用戶詞庫的方法,其特征在于,包括檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分，在輸入編碼上相同或相近，而文字不同；和/或，檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分，文字相同而輸入編碼不同；如果滿足條件，則基于當前輸入內容和糾錯內容，對用戶詞庫中的數(shù)據(jù)進行修正；所述糾錯內容為已完成輸入內容中與當前輸入內容相對應的部分。2.如權利要求1所述的方法，其特征在于，所述用戶已完成輸入內容為用戶在一個輸入會話內的已完成輸入內容。3.如權利要求2所述的方法，其特征在于，所述一個輸入會話為在當前客戶端上，由當前輸入法賬戶進行的輸入行為；和/或，輸入法軟件綁定到一個應用程序內的輸入行為。4.如權利要求1所述的方法，其特征在于，通過以下方式判斷輸入編碼是否相近判斷兩個輸入編碼之間的編輯距離是否在一定范圍內。5.如權利要求1所述的方法，其特征在于，當滿足條件時，還包括篩選步驟，采用通過篩選的當前輸入內容和糾錯內容對用戶詞庫中的數(shù)據(jù)進行修正。6.如權利要求5所述的方法，其特征在于，所述篩選步驟具體包括基于以下特征中的一個或者多個進行評判，當評判結果大于一預設閾值時，則篩選通過；所述特征包括但不限于糾錯內容與當前輸入內容輸入頻率的比值；糾錯內容與當前輸入內容的編輯距離；糾錯內容與當前輸入內容間相隔的其他輸入句子數(shù)；糾錯內容被當前用戶輸入的頻率；當前輸入內容被當前用戶輸入的頻率；糾錯內容被所有用戶輸入的頻率；當前輸入內容被所有用戶輸入的頻率。7.如權利要求1至6任意一項所述的方法，其特征在于，所述對用戶詞庫的修正包括基于糾錯內容，在用戶詞庫中確定待修正文字；對待修正文字的詞頻減一；或者，采用當前輸入內容的文字替換待修正文字，將待修正文字的詞頻加到當前輸入內容的文字的詞頻上。8.如權利要求1至6任意一項所述的方法，其特征在于，所述用于與當前輸入內容進行比較的用戶已完成輸入內容，最遠距離當前輸入內容N句或者N個字詞。9.如權利要求1至6任意一項所述的方法，其特征在于，所述與當前輸入內容進行比較的用戶已完成輸入內容的單位為輸入序列；所述輸入序列為用戶輸入上屏的一次完整內容；或者，所述輸入序列為基于用戶輸入過程中敲擊鍵盤事件的停頓時間，對用戶輸入上屏的一次完整內容進行劃分所得的更細粒度的字詞；或者，所述輸入序列為基于拼音邊界對用戶已完成輸入內容進行切分得到的字ο10.如權利要求9所述的方法，其特征在于，基于當前輸入內容和糾錯內容，對用戶詞庫中的數(shù)據(jù)進行修正后，還包括當所述糾錯內容所屬的輸入序列的文字字數(shù)比所述糾錯內容的字數(shù)多時，采用當前輸入內容的文字替換該輸入序列中所述糾...

【專利技術屬性】
技術研發(fā)人員：張揚，王堅，
申請(專利權)人：北京搜狗科技發(fā)展有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術

搜狗輸入法用戶詞庫技術

比劃猜詞游戲詞庫技術