本發(fā)明專利技術提供了一種修正用戶詞庫的方法和系統(tǒng),所述方法包括:檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,在輸入編碼上相同或相近,而文字不同;和/或,檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,文字相同而輸入編碼不同;如果滿足條件,則基于當前輸入內容和糾錯內容,對用戶詞庫中的數(shù)據(jù)進行修正;所述糾錯內容為已完成輸入內容中與當前輸入內容相對應的部分。本發(fā)明專利技術可以更智能的記錄用戶輸入信息,盡可能的避免對錯誤輸入進行學詞,減少在用戶詞庫中的數(shù)據(jù)噪音。本發(fā)明專利技術不需要對用戶編輯行為做更多限定,大大拓展了詞庫修正的應用廣度和深度,可以更好的去除一些現(xiàn)有技術無法發(fā)現(xiàn)的數(shù)據(jù)噪音。
【技術實現(xiàn)步驟摘要】
本專利技術涉及輸入法
,特別是涉及一種修正用戶詞庫的方法和系統(tǒng)。
技術介紹
隨著計算機技術以及互聯(lián)網技術的普及與發(fā)展,輸入法已經成為用戶與計算機交互的重要手段,不同專業(yè)領域、不同興趣以及使用習慣的用戶對于輸入法的智能性要求越來越高。現(xiàn)有的輸入法一般通過提高系統(tǒng)詞庫中詞條的更新程度以及詞頻信息的準確度,來提高用戶輸入字符時的效率。隨輸入法軟件安裝包安裝到用戶機器上的詞庫往往是滿足一般用戶通用輸入需要的基本詞庫,我們稱之為系統(tǒng)詞庫。而對于各個用戶輸入中那些個性化的不具有普遍性的詞條,比如自己親友同事的姓名、稱謂,自己熟悉的地名機構名,以及使用范圍非常有限的專業(yè)術語等,在系統(tǒng)詞庫中一般是不予收錄的。這種需求基本上是靠用戶詞庫解決在用戶第一次(或若干次)輸入自造詞之后,輸入法軟件會把這些詞條作為用戶詞記錄下來。如果用戶在今后再次輸入,會將用戶詞作為一個候選展現(xiàn)出來,而且往往給予比系統(tǒng)詞條更高的優(yōu)先級進行展現(xiàn)。有時用戶輸入中會存在輸入錯誤(例如由于敲擊鍵盤速度過快等原因),而現(xiàn)有輸入法軟件對錯誤輸入和正確輸入不予區(qū)分,就不可避免的對錯誤輸入也進行學詞,從而在用戶詞數(shù)據(jù)引入噪音。比如用戶希望輸入shenme,意欲輸出“什么”,結果不小心敲成“shenem”,上屏文字為“神惡魔”。而現(xiàn)有的輸入法軟件會認為“神惡魔”是用戶的個性化輸入,作為用戶詞保存下來。日積月累,這種因誤輸入而記錄的用戶詞條越來越多,會造成如下問題1、記錄大量本不需要記錄的錯誤輸入作為用戶詞,占據(jù)用戶詞空間,降低用戶詞查找匹配效率。2、如果用戶想輸入的其他詞條恰好與這些垃圾詞條的輸入編碼(拼音、五筆等)相同,這些詞條會排在比較靠前的位置,這勢必會給用戶輸入帶來干擾,影響用戶體驗。騰訊公司申請?zhí)枮?00710302282的中國專利《一種更新用戶詞庫的方法及裝置》,提供了一個解決方案,可以在一定程度上解決前述的技術問題。其主要方案是用戶先后進行了兩次連續(xù)的編輯操作,并且用戶在前一次編輯完成后進行了刪除處理。如果這兩次操作都在同一位置,并且兩次輸入的詞條都具有同一編碼(拼音全拼、拼音簡拼或五筆)的話,則認定前一次輸入為錯誤輸入,使用后一次的輸入來替換這次輸入,同時更新用戶詞庫信息。例如,用戶輸入“nh”,由于失誤,將“年號”作為輸入字符上屏了,而后發(fā)現(xiàn)錯誤,將“年號”刪除,重新輸入“nhao”,并在候選項中選擇了“年號”的更正字符“你好”重新作為輸入字符上屏。200710302282的中國專利首先判斷更正字符“你好”和原字符“年號”是否位置相同,并進一步判斷更正字符“你好”是否存在于原字符“年號”的并列候選項中,如果都滿足,則認定前一輸入字符“年號”為錯誤輸入。但是該方案存在如下缺陷a、限定在同一位置的輸入。這無疑限制了該方案的應用范圍,用戶光標變換的操作一直在頻繁的發(fā)生。而用戶自發(fā)的對輸入的更正,并不局限于在同一位置的修改,編輯位置完全可能發(fā)生變動,例如,用戶在寫完一段話后檢查時,才發(fā)現(xiàn)錯誤并返回加以更正是很正常的。b、只考慮前后兩次連續(xù)輸入,并必須存在刪除操作。首先,用戶對輸入的更正,可能并不是連續(xù)的,而是間斷的;并且,對于頂(即時通信)、搜索引擎等應用場景中,原始輸入是無法進行編輯的,即用戶無法刪除原輸入字符,不存在刪除操作。總之,本申請希望使輸入法軟件能夠修正用戶詞庫,能夠更智能的記錄用戶輸入信息,盡可能的避免對錯誤輸入進行學詞,減少在用戶詞庫中的數(shù)據(jù)噪音,并避免上述現(xiàn)有方案的限制。
技術實現(xiàn)思路
本專利技術所要解決的技術問題是提供一種修正用戶詞庫的方法和裝置,能夠盡可能的避免對錯誤輸入進行學詞,減少在用戶詞庫中的數(shù)據(jù)噪音。為了解決上述問題,本專利技術公開了一種修正用戶詞庫的方法,包括檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,在輸入編碼上相同或相近,而文字不同;和/或,檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,文字相同而輸入編碼不同;如果滿足條件,則基于當前輸入內容和糾錯內容,對用戶詞庫中的數(shù)據(jù)進行修正;所述糾錯內容為已完成輸入內容中與當前輸入內容相對應的部分。優(yōu)選的,所述用戶已完成輸入內容為用戶在一個輸入會話內的已完成輸入內容。優(yōu)選的,,所述一個輸入會話為在當前客戶端上,由當前輸入法賬戶進行的輸入行為;和/或,輸入法軟件綁定到一個應用程序內的輸入行為。優(yōu)選的,通過以下方式判斷輸入編碼是否相近判斷兩個輸入編碼之間的編輯距離是否在一定范圍內。優(yōu)選的,當滿足條件時,還包括篩選步驟,采用通過篩選的當前輸入內容和糾錯內容對用戶詞庫中的數(shù)據(jù)進行修正。優(yōu)選的,所述篩選步驟具體包括基于以下特征中的一個或者多個進行評判,當評判結果大于一預設閾值時,則篩選通過;所述特征包括但不限于糾錯內容與當前輸入內容輸入頻率的比值;糾錯內容與當前輸入內容的編輯距離;糾錯內容與當前輸入內容間相隔的其他輸入句子數(shù);糾錯內容被當前用戶輸入的頻率;當前輸入內容被當前用戶輸入的頻率;糾錯內容被所有用戶輸入的頻率;當前輸入內容被所有用戶輸入的頻率。優(yōu)選的,所述對用戶詞庫的修正包括基于糾錯內容,在用戶詞庫中確定待修正文字;對待修正文字的詞頻減一;或者,采用當前輸入內容的文字替換待修正文字,將待修正文字的詞頻加到當前輸入內容的文字的詞頻上。優(yōu)選的,所述用于與當前輸入內容進行比較的用戶已完成輸入內容,最遠距離當前輸入內容N句或者N個字詞。優(yōu)選的,所述與當前輸入內容進行比較的用戶已完成輸入內容的單位為輸入序列;所述輸入序列為用戶輸入上屏的一次完整內容;或者,所述輸入序列為基于用戶輸入過程中敲擊鍵盤事件的停頓時間,對用戶輸入上屏的一次完整內容進行劃分所得的更細粒度的字詞;或者,所述輸入序列為基于拼音邊界對用戶已完成輸入內容進行切分得到的字ο優(yōu)選的,基于當前輸入內容和糾錯內容,對用戶詞庫中的數(shù)據(jù)進行修正后,還包括當所述糾錯內容所屬的輸入序列的文字字數(shù)比所述糾錯內容的字數(shù)多時,采用當前輸入內容的文字替換該輸入序列中所述糾錯內容的對應部分,將替換得到的輸入序列作為用戶詞記錄至用戶詞庫。依據(jù)本專利技術的另一實施例,還公開了一種用戶詞庫修正系統(tǒng),包括輸入錯誤檢測模塊,用于檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,在輸入編碼上相同或相近,而文字不同;和/或,檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,文字相同而輸入編碼不同;用戶詞管理模塊,用于當滿足條件時,基于當前輸入內容和糾錯內容,對用戶詞庫中的數(shù)據(jù)進行修正;所述糾錯內容為已完成輸入內容中與當前輸入內容相對應的部分。優(yōu)選的,所述用戶已完成輸入內容為用戶在一個輸入會話內的已完成輸入內容。優(yōu)選的,所述一個輸入會話為在當前客戶端上,由當前輸入法賬戶進行的輸入行為;和/或,輸入法軟件綁定到一個應用程序內的輸入行為。優(yōu)選的,所述輸入錯誤檢測模塊通過以下方式判斷輸入編碼是否相近判斷兩個輸入編碼之間的編輯距離是否在一定范圍內。優(yōu)選的,所述的系統(tǒng)還包括用于對當前輸入內容和糾錯內容進行篩選的候選篩選模塊;所述用戶詞管理模塊采用通`過篩選的當前輸入內容和糾錯內容對用戶詞庫中的數(shù)據(jù)進行修正。優(yōu)選的,所述候選篩選模塊具體用于基于以下特征中的一個或者多個進行評判,當評判結果大于一預設閾值時,則篩選通過;所述特征包本文檔來自技高網...
【技術保護點】
一種修正用戶詞庫的方法,其特征在于,包括:檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,在輸入編碼上相同或相近,而文字不同;和/或,檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,文字相同而輸入編碼不同;如果滿足條件,則基于當前輸入內容和糾錯內容,對用戶詞庫中的數(shù)據(jù)進行修正;所述糾錯內容為已完成輸入內容中與當前輸入內容相對應的部分。
【技術特征摘要】
1.一種修正用戶詞庫的方法,其特征在于,包括 檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,在輸入編碼上相同或相近,而文字不同;和/或,檢查當前輸入內容是否與用戶已完成輸入內容的全部或者其一部分,文字相同而輸入編碼不同; 如果滿足條件,則基于當前輸入內容和糾錯內容,對用戶詞庫中的數(shù)據(jù)進行修正;所述糾錯內容為已完成輸入內容中與當前輸入內容相對應的部分。2.如權利要求1所述的方法,其特征在于,所述用戶已完成輸入內容為 用戶在一個輸入會話內的已完成輸入內容。3.如權利要求2所述的方法,其特征在于,所述一個輸入會話為 在當前客戶端上,由當前輸入法賬戶進行的輸入行為; 和/或,輸入法軟件綁定到一個應用程序內的輸入行為。4.如權利要求1所述的方法,其特征在于,通過以下方式判斷輸入編碼是否相近 判斷兩個輸入編碼之間的編輯距離是否在一定范圍內。5.如權利要求1所述的方法,其特征在于,當滿足條件時,還包括篩選步驟,采用通過篩選的當前輸入內容和糾錯內容對用戶詞庫中的數(shù)據(jù)進行修正。6.如權利要求5所述的方法,其特征在于,所述篩選步驟具體包括 基于以下特征中的一個或者多個進行評判,當評判結果大于一預設閾值時,則篩選通過;所述特征包括但不限于 糾錯內容與當前輸入內容輸入頻率的比值; 糾錯內容與當前輸入內容的編輯距離; 糾錯內容與當前輸入內容間相隔的其他輸入句子數(shù); 糾錯內容被當前用戶輸入的頻率; 當前輸入內容被當前用戶輸入的頻率; 糾錯內容被所有用戶輸入的頻率; 當前輸入內容被所有用戶輸入的頻率。7.如權利要求1至6任意一項所述的方法,其特征在于,所述對用戶詞庫的修正包括 基于糾錯內容,在用戶詞庫中確定待修正文字; 對待修正文字的詞頻減一; 或者,采用當前輸入內容的文字替換待修正文字,將待修正文字的詞頻加到當前輸入內容的文字的詞頻上。8.如權利要求1至6任意一項所述的方法,其特征在于,所述用于與當前輸入內容進行比較的用戶已完成輸入內容,最遠距離當前輸入內容N句或者N個字詞。9.如權利要求1至6任意一項所述的方法,其特征在于,所述與當前輸入內容進行比較的用戶已完成輸入內容的單位為輸入序列; 所述輸入序列為用戶輸入上屏的一次完整內容;或者,所述輸入序列為基于用戶輸入過程中敲擊鍵盤事件的停頓時間,對用戶輸入上屏的一次完整內容進行劃分所得的更細粒度的字詞;或者,所述輸入序列為基于拼音邊界對用戶已完成輸入內容進行切分得到的字ο10.如權利要求9所述的方法,其特征在于,基于當前輸入內容和糾錯內容,對用戶詞庫中的數(shù)據(jù)進行修正后,還包括 當所述糾錯內容所屬的輸入序列的文字字數(shù)比所述糾錯內容的字數(shù)多時,采用當前輸入內容的文字替換該輸入序列中所述糾...
【專利技術屬性】
技術研發(fā)人員:張揚,王堅,
申請(專利權)人:北京搜狗科技發(fā)展有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。