【技術實現步驟摘要】
本專利技術涉及語言分析領域,特別是涉及一種基于大規模語料提詞方法和裝置。
技術介紹
在中文資料的自然語言處理中,經常需要從語料中提取詞。但是在中文文本處理領域,對詞的定義一直含糊不清,什么樣的單字或者單字的組合可以作為一個詞,目前仍沒有一個公認的、權威的標準。中文提詞需要在沒有標準詞庫的情況下,從語料中篩選出最可能成詞的文本片段,主要應用于從語料中發現詞。在中文沒有標準詞定義和劃分的情況下,以什么標準定義詞是從語料中提取詞的關鍵。計算機對于處理中文提詞的關鍵是讓計算機系統如何從漢語文本語料中發現詞,并將它們提取出來。中文的字是記錄語言的符號,而詞是由語素組成的,是能夠獨立運用的最小的語言單位。但是漢語這種孤立語的文本,詞與詞之間沒有任何空格之類的顯式標志指示詞的邊界。因此,中文提詞問題成為計算機處理孤立語時面臨的一個重要工作。因此,如何構建一種基于大規模語料提詞方法和裝置成為亟待解決的技術問題。
技術實現思路
本專利技術實施例提供一種基于大規模語料提詞方法和裝置,用以解決現有技術中無法從大規模語料中有效識別并提取詞的缺陷,實現計算機系統在大規模語料中有效識別并提取詞。為了解決上述問題,本專利技術公開了一種基于大規模語料的提詞方法,包括步驟:從收集的語料中統計候選詞的凝合度及候選詞的自由度;將所述候選詞的凝合度與候選詞的自由度的乘積獲得成詞得分;提取所述成詞得分超過預先設定閾值的候選詞。本專利技術所述的方法,其中,所述統計候選詞的凝合度是通過計算語料中候選詞的字間信息熵和詞頻獲得。本專利技術所述的方法,其中,所述候選詞的凝合度 T = ...
【技術保護點】
一種基于大規模語料的提詞方法,其特征在于包括步驟:從收集的語料中統計候選詞的凝合度及候選詞的自由度;將所述候選詞的凝合度與候選詞的自由度的乘積獲得成詞得分;提取所述成詞得分超過預先設定閾值的候選詞。
【技術特征摘要】
1.一種基于大規模語料的提詞方法,其特征在于包括步驟:從收集的語料中統計候選詞的凝合度及候選詞的自由度;將所述候選詞的凝合度與候選詞的自由度的乘積獲得成詞得分;提取所述成詞得分超過預先設定閾值的候選詞。2.根據權利要求1所述的方法,其特征在于:所述統計候選詞的凝合度是通過計算語料中候選詞的字間信息熵和詞頻獲得。3.根據權利要求2所述的方法,其特征在于:所述候選詞的凝合度 T = 1 1 ...
【專利技術屬性】
技術研發人員:曹驥,王富田,李健,張連毅,武衛東,
申請(專利權)人:北京捷通華聲科技股份有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。