一種計算機中文文本分類方法技術

技術編號：8532998 閱讀：206 留言：0更新日期：2013-04-04 16:07

本發明專利技術提出了一種計算機中文文本分類方法，包括以下步驟：使用N-gram方法處理中文文本：使用N-gram的方法把中文文本的表示為一個由一組特征組成的特征向量；使用詞頻逆向文件頻率法為特征向量中每一個特征賦予一個權重；利用L1-正則化邏輯回歸分類器模型為中文文本分類。本發明專利技術對現有的基于分詞的中文文本分類方法進行改善和提高，能夠避免分詞對分類精度產生的不良影響。通過使用N-gram的形式來表達文本，可以很好地避免上述的兩方面問題。同時L1-正則化邏輯回歸分類器可以很好地解決N-gram帶來的數據稀疏性問題，從而提高文本分類的精度。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種計算機文本處理領域，特別是。
技術介紹
隨著當今世界信息量的急劇增加，以及計算機網絡技術迅速普及和發展，大量的文檔以電子的形式出現。為了更好的管理越來越多的文檔，人們對計算機進行自動文本分類的需求越來越大。文本分類就是根據文本的內容，利用計算機把ー個文本分成事先給定的某個類別。對于ー個文本分類任務，首先把每ー個文本都映射到一個高維歐幾里得空間，然后使用特征選擇方法或特征抽取方法選出一部分對分類有用的特征。利用機器學習里的分類器，從大量的訓練數據中學習出分類器模型，最后用這個分類器模型對未知類標的文本進行分類。近年來，隨著機器學習技術的發展，文本分類方法取得了一系列重要的進展。而在中文文本分類中，中文分詞是ー個重要的預處理步驟，因為中文文本的字與字之間不像英文單詞那樣有空格隔開。想要從文本中提取出特征，就必須首先對中文文本進行分詞。分詞質量的優劣，直接影響到分類結果的好壞。首先，分詞中產生的錯誤會影響分類器的性能，尤其是在網絡越來越發達的今天，新鮮的詞語層出不窮，這對分詞的精度是ー個很大的挑戰。其次，即使分詞結果全部正確，分詞也會帶來ー些關鍵信息的丟失。表I表示了兩個文本的分詞表示，其中ー個文本來自經濟類，另ー個來自計算機類。表I文本預處理的分詞示例

【技術保護點】
一種計算機中文文本分類方法，其特征在于，包括以下步驟：步驟一，使用N?gram方法處理中文文本：使用N?gram的方法把中文文本的表示為一個由一組特征組成的特征向量；步驟二，使用詞頻逆向文件頻率法為特征向量中每一個特征賦予一個權重；步驟三，利用L1?正則化邏輯回歸分類器模型為中文文本分類。

【技術特征摘要】
1.一種計算機中文文本分類方法，其特征在于，包括以下步驟步驟一，使用N-gram方法處理中文文本使用N-gram的方法把中文文本的表示為一個由一組特征組成的特征向量；步驟二，使用詞頻逆向文件頻率法為特征向量中每一個特征賦予一個權重；步驟三，利用L1-正則化邏輯回歸分類器模型為中文文本分類。2.根據權利要求1中所述的方法，其特征在于，步驟一包括以下步驟對于中文文本d = c1；c2,…cf，ck，其中Cj為中文文本d中的第j個字，j = I, 2，…k，k表示中文文本d的總字數，用N-gram的方法把中文文本d的表示為一個由一組特征組成的特征向量，表示為3.根據權利要求2所述的方法，其特征在于，步驟二包括以下步驟根據詞頻逆向文件頻率的計算公式計算特...

【專利技術屬性】
技術研發人員：戴新宇，付強，陳家駿，黃書劍，張建兵，
申請(專利權)人：南京大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術