當(dāng)前位置: 首頁 > 專利查詢>武漢傳神信息技術(shù)有限公司專利>正文

對海量文檔庫的文檔分類的方法技術(shù)

技術(shù)編號：8594072 閱讀：180 留言：0更新日期：2013-04-18 07:17

本發(fā)明專利技術(shù)提供了一種對海量文檔庫的文檔分類的方法，包括：確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各個文檔的對應(yīng)關(guān)系；將所述各個關(guān)鍵詞逐個在術(shù)語庫中匹配，將每個關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性，作為該關(guān)鍵詞在其對應(yīng)的每個文檔所歸屬的行業(yè)類別屬性；根據(jù)所述對應(yīng)關(guān)系，確定每個文檔包含相同的最多的行業(yè)類別屬性；將歸屬最多的行業(yè)類別屬性作為每個文檔的分類。本發(fā)明專利技術(shù)采取一種反向匹配的思路進(jìn)行對參考庫的文檔進(jìn)行術(shù)語檢索，由于術(shù)語語料庫是個具備字符順序索引結(jié)構(gòu)的集合，采用二分法在其中進(jìn)行字符串匹配最多只需要1+log2n次匹配計(jì)算，極大的減少了匹配次數(shù)，簡化了匹配過程，提高了對文檔分類的效率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及計(jì)算機(jī)領(lǐng)域，具體而言，涉及一種。
技術(shù)介紹
翻譯參考文獻(xiàn)庫(以下簡稱參考庫)，是一個有海量文檔的輔助翻譯資源的文檔庫，用一般的相似性檢索的方法對其按一定的行業(yè)、學(xué)科、領(lǐng)域進(jìn)行分類，需要進(jìn)行非常巨大的文本相似性匹配計(jì)算，耗費(fèi)的時間和空間都是系統(tǒng)很難承受的。通過大型術(shù)語語料庫對參考庫中的文檔進(jìn)行術(shù)語數(shù)量的計(jì)算，可以對文檔進(jìn)行行業(yè)、學(xué)科、領(lǐng)域等屬性的初步劃分，所花費(fèi)的字符串模式匹配計(jì)算大大少于進(jìn)行文本相似性匹配計(jì)算的計(jì)算量。大型術(shù)語語料庫是一個包含術(shù)語標(biāo)注信息、具備多種索引結(jié)構(gòu)的術(shù)語語料的大集合，其規(guī)模一般在百萬到千萬級別，大的可以到億級。本方法需用到的標(biāo)注信息有術(shù)語的行業(yè)、學(xué)科、領(lǐng)域信息，需用到的索引結(jié)構(gòu)為字符順序索引。通常要將參考庫中的文檔按行業(yè)、學(xué)科、領(lǐng)域的術(shù)語數(shù)量進(jìn)行分類的方法，采用用術(shù)語庫中的術(shù)語為關(guān)鍵詞在文檔中進(jìn)行字符串匹配，得到每個文檔的各行業(yè)、學(xué)科、領(lǐng)域的術(shù)語數(shù)量。由于參考庫中的文檔是一種未排序的散亂文本空間，用這種方式進(jìn)行分類，需要用百萬、千萬乃至上億計(jì)的術(shù)語為關(guān)鍵詞，在海量的參考庫文檔中進(jìn)行順序匹配，這樣耗費(fèi)的時間也非常巨大(設(shè)術(shù)語語料庫的術(shù)語數(shù)為n，參考文檔庫的文檔數(shù)為m，其中文檔的平均詞語數(shù)為k，則其時間復(fù)雜度為ο (mXnXk)。)，而且整個匹配過程要對參考庫中的不同文檔的相同詞語要反復(fù)進(jìn)行字符串匹配，匹配過程非常重復(fù)。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)旨在提供一種，以解決采用術(shù)語匹配的方式對參考庫的文檔分類復(fù)雜、耗時較長的問題。在本專利技術(shù)的實(shí)施例中，提供了一種，包括確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各...

【技術(shù)保護(hù)點(diǎn)】
一種對海量文檔庫的文檔分類的方法，其特征在于，包括：確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各個文檔的對應(yīng)關(guān)系；將所述各個關(guān)鍵詞逐個在術(shù)語庫中匹配，將每個關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性，作為該關(guān)鍵詞在其對應(yīng)的每個文檔所歸屬的行業(yè)類別屬性；根據(jù)所述對應(yīng)關(guān)系，確定每個文檔包含相同的最多的行業(yè)類別屬性；將歸屬最多的行業(yè)類別屬性作為每個文檔的分類。

【技術(shù)特征摘要】
1.一種對海量文檔庫的文檔分類的方法，其特征在于，包括確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各個文檔的對應(yīng)關(guān)系; 將所述各個關(guān)鍵詞逐個在術(shù)語庫中匹配，將每個關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性，作為該關(guān)鍵詞在其對應(yīng)的每個文檔所歸屬的行業(yè)類別屬性；根據(jù)所述對應(yīng)關(guān)系，確定每個文檔包含相同的最多的行業(yè)類別屬性；將歸屬最多的行業(yè)類別屬性作為每個文檔的分類。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，對每個所述文檔進(jìn)行分詞處理，去除停用詞、無具體意義的詞，得到所述各個關(guān)鍵詞。3.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括確定每個關(guān)鍵詞在其所對應(yīng)的每個文檔出現(xiàn)的多個位置信息；其中，所述位置信息的數(shù)量等于該關(guān)鍵詞在其所對應(yīng)的每個文檔的詞頻。4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述匹配過程包括如...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：江潮，
申請(專利權(quán))人：武漢傳神信息技術(shù)有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)

文檔分類方法技術(shù)