• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    對海量文檔庫的文檔分類的方法技術(shù)

    技術(shù)編號:8594072 閱讀:180 留言:0更新日期:2013-04-18 07:17
    本發(fā)明專利技術(shù)提供了一種對海量文檔庫的文檔分類的方法,包括:確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各個文檔的對應(yīng)關(guān)系;將所述各個關(guān)鍵詞逐個在術(shù)語庫中匹配,將每個關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對應(yīng)的每個文檔所歸屬的行業(yè)類別屬性;根據(jù)所述對應(yīng)關(guān)系,確定每個文檔包含相同的最多的行業(yè)類別屬性;將歸屬最多的行業(yè)類別屬性作為每個文檔的分類。本發(fā)明專利技術(shù)采取一種反向匹配的思路進(jìn)行對參考庫的文檔進(jìn)行術(shù)語檢索,由于術(shù)語語料庫是個具備字符順序索引結(jié)構(gòu)的集合,采用二分法在其中進(jìn)行字符串匹配最多只需要1+log2n次匹配計(jì)算,極大的減少了匹配次數(shù),簡化了匹配過程,提高了對文檔分類的效率。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種。
    技術(shù)介紹
    翻譯參考文獻(xiàn)庫(以下簡稱參考庫),是一個有海量文檔的輔助翻譯資源的文檔庫,用一般的相似性檢索的方法對其按一定的行業(yè)、學(xué)科、領(lǐng)域進(jìn)行分類,需要進(jìn)行非常巨大的文本相似性匹配計(jì)算,耗費(fèi)的時間和空間都是系統(tǒng)很難承受的。通過大型術(shù)語語料庫對參考庫中的文檔進(jìn)行術(shù)語數(shù)量的計(jì)算,可以對文檔進(jìn)行行業(yè)、學(xué)科、領(lǐng)域等屬性的初步劃分,所花費(fèi)的字符串模式匹配計(jì)算大大少于進(jìn)行文本相似性匹配計(jì)算的計(jì)算量。大型術(shù)語語料庫是一個包含術(shù)語標(biāo)注信息、具備多種索引結(jié)構(gòu)的術(shù)語語料的大集合,其規(guī)模一般在百萬到千萬級別,大的可以到億級。本方法需用到的標(biāo)注信息有術(shù)語的行業(yè)、學(xué)科、領(lǐng)域信息,需用到的索引結(jié)構(gòu)為字符順序索引。通常要將參考庫中的文檔按行業(yè)、學(xué)科、領(lǐng)域的術(shù)語數(shù)量進(jìn)行分類的方法,采用用術(shù)語庫中的術(shù)語為關(guān)鍵詞在文檔中進(jìn)行字符串匹配,得到每個文檔的各行業(yè)、學(xué)科、領(lǐng)域的術(shù)語數(shù)量。由于參考庫中的文檔是一種未排序的散亂文本空間,用這種方式進(jìn)行分類,需要用百萬、千萬乃至上億計(jì)的術(shù)語為關(guān)鍵詞,在海量的參考庫文檔中進(jìn)行順序匹配,這樣耗費(fèi)的時間也非常巨大(設(shè)術(shù)語語料庫的術(shù)語數(shù)為n,參考文檔庫的文檔數(shù)為m,其中文檔的平均詞語數(shù)為k,則其時間復(fù)雜度為ο (mXnXk)。),而且整個匹配過程要對參考庫中的不同文檔的相同詞語要反復(fù)進(jìn)行字符串匹配,匹配過程非常重復(fù)。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)旨在提供一種,以解決采用術(shù)語匹配的方式對參考庫的文檔分類復(fù)雜、耗時較長的問題。在本專利技術(shù)的實(shí)施例中,提供了一種,包括確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各個文檔的對應(yīng)關(guān)系;將所述各個關(guān)鍵詞逐個在術(shù)語庫中匹配,將每個關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對應(yīng)的每個文檔所歸屬的行業(yè)類別屬性;根據(jù)所述對應(yīng)關(guān)系,確定每個文檔包含相同的最多的行業(yè)類別屬性;將歸屬最多的行業(yè)類別屬性作為每個文檔的分類。本專利技術(shù)采取一種反向匹配的思路進(jìn)行對參考庫的文檔進(jìn)行術(shù)語檢索,即以參考庫中(即文檔庫)中的所有詞語作為關(guān)鍵詞,在術(shù)語語料庫中進(jìn)行匹配,由于術(shù)語語料庫是個具備字符順序索引結(jié)構(gòu)的集合,采用二分法在其中進(jìn)行字符串匹配最多只需要l+log2n次匹配計(jì)算(η為術(shù)語語料庫的術(shù)語數(shù)),即使在億級的術(shù)語語料庫中進(jìn)行匹配,一個詞語在術(shù)語語料庫中的匹配次數(shù)也不超過30次。極大的減少了匹配的次數(shù),簡化了匹配過程,提高了對文檔分類的效率,實(shí)現(xiàn)了海量文檔的快速自動分類。附圖說明此處所說明的附圖用來提供對本專利技術(shù)的進(jìn)一步理解,構(gòu)成本申請的一部分,本專利技術(shù)的示意性實(shí)施例及其說明用于解釋本專利技術(shù),并不構(gòu)成對本專利技術(shù)的不當(dāng)限定。在附圖中圖1示出了實(shí)施例的流程圖;圖2示出了另一個實(shí)施例的流程圖。具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本專利技術(shù)。參見圖1,實(shí)施例的步驟包括Sll :確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各個文檔的對應(yīng)關(guān)系;S12 :將所述各個關(guān)鍵詞逐個在術(shù)語庫中匹配,將每個關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對應(yīng)的每個文檔中所歸屬的行業(yè)類別屬性;S13 :根據(jù)所述對應(yīng)關(guān)系,確定每個文檔包含的相同的最多行業(yè)類別屬性;S14 :最多的行業(yè)類別屬性作為每個文檔的分類。本專利技術(shù)采取一種反向匹配的思路進(jìn)行對參考庫的文檔進(jìn)行術(shù)語檢索,即以參考庫中(即文檔庫)中的所有詞語作為關(guān)鍵詞,在術(shù)語語料庫中進(jìn)行匹配,由于術(shù)語語料庫是個具備字符順序索引結(jié)構(gòu) 的集合,采用二分法在其中進(jìn)行字符串匹配最多只需要l+log2n次匹配計(jì)算(η為術(shù)語語料庫的術(shù)語數(shù)),即使在億級的術(shù)語語料庫中進(jìn)行匹配,一個詞語在術(shù)語語料庫中的匹配次數(shù)也不超過30次。極大的減少了匹配次數(shù),簡化了匹配過程,提高了對文檔分類的效率,實(shí)現(xiàn)了海量文檔的快速自動分類。優(yōu)選地,在實(shí)施例中,對每個所述文檔進(jìn)行分詞處理,去除停用詞、無具體意義的詞,得到所述各個關(guān)鍵詞。優(yōu)選地,還包括確定每個關(guān)鍵詞在其所對應(yīng)的每個文檔出現(xiàn)的多個位置信息;其中,所述位置信息的數(shù)量等于該關(guān)鍵詞在其所對應(yīng)的每個文檔的詞頻。通過該位置信息,可記錄關(guān)鍵詞在每個文檔中出現(xiàn)的位置,當(dāng)術(shù)語的詞長L超過關(guān)鍵詞時,可根據(jù)該位置后的關(guān)鍵詞,與術(shù)語進(jìn)行匹配,以確定該關(guān)鍵詞在當(dāng)前文檔中所歸屬的行業(yè)類別屬性。優(yōu)選地,下面通過實(shí)施例具體說明上述實(shí)施例的步驟包括S21 :對參考庫的所有文檔進(jìn)行文檔編號,記為docID。S22:對參考庫中的所有文檔進(jìn)行分詞處理,去除其中的停用詞,得到參考庫的所有詞語集合,對每個詞語進(jìn)行編號,記為wordID。每個詞語即為關(guān)鍵詞。S23 :計(jì)算每個詞語在不同文檔中出現(xiàn)的次數(shù),即詞頻tf。S24 :計(jì)算每個詞語在每個文檔中出現(xiàn)的位置信息,即該詞語是文檔中的第幾個詞語。這樣對于每個詞語就得到了一個如下表I所示的詞語表結(jié)構(gòu)表I本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    一種對海量文檔庫的文檔分類的方法,其特征在于,包括:確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各個文檔的對應(yīng)關(guān)系;將所述各個關(guān)鍵詞逐個在術(shù)語庫中匹配,將每個關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對應(yīng)的每個文檔所歸屬的行業(yè)類別屬性;根據(jù)所述對應(yīng)關(guān)系,確定每個文檔包含相同的最多的行業(yè)類別屬性;將歸屬最多的行業(yè)類別屬性作為每個文檔的分類。

    【技術(shù)特征摘要】
    1.一種對海量文檔庫的文檔分類的方法,其特征在于,包括 確定文檔庫中所有文檔的各個關(guān)鍵詞、以及每個關(guān)鍵詞與其所歸屬的各個文檔的對應(yīng)關(guān)系; 將所述各個關(guān)鍵詞逐個在術(shù)語庫中匹配,將每個關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對應(yīng)的每個文檔所歸屬的行業(yè)類別屬性; 根據(jù)所述對應(yīng)關(guān)系,確定每個文檔包含相同的最多的行業(yè)類別屬性; 將歸屬最多的行業(yè)類別屬性作為每個文檔的分類。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對每個所述文檔進(jìn)行分詞處理,去除停用詞、無具體意義的詞,得到所述各個關(guān)鍵詞。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 確定每個關(guān)鍵詞在其所對應(yīng)的每個文檔出現(xiàn)的多個位置信息;其中,所述位置信息的數(shù)量等于該關(guān)鍵詞在其所對應(yīng)的每個文檔的詞頻。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述匹配過程包括 如...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:江潮,
    申請(專利權(quán))人:武漢傳神信息技術(shù)有限公司,
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码久久久久去q| 无码任你躁久久久久久久 | 国模无码一区二区三区不卡| 国产精品无码aⅴ嫩草| 亚洲午夜国产精品无码老牛影视 | 亚洲天堂2017无码中文| 亚洲中文字幕无码中文| 国产丰满乱子伦无码专区| 久久亚洲精品成人av无码网站 | 亚洲无码在线播放| 欧洲黑大粗无码免费| 日韩精品无码一区二区三区不卡| 国产精品成人无码免费| 久久久久亚洲av无码专区| 亚洲免费无码在线| 精品无码成人网站久久久久久| 久久久久亚洲Av片无码v| 波多野42部无码喷潮在线| 亚洲综合久久精品无码色欲| 亚洲Av永久无码精品三区在线| 无码一区二区三区亚洲人妻| 麻豆AV无码精品一区二区| 亚洲AV成人无码久久精品老人 | 亚洲av中文无码乱人伦在线咪咕| 精品无码成人网站久久久久久 | 久久久久久国产精品无码超碰| 久久久91人妻无码精品蜜桃HD| 国产成人无码AV在线播放无广告| 亚洲精品无码久久久久YW| 色综合久久无码五十路人妻| 亚洲av无码一区二区三区乱子伦 | 国产羞羞的视频在线观看 国产一级无码视频在线 | 高清无码视频直接看| 亚洲国产精品无码久久久久久曰| 精品久久久久久中文字幕无码| 无码日本电影一区二区网站| 丰满亚洲大尺度无码无码专线| 亚洲欧洲无码一区二区三区| 免费看国产成年无码AV片| 国产AV无码专区亚洲AV麻豆丫 | 成人免费无码大片A毛片抽搐|