• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>同濟(jì)大學(xué)專利>正文

    一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng)技術(shù)方案

    技術(shù)編號:8593958 閱讀:241 留言:0更新日期:2013-04-18 07:07
    本發(fā)明專利技術(shù)涉及一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),該系統(tǒng)包括:顯示模塊,用于顯示用戶界面及搜索結(jié)果;搜索模塊,用于根據(jù)用戶查詢語句調(diào)用搜索引擎API進(jìn)行搜索,并獲取搜索結(jié)果,分別整合中文和英文的搜索結(jié)果;分類模塊,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并對分類結(jié)果進(jìn)行整合;可視化模塊,用于對整合后的分類結(jié)果實現(xiàn)Web用戶界面設(shè)計,并通過顯示模塊輸出。與現(xiàn)有技術(shù)相比,本發(fā)明專利技術(shù)借鑒粒計算細(xì)想,通過采用基于貝葉斯理論的多標(biāo)簽分類方法,可對搜索結(jié)果進(jìn)行有效的多標(biāo)簽分類和整合,通過采用該方法設(shè)計可視化系統(tǒng),能夠根據(jù)用戶的需求按類別顯示搜索結(jié)果,同時盡量做到不丟失搜索結(jié)果,提高用戶瀏覽效率,改善用戶瀏覽體驗。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及信息
    ,尤其是涉及一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng)
    技術(shù)介紹
    目前,網(wǎng)上電子文檔迅猛增長,每天都有大量的文檔上傳到網(wǎng)上。搜索引擎,作為獲取網(wǎng)絡(luò)知識的一種重要方法,得到了越來越廣泛的應(yīng)用。然而,搜索引擎往往返回大量的搜索結(jié)果,這使用戶常常被淹沒在信息的海洋中。當(dāng)前主流的搜索引擎返回根據(jù)用戶關(guān)鍵字排序的搜索結(jié)果。為了找到感興趣的信息,用戶需要逐條瀏覽搜索結(jié)果。針對以上問題,一些人開始探索更先進(jìn)的信息檢索方法。通常來說,有兩種方式一種是基于語義的信息檢索方法,即力求采用語義分析技術(shù)理解文檔和用戶的查詢語句;另一種是基于機(jī)器學(xué)習(xí)的方法,即運用從歷史數(shù)據(jù)中學(xué)習(xí)到的模型對搜索結(jié)果中的文檔進(jìn)行分類或者聚類。本專利技術(shù)關(guān)注基于機(jī)器學(xué)習(xí)的方法來改進(jìn)信息檢索結(jié)果的問題。網(wǎng)頁搜索結(jié)果可視化指根據(jù)搜索結(jié)果的內(nèi)容,將搜索結(jié)果以一種更清晰、更條理的方式展示給用戶的過程。其目的在于提高查詢效率,改善用戶瀏覽體驗。對于該任務(wù),目前多數(shù)研究工作采用基于文本聚類的技術(shù),即將可視化任務(wù)看作一個非監(jiān)督的分類問題。根據(jù)模式分類的方法體系,我們首先從文本中抽取特征來表示文本,然后將文本分配到與其相似度最高的類簇中。基于聚類技術(shù)的搜索引擎有Vivisimo和Groker。在這種方法中,類簇的名稱通常由系統(tǒng)根據(jù)特征詞自動給出。然而,這種自動獲取的類簇名稱往往很難表達(dá)類簇的主要內(nèi)容。這就使用戶很難根據(jù)系統(tǒng)給定的類簇名來定位自己感興趣的信息的位置,這種可視化過程的作用就不明顯了。與傳統(tǒng)的模式分類任務(wù)中一個對象對應(yīng)一個類別標(biāo)簽不同,在多標(biāo)簽分類中,一個對象可能與多個標(biāo)簽相關(guān)聯(lián),比如一篇文檔可能與經(jīng)濟(jì)相關(guān),同時還可能與計算機(jī)相關(guān),因此該文檔與經(jīng)濟(jì)和計算機(jī)兩個類別相關(guān)。多標(biāo)簽分類起源于文本分類任務(wù)的需求,其中訓(xùn)練集中每篇文檔與一個標(biāo)簽集合相關(guān)聯(lián),分類的任務(wù)就是訓(xùn)練文檔與已知標(biāo)簽集合之間關(guān)系的模型,并根據(jù)該模型為每篇標(biāo)簽未知的文檔輸出一個標(biāo)簽集合。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于多標(biāo)簽的中英文搜索結(jié)果信息分類方法以及應(yīng)用該信息分類方法的中英文搜索結(jié)果可視化系統(tǒng),借鑒粒計算思想,能夠根據(jù)用戶的需求按類別顯示搜索結(jié)果,提高用戶瀏覽效率,改善用戶瀏覽體驗。本專利技術(shù)的目的可以通過以下技術(shù)方案來實現(xiàn)一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),該系統(tǒng)包括顯示模塊,用于顯示用戶界面及搜索結(jié)果;搜索模塊,用于根據(jù)用戶查詢語句調(diào)用搜索引擎API進(jìn)行搜索,并獲取搜索結(jié)果,分別整合中文和英文的搜索結(jié)果;分類模塊,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并對分類結(jié)果進(jìn)行整合;可視化模塊,用于對整合后的分類結(jié)果實現(xiàn)Web用戶界面設(shè)計,并通過顯示模塊輸出。所述的分類模塊包括分類器,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并進(jìn)行分類結(jié)果整合;分類語料庫,該分類語料庫為不平衡語料庫,包括若干個類別的多標(biāo)簽語料庫,用于訓(xùn)練分類器。所述的分類語料庫包括中文分類語料庫和英文分類語料庫。所述的分類模塊采用基于貝葉斯理論的中英文多標(biāo)簽分類方法進(jìn)行分類,該方法具體包括以下步驟I)構(gòu)建中文和英文分類語料庫;2)分類器通過分類語料庫進(jìn)行離線學(xué)習(xí);3)分類器分別對中文和英文的搜索結(jié)果進(jìn)行分類,同時進(jìn)行在線學(xué)習(xí);4)對分類結(jié)果進(jìn)行整合。所述的步驟2)具體包括以下步驟A)遍歷分類語料庫中的訓(xùn)練文本; B)對訓(xùn)練文本進(jìn)行預(yù)處理;C)掃描訓(xùn)練文本,記錄每個特征詞的詞頻信息,加入HashMap中;D)根據(jù)HashMap中詞頻統(tǒng)計信息計算每個特征詞的條件概率,并且將所得結(jié)果保存至文件中。所述的步驟3)具體包括以下步驟a)從訓(xùn)練過程生成文件中讀入特征詞及其統(tǒng)計信息,并加入HashMap中;b)對未知文本進(jìn)行預(yù)處理,生成特征詞集合;c)遍歷所有特征詞,并在步驟a)中生成的HashMap中查找每個特征詞對每個類別的條件概率;d)根據(jù)每個特征詞對于每個類別的條件概率,計算出該未知文本對于所有類別的聯(lián)合概率;e)根據(jù)所有得到的聯(lián)合概率,計算出概率閾值;f)為該未知文本分配所有聯(lián)合概率不小于概率閾值的類別標(biāo)簽,并輸出標(biāo)簽;g)在HashMap中修改該未知文本中特征詞對應(yīng)于分類結(jié)果給出的類別中的條件概率;h)分類過程結(jié)束。所述的概率閾值Pthres為未知文本Cli對于所有已知類別的后驗概率的算術(shù)平均數(shù)本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點】
    一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,該系統(tǒng)包括:顯示模塊,用于顯示用戶界面及搜索結(jié)果;搜索模塊,用于根據(jù)用戶查詢語句調(diào)用搜索引擎API進(jìn)行搜索,并獲取搜索結(jié)果,分別整合中文和英文的搜索結(jié)果;分類模塊,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并對分類結(jié)果進(jìn)行整合;可視化模塊,用于對整合后的分類結(jié)果實現(xiàn)Web用戶界面設(shè)計,并通過顯示模塊輸出。

    【技術(shù)特征摘要】
    1.一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,該系統(tǒng)包括 顯示模塊,用于顯示用戶界面及搜索結(jié)果; 搜索模塊,用于根據(jù)用戶查詢語句調(diào)用搜索引擎API進(jìn)行搜索,并獲取搜索結(jié)果,分別整合中文和英文的搜索結(jié)果; 分類模塊,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并對分類結(jié)果進(jìn)行整合; 可視化模塊,用于對整合后的分類結(jié)果實現(xiàn)Web用戶界面設(shè)計,并通過顯示模塊輸出。2.根據(jù)權(quán)利要求1所述的一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,所述的分類模塊包括 分類器,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并進(jìn)行分類結(jié)果整合;分類語料庫,該分類語料庫為不平衡語料庫,包括若干個類別的多標(biāo)簽語料庫,用于訓(xùn)練分類器。3.根據(jù)權(quán)利要求2所述的一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,所述的分類語料庫包括中文分類語料庫和英文分類語料庫。4.根據(jù)權(quán)利要求1所述的一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,所述的分類模塊采用基于貝葉斯理論的中英文多標(biāo)簽分類方法進(jìn)行分類,該方法具體包括以下步驟 1)構(gòu)建中文和英文分類語料庫; 2)分類器通過分類語料庫進(jìn)行離線學(xué)習(xí); 3)分類器分別對中文和英文的搜索結(jié)果進(jìn)行分類,同時進(jìn)行在線學(xué)習(xí); 4)對分類結(jié)果進(jìn)行整合。5.根據(jù)權(quán)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:衛(wèi)志華苗奪謙
    申請(專利權(quán))人:同濟(jì)大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 人妻系列无码专区无码中出| 中文无码精品一区二区三区| 久久久无码精品国产一区 | 精品国产a∨无码一区二区三区 | 免费无码看av的网站| 中文字幕无码av激情不卡久久| 日韩精品专区AV无码| 亚洲av无码国产精品色在线看不卡| 色窝窝无码一区二区三区成人网站 | 2019亚洲午夜无码天堂| 亚洲精品无码成人片在线观看| 无码人妻一区二区三区一| 国产乱人伦Av在线无码| 亚洲免费日韩无码系列| 精品久久久无码中字| 国产成人无码免费看视频软件| 韩日美无码精品无码| 狠狠久久精品中文字幕无码| 亚洲AV无码一区二区三区牛牛| 亚洲AV永久无码区成人网站| JLZZJLZZ亚洲乱熟无码| 在线无码午夜福利高潮视频| 精品无码AV无码免费专区| 国产无遮挡无码视频免费软件| 中文无码熟妇人妻AV在线 | a级毛片无码免费真人久久 | 亚洲av成本人无码网站| 少妇无码一区二区二三区| 国产精品无码久久综合| 无码专区AAAAAA免费视频| 色窝窝无码一区二区三区成人网站 | 人妻无码第一区二区三区| 免费无码作爱视频| 一本加勒比hezyo无码专区| 中文字幕无码日韩专区免费| 国模吧无码一区二区三区| 亚洲精品无码久久久久sm| 亚洲精品高清无码视频 | 色综合久久久无码网中文| 亚洲AV成人无码天堂| 无码熟妇人妻AV在线影院|