【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及信息
,尤其是涉及一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng)。
技術(shù)介紹
目前,網(wǎng)上電子文檔迅猛增長,每天都有大量的文檔上傳到網(wǎng)上。搜索引擎,作為獲取網(wǎng)絡(luò)知識的一種重要方法,得到了越來越廣泛的應(yīng)用。然而,搜索引擎往往返回大量的搜索結(jié)果,這使用戶常常被淹沒在信息的海洋中。當(dāng)前主流的搜索引擎返回根據(jù)用戶關(guān)鍵字排序的搜索結(jié)果。為了找到感興趣的信息,用戶需要逐條瀏覽搜索結(jié)果。針對以上問題,一些人開始探索更先進(jìn)的信息檢索方法。通常來說,有兩種方式一種是基于語義的信息檢索方法,即力求采用語義分析技術(shù)理解文檔和用戶的查詢語句;另一種是基于機(jī)器學(xué)習(xí)的方法,即運用從歷史數(shù)據(jù)中學(xué)習(xí)到的模型對搜索結(jié)果中的文檔進(jìn)行分類或者聚類。本專利技術(shù)關(guān)注基于機(jī)器學(xué)習(xí)的方法來改進(jìn)信息檢索結(jié)果的問題。網(wǎng)頁搜索結(jié)果可視化指根據(jù)搜索結(jié)果的內(nèi)容,將搜索結(jié)果以一種更清晰、更條理的方式展示給用戶的過程。其目的在于提高查詢效率,改善用戶瀏覽體驗。對于該任務(wù),目前多數(shù)研究工作采用基于文本聚類的技術(shù),即將可視化任務(wù)看作一個非監(jiān)督的分類問題。根據(jù)模式分類的方法體系,我們首先從文本中抽取特征來表示文本,然后將文本分配到與其相似度最高的類簇中。基于聚類技術(shù)的搜索引擎有Vivisimo和Groker。在這種方法中,類簇的名稱通常由系統(tǒng)根據(jù)特征詞自動給出。然而,這種自動獲取的類簇名稱往往很難表達(dá)類簇的主要內(nèi)容。這就使用戶很難根據(jù)系統(tǒng)給定的類簇名來定位自己感興趣的信息的位置,這種可視化過程的作用就不明顯了。與傳統(tǒng)的模式分類任務(wù)中一個對象對應(yīng)一個類別標(biāo)簽不同,在多標(biāo)簽分類中,一個對象可能與多個標(biāo)簽相關(guān) ...
【技術(shù)保護(hù)點】
一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,該系統(tǒng)包括:顯示模塊,用于顯示用戶界面及搜索結(jié)果;搜索模塊,用于根據(jù)用戶查詢語句調(diào)用搜索引擎API進(jìn)行搜索,并獲取搜索結(jié)果,分別整合中文和英文的搜索結(jié)果;分類模塊,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并對分類結(jié)果進(jìn)行整合;可視化模塊,用于對整合后的分類結(jié)果實現(xiàn)Web用戶界面設(shè)計,并通過顯示模塊輸出。
【技術(shù)特征摘要】
1.一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,該系統(tǒng)包括 顯示模塊,用于顯示用戶界面及搜索結(jié)果; 搜索模塊,用于根據(jù)用戶查詢語句調(diào)用搜索引擎API進(jìn)行搜索,并獲取搜索結(jié)果,分別整合中文和英文的搜索結(jié)果; 分類模塊,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并對分類結(jié)果進(jìn)行整合; 可視化模塊,用于對整合后的分類結(jié)果實現(xiàn)Web用戶界面設(shè)計,并通過顯示模塊輸出。2.根據(jù)權(quán)利要求1所述的一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,所述的分類模塊包括 分類器,用于對搜索模塊獲取的結(jié)果進(jìn)行中英文多標(biāo)簽分類,并進(jìn)行分類結(jié)果整合;分類語料庫,該分類語料庫為不平衡語料庫,包括若干個類別的多標(biāo)簽語料庫,用于訓(xùn)練分類器。3.根據(jù)權(quán)利要求2所述的一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,所述的分類語料庫包括中文分類語料庫和英文分類語料庫。4.根據(jù)權(quán)利要求1所述的一種基于多標(biāo)簽分類的中英文搜索結(jié)果可視化系統(tǒng),其特征在于,所述的分類模塊采用基于貝葉斯理論的中英文多標(biāo)簽分類方法進(jìn)行分類,該方法具體包括以下步驟 1)構(gòu)建中文和英文分類語料庫; 2)分類器通過分類語料庫進(jìn)行離線學(xué)習(xí); 3)分類器分別對中文和英文的搜索結(jié)果進(jìn)行分類,同時進(jìn)行在線學(xué)習(xí); 4)對分類結(jié)果進(jìn)行整合。5.根據(jù)權(quán)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:衛(wèi)志華,苗奪謙,
申請(專利權(quán))人:同濟(jì)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。