【技術實現步驟摘要】
融合多源數據的Telegram中文群組檢索方法、裝置及設備
[0001]本專利技術涉及信息檢索
,特別涉及一種融合多源數據的Telegram中文群組檢索方法、裝置及設備。
技術介紹
[0002]Telegram是一款在國際范圍有著巨大用戶量的即時通訊軟件,用戶可以根據自己的興趣愛好創建或加入不同的群組,其中,公開群組的聊天信息可被任意用戶查看,而無需加入。但是,由于該軟件寬松的監管,其中包含著大量涉及違法犯罪的群組,仍然在該軟件上進行違法活動。如何準確的定位群組,并及時的掌握違法犯罪信息,對于制止犯罪、打擊犯罪有著重要的意義。然而,Telegram官方只提供了英文檢索功能,特定主題詞相關的中文群組,仍然難以有效的檢索。有的開發者通過給Telegram機器人積累群組與標題知識,利用關鍵詞去與知識庫中的群組標題匹配,從而實現中文群組檢索功能。這種方法雖然可以實現中文檢索功能,但這種做法存在幾個缺點:
[0003]1)這類方法需要機器人事先遍歷大量的群組,積累廣泛的知識庫;
[0004]2)Telegram群組標題允許隨意更改,如果要維持檢索的準確性,需頻繁的遍歷和更新知識庫;
[0005]3)當群組標題無法匹配檢索詞,但是群組的內容卻與檢索詞相關時,此類群組難以被檢索到。
技術實現思路
[0006]本專利技術實施例的目的在于提供一種融合多源數據的Telegram中文群組檢索方法、裝置及設備,該方法著重于解決Telegram中文群組檢索困難,檢索結果少,檢索結果不準確等問題。< ...
【技術保護點】
【技術特征摘要】
1.一種融合多源數據的Telegram中文群組檢索方法,其特征在于,所述方法包括:獲取檢索詞,并對所述檢索詞進行Telegram中文群組檢索,生成多源融合群組;分析所述多源融合群組對應的群聊記錄集合,得到特征詞集合,并基于所述特征詞集合篩選所述多源融合群組,得到符合特征群組V0;基于符合特征群組V
t
?1對應的群聊記錄集合中的分享群組,得到關聯群組R
t
?1;其中,t表示迭代輪數;對所述關聯群組R
t
?1中的每一Telegram中文群組進行聯想搜索,生成關聯聯想群組L
t
?1;基于所述特征詞篩選所述關聯群組R
t
?1與所述關聯聯想群組L
t
?1,得到符合特征群組V
t
;在所述符合特征群組V
t
不為空集的情況下,令t=t+1,并返回至所述對所述關聯群組R
t
?1中每一Telegram中文群組的進行聯想搜索,生成關聯聯想群組L
t
?1;在所述符合特征群組V
t
為空集的情況下,基于所述多源融合群組與符合特征群組集合V,得到Telegram中文群組檢索結果;其中,V={V0,
…
,V
t
?1}。2.如權利要求1所述的方法,其特征在于,所述對所述檢索詞進行Telegram中文群組檢索,生成多源融合群組,包括:利用多種數據源對檢索詞進行Telegram中文群組檢索,得到多源數據檢索群組;基于Telegram所提供的英文群組檢索接口,對所述檢索詞的拼音以及與檢索詞拼音近似的拼音進行Telegram中文群組搜索,得到檢索詞聯想群組;合并所述多源數據檢索群組與檢索詞聯想群組,并進行去重,以得到多源融合群組。3.如權利要求2所述的方法,其特征在于,所述多種數據源包括:谷歌數據源、推特數據源和其他第三方Telegram群組信息檢索服務數據源。4.如權利要求3所述的方法,其特征在于,所述利用多種數據源對檢索詞進行Telegram中文群組檢索,得到多源數據檢索群組,包括:采用自定義搜索模式定向檢索telegram.org范圍內的所述檢索詞,得到谷歌數據源對應的檢索結果;利用爬蟲技術對推特數據定向搜索檢索詞,并篩選其中包含telegram群組字段的數據,得到推特數據源對應的檢索結果;通過所述其他第三方Telegram檢索服務中Telegram robot賬戶的問答式服務,搜索所述檢索詞,得到其他第三方Telegram群組信息檢索服務數據源對應的檢索結果;合并所述谷歌數據源對應的檢索結果、所述推特數據源對應的檢索結果、以及所述其他第三方Telegram群組信息檢索服務數據源對應的檢索結果,并進行去重,以得到多源數據檢索群組。5.如權利要求2所述的方法,其特征在于,所述基于Telegram所提供的英文群組檢索接口,對所述檢索詞的拼音以及與檢索詞拼音近似的拼音進行Telegram中文群組搜索,得到檢索詞聯想群組;計算所述檢索詞的拼音;生成與檢索詞拼音近似的拼音;基于Telegram所提供的英文群組檢索接口,并使用所述檢索詞的拼音、所述與檢索詞拼音近似的拼音對群組username進行檢索,得到第一聯想檢索結果;
基于Telegram所提供的英文群組檢索接口,并使用所述檢索詞的拼音對群組title進行檢索,得到第二聯想檢索結果;合并所述第一聯想檢索結果與第二聯想檢索結果,并進行去...
【專利技術屬性】
技術研發人員:井雅琪,郭孟汗,佟玲玲,段東圣,段運強,任博雅,劉晨,侯煒,趙萬鵬,劉生輝,
申請(專利權)人:中國科學院信息工程研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。