• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    融合多源數據的Telegram中文群組檢索方法、裝置及設備制造方法及圖紙

    技術編號:36690008 閱讀:29 留言:0更新日期:2023-02-27 19:56
    本發明專利技術公開了一種融合多源數據的Telegram中文群組檢索方法、裝置及設備,所述方法包括:對獲取檢索詞,并對所述檢索詞進行Telegram中文群組檢索,生成多源融合群組;分析多源融合群組對應的群聊記錄集合,得到特征詞集合;基于特征詞集合篩選所述多源融合群組,得到符合特征群組;對符合特征群組進行關聯聯想,生成關聯聯想群組;基于所述多源融合群組與符合特征群組集合,得到Telegram中文群組檢索結果。本發明專利技術著重于解決Telegram中文群組檢索困難。組檢索困難。組檢索困難。

    【技術實現步驟摘要】
    融合多源數據的Telegram中文群組檢索方法、裝置及設備


    [0001]本專利技術涉及信息檢索
    ,特別涉及一種融合多源數據的Telegram中文群組檢索方法、裝置及設備。

    技術介紹

    [0002]Telegram是一款在國際范圍有著巨大用戶量的即時通訊軟件,用戶可以根據自己的興趣愛好創建或加入不同的群組,其中,公開群組的聊天信息可被任意用戶查看,而無需加入。但是,由于該軟件寬松的監管,其中包含著大量涉及違法犯罪的群組,仍然在該軟件上進行違法活動。如何準確的定位群組,并及時的掌握違法犯罪信息,對于制止犯罪、打擊犯罪有著重要的意義。然而,Telegram官方只提供了英文檢索功能,特定主題詞相關的中文群組,仍然難以有效的檢索。有的開發者通過給Telegram機器人積累群組與標題知識,利用關鍵詞去與知識庫中的群組標題匹配,從而實現中文群組檢索功能。這種方法雖然可以實現中文檢索功能,但這種做法存在幾個缺點:
    [0003]1)這類方法需要機器人事先遍歷大量的群組,積累廣泛的知識庫;
    [0004]2)Telegram群組標題允許隨意更改,如果要維持檢索的準確性,需頻繁的遍歷和更新知識庫;
    [0005]3)當群組標題無法匹配檢索詞,但是群組的內容卻與檢索詞相關時,此類群組難以被檢索到。

    技術實現思路

    [0006]本專利技術實施例的目的在于提供一種融合多源數據的Telegram中文群組檢索方法、裝置及設備,該方法著重于解決Telegram中文群組檢索困難,檢索結果少,檢索結果不準確等問題。<br/>[0007]為實現上述目的,本專利技術的技術方案如下:
    [0008]根據本公開實施例的第一方面,提供一種融合多源數據的Telegram中文群組檢索方法,包括:
    [0009]獲取檢索詞,并對所述檢索詞進行Telegram中文群組檢索,生成多源融合群組;
    [0010]分析所述多源融合群組對應的群聊記錄集合,得到特征詞集合,并基于所述特征詞集合篩選所述多源融合群組,得到符合特征群組V0;
    [0011]基于符合特征群組V
    t
    ?1對應的群聊記錄集合中的分享群組,得到關聯群組R
    t
    ?1;其中,t表示迭代輪數;
    [0012]對所述關聯群組R
    t
    ?1中的每一Telegram中文群組進行聯想搜索,生成關聯聯想群組L
    t
    ?1;
    [0013]基于所述特征詞篩選所述關聯群組R
    t
    ?1與所述關聯聯想群組L
    t
    ?1,得到符合特征群組V
    t

    [0014]在所述符合特征群組V
    t
    不為空集的情況下,令t=t+1,并返回至所述對所述關聯
    群組R
    t
    ?1中每一Telegram中文群組的進行聯想搜索,生成關聯聯想群組L
    t
    ?1;
    [0015]在所述符合特征群組V
    t
    為空集的情況下,基于所述多源融合群組與符合特征群組集合V,得到Telegram中文群組檢索結果;其中,V={V0,...,V
    t
    ?1}。
    [0016]進一步地,所述對所述檢索詞進行Telegram中文群組檢索,生成多源融合群組,包括:
    [0017]利用多種數據源對檢索詞進行Telegram中文群組檢索,得到多源數據檢索群組。
    [0018]進一步地,基于Telegram所提供的英文群組檢索接口,對所述檢索詞的拼音以及與檢索詞拼音近似的拼音進行Telegram中文群組搜索,得到檢索詞聯想群組;
    [0019]合并所述多源數據檢索群組與檢索詞聯想群組,并進行去重,以得到多源融合群組。
    [0020]進一步地,所述多種數據源包括:谷歌數據源、推特數據源和其他第三方Telegram群組信息檢索服務數據源;
    [0021]所述利用多種數據源對檢索詞進行Telegram中文群組檢索,得到多源數據檢索群組,包括:
    [0022]采用自定義搜索模式定向檢索telegram.org范圍內的所述檢索詞,得到谷歌數據源對應的檢索結果;
    [0023]利用爬蟲技術對推特數據定向搜索檢索詞,并篩選其中包含telegram群組字段的數據,得到推特數據源對應的檢索結果;
    [0024]通過所述其他第三方Telegram檢索服務中Telegram robot賬戶的問答式服務,搜索所述檢索詞,得到其他第三方Telegram群組信息檢索服務數據源對應的檢索結果;
    [0025]合并所述谷歌數據源對應的檢索結果、所述推特數據源對應的檢索結果、以及所述其他第三方Telegram群組信息檢索服務數據源對應的檢索結果,并進行去重,以得到多源數據檢索群組。
    [0026]進一步地,所述基于Telegram所提供的英文群組檢索接口,對所述檢索詞的拼音以及與檢索詞拼音近似的拼音進行Telegram中文群組搜索,得到檢索詞聯想群組;
    [0027]計算所述檢索詞的拼音;
    [0028]生成與檢索詞拼音近似的拼音;
    [0029]基于Telegram所提供的英文群組檢索接口,并使用所述檢索詞的拼音、所述與檢索詞拼音近似的拼音對群組username進行檢索,得到第一聯想檢索結果;
    [0030]基于Telegram所提供的英文群組檢索接口,并使用所述檢索詞的拼音對群組title進行檢索,得到第二聯想檢索結果;
    [0031]合并所述第一聯想檢索結果與第二聯想檢索結果,并進行去重,以得到檢索詞聯想群組。
    [0032]進一步地,所述分析所述多源融合群組對應的群聊記錄集合,得到特征詞集合,包括:
    [0033]針對所述多源融合群組,利用切詞技術對每一Telegram中文群組的群聊記錄進行分詞,并基于所述關鍵詞在對話中的順序,生成關鍵詞對;
    [0034]將分詞結果中的高頻詞作為關鍵詞;
    [0035]構建關鍵詞關系圖;其中,所述關鍵詞關系圖中的節點為所述關鍵詞,所述關鍵詞
    關系圖中的邊表示所述關鍵詞對的關聯,所述節點的權重為所述關鍵詞出現的次數,所述邊的權重為所述關鍵詞對出現的次數;
    [0036]基于所述節點的權重篩選所述關鍵詞,得到主特征詞集合;
    [0037]根據所述主特征詞與連接所述主特征詞的邊的權重,得到輔特征詞集合;
    [0038]合并所述主特征詞集合與所述輔特征詞集合,得到特征詞集合。
    [0039]進一步地,所述對所述關聯群組R
    t
    ?1中的每一Telegram中文群組進行聯想搜索,生成關聯聯想群組L
    t
    ?1,包括:
    [0040]獲取所述關聯群組R
    t
    ?1中的每一Telegram中文群組的群組名;
    [0041]生成與所述群組名相似的近似群組名,并得到所述近似群組名的拼音;
    [0042]基于所述進行多種數據源的Telegram中文群組搜索,和/或基于T本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種融合多源數據的Telegram中文群組檢索方法,其特征在于,所述方法包括:獲取檢索詞,并對所述檢索詞進行Telegram中文群組檢索,生成多源融合群組;分析所述多源融合群組對應的群聊記錄集合,得到特征詞集合,并基于所述特征詞集合篩選所述多源融合群組,得到符合特征群組V0;基于符合特征群組V
    t
    ?1對應的群聊記錄集合中的分享群組,得到關聯群組R
    t
    ?1;其中,t表示迭代輪數;對所述關聯群組R
    t
    ?1中的每一Telegram中文群組進行聯想搜索,生成關聯聯想群組L
    t
    ?1;基于所述特征詞篩選所述關聯群組R
    t
    ?1與所述關聯聯想群組L
    t
    ?1,得到符合特征群組V
    t
    ;在所述符合特征群組V
    t
    不為空集的情況下,令t=t+1,并返回至所述對所述關聯群組R
    t
    ?1中每一Telegram中文群組的進行聯想搜索,生成關聯聯想群組L
    t
    ?1;在所述符合特征群組V
    t
    為空集的情況下,基于所述多源融合群組與符合特征群組集合V,得到Telegram中文群組檢索結果;其中,V={V0,

    ,V
    t
    ?1}。2.如權利要求1所述的方法,其特征在于,所述對所述檢索詞進行Telegram中文群組檢索,生成多源融合群組,包括:利用多種數據源對檢索詞進行Telegram中文群組檢索,得到多源數據檢索群組;基于Telegram所提供的英文群組檢索接口,對所述檢索詞的拼音以及與檢索詞拼音近似的拼音進行Telegram中文群組搜索,得到檢索詞聯想群組;合并所述多源數據檢索群組與檢索詞聯想群組,并進行去重,以得到多源融合群組。3.如權利要求2所述的方法,其特征在于,所述多種數據源包括:谷歌數據源、推特數據源和其他第三方Telegram群組信息檢索服務數據源。4.如權利要求3所述的方法,其特征在于,所述利用多種數據源對檢索詞進行Telegram中文群組檢索,得到多源數據檢索群組,包括:采用自定義搜索模式定向檢索telegram.org范圍內的所述檢索詞,得到谷歌數據源對應的檢索結果;利用爬蟲技術對推特數據定向搜索檢索詞,并篩選其中包含telegram群組字段的數據,得到推特數據源對應的檢索結果;通過所述其他第三方Telegram檢索服務中Telegram robot賬戶的問答式服務,搜索所述檢索詞,得到其他第三方Telegram群組信息檢索服務數據源對應的檢索結果;合并所述谷歌數據源對應的檢索結果、所述推特數據源對應的檢索結果、以及所述其他第三方Telegram群組信息檢索服務數據源對應的檢索結果,并進行去重,以得到多源數據檢索群組。5.如權利要求2所述的方法,其特征在于,所述基于Telegram所提供的英文群組檢索接口,對所述檢索詞的拼音以及與檢索詞拼音近似的拼音進行Telegram中文群組搜索,得到檢索詞聯想群組;計算所述檢索詞的拼音;生成與檢索詞拼音近似的拼音;基于Telegram所提供的英文群組檢索接口,并使用所述檢索詞的拼音、所述與檢索詞拼音近似的拼音對群組username進行檢索,得到第一聯想檢索結果;
    基于Telegram所提供的英文群組檢索接口,并使用所述檢索詞的拼音對群組title進行檢索,得到第二聯想檢索結果;合并所述第一聯想檢索結果與第二聯想檢索結果,并進行去...

    【專利技術屬性】
    技術研發人員:井雅琪郭孟汗佟玲玲段東圣段運強任博雅劉晨侯煒趙萬鵬劉生輝
    申請(專利權)人:中國科學院信息工程研究所
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码国产一区二区三区51安| 午夜人性色福利无码视频在线观看| 亚洲av无码一区二区三区天堂古代| 无码GOGO大胆啪啪艺术| 无码AV波多野结衣久久| 午夜无码中文字幕在线播放| 亚洲AV无码国产精品色午友在线| 精品无码人妻一区二区三区18| 色综合久久中文字幕无码| 特黄熟妇丰满人妻无码| 亚洲日韩av无码中文| 熟妇无码乱子成人精品| 四虎成人精品国产永久免费无码| 97碰碰碰人妻视频无码| 国产成人无码久久久精品一| 亚洲精品无码你懂的网站| 无码国产精品久久一区免费 | 国产高新无码在线观看| 制服在线无码专区| 亚洲日韩乱码中文无码蜜桃臀网站| 久久天堂av综合色无码专区| 69天堂人成无码麻豆免费视频| 国产V亚洲V天堂无码久久久| 久久久无码精品亚洲日韩软件| 无码熟妇人妻在线视频| 永久免费AV无码国产网站 | 免费精品无码AV片在线观看| 亚洲中文字幕无码一区| 久久无码精品一区二区三区| 国产色无码精品视频国产| 日韩经典精品无码一区| 天天看高清无码一区二区三区| 自慰系列无码专区| 国产强伦姧在线观看无码| 无码国模国产在线观看免费| 狠狠久久精品中文字幕无码| 无码欧精品亚洲日韩一区夜夜嗨| 无码av无码天堂资源网| 亚洲精品无码日韩国产不卡?V| 狠狠躁天天躁无码中文字幕| 亚洲精品无码mv在线观看网站|