• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    識別敏感信息的方法及裝置制造方法及圖紙

    技術(shù)編號:15690846 閱讀:84 留言:0更新日期:2017-06-24 03:34
    本發(fā)明專利技術(shù)實施例公開了一種識別敏感信息的方法,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。本發(fā)明專利技術(shù)還相應地公開了一種識別敏感信息的裝置。上述識別敏感信息的方法和裝置在對用戶發(fā)布的內(nèi)容是否為敏感信息的判定上具有較高的識別準確率。

    Method and device for identifying sensitive information

    The embodiment of the invention discloses a method, a recognition of sensitive information: receiving target information extraction contains information of the target text in the text information; hash values in the hash hash the text information value and preset value of feature sensitive information is not at the same time, the text get the word segmentation information collection; the hash computation in the set value of the word segmentation, word segmentation according to the similarity of the hash value generated in the set of the target information with the preset feature sensitive information; according to the similarity degree and / or the text information analysis to determine the target information for sensitive information. The invention also discloses a device for identifying sensitive information accordingly. The method and device for identifying sensitive information has higher recognition accuracy in judging whether the content issued by the user is sensitive information.

    【技術(shù)實現(xiàn)步驟摘要】
    識別敏感信息的方法及裝置
    本專利技術(shù)涉及計算機
    ,尤其涉及一種識別敏感信息的方法及裝置。
    技術(shù)介紹
    在現(xiàn)有的web2.0的互聯(lián)網(wǎng)社交應用中,應用的內(nèi)容不再由服務器發(fā)布和推送,而是更多的由用戶自行發(fā)布和交互。例如,用戶可通過手機拍照分享到網(wǎng)絡上發(fā)送給其他用戶,可以編輯論壇主題、博客、論壇發(fā)帖、微博等文本內(nèi)容分享給其他用戶。然而,用戶分享的內(nèi)容可能存在違法或者不符合道德規(guī)范的風險,例如,粗口、暴力、淫穢、詐騙等內(nèi)容,因此,需要對用戶發(fā)布的內(nèi)容進行敏感信息的識別和攔截。現(xiàn)有的在線攔截敏感信息的方法中,通常采用較單一的文本相似算法策略如全文md5相似來發(fā)現(xiàn)攔截敏感信息,雖然這種方法準確率非常高,但是敏感信息的召回率嚴重依賴于已有的敏感信息特征庫的規(guī)模,并且敏感信息極容易出現(xiàn)變種,這種相似算法很難有效的發(fā)現(xiàn)相似的文本消息,對敏感信息的發(fā)現(xiàn)召回率低,且僅通過人工添加敏感信息特征的方法具有一定的時間滯后性,很難解決消息變種問題。因此,傳統(tǒng)技術(shù)中的在線攔截敏感信息的方法由于人工添加敏感信息特征具有一定的時間滯后性的原因,使得識別敏感信息的準確度不高,對于變種和近似的敏感信息無法準確地識別。
    技術(shù)實現(xiàn)思路
    基于此,為傳統(tǒng)技術(shù)中的在線攔截敏感信息的方法由于人工添加敏感信息特征具有一定的時間滯后性的原因,使得識別敏感信息的準確度不高的技術(shù)問題,特提供了一種識別敏感信息的方法。一種識別敏感信息的方法,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。在其中一個實施例中,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:計算所述分詞集合中,與預設的特征敏感信息的分詞的哈希值匹配的分詞在所述分詞集合中所占的比例;根據(jù)所述比例生成所述目標信息與預設的特征敏感信息的相似度。在其中一個實施例中,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:結(jié)合simhash算法,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息的第一simhash值;計算所述第一simhash值與所述預設的特征敏感信息的第二simhash值的差值;根據(jù)所述差值生成所述目標信息與預設的特征敏感信息的相似度。在其中一個實施例中,所述提取所述目標信息中包含的文本信息的步驟之后還包括:在所述目標信息中不包含文本信息時,獲取發(fā)布所述目標信息的用戶標識;獲取所述用戶標識的行為特征數(shù)據(jù),根據(jù)所述行為特征數(shù)據(jù)判定所述目標信息是否為敏感信息。在其中一個實施例中,所述計算所述文本信息的哈希值的步驟之后還包括:在所述文本信息的哈希值與預設的特征敏感信息的哈希值相同時,判定所述目標信息為敏感信息。在其中一個實施例中,所述根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息的步驟還包括:根據(jù)預設的機器學習概率模型提取所述文本信息的文本特征;將所述文本特征作為輸入,根據(jù)所述預設的機器學習概率模型通過計算所述目標信息的敏感置信度對所述文本信息進行語義分析;根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息。在其中一個實施例中,所述根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息的步驟之后還包括:若所述目標信息被判定為敏感信息,則將所述目標信息作為特征敏感信息存儲。在其中一個實施例中,所述提取所述目標信息中包含的文本信息的步驟之后還包括:過濾掉所述文本信息中的符號信息和冗余語義信息。此外,為傳統(tǒng)技術(shù)中的在線攔截敏感信息的方法由于人工添加敏感信息特征具有一定的時間滯后性的原因,使得識別敏感信息的準確度不高的技術(shù)問題,特提供了一種識別敏感信息的裝置。一種識別敏感信息的裝置,包括:文本信息提取模塊,用于接收目標信息,提取所述目標信息中包含的文本信息;全文哈希識別模塊,用于計算所述文本信息的哈希值;分詞模塊,用于在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;相似度計算模塊,用于計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;敏感信息判定模塊,用于根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。在其中一個實施例中,所述相似度計算模塊還用于計算所述分詞集合中,與預設的特征敏感信息的分詞的哈希值匹配的分詞在所述分詞集合中所占的比例;根據(jù)所述比例生成所述目標信息與預設的特征敏感信息的相似度。在其中一個實施例中,所述相似度計算模塊還用于結(jié)合simhash算法,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息的第一simhash值;計算所述第一simhash值與所述預設的特征敏感信息的第二simhash值的差值;根據(jù)所述差值生成所述目標信息與預設的特征敏感信息的相似度。在其中一個實施例中,所述裝置還包括行為識別模塊,用于在所述目標信息中不包含文本信息時,獲取發(fā)布所述目標信息的用戶標識;獲取所述用戶標識的行為特征數(shù)據(jù),根據(jù)所述行為特征數(shù)據(jù)判定所述目標信息是否為敏感信息。在其中一個實施例中,所述全文哈希識別模塊還用于在所述文本信息的哈希值與預設的特征敏感信息的哈希值相同時,判定所述目標信息為敏感信息。在其中一個實施例中,所述裝置還包括語義識別模塊,用于根據(jù)預設的機器學習概率模型提取所述文本信息的文本特征;將所述文本特征作為輸入,根據(jù)所述預設的機器學習概率模型通過計算所述目標信息的敏感置信度對所述文本信息進行語義分析;所述敏感信息判定模塊還用于根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息。在其中一個實施例中,所述語義識別模塊還用于在所述目標信息被判定為敏感信息時,則將所述目標信息作為特征敏感信息存儲。在其中一個實施例中,所述文本信息提取模塊還用于過濾掉所述文本信息中的符號信息和冗余語義信息。實施本專利技術(shù)實施例,將具有如下有益效果:采用了上述識別敏感信息的方法和裝置之后,先計算輸入的目標信息中的文本信息的哈希值,進行全文哈希比對,使得在目標信息與特征庫中的特征敏感信息不完全一致時,可通過對目標信息分詞并計算分詞的哈希值得到目標信息與特征庫中的特征敏感信息的相似度,然后結(jié)合對目標信息進行語義分析的分析結(jié)果來判定目標信息是否為敏感信息,從而在進行敏感信息的判定時,采用了多種手段,同時結(jié)合了全文哈希比對,相似度比對和語義比對的方式,和傳統(tǒng)技術(shù)相比,即使在目標信息與特征敏感信息不完全相同的情況下,也能夠識別出近似的或者變種的敏感信息而不會漏判,從而提高了識別的準確度。附圖說明為了更清楚地說明本專利技術(shù)實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術(shù)的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。本文檔來自技高網(wǎng)...
    識別敏感信息的方法及裝置

    【技術(shù)保護點】
    一種識別敏感信息的方法,其特征在于,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。

    【技術(shù)特征摘要】
    1.一種識別敏感信息的方法,其特征在于,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。2.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:計算所述分詞集合中,與預設的特征敏感信息的分詞的哈希值匹配的分詞在所述分詞集合中所占的比例;根據(jù)所述比例生成所述目標信息與預設的特征敏感信息的相似度。3.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:結(jié)合simhash算法,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息的第一simhash值;計算所述第一simhash值與所述預設的特征敏感信息的第二simhash值的差值;根據(jù)所述差值生成所述目標信息與預設的特征敏感信息的相似度。4.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述提取所述目標信息中包含的文本信息的步驟之后還包括:在所述目標信息中不包含文本信息時,獲取發(fā)布所述目標信息的用戶標識;獲取所述用戶標識的行為特征數(shù)據(jù),根據(jù)所述行為特征數(shù)據(jù)判定所述目標信息是否為敏感信息。5.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述計算所述文本信息的哈希值的步驟之后還包括:在所述文本信息的哈希值與預設的特征敏感信息的哈希值相同時,判定所述目標信息為敏感信息。6.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息的步驟還包括:根據(jù)預設的機器學習概率模型提取所述文本信息的文本特征;將所述文本特征作為輸入,根據(jù)所述預設的機器學習概率模型通過計算所述目標信息的敏感置信度對所述文本信息進行語義分析;根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息。7.根據(jù)權(quán)利要求6所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息的步驟之后還包括:若所述目標信息被判定為敏感信息,則將所述目標信息作為特征敏感信息存儲。8.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述提取所述目標信息中包含的文本信息的步驟之后還包括:過濾...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:付星輝
    申請(專利權(quán))人:騰訊科技深圳有限公司
    類型:發(fā)明
    國別省市:廣東,44

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码国产一区二区三区AV| 中文字幕AV中文字无码亚| 夜夜添无码一区二区三区| 无码国模国产在线观看免费| 国产爆乳无码视频在线观看3| 国产在线无码不卡影视影院 | 亚洲爆乳少妇无码激情| 无码一区二区三区免费视频| 日韩精品无码一区二区视频| 99久久国产热无码精品免费| 国产丝袜无码一区二区三区视频 | 无码人妻精品中文字幕免费 | 精品久久久久久中文字幕无码| 人妻无码精品久久亚瑟影视| 日韩人妻无码一区二区三区久久| 精品无码人妻一区二区三区18| AV无码精品一区二区三区宅噜噜 | 精品无码AV一区二区三区不卡| 日韩电影无码A不卡| av无码国产在线看免费网站| 黄桃AV无码免费一区二区三区| 一本大道无码av天堂| 国产在线拍揄自揄拍无码 | 18禁无遮拦无码国产在线播放| 国产精品成人一区无码| 亚洲欧洲免费无码| 久久久久av无码免费网| 无套内射在线无码播放| 亚洲中文字幕无码不卡电影| 亚洲国产精品无码久久青草| 午夜无码中文字幕在线播放| 少妇人妻偷人精品无码AV| 91久久九九无码成人网站| 亚洲av日韩av高潮潮喷无码| 一本加勒比HEZYO无码人妻| 国产AV无码专区亚洲AV手机麻豆| 免费VA在线观看无码| 免费看无码自慰一区二区| 久久久g0g0午夜无码精品| 日本无码一区二区三区白峰美| 亚洲AV成人无码网天堂|