The embodiment of the invention discloses a method, a recognition of sensitive information: receiving target information extraction contains information of the target text in the text information; hash values in the hash hash the text information value and preset value of feature sensitive information is not at the same time, the text get the word segmentation information collection; the hash computation in the set value of the word segmentation, word segmentation according to the similarity of the hash value generated in the set of the target information with the preset feature sensitive information; according to the similarity degree and / or the text information analysis to determine the target information for sensitive information. The invention also discloses a device for identifying sensitive information accordingly. The method and device for identifying sensitive information has higher recognition accuracy in judging whether the content issued by the user is sensitive information.
【技術(shù)實現(xiàn)步驟摘要】
識別敏感信息的方法及裝置
本專利技術(shù)涉及計算機
,尤其涉及一種識別敏感信息的方法及裝置。
技術(shù)介紹
在現(xiàn)有的web2.0的互聯(lián)網(wǎng)社交應用中,應用的內(nèi)容不再由服務器發(fā)布和推送,而是更多的由用戶自行發(fā)布和交互。例如,用戶可通過手機拍照分享到網(wǎng)絡上發(fā)送給其他用戶,可以編輯論壇主題、博客、論壇發(fā)帖、微博等文本內(nèi)容分享給其他用戶。然而,用戶分享的內(nèi)容可能存在違法或者不符合道德規(guī)范的風險,例如,粗口、暴力、淫穢、詐騙等內(nèi)容,因此,需要對用戶發(fā)布的內(nèi)容進行敏感信息的識別和攔截。現(xiàn)有的在線攔截敏感信息的方法中,通常采用較單一的文本相似算法策略如全文md5相似來發(fā)現(xiàn)攔截敏感信息,雖然這種方法準確率非常高,但是敏感信息的召回率嚴重依賴于已有的敏感信息特征庫的規(guī)模,并且敏感信息極容易出現(xiàn)變種,這種相似算法很難有效的發(fā)現(xiàn)相似的文本消息,對敏感信息的發(fā)現(xiàn)召回率低,且僅通過人工添加敏感信息特征的方法具有一定的時間滯后性,很難解決消息變種問題。因此,傳統(tǒng)技術(shù)中的在線攔截敏感信息的方法由于人工添加敏感信息特征具有一定的時間滯后性的原因,使得識別敏感信息的準確度不高,對于變種和近似的敏感信息無法準確地識別。
技術(shù)實現(xiàn)思路
基于此,為傳統(tǒng)技術(shù)中的在線攔截敏感信息的方法由于人工添加敏感信息特征具有一定的時間滯后性的原因,使得識別敏感信息的準確度不高的技術(shù)問題,特提供了一種識別敏感信息的方法。一種識別敏感信息的方法,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所 ...
【技術(shù)保護點】
一種識別敏感信息的方法,其特征在于,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。
【技術(shù)特征摘要】
1.一種識別敏感信息的方法,其特征在于,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。2.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:計算所述分詞集合中,與預設的特征敏感信息的分詞的哈希值匹配的分詞在所述分詞集合中所占的比例;根據(jù)所述比例生成所述目標信息與預設的特征敏感信息的相似度。3.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:結(jié)合simhash算法,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息的第一simhash值;計算所述第一simhash值與所述預設的特征敏感信息的第二simhash值的差值;根據(jù)所述差值生成所述目標信息與預設的特征敏感信息的相似度。4.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述提取所述目標信息中包含的文本信息的步驟之后還包括:在所述目標信息中不包含文本信息時,獲取發(fā)布所述目標信息的用戶標識;獲取所述用戶標識的行為特征數(shù)據(jù),根據(jù)所述行為特征數(shù)據(jù)判定所述目標信息是否為敏感信息。5.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述計算所述文本信息的哈希值的步驟之后還包括:在所述文本信息的哈希值與預設的特征敏感信息的哈希值相同時,判定所述目標信息為敏感信息。6.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息的步驟還包括:根據(jù)預設的機器學習概率模型提取所述文本信息的文本特征;將所述文本特征作為輸入,根據(jù)所述預設的機器學習概率模型通過計算所述目標信息的敏感置信度對所述文本信息進行語義分析;根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息。7.根據(jù)權(quán)利要求6所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息的步驟之后還包括:若所述目標信息被判定為敏感信息,則將所述目標信息作為特征敏感信息存儲。8.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述提取所述目標信息中包含的文本信息的步驟之后還包括:過濾...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:付星輝,
申請(專利權(quán))人:騰訊科技深圳有限公司,
類型:發(fā)明
國別省市:廣東,44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。