【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及敏感文字處理,具體涉及一種對(duì)抗敏感文本識(shí)別方法和系統(tǒng)。
技術(shù)介紹
1、如今,互聯(lián)網(wǎng)的各大社交平臺(tái)用戶數(shù)量激增,平臺(tái)內(nèi)容更新不斷,用戶隨時(shí)隨地發(fā)布的文本信息可能涉及政治、軍事、娛樂、經(jīng)濟(jì)、道德等多個(gè)領(lǐng)域,越來越多的信息夾雜各種涉嫌各種不良信息,而這些信息的共同點(diǎn)是包含大量敏感詞。一般情況下,網(wǎng)絡(luò)不良信息使用的是準(zhǔn)確無誤的中文漢字,沒有任何變形處理,這樣只需簡(jiǎn)單的字符串匹配方法就能解決。
2、在常規(guī)敏感文本檢測(cè)過程中,當(dāng)用戶發(fā)現(xiàn)文本無法發(fā)出時(shí),往往會(huì)通過一些手段來改變文字的正常狀態(tài),或通過某些相近文本替代的方式來繞過常規(guī)檢測(cè)過程。而傳統(tǒng)的文本審核方法往往容易被規(guī)避或繞過,無法完全阻止敏感文本內(nèi)容的傳播。
3、綜上所述,當(dāng)前傳統(tǒng)的敏感詞識(shí)別算法無法處理變形體,而現(xiàn)有中文敏感詞識(shí)別算法可處理的敏感詞變形體類型有限且識(shí)別準(zhǔn)確率不高。因此,如何提高敏感詞識(shí)別的準(zhǔn)確率成為一個(gè)亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、基于此,針對(duì)上述技術(shù)問題,提供一種基于變體對(duì)抗敏感文本識(shí)別方法和系統(tǒng),以解決現(xiàn)有技術(shù)敏感詞識(shí)別準(zhǔn)確率不高的問題。
2、第一方面,一種基于變體對(duì)抗敏感文本識(shí)別方法,所述方法包括:
3、接收用戶輸入的原始數(shù)據(jù),判斷所述原始數(shù)據(jù)的場(chǎng)景類型;
4、利用預(yù)先構(gòu)建的對(duì)應(yīng)場(chǎng)景類型的變體庫對(duì)所述原始數(shù)據(jù)進(jìn)行變體查找;
5、對(duì)所述原始數(shù)據(jù)中變體利用對(duì)應(yīng)的規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。
6、上
7、獲取大量歷史數(shù)據(jù),對(duì)所述歷史數(shù)據(jù)根據(jù)不同的場(chǎng)景進(jìn)行分類,得到不同類型的數(shù)據(jù);
8、對(duì)不同類型的數(shù)據(jù)利用對(duì)應(yīng)類型的常規(guī)詞庫模型篩選,得到不在常規(guī)詞庫模型中的文字部分,記為變體;
9、對(duì)所述變體按照對(duì)應(yīng)歷史數(shù)據(jù)的類型進(jìn)行分類;
10、對(duì)每一類變體中所有變體進(jìn)行相同場(chǎng)景下不規(guī)范字符的查找,并建立不同場(chǎng)景的變體庫。
11、上述方案中,可選地,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索前,還包括:對(duì)替換后的原始數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括詞序重排、缺少字符插入、多余字符刪除。
12、上述方案中,可選地,對(duì)所述原始數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索替換為:
13、將對(duì)敏感搜索樹中同一規(guī)范文字利用變體庫中對(duì)應(yīng)的不同變體進(jìn)行多重替換;
14、利用替換后的敏感搜索樹對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。
15、上述方案中,可選地,對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索后,還包括:
16、判斷敏感內(nèi)容的類型;
17、若判斷出敏感內(nèi)容的類型為廣告,將所述原始數(shù)據(jù)文本中的數(shù)字和字母用設(shè)定的字符代替;
18、判斷所述敏感搜索樹中設(shè)定字符的長(zhǎng)度與所述原始文本中設(shè)定字符的長(zhǎng)度進(jìn)行比較,若相同,則進(jìn)一步確定所述原始數(shù)據(jù)為廣告賬號(hào),將所述原始數(shù)據(jù)進(jìn)行屏蔽;否則,判定所述原始數(shù)據(jù)不為敏感內(nèi)容,對(duì)所述原始數(shù)據(jù)進(jìn)行輸出。
19、第二方面,一種基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),所述系統(tǒng)包括:
20、原始數(shù)據(jù)接收和類型判定模塊:用于接收用戶輸入的原始數(shù)據(jù),判斷所述原始數(shù)據(jù)的場(chǎng)景類型;
21、變體查找模塊:用于利用預(yù)先構(gòu)建的對(duì)應(yīng)場(chǎng)景類型的變體庫對(duì)所述原始數(shù)據(jù)進(jìn)行變體查找;
22、敏感內(nèi)容搜索模塊:用于對(duì)所述原始數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。
23、上述方案中,可選地,所述系統(tǒng)還包括變體庫構(gòu)建模塊:用于對(duì)大量的歷史數(shù)據(jù)根據(jù)不同的場(chǎng)景進(jìn)行分類,得到不同類型的數(shù)據(jù);對(duì)不同類型的數(shù)據(jù)利用對(duì)應(yīng)類型的常規(guī)詞庫模型篩選,得到不在常規(guī)詞庫模型中的文字部分,記為變體;對(duì)所述變體按照對(duì)應(yīng)歷史數(shù)據(jù)的類型進(jìn)行分類;對(duì)每一類變體中所有變體進(jìn)行相同場(chǎng)景下不規(guī)范字符的查找,并建立不同場(chǎng)景變體庫。
24、上述方案中,可選地,所述敏感內(nèi)容搜索模塊還用于:
25、將對(duì)敏感搜索樹中同一規(guī)范文字利用變體庫中對(duì)應(yīng)的不同變體進(jìn)行多重替換;
26、利用替換后的敏感搜索樹對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。
27、第三方面,一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述基于變體對(duì)抗敏感文本識(shí)別方法的步驟:
28、第四方面,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述基于變體對(duì)抗敏感文本識(shí)別方法的步驟。
29、本申請(qǐng)至少具有以下有益效果:
30、本申請(qǐng)通過建立變體庫,利用變體庫對(duì)用戶輸入的原始數(shù)據(jù)中的變體進(jìn)行識(shí)別,再對(duì)原始數(shù)據(jù)中的變體進(jìn)行規(guī)范文字的替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索,以最大限度阻止敏感內(nèi)容的傳播。因此,由于原始數(shù)據(jù)中的變體已經(jīng)被檢索出來且替換為正常的文字,從而提高了敏感詞的檢測(cè)準(zhǔn)確度。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,所述變體庫的構(gòu)建包括以下步驟:
3.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索前,還包括:對(duì)替換后的原始數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括詞序重排、缺少字符插入、多余字符刪除。
4.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)所述原始數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索替換為:
5.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索后,還包括:
6.一種基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括:
7.根據(jù)權(quán)利要求6所述的基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)還包括變體庫構(gòu)建模塊:用于對(duì)大量的歷史數(shù)據(jù)根據(jù)不同的場(chǎng)景進(jìn)行分類,得到不同類型的數(shù)據(jù);對(duì)不同類型的數(shù)據(jù)利用對(duì)應(yīng)類型的常規(guī)詞庫模型篩選,得到不在常規(guī)詞庫模型中的文
8.根據(jù)權(quán)利要求6所述的基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),其特征在于,所述敏感內(nèi)容搜索模塊還用于:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至5中任一項(xiàng)所述的方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至5中任一項(xiàng)所述的方法的步驟。
...【技術(shù)特征摘要】
1.一種基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,所述變體庫的構(gòu)建包括以下步驟:
3.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索前,還包括:對(duì)替換后的原始數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括詞序重排、缺少字符插入、多余字符刪除。
4.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)所述原始數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索替換為:
5.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索后,還包括:
6.一種基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括:
7.根據(jù)權(quán)利要求6...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王圳,趙健軍,杜曉祥,
申請(qǐng)(專利權(quán))人:北京云上曲率科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。