• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于變體對(duì)抗敏感文本識(shí)別方法和系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):40182703 閱讀:20 留言:0更新日期:2024-01-26 23:48
    本申請(qǐng)公開了一種基于變體對(duì)抗敏感文本識(shí)別方法和系統(tǒng),所述方法包括:接收用戶輸入的原始數(shù)據(jù),判斷所述原始數(shù)據(jù)的場(chǎng)景類型;利用預(yù)先構(gòu)建的對(duì)應(yīng)場(chǎng)景類型的變體庫對(duì)所述原始數(shù)據(jù)進(jìn)行變體查找;對(duì)所述原數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。通過本申請(qǐng)方法,將用戶輸入的原始數(shù)據(jù)中的變體進(jìn)行搜索并替換為正常的文字,從而提高了敏感詞的檢測(cè)準(zhǔn)確度。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本申請(qǐng)涉及敏感文字處理,具體涉及一種對(duì)抗敏感文本識(shí)別方法和系統(tǒng)。


    技術(shù)介紹

    1、如今,互聯(lián)網(wǎng)的各大社交平臺(tái)用戶數(shù)量激增,平臺(tái)內(nèi)容更新不斷,用戶隨時(shí)隨地發(fā)布的文本信息可能涉及政治、軍事、娛樂、經(jīng)濟(jì)、道德等多個(gè)領(lǐng)域,越來越多的信息夾雜各種涉嫌各種不良信息,而這些信息的共同點(diǎn)是包含大量敏感詞。一般情況下,網(wǎng)絡(luò)不良信息使用的是準(zhǔn)確無誤的中文漢字,沒有任何變形處理,這樣只需簡(jiǎn)單的字符串匹配方法就能解決。

    2、在常規(guī)敏感文本檢測(cè)過程中,當(dāng)用戶發(fā)現(xiàn)文本無法發(fā)出時(shí),往往會(huì)通過一些手段來改變文字的正常狀態(tài),或通過某些相近文本替代的方式來繞過常規(guī)檢測(cè)過程。而傳統(tǒng)的文本審核方法往往容易被規(guī)避或繞過,無法完全阻止敏感文本內(nèi)容的傳播。

    3、綜上所述,當(dāng)前傳統(tǒng)的敏感詞識(shí)別算法無法處理變形體,而現(xiàn)有中文敏感詞識(shí)別算法可處理的敏感詞變形體類型有限且識(shí)別準(zhǔn)確率不高。因此,如何提高敏感詞識(shí)別的準(zhǔn)確率成為一個(gè)亟待解決的問題。


    技術(shù)實(shí)現(xiàn)思路

    1、基于此,針對(duì)上述技術(shù)問題,提供一種基于變體對(duì)抗敏感文本識(shí)別方法和系統(tǒng),以解決現(xiàn)有技術(shù)敏感詞識(shí)別準(zhǔn)確率不高的問題。

    2、第一方面,一種基于變體對(duì)抗敏感文本識(shí)別方法,所述方法包括:

    3、接收用戶輸入的原始數(shù)據(jù),判斷所述原始數(shù)據(jù)的場(chǎng)景類型;

    4、利用預(yù)先構(gòu)建的對(duì)應(yīng)場(chǎng)景類型的變體庫對(duì)所述原始數(shù)據(jù)進(jìn)行變體查找;

    5、對(duì)所述原始數(shù)據(jù)中變體利用對(duì)應(yīng)的規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。

    6、上述方案中,可選地,所述變體庫的構(gòu)建包括以下步驟:

    7、獲取大量歷史數(shù)據(jù),對(duì)所述歷史數(shù)據(jù)根據(jù)不同的場(chǎng)景進(jìn)行分類,得到不同類型的數(shù)據(jù);

    8、對(duì)不同類型的數(shù)據(jù)利用對(duì)應(yīng)類型的常規(guī)詞庫模型篩選,得到不在常規(guī)詞庫模型中的文字部分,記為變體;

    9、對(duì)所述變體按照對(duì)應(yīng)歷史數(shù)據(jù)的類型進(jìn)行分類;

    10、對(duì)每一類變體中所有變體進(jìn)行相同場(chǎng)景下不規(guī)范字符的查找,并建立不同場(chǎng)景的變體庫。

    11、上述方案中,可選地,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索前,還包括:對(duì)替換后的原始數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括詞序重排、缺少字符插入、多余字符刪除。

    12、上述方案中,可選地,對(duì)所述原始數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索替換為:

    13、將對(duì)敏感搜索樹中同一規(guī)范文字利用變體庫中對(duì)應(yīng)的不同變體進(jìn)行多重替換;

    14、利用替換后的敏感搜索樹對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。

    15、上述方案中,可選地,對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索后,還包括:

    16、判斷敏感內(nèi)容的類型;

    17、若判斷出敏感內(nèi)容的類型為廣告,將所述原始數(shù)據(jù)文本中的數(shù)字和字母用設(shè)定的字符代替;

    18、判斷所述敏感搜索樹中設(shè)定字符的長(zhǎng)度與所述原始文本中設(shè)定字符的長(zhǎng)度進(jìn)行比較,若相同,則進(jìn)一步確定所述原始數(shù)據(jù)為廣告賬號(hào),將所述原始數(shù)據(jù)進(jìn)行屏蔽;否則,判定所述原始數(shù)據(jù)不為敏感內(nèi)容,對(duì)所述原始數(shù)據(jù)進(jìn)行輸出。

    19、第二方面,一種基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),所述系統(tǒng)包括:

    20、原始數(shù)據(jù)接收和類型判定模塊:用于接收用戶輸入的原始數(shù)據(jù),判斷所述原始數(shù)據(jù)的場(chǎng)景類型;

    21、變體查找模塊:用于利用預(yù)先構(gòu)建的對(duì)應(yīng)場(chǎng)景類型的變體庫對(duì)所述原始數(shù)據(jù)進(jìn)行變體查找;

    22、敏感內(nèi)容搜索模塊:用于對(duì)所述原始數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。

    23、上述方案中,可選地,所述系統(tǒng)還包括變體庫構(gòu)建模塊:用于對(duì)大量的歷史數(shù)據(jù)根據(jù)不同的場(chǎng)景進(jìn)行分類,得到不同類型的數(shù)據(jù);對(duì)不同類型的數(shù)據(jù)利用對(duì)應(yīng)類型的常規(guī)詞庫模型篩選,得到不在常規(guī)詞庫模型中的文字部分,記為變體;對(duì)所述變體按照對(duì)應(yīng)歷史數(shù)據(jù)的類型進(jìn)行分類;對(duì)每一類變體中所有變體進(jìn)行相同場(chǎng)景下不規(guī)范字符的查找,并建立不同場(chǎng)景變體庫。

    24、上述方案中,可選地,所述敏感內(nèi)容搜索模塊還用于:

    25、將對(duì)敏感搜索樹中同一規(guī)范文字利用變體庫中對(duì)應(yīng)的不同變體進(jìn)行多重替換;

    26、利用替換后的敏感搜索樹對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索。

    27、第三方面,一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述基于變體對(duì)抗敏感文本識(shí)別方法的步驟:

    28、第四方面,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述基于變體對(duì)抗敏感文本識(shí)別方法的步驟。

    29、本申請(qǐng)至少具有以下有益效果:

    30、本申請(qǐng)通過建立變體庫,利用變體庫對(duì)用戶輸入的原始數(shù)據(jù)中的變體進(jìn)行識(shí)別,再對(duì)原始數(shù)據(jù)中的變體進(jìn)行規(guī)范文字的替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索,以最大限度阻止敏感內(nèi)容的傳播。因此,由于原始數(shù)據(jù)中的變體已經(jīng)被檢索出來且替換為正常的文字,從而提高了敏感詞的檢測(cè)準(zhǔn)確度。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,所述變體庫的構(gòu)建包括以下步驟:

    3.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索前,還包括:對(duì)替換后的原始數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括詞序重排、缺少字符插入、多余字符刪除。

    4.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)所述原始數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索替換為:

    5.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索后,還包括:

    6.一種基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括:

    7.根據(jù)權(quán)利要求6所述的基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)還包括變體庫構(gòu)建模塊:用于對(duì)大量的歷史數(shù)據(jù)根據(jù)不同的場(chǎng)景進(jìn)行分類,得到不同類型的數(shù)據(jù);對(duì)不同類型的數(shù)據(jù)利用對(duì)應(yīng)類型的常規(guī)詞庫模型篩選,得到不在常規(guī)詞庫模型中的文字部分,記為變體;對(duì)所述變體按照對(duì)應(yīng)歷史數(shù)據(jù)的類型進(jìn)行分類;對(duì)每一類變體中所有變體進(jìn)行相同場(chǎng)景下不規(guī)范字符的查找,并建立不同場(chǎng)景變體庫。

    8.根據(jù)權(quán)利要求6所述的基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),其特征在于,所述敏感內(nèi)容搜索模塊還用于:

    9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至5中任一項(xiàng)所述的方法的步驟。

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至5中任一項(xiàng)所述的方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,所述變體庫的構(gòu)建包括以下步驟:

    3.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索前,還包括:對(duì)替換后的原始數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括詞序重排、缺少字符插入、多余字符刪除。

    4.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)所述原始數(shù)據(jù)中變體利用規(guī)范文字進(jìn)行替換,對(duì)替換后的原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索替換為:

    5.根據(jù)權(quán)利要求1所述的基于變體對(duì)抗敏感文本識(shí)別方法,其特征在于,對(duì)所述原始數(shù)據(jù)進(jìn)行敏感內(nèi)容搜索后,還包括:

    6.一種基于變體對(duì)抗敏感文本識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括:

    7.根據(jù)權(quán)利要求6...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:王圳趙健軍杜曉祥
    申請(qǐng)(專利權(quán))人:北京云上曲率科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国产色综合久久无码有码| 亚洲AV无码国产精品色| 无码午夜人妻一区二区三区不卡视频| 国产成人无码AV一区二区在线观看| 无码专区HEYZO色欲AV| 无码激情做a爰片毛片AV片| 国产在线拍偷自揄拍无码| 国产精品无码专区AV在线播放| 国内精品人妻无码久久久影院导航 | 人妻无码一区二区三区| 无码性午夜视频在线观看| 18禁无遮挡无码网站免费| 亚洲成av人片在线观看无码不卡| 亚洲国产AV无码一区二区三区| 中文字幕av无码一区二区三区电影 | 国产精品亚洲а∨无码播放不卡| 久久水蜜桃亚洲av无码精品麻豆 | 久久99久久无码毛片一区二区| 久久久久久AV无码免费网站 | 最新国产AV无码专区亚洲| 激情无码人妻又粗又大中国人| 亚洲无码在线播放| 久久久久亚洲AV无码去区首| 色窝窝无码一区二区三区| 亚洲成a人片在线观看无码专区| 成人无码Av片在线观看| 亚洲爆乳无码精品AAA片蜜桃| 免费无码VA一区二区三区| 亚洲国产精品无码久久久蜜芽| 亚洲一本大道无码av天堂 | 18禁无遮挡无码国产免费网站| 日韩欧国产精品一区综合无码| 精品无码国产自产拍在线观看蜜| 东京热HEYZO无码专区| 亚洲Av永久无码精品一区二区| 中文字幕无码免费久久99| 精品人妻无码区二区三区| 亚洲日韩精品无码专区加勒比☆| 亚洲av无码国产综合专区| 国产成人无码AV麻豆| 亚洲精品自偷自拍无码|