• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種敏感文本識(shí)別的系統(tǒng)和方法技術(shù)方案

    技術(shù)編號(hào):26971331 閱讀:98 留言:0更新日期:2021-01-06 00:02
    一種敏感文本識(shí)別的系統(tǒng),包括:分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊;本發(fā)明專(zhuān)利技術(shù)提出的一種敏感文本識(shí)別的系統(tǒng),一方面對(duì)敏感詞的細(xì)粒度拆分,會(huì)大大減少一些干擾因素對(duì)敏感信息判定的干擾,當(dāng)有多個(gè)單字與敏感詞中的單字雷同的情況時(shí),會(huì)使該文檔的敏感詞相似度打分上升,從而更容易鑒別出包含隱藏敏感信息的文檔。另一方面,本發(fā)明專(zhuān)利技術(shù)方便用戶(hù)對(duì)多個(gè)文檔的敏感情況進(jìn)行評(píng)估,同時(shí)在用戶(hù)想了解詳細(xì)情況的時(shí)候,能通過(guò)文檔匹配模塊對(duì)敏感信息進(jìn)行定位,方便尋找和判定,大大提高了敏感詞檢索技術(shù)的可用性,使之能夠成為保密行業(yè)多種軟件產(chǎn)品可以依賴(lài)的一種重要的保密工具。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種敏感文本識(shí)別的系統(tǒng)和方法
    本專(zhuān)利技術(shù)涉及的是文本識(shí)別
    ,特別涉及一種敏感文本識(shí)別的系統(tǒng)和方法。
    技術(shù)介紹
    國(guó)外很多公司在我國(guó)眾多領(lǐng)域和行業(yè)占據(jù)了主導(dǎo)地位,占據(jù)了龐大的市場(chǎng)份額,甚至包括關(guān)系到國(guó)計(jì)民生的基礎(chǔ)設(shè)施行業(yè)和中國(guó)政府公共事業(yè)、金融、鐵路、航空、石油化工和軍工等敏感領(lǐng)域。然而國(guó)外軟件安全漏洞事故頻發(fā),令人十分擔(dān)憂(yōu)。而現(xiàn)在國(guó)內(nèi)更加重視核心技術(shù)的自主可控,其中自主可控主要針對(duì)的是關(guān)鍵技術(shù)和卡脖子的行業(yè),包括芯片、操作系統(tǒng)、軟件、高精密度機(jī)床等,預(yù)期政策對(duì)于科技創(chuàng)新和自主可控的支持力度加大,各類(lèi)基于國(guó)產(chǎn)化平臺(tái)的信息化系統(tǒng)應(yīng)運(yùn)而生。同時(shí)隨著各類(lèi)信息化系統(tǒng)的出現(xiàn),相關(guān)敏感信息的種類(lèi)和數(shù)量在不斷增多,如政府的組織結(jié)構(gòu)與決策信息,企業(yè)的某些技術(shù)資料,部隊(duì)的武器裝備部署詳情等,都是需要保護(hù)的敏感信息。為了防止政府,企業(yè)和軍隊(duì)因信息泄露而蒙受損失,辦公系統(tǒng)需要對(duì)系統(tǒng)中流通的數(shù)據(jù)和信息進(jìn)行相應(yīng)的安全檢查過(guò)濾,以保證這些敏感信息不會(huì)因?yàn)楣ぷ魅藛T操作不當(dāng)或者其他惡意的原因而遭到泄露。敏感信息泄露的情況分為兩種,一種是流通的文件中直接包含敏感關(guān)鍵字,在傳遞和閱覽過(guò)程中造成信息泄露。另一種是文檔中使用了與敏感詞語(yǔ)義相近或結(jié)構(gòu)類(lèi)似的詞匯和語(yǔ)法,這樣也可能造成相應(yīng)的損失。敏感內(nèi)容相似度識(shí)別技術(shù)的研究意義,即盡量減少這類(lèi)通過(guò)打“擦邊球”而造成信息泄露的情況出現(xiàn),為政府,企業(yè)和軍隊(duì)的信息安全保駕護(hù)航。現(xiàn)有的敏感詞識(shí)別技術(shù),主要是從效率上對(duì)敏感詞檢索過(guò)程做了優(yōu)化,比較典型的有自動(dòng)機(jī)算法和TTMP算法,前者是通過(guò)構(gòu)建詞圖,從詞圖上檢索文本出現(xiàn)的字和詞以確定文本中是否有敏感詞出現(xiàn),后者則是通過(guò)構(gòu)建臟字表,將文本中出現(xiàn)的字母在臟字表中逐字檢索和匹配,來(lái)確定是否有敏感詞出現(xiàn)。然而從功能性上看,現(xiàn)存的敏感詞識(shí)別技術(shù)大多只能識(shí)別出與敏感詞完全相同的文字,或者加入少量符號(hào)干擾的文字,缺少對(duì)更零散和隱晦的表述的識(shí)別方法,同時(shí)缺少功能的封裝,對(duì)文本的敏感程度也缺少直觀的表示和判斷。
    技術(shù)實(shí)現(xiàn)思路
    鑒于上述問(wèn)題,提出了本專(zhuān)利技術(shù)以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種敏感文本識(shí)別的系統(tǒng)和方法。一種敏感文本識(shí)別的系統(tǒng),包括:分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊;其中:分詞模塊,用于對(duì)文檔進(jìn)行分析和拆分,將文檔整理為一個(gè)單詞的詞典,依據(jù)單詞詞典對(duì)建立倒排記錄表,其中,倒排列表記錄了出現(xiàn)過(guò)某個(gè)單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息;文檔儲(chǔ)存和索引模塊,用于當(dāng)文檔經(jīng)過(guò)分詞模塊處理以后,對(duì)得到的數(shù)據(jù)以文檔為單位進(jìn)行存儲(chǔ),并且為文檔建立倒排索引,根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表;敏感內(nèi)容相似度評(píng)分模塊,用于對(duì)文檔針對(duì)單個(gè)敏感詞和多個(gè)敏感詞進(jìn)行相似度評(píng)分;文檔匹配模塊,根據(jù)文檔儲(chǔ)存和索引模塊返回的檢索結(jié)果,依據(jù)檢索結(jié)果偏移量信息返回每個(gè)敏感詞在文檔內(nèi)的具體位置,同時(shí)將指定長(zhǎng)度的上下文返回給上層管理模塊;上層管理模塊,用于和用戶(hù)進(jìn)行交互,接收用戶(hù)需要檢測(cè)的敏感詞組,傳遞給分詞模塊;還用于上接收需要存儲(chǔ)的文檔,將文檔傳輸給分詞模塊。進(jìn)一步地,分詞模塊通過(guò)正向迭代最細(xì)粒度拆分算法對(duì)文檔進(jìn)行拆分。進(jìn)一步地,正向迭代最細(xì)粒度拆分算法,具體為;首先Dictionary類(lèi)會(huì)加載所有詞典,存儲(chǔ)在map中,并以isEnd()標(biāo)志結(jié)束;對(duì)需要分詞的字符串進(jìn)行大小寫(xiě)轉(zhuǎn)換和轉(zhuǎn)碼預(yù)處理,輸入字符串以字符的形式進(jìn)行匹配,一個(gè)char如果能取到hitList,那么會(huì)鎖定hitList,循環(huán)到第二個(gè)char,如果能在hitList里與上一個(gè)char匹配成詞,則保存當(dāng)前的newLexeme,并加入到輸出結(jié)果集;判斷是否讀取到了isEnd(),如果不是,則context.currCursor偏移1位,繼續(xù)取詞,以此類(lèi)推,直到遍歷完這個(gè)字符串。進(jìn)一步地,文檔儲(chǔ)存和索引模塊中,倒排索引是實(shí)現(xiàn)“單詞-文檔矩陣”的一種具體存儲(chǔ)形式,通過(guò)倒排索引,可以根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表。進(jìn)一步地,敏感內(nèi)容相似度評(píng)分模塊,通過(guò)BM25評(píng)分函數(shù)和多維向量相似度算法進(jìn)行評(píng)分。進(jìn)一步地,BM25評(píng)分函數(shù)對(duì)單個(gè)敏感詞的評(píng)分加權(quán)公式為其中,coord(q,d)表示評(píng)分因子,計(jì)算公式為:overlap/maxOverlap,overlap表示文檔d中所包含的敏感分詞數(shù),maxOverlap表示敏感詞q能拆分成的敏感分詞的總數(shù)。queryNorm(q)為常數(shù),是查詢(xún)輸入歸一化因子,其作用是使最終的得分不至于太大,從而具有一定的可比性;tf(tind)指某一個(gè)敏感分詞t在文檔d中出現(xiàn)的次數(shù)frequency,具體值為次數(shù)的開(kāi)根號(hào),idf(t)表示反轉(zhuǎn)文檔頻率,計(jì)算公式為idf(t)=log(1+(docCount-docFreq+0.5)/(docFreq+0.5)),其中docFreq表示包含一個(gè)特定的敏感分詞t的文檔的數(shù)量,docCount表示文檔總數(shù);t.getBoost為常數(shù),表示一個(gè)特定的敏感分詞t的加權(quán),加權(quán)越大,表示該詞匯越重要,在評(píng)分時(shí)所占比重越大;norm(d)表示長(zhǎng)度相關(guān)的加權(quán)因子numTerms表示文檔d的長(zhǎng)度,即文檔被分成詞的個(gè)數(shù)。進(jìn)一步地,多維向量相似度算法對(duì)多個(gè)敏感詞的評(píng)分公式為:其中,表示文檔1對(duì)敏感詞匯的評(píng)分向量,表示每個(gè)敏感詞在文檔1中的權(quán)重值向量。進(jìn)一步地,上層管理模塊,還用于對(duì)敏感詞組進(jìn)行增刪改,同時(shí)能調(diào)用文檔管理模塊的接口,對(duì)提供文檔的進(jìn)行增刪改。本專(zhuān)利技術(shù)還公開(kāi)了一種敏感文本識(shí)別的方法,包括:S100.對(duì)文檔進(jìn)行儲(chǔ)存,上層應(yīng)用模塊接收需要存儲(chǔ)的文檔,將文檔傳輸給分詞模塊,通過(guò)分詞模塊將文檔拆分成可識(shí)別的詞匯,再通過(guò)分詞形成的詞匯建立倒排索引并存儲(chǔ)文檔;S200.對(duì)敏感詞進(jìn)行檢查,上層應(yīng)用接收用戶(hù)需要檢測(cè)的敏感詞組,傳遞給分詞模塊,分詞模塊對(duì)詞組進(jìn)行更細(xì)粒度的拆分,拆分成新的敏感詞組,再查詢(xún)倒排索引,對(duì)敏感詞組進(jìn)行匹配,匹配結(jié)果分別發(fā)給敏感內(nèi)容相似度評(píng)分模塊和文檔匹配模塊,敏感內(nèi)容相似度評(píng)分模塊通過(guò)特定的算法對(duì)相似度進(jìn)行計(jì)算和打分,將結(jié)果返回給上層應(yīng)用,文檔匹配模塊對(duì)匹配命中的文檔片段進(jìn)行定位,返回被命中的文段的位置,以及指定長(zhǎng)度的上下文。如權(quán)利要求1的一種敏感文本識(shí)別的方法,敏感內(nèi)容相似度評(píng)分模塊對(duì)相似度進(jìn)行計(jì)算和打分的算法為BM25評(píng)分函數(shù)和多維向量相似度算法。本專(zhuān)利技術(shù)實(shí)施例提供的上述技術(shù)方案的有益效果至少包括:本專(zhuān)利技術(shù)提出的一種敏感文本識(shí)別的系統(tǒng)和方法,一方面對(duì)敏感詞的細(xì)粒度拆分,會(huì)大大減少一些干擾因素對(duì)敏感信息判定的干擾,對(duì)敏感詞進(jìn)行細(xì)粒度分詞后,當(dāng)有多個(gè)單字與敏感詞中的單字雷同的情況時(shí),會(huì)使該文檔的敏感詞相似度打分上升,從而更容易鑒別出包含隱藏敏感信息的文檔。另一方面,文檔相似度打分的方式是具有突破性意義的,使文檔的涉密情況能夠更直觀地反應(yīng)給用戶(hù),方便用戶(hù)對(duì)多個(gè)文檔的敏感情況進(jìn)行評(píng)估,同時(shí)在用戶(hù)想了解詳細(xì)情況的時(shí)候本文檔來(lái)自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    1.一種敏感文本識(shí)別的系統(tǒng),其特征在于,包括:分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊;其中:/n分詞模塊,用于對(duì)文檔進(jìn)行分析和拆分,將文檔整理為一個(gè)單詞的詞典,依據(jù)單詞詞典對(duì)建立倒排記錄表,其中,倒排列表記錄了出現(xiàn)過(guò)某個(gè)單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息;/n文檔儲(chǔ)存和索引模塊,用于當(dāng)文檔經(jīng)過(guò)分詞模塊處理以后,對(duì)得到的數(shù)據(jù)以文檔為單位進(jìn)行存儲(chǔ),并且為文檔建立倒排索引,根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表;/n敏感內(nèi)容相似度評(píng)分模塊,用于對(duì)文檔針對(duì)單個(gè)敏感詞和多個(gè)敏感詞進(jìn)行相似度評(píng)分;/n文檔匹配模塊,根據(jù)文檔儲(chǔ)存和索引模塊返回的檢索結(jié)果,依據(jù)檢索結(jié)果偏移量信息返回每個(gè)敏感詞在文檔內(nèi)的具體位置,同時(shí)將指定長(zhǎng)度的上下文返回給上層管理模塊;/n上層管理模塊,用于和用戶(hù)進(jìn)行交互,接收用戶(hù)需要檢測(cè)的敏感詞組,傳遞給分詞模塊;還用于上接收需要存儲(chǔ)的文檔,將文檔傳輸給分詞模塊。/n

    【技術(shù)特征摘要】
    1.一種敏感文本識(shí)別的系統(tǒng),其特征在于,包括:分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊;其中:
    分詞模塊,用于對(duì)文檔進(jìn)行分析和拆分,將文檔整理為一個(gè)單詞的詞典,依據(jù)單詞詞典對(duì)建立倒排記錄表,其中,倒排列表記錄了出現(xiàn)過(guò)某個(gè)單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息;
    文檔儲(chǔ)存和索引模塊,用于當(dāng)文檔經(jīng)過(guò)分詞模塊處理以后,對(duì)得到的數(shù)據(jù)以文檔為單位進(jìn)行存儲(chǔ),并且為文檔建立倒排索引,根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表;
    敏感內(nèi)容相似度評(píng)分模塊,用于對(duì)文檔針對(duì)單個(gè)敏感詞和多個(gè)敏感詞進(jìn)行相似度評(píng)分;
    文檔匹配模塊,根據(jù)文檔儲(chǔ)存和索引模塊返回的檢索結(jié)果,依據(jù)檢索結(jié)果偏移量信息返回每個(gè)敏感詞在文檔內(nèi)的具體位置,同時(shí)將指定長(zhǎng)度的上下文返回給上層管理模塊;
    上層管理模塊,用于和用戶(hù)進(jìn)行交互,接收用戶(hù)需要檢測(cè)的敏感詞組,傳遞給分詞模塊;還用于上接收需要存儲(chǔ)的文檔,將文檔傳輸給分詞模塊。


    2.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng),其特征在于,分詞模塊通過(guò)正向迭代最細(xì)粒度拆分算法對(duì)文檔進(jìn)行拆分。


    3.如權(quán)利要求2的一種敏感文本識(shí)別的系統(tǒng),其特征在于,正向迭代最細(xì)粒度拆分算法,具體為:首先Dictionary類(lèi)加載所有詞典,存儲(chǔ)在map中,并以isEnd()標(biāo)志結(jié)束;對(duì)需要分詞的字符串進(jìn)行大小寫(xiě)轉(zhuǎn)換和轉(zhuǎn)碼預(yù)處理,輸入字符串以字符的形式進(jìn)行匹配,一個(gè)char如果能取到hitList,則鎖定hitList,循環(huán)到第二個(gè)char,如果能在hitList里與上一個(gè)char匹配成詞,則保存當(dāng)前的newLexeme,并加入到輸出結(jié)果集;繼續(xù)判斷是否讀取到了isEnd(),如果不是,則將context.currCursor偏移1位,繼續(xù)取詞,以此類(lèi)推,直到遍歷完整個(gè)字符串。


    4.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng),其特征在于,文檔儲(chǔ)存和索引模塊中,通過(guò)倒排索引實(shí)現(xiàn)“單詞-文檔矩陣”的具體存儲(chǔ),通過(guò)倒排索引,可以根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表。


    5.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng),其特征在于,敏感內(nèi)容相似度評(píng)分模塊,通過(guò)BM25評(píng)分函數(shù)和多維向量相似度算法進(jìn)行評(píng)分。


    6.如權(quán)利要求5的一種敏感文本識(shí)別的系統(tǒng),其特征在于,BM25評(píng)分函數(shù)對(duì)單個(gè)敏感詞的評(píng)分加權(quán)公式為:<...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:廖巍郭梓軒韓敏劉紅宇
    申請(qǐng)(專(zhuān)利權(quán))人:武漢華工安鼎信息技術(shù)有限責(zé)任公司
    類(lèi)型:發(fā)明
    國(guó)別省市:湖北;42

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 熟妇人妻系列aⅴ无码专区友真希| 亚洲国产成人精品无码区花野真一 | 久久久人妻精品无码一区| 国产精品无码一区二区三区不卡 | 无码137片内射在线影院| 久久久久久无码Av成人影院 | 无码AV中文一区二区三区| 亚洲综合无码一区二区痴汉| V一区无码内射国产| 无码中文字幕av免费放| 成人无码AV一区二区| 无码国产精品一区二区免费式影视 | 亚洲aⅴ无码专区在线观看春色| 国产精品无码免费视频二三区| 精品深夜AV无码一区二区| 亚洲日韩av无码| AV无码小缝喷白浆在线观看| 久久午夜福利无码1000合集| 亚洲乱亚洲乱妇无码麻豆| 无码人妻丰满熟妇啪啪| 久久久久琪琪去精品色无码| 久久精品无码一区二区三区| 成人免费无码大片a毛片软件 | 国产真人无码作爱免费视频| 亚洲色在线无码国产精品不卡| 无码人妻精品中文字幕免费| 亚洲精品无码久久一线| 国产色综合久久无码有码 | 亚洲国产精品无码久久久秋霞1| 国产50部艳色禁片无码| 国产V亚洲V天堂无码| 亚洲精品无码久久久| AV无码小缝喷白浆在线观看| 国产成人无码a区在线观看视频免费 | 无码av免费一区二区三区试看| 中文午夜乱理片无码| 亚洲精品无码不卡在线播HE | 亚洲日韩国产AV无码无码精品| 18禁无遮挡无码国产免费网站 | 无码人妻精品一区二区三| 亚洲AV无码久久精品狠狠爱浪潮|