當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>武漢華工安鼎信息技術(shù)有限責(zé)任公司專(zhuān)利>正文

一種敏感文本識(shí)別的系統(tǒng)和方法技術(shù)方案

技術(shù)編號(hào)：26971331 閱讀：98 留言：0更新日期：2021-01-06 00:02

一種敏感文本識(shí)別的系統(tǒng)，包括：分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊；本發(fā)明專(zhuān)利技術(shù)提出的一種敏感文本識(shí)別的系統(tǒng)，一方面對(duì)敏感詞的細(xì)粒度拆分，會(huì)大大減少一些干擾因素對(duì)敏感信息判定的干擾，當(dāng)有多個(gè)單字與敏感詞中的單字雷同的情況時(shí)，會(huì)使該文檔的敏感詞相似度打分上升，從而更容易鑒別出包含隱藏敏感信息的文檔。另一方面，本發(fā)明專(zhuān)利技術(shù)方便用戶(hù)對(duì)多個(gè)文檔的敏感情況進(jìn)行評(píng)估，同時(shí)在用戶(hù)想了解詳細(xì)情況的時(shí)候，能通過(guò)文檔匹配模塊對(duì)敏感信息進(jìn)行定位，方便尋找和判定，大大提高了敏感詞檢索技術(shù)的可用性，使之能夠成為保密行業(yè)多種軟件產(chǎn)品可以依賴(lài)的一種重要的保密工具。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
一種敏感文本識(shí)別的系統(tǒng)和方法
本專(zhuān)利技術(shù)涉及的是文本識(shí)別
,特別涉及一種敏感文本識(shí)別的系統(tǒng)和方法。
技術(shù)介紹
國(guó)外很多公司在我國(guó)眾多領(lǐng)域和行業(yè)占據(jù)了主導(dǎo)地位，占據(jù)了龐大的市場(chǎng)份額，甚至包括關(guān)系到國(guó)計(jì)民生的基礎(chǔ)設(shè)施行業(yè)和中國(guó)政府公共事業(yè)、金融、鐵路、航空、石油化工和軍工等敏感領(lǐng)域。然而國(guó)外軟件安全漏洞事故頻發(fā)，令人十分擔(dān)憂(yōu)。而現(xiàn)在國(guó)內(nèi)更加重視核心技術(shù)的自主可控，其中自主可控主要針對(duì)的是關(guān)鍵技術(shù)和卡脖子的行業(yè)，包括芯片、操作系統(tǒng)、軟件、高精密度機(jī)床等，預(yù)期政策對(duì)于科技創(chuàng)新和自主可控的支持力度加大，各類(lèi)基于國(guó)產(chǎn)化平臺(tái)的信息化系統(tǒng)應(yīng)運(yùn)而生。同時(shí)隨著各類(lèi)信息化系統(tǒng)的出現(xiàn)，相關(guān)敏感信息的種類(lèi)和數(shù)量在不斷增多，如政府的組織結(jié)構(gòu)與決策信息，企業(yè)的某些技術(shù)資料，部隊(duì)的武器裝備部署詳情等，都是需要保護(hù)的敏感信息。為了防止政府，企業(yè)和軍隊(duì)因信息泄露而蒙受損失，辦公系統(tǒng)需要對(duì)系統(tǒng)中流通的數(shù)據(jù)和信息進(jìn)行相應(yīng)的安全檢查過(guò)濾，以保證這些敏感信息不會(huì)因?yàn)楣ぷ魅藛T操作不當(dāng)或者其他惡意的原因而遭到泄露。敏感信息泄露的情況分為兩種，一種是流通的文件中直接包含敏感關(guān)鍵字，在傳遞和閱覽過(guò)程中造成信息泄露。另一種是文檔中使用了與敏感詞語(yǔ)義相近或結(jié)構(gòu)類(lèi)似的詞匯和語(yǔ)法，這樣也可能造成相應(yīng)的損失。敏感內(nèi)容相似度識(shí)別技術(shù)的研究意義，即盡量減少這類(lèi)通過(guò)打“擦邊球”而造成信息泄露的情況出現(xiàn)，為政府，企業(yè)和軍隊(duì)的信息安全保駕護(hù)航。現(xiàn)有的敏感詞識(shí)別技術(shù)，主要是從效率上對(duì)敏感詞檢索過(guò)程做了優(yōu)化，比較典型的有自動(dòng)機(jī)算法和TTMP算法，前者是通過(guò)構(gòu)建詞...

【技術(shù)保護(hù)點(diǎn)】
1.一種敏感文本識(shí)別的系統(tǒng)，其特征在于，包括：分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊；其中：/n分詞模塊，用于對(duì)文檔進(jìn)行分析和拆分，將文檔整理為一個(gè)單詞的詞典，依據(jù)單詞詞典對(duì)建立倒排記錄表，其中，倒排列表記錄了出現(xiàn)過(guò)某個(gè)單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息；/n文檔儲(chǔ)存和索引模塊，用于當(dāng)文檔經(jīng)過(guò)分詞模塊處理以后，對(duì)得到的數(shù)據(jù)以文檔為單位進(jìn)行存儲(chǔ)，并且為文檔建立倒排索引，根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表；/n敏感內(nèi)容相似度評(píng)分模塊，用于對(duì)文檔針對(duì)單個(gè)敏感詞和多個(gè)敏感詞進(jìn)行相似度評(píng)分；/n文檔匹配模塊，根據(jù)文檔儲(chǔ)存和索引模塊返回的檢索結(jié)果，依據(jù)檢索結(jié)果偏移量信息返回每個(gè)敏感詞在文檔內(nèi)的具體位置，同時(shí)將指定長(zhǎng)度的上下文返回給上層管理模塊；/n上層管理模塊，用于和用戶(hù)進(jìn)行交互，接收用戶(hù)需要檢測(cè)的敏感詞組，傳遞給分詞模塊；還用于上接收需要存儲(chǔ)的文檔，將文檔傳輸給分詞模塊。/n

【技術(shù)特征摘要】
1.一種敏感文本識(shí)別的系統(tǒng)，其特征在于，包括：分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊；其中：
分詞模塊，用于對(duì)文檔進(jìn)行分析和拆分，將文檔整理為一個(gè)單詞的詞典，依據(jù)單詞詞典對(duì)建立倒排記錄表，其中，倒排列表記錄了出現(xiàn)過(guò)某個(gè)單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息；
文檔儲(chǔ)存和索引模塊，用于當(dāng)文檔經(jīng)過(guò)分詞模塊處理以后，對(duì)得到的數(shù)據(jù)以文檔為單位進(jìn)行存儲(chǔ)，并且為文檔建立倒排索引，根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表；
敏感內(nèi)容相似度評(píng)分模塊，用于對(duì)文檔針對(duì)單個(gè)敏感詞和多個(gè)敏感詞進(jìn)行相似度評(píng)分；
文檔匹配模塊，根據(jù)文檔儲(chǔ)存和索引模塊返回的檢索結(jié)果，依據(jù)檢索結(jié)果偏移量信息返回每個(gè)敏感詞在文檔內(nèi)的具體位置，同時(shí)將指定長(zhǎng)度的上下文返回給上層管理模塊；
上層管理模塊，用于和用戶(hù)進(jìn)行交互，接收用戶(hù)需要檢測(cè)的敏感詞組，傳遞給分詞模塊；還用于上接收需要存儲(chǔ)的文檔，將文檔傳輸給分詞模塊。

2.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng)，其特征在于，分詞模塊通過(guò)正向迭代最細(xì)粒度拆分算法對(duì)文檔進(jìn)行拆分。

3.如權(quán)利要求2的一種敏感文本識(shí)別的系統(tǒng)，其特征在于，正向迭代最細(xì)粒度拆分算法，具體為：首先Dictionary類(lèi)加載所有詞典，存儲(chǔ)在map中，并以isEnd()標(biāo)志結(jié)束；對(duì)需要分詞的字符串進(jìn)行大小寫(xiě)轉(zhuǎn)換和轉(zhuǎn)碼預(yù)處理，輸入字符串以字符的形式進(jìn)行匹配，一個(gè)char如果能取到hitList，則鎖定hitList，循環(huán)到第二個(gè)char，如果能在hitList里與上一個(gè)char匹配成詞，則保存當(dāng)前的newLexeme，并加入到輸出結(jié)果集；繼續(xù)判斷是否讀取到了isEnd()，如果不是，則將context.currCursor偏移1位，繼續(xù)取詞，以此類(lèi)推，直到遍歷完整個(gè)字符串。

4.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng)，其特征在于，文檔儲(chǔ)存和索引模塊中，通過(guò)倒排索引實(shí)現(xiàn)“單詞-文檔矩陣”的具體存儲(chǔ)，通過(guò)倒排索引，可以根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表。

5.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng)，其特征在于，敏感內(nèi)容相似度評(píng)分模塊，通過(guò)BM25評(píng)分函數(shù)和多維向量相似度算法進(jìn)行評(píng)分。

6.如權(quán)利要求5的一種敏感文本識(shí)別的系統(tǒng)，其特征在于，BM25評(píng)分函數(shù)對(duì)單個(gè)敏感詞的評(píng)分加權(quán)公式為：<...

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：廖巍，郭梓軒，韓敏，劉紅宇，
申請(qǐng)(專(zhuān)利權(quán))人：武漢華工安鼎信息技術(shù)有限責(zé)任公司，
類(lèi)型：發(fā)明
國(guó)別省市：湖北;42

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)