【技術(shù)實(shí)現(xiàn)步驟摘要】
一種敏感文本識(shí)別的系統(tǒng)和方法
本專(zhuān)利技術(shù)涉及的是文本識(shí)別
,特別涉及一種敏感文本識(shí)別的系統(tǒng)和方法。
技術(shù)介紹
國(guó)外很多公司在我國(guó)眾多領(lǐng)域和行業(yè)占據(jù)了主導(dǎo)地位,占據(jù)了龐大的市場(chǎng)份額,甚至包括關(guān)系到國(guó)計(jì)民生的基礎(chǔ)設(shè)施行業(yè)和中國(guó)政府公共事業(yè)、金融、鐵路、航空、石油化工和軍工等敏感領(lǐng)域。然而國(guó)外軟件安全漏洞事故頻發(fā),令人十分擔(dān)憂(yōu)。而現(xiàn)在國(guó)內(nèi)更加重視核心技術(shù)的自主可控,其中自主可控主要針對(duì)的是關(guān)鍵技術(shù)和卡脖子的行業(yè),包括芯片、操作系統(tǒng)、軟件、高精密度機(jī)床等,預(yù)期政策對(duì)于科技創(chuàng)新和自主可控的支持力度加大,各類(lèi)基于國(guó)產(chǎn)化平臺(tái)的信息化系統(tǒng)應(yīng)運(yùn)而生。同時(shí)隨著各類(lèi)信息化系統(tǒng)的出現(xiàn),相關(guān)敏感信息的種類(lèi)和數(shù)量在不斷增多,如政府的組織結(jié)構(gòu)與決策信息,企業(yè)的某些技術(shù)資料,部隊(duì)的武器裝備部署詳情等,都是需要保護(hù)的敏感信息。為了防止政府,企業(yè)和軍隊(duì)因信息泄露而蒙受損失,辦公系統(tǒng)需要對(duì)系統(tǒng)中流通的數(shù)據(jù)和信息進(jìn)行相應(yīng)的安全檢查過(guò)濾,以保證這些敏感信息不會(huì)因?yàn)楣ぷ魅藛T操作不當(dāng)或者其他惡意的原因而遭到泄露。敏感信息泄露的情況分為兩種,一種是流通的文件中直接包含敏感關(guān)鍵字,在傳遞和閱覽過(guò)程中造成信息泄露。另一種是文檔中使用了與敏感詞語(yǔ)義相近或結(jié)構(gòu)類(lèi)似的詞匯和語(yǔ)法,這樣也可能造成相應(yīng)的損失。敏感內(nèi)容相似度識(shí)別技術(shù)的研究意義,即盡量減少這類(lèi)通過(guò)打“擦邊球”而造成信息泄露的情況出現(xiàn),為政府,企業(yè)和軍隊(duì)的信息安全保駕護(hù)航。現(xiàn)有的敏感詞識(shí)別技術(shù),主要是從效率上對(duì)敏感詞檢索過(guò)程做了優(yōu)化,比較典型的有自動(dòng)機(jī)算法和TTMP算法,前者是通過(guò)構(gòu)建詞 ...
【技術(shù)保護(hù)點(diǎn)】
1.一種敏感文本識(shí)別的系統(tǒng),其特征在于,包括:分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊;其中:/n分詞模塊,用于對(duì)文檔進(jìn)行分析和拆分,將文檔整理為一個(gè)單詞的詞典,依據(jù)單詞詞典對(duì)建立倒排記錄表,其中,倒排列表記錄了出現(xiàn)過(guò)某個(gè)單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息;/n文檔儲(chǔ)存和索引模塊,用于當(dāng)文檔經(jīng)過(guò)分詞模塊處理以后,對(duì)得到的數(shù)據(jù)以文檔為單位進(jìn)行存儲(chǔ),并且為文檔建立倒排索引,根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表;/n敏感內(nèi)容相似度評(píng)分模塊,用于對(duì)文檔針對(duì)單個(gè)敏感詞和多個(gè)敏感詞進(jìn)行相似度評(píng)分;/n文檔匹配模塊,根據(jù)文檔儲(chǔ)存和索引模塊返回的檢索結(jié)果,依據(jù)檢索結(jié)果偏移量信息返回每個(gè)敏感詞在文檔內(nèi)的具體位置,同時(shí)將指定長(zhǎng)度的上下文返回給上層管理模塊;/n上層管理模塊,用于和用戶(hù)進(jìn)行交互,接收用戶(hù)需要檢測(cè)的敏感詞組,傳遞給分詞模塊;還用于上接收需要存儲(chǔ)的文檔,將文檔傳輸給分詞模塊。/n
【技術(shù)特征摘要】
1.一種敏感文本識(shí)別的系統(tǒng),其特征在于,包括:分詞模塊、文檔和索引模塊、敏感內(nèi)容相似度評(píng)分模塊、文檔匹配模塊、上層管理模塊;其中:
分詞模塊,用于對(duì)文檔進(jìn)行分析和拆分,將文檔整理為一個(gè)單詞的詞典,依據(jù)單詞詞典對(duì)建立倒排記錄表,其中,倒排列表記錄了出現(xiàn)過(guò)某個(gè)單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息;
文檔儲(chǔ)存和索引模塊,用于當(dāng)文檔經(jīng)過(guò)分詞模塊處理以后,對(duì)得到的數(shù)據(jù)以文檔為單位進(jìn)行存儲(chǔ),并且為文檔建立倒排索引,根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表;
敏感內(nèi)容相似度評(píng)分模塊,用于對(duì)文檔針對(duì)單個(gè)敏感詞和多個(gè)敏感詞進(jìn)行相似度評(píng)分;
文檔匹配模塊,根據(jù)文檔儲(chǔ)存和索引模塊返回的檢索結(jié)果,依據(jù)檢索結(jié)果偏移量信息返回每個(gè)敏感詞在文檔內(nèi)的具體位置,同時(shí)將指定長(zhǎng)度的上下文返回給上層管理模塊;
上層管理模塊,用于和用戶(hù)進(jìn)行交互,接收用戶(hù)需要檢測(cè)的敏感詞組,傳遞給分詞模塊;還用于上接收需要存儲(chǔ)的文檔,將文檔傳輸給分詞模塊。
2.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng),其特征在于,分詞模塊通過(guò)正向迭代最細(xì)粒度拆分算法對(duì)文檔進(jìn)行拆分。
3.如權(quán)利要求2的一種敏感文本識(shí)別的系統(tǒng),其特征在于,正向迭代最細(xì)粒度拆分算法,具體為:首先Dictionary類(lèi)加載所有詞典,存儲(chǔ)在map中,并以isEnd()標(biāo)志結(jié)束;對(duì)需要分詞的字符串進(jìn)行大小寫(xiě)轉(zhuǎn)換和轉(zhuǎn)碼預(yù)處理,輸入字符串以字符的形式進(jìn)行匹配,一個(gè)char如果能取到hitList,則鎖定hitList,循環(huán)到第二個(gè)char,如果能在hitList里與上一個(gè)char匹配成詞,則保存當(dāng)前的newLexeme,并加入到輸出結(jié)果集;繼續(xù)判斷是否讀取到了isEnd(),如果不是,則將context.currCursor偏移1位,繼續(xù)取詞,以此類(lèi)推,直到遍歷完整個(gè)字符串。
4.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng),其特征在于,文檔儲(chǔ)存和索引模塊中,通過(guò)倒排索引實(shí)現(xiàn)“單詞-文檔矩陣”的具體存儲(chǔ),通過(guò)倒排索引,可以根據(jù)單詞屬性快速獲取包含這個(gè)單詞的文檔列表。
5.如權(quán)利要求1的一種敏感文本識(shí)別的系統(tǒng),其特征在于,敏感內(nèi)容相似度評(píng)分模塊,通過(guò)BM25評(píng)分函數(shù)和多維向量相似度算法進(jìn)行評(píng)分。
6.如權(quán)利要求5的一種敏感文本識(shí)別的系統(tǒng),其特征在于,BM25評(píng)分函數(shù)對(duì)單個(gè)敏感詞的評(píng)分加權(quán)公式為:<...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:廖巍,郭梓軒,韓敏,劉紅宇,
申請(qǐng)(專(zhuān)利權(quán))人:武漢華工安鼎信息技術(shù)有限責(zé)任公司,
類(lèi)型:發(fā)明
國(guó)別省市:湖北;42
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。