從互聯網中識別分析企業主體信息方法、裝置及存儲介質制造方法及圖紙

技術編號：24251651 閱讀：30 留言：0更新日期：2020-05-22 23:37

本發明專利技術涉及企業主體信息的識別和分析技術領域，具體涉及一種從互聯網中識別分析企業主體信息方法、裝置及存儲介質，該方法包括以下步驟：將N個企業主體信息劃分為M個不同的區域，利用字典樹算法對每個所述區域中的所有所述企業主體信息構建字典樹，得到M個字典樹；以I個所述字典樹為一個小組，將M個字典樹分為J個小組；將所述J個小組聚合為一個企業主體信息識別服務；將所述企業主體信息識別服務封裝為統一的遠程過程調用接口；調用所述遠程過程調用接口，同時使用多線程對所述J個小組進行并行查詢；存儲所識別的企業主體信息及相應的查詢結果，實現了快速的從互聯網信息中快速識別企業主體信息并進行分析的目的。

Methods, devices and storage media of identifying and analyzing enterprise subject information from the Internet

全部詳細技術資料下載

【技術實現步驟摘要】
從互聯網中識別分析企業主體信息方法、裝置及存儲介質
本專利技術涉及企業主體信息的識別和分析
，具體涉及一種從互聯網中識別分析企業主體信息方法、裝置及存儲介質。
技術介紹
數據作為大數據時代重要的資源，分散在各行業，其中互聯網上的數據資源尤為巨大，并以驚人的速度增長，數據中存在大量的、有價值的信息，如新聞、企業招聘信息、自媒體信息、招投標信息等。國家市場監督總局2019年2月發布信息，全國市場主體數量1.11億戶，其中企業3500萬戶，而與之關聯的數據大量存在互聯網中，目前對互聯網信息的識別常用的有以下幾種技術：A、正則表達式正則表達式只適合匹配文本字面，不適合匹配文本意義，寫一個復雜的HTML信息匹配識別的正則比較麻煩，不如使用針對特定意義的處理器來處理。優勢在于：只要熟練應用正則表達式，而且匹配的目標是純文本，那么相比于寫分析器來說，正則可以更快速的完成工作。還有在捕獲字符串的能力，正則也可以很好的完成工作。不足之處：寫法復雜，替換功能差、容易引起性能問題，可讀性差等。B、DOM分析器DOM分析器的優點在于：開發人員只需調用建樹指令，利用navigationAPIs訪問所需的樹節點來完成任務，編程容易，添加和修改樹中的元素容易。不足之處：DOM分析器在處理很大的XML文檔時，需要頻繁的改變的服務中，對性能和內存的要求比較高。C、Jsoup通過HttpClient先獲取到html，直接解析某個URL地址、HTML文本內容。優點在于：...

【技術保護點】
1.一種從互聯網中識別分析企業主體信息方法，其特征在于，該方法包括以下步驟：/n將N個企業主體信息劃分為M個不同的區域，利用字典樹算法對每個所述區域中的所有所述企業主體信息構建字典樹，得到M個字典樹；/n以I個所述字典樹為一個小組，將M個字典樹分為J個小組；/n將所述J個小組聚合為一個企業主體信息識別服務；/n將所述企業主體信息識別服務封裝為統一的遠程過程調用接口；/n調用所述遠程過程調用接口，同時使用多線程對所述J個小組進行并行查詢；/n存儲所識別的企業主體信息及相應的查詢結果。/n

【技術特征摘要】
1.一種從互聯網中識別分析企業主體信息方法，其特征在于，該方法包括以下步驟：
將N個企業主體信息劃分為M個不同的區域，利用字典樹算法對每個所述區域中的所有所述企業主體信息構建字典樹，得到M個字典樹；
以I個所述字典樹為一個小組，將M個字典樹分為J個小組；
將所述J個小組聚合為一個企業主體信息識別服務；
將所述企業主體信息識別服務封裝為統一的遠程過程調用接口；
調用所述遠程過程調用接口，同時使用多線程對所述J個小組進行并行查詢；
存儲所識別的企業主體信息及相應的查詢結果。

2.根據權利要求1所述的一種從互聯網中識別分析企業主體信息方法，其特征在于，所述構建字典樹時，采用多線程進行并行構建。

3.根據權利要求1或者2所述的一種從互聯網中識別分析企業主體信息方法，其特征在于，所述字典樹算法采用ac自動機算法，所述ac自動機算法中在構建失敗指針之后，還包括以下步驟：
對失敗指針的二次處理：在同時滿足以下條件時，直接把尾節點的失敗指針修改為其父節點的失敗指針的失敗指針中的子節點:
條件1：某一尾節點的所代表的字符串和其父節點所代表的字符串相同；
條件2：該尾節點的失敗指針不是根節點，且其失敗指針的父節點是根節點；
條件3：該尾節點的父節點的失敗指針的失敗指針不是指向根節點，且其父節點的失敗指針的失敗指針中的子節點中具有和該尾節點所代表的字符串相同的節點。

4.根據權利要求3所述的一種從互聯網中識別分析企業主體信息方法，其特征在于，所述把尾節點的失敗指針修改為其父節點的失敗指針的失敗指針中的子節點之后，還包括：為每個節點添加是否為一個詞的結尾的屬性。

5.根據權利要求1所述的一種從互聯網中識別分析企業主體信息方法，其特征在于，在所述為每個節點添加是否為一個詞的結尾的屬性之后，還包括：
若某一節點向其根節點回溯的過程中所產生的關鍵詞和該根節點的某個分支的關鍵詞完全相同，則把所述節點的branch列表中添加一個指向所述分支的尾節點的指針。

6.一種從互聯網中識別分析企業主體信息裝置...

【專利技術屬性】
技術研發人員：賈新，李善平，朱紅生，晉梁昊，
申請(專利權)人：河南拓普計算機網絡工程有限公司，
類型：發明
國別省市：河南;41

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術