• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    從互聯網中識別分析企業主體信息方法、裝置及存儲介質制造方法及圖紙

    技術編號:24251651 閱讀:30 留言:0更新日期:2020-05-22 23:37
    本發明專利技術涉及企業主體信息的識別和分析技術領域,具體涉及一種從互聯網中識別分析企業主體信息方法、裝置及存儲介質,該方法包括以下步驟:將N個企業主體信息劃分為M個不同的區域,利用字典樹算法對每個所述區域中的所有所述企業主體信息構建字典樹,得到M個字典樹;以I個所述字典樹為一個小組,將M個字典樹分為J個小組;將所述J個小組聚合為一個企業主體信息識別服務;將所述企業主體信息識別服務封裝為統一的遠程過程調用接口;調用所述遠程過程調用接口,同時使用多線程對所述J個小組進行并行查詢;存儲所識別的企業主體信息及相應的查詢結果,實現了快速的從互聯網信息中快速識別企業主體信息并進行分析的目的。

    Methods, devices and storage media of identifying and analyzing enterprise subject information from the Internet

    【技術實現步驟摘要】
    從互聯網中識別分析企業主體信息方法、裝置及存儲介質
    本專利技術涉及企業主體信息的識別和分析
    ,具體涉及一種從互聯網中識別分析企業主體信息方法、裝置及存儲介質。
    技術介紹
    數據作為大數據時代重要的資源,分散在各行業,其中互聯網上的數據資源尤為巨大,并以驚人的速度增長,數據中存在大量的、有價值的信息,如新聞、企業招聘信息、自媒體信息、招投標信息等。國家市場監督總局2019年2月發布信息,全國市場主體數量1.11億戶,其中企業3500萬戶,而與之關聯的數據大量存在互聯網中,目前對互聯網信息的識別常用的有以下幾種技術:A、正則表達式正則表達式只適合匹配文本字面,不適合匹配文本意義,寫一個復雜的HTML信息匹配識別的正則比較麻煩,不如使用針對特定意義的處理器來處理。優勢在于:只要熟練應用正則表達式,而且匹配的目標是純文本,那么相比于寫分析器來說,正則可以更快速的完成工作。還有在捕獲字符串的能力,正則也可以很好的完成工作。不足之處:寫法復雜,替換功能差、容易引起性能問題,可讀性差等。B、DOM分析器DOM分析器的優點在于:開發人員只需調用建樹指令,利用navigationAPIs訪問所需的樹節點來完成任務,編程容易,添加和修改樹中的元素容易。不足之處:DOM分析器在處理很大的XML文檔時,需要頻繁的改變的服務中,對性能和內存的要求比較高。C、Jsoup通過HttpClient先獲取到html,直接解析某個URL地址、HTML文本內容。優點在于:它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。不足之處:ajax加載的異步數據,信息內容無法識別并解析。專利技術人在實踐中,發現上述現有技術存在以下缺陷:上述識別方法所采用的搜索技術多為以少數關鍵詞去長文本當中搜索,但是目前的需求是從長文本當中識別短的企業主體名稱。并且在無算法情況下,逐條信息與企業名稱匹配,時間代價太大。
    技術實現思路
    為了解決上述技術問題,本專利技術的目的在于提供一種從互聯網中識別分析企業主體信息方法、裝置及存儲介質,所采用的技術方案具體如下:第一方面,本專利技術實施例提供了一種從互聯網中識別分析企業主體信息方法,該方法包括以下步驟:將N個企業主體信息劃分為M個不同的區域,利用字典樹算法對每個所述區域中的所有所述企業主體信息構建字典樹,得到M個字典樹;以I個所述字典樹為一個小組,將M個字典樹分為J個小組;將所述J個小組聚合為一個企業主體信息識別服務;將所述企業主體信息識別服務封裝為統一的遠程過程調用接口;調用所述遠程過程調用接口,同時使用多線程對所述J個小組進行并行查詢;存儲所識別的企業主體信息及相應的查詢結果。進一步,所述構建字典樹時,采用多線程進行并行構建。進一步,所述字典樹算法采用ac自動機算法,所述ac自動機算法中在構建失敗指針之后,還包括以下步驟:對失敗指針的二次處理:在同時滿足以下條件時,直接把尾節點的失敗指針修改為其父節點的失敗指針的失敗指針中的子節點:條件1:某一尾節點的所代表的字符串和其父節點所代表的字符串相同;條件2:該尾節點的失敗指針不是根節點,且其失敗指針的父節點是根節點;條件3:該尾節點的父節點的失敗指針的失敗指針不是指向根節點,且其父節點的失敗指針的失敗指針中的子節點中具有和該尾節點所代表的字符串相同的節點。進一步,所述把尾節點的失敗指針修改為其父節點的失敗指針的失敗指針中的子節點之后,還包括:為每個節點添加是否為一個詞的結尾的屬性。進一步,在所述為每個節點添加是否為一個詞的結尾的屬性之后,還包括:若某一節點向其根節點回溯的過程中所產生的關鍵詞和該根節點的某個分支的關鍵詞完全相同,則把所述節點的branch列表中添加一個指向所述分支的尾節點的指針。第二方面,本專利技術實施例提供了一種從互聯網中識別分析企業主體信息裝置,該裝置包括:區域劃分模塊,用于將N個企業主體信息劃分為M個不同的區域;字典樹構建模塊,用于利用字典樹算法對每個所述區域中的所有所述企業主體信息構建字典樹,得到M個字典樹;分組模塊,用于以I個所述字典樹為一個小組,將M個字典樹分為J個小組;生成服務模塊,用于將所述J個小組聚合為一個企業主體信息識別服務;封裝模塊,用于將所述企業主體信息識別服務封裝為統一的遠程過程調用接口;查詢模塊,用于調用所述遠程過程調用接口,同時使用多線程對所述J個小組進行并行查詢;存儲模塊,用于存儲所識別的企業主體信息及相應的查詢結果。進一步,該裝置包括多個并行的字典樹構建模塊。進一步,所述字典樹構建模塊采用ac自動機算法構建所述字典樹,在利用所述ac自動機算法構建失敗指針之后還包括修正模塊,所述修正模塊用于在同時滿足以下條件時,直接把尾節點的失敗指針修改為其父節點的失敗指針的失敗指針中的子節點:條件1:某一尾節點的所代表的字符串和其父節點所代表的字符串相同;條件2:該尾節點的失敗指針不是根節點,且其失敗指針的父節點是根節點;條件3:該尾節點的父節點的失敗指針的失敗指針不是指向根節點,且其父節點的失敗指針的失敗指針中的子節點中具有和該尾節點所代表的字符串相同的節點。進一步,所述修正模塊,還包括:添加單詞屬性模塊,用于為每個節點添加是否為一個詞的結尾的屬性;添加分支指針模塊,用于在某一節點向其根節點回溯的過程中所產生的關鍵詞和該根節點的某個分支的關鍵詞完全相同,則把所述節點的branch列表中添加一個指向所述分支的尾節點的指針。第三方面,本專利技術實施例提供了一種存儲介質,該存儲介質中存儲有計算機可讀的程序指令,所述程序指令被處理器執行時實現權利要求1至5中任意一項所述的方法。本專利技術具有如下有益效果:本專利技術實施例提供了一種從互聯網中識別分析企業主體信息方法,對部署在互聯網上的多個服務節點建立連接,對互聯網上的多個新聞資訊站點發起并行連接,快速識別企業主體信息,實現了快速的從互聯網信息中快速識別企業主體信息并進行分析的目的。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案和優點,下面將對實施例或現有技術描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它附圖。圖1為本專利技術一個實施例所提供的一種從互聯網中識別分析企業主體信息方法流程圖;圖2為利用saysheshrheher構建的字典樹的結構示意圖;圖3為本專利技術實施例所提供的實施環境圖;圖4為利用heherrrsheerrrrrtttt構建的字典樹的結構示意圖;圖5為在圖4的基礎上構造的失敗指針之后的結構示意圖;圖6為本文檔來自技高網
    ...

    【技術保護點】
    1.一種從互聯網中識別分析企業主體信息方法,其特征在于,該方法包括以下步驟:/n將N個企業主體信息劃分為M個不同的區域,利用字典樹算法對每個所述區域中的所有所述企業主體信息構建字典樹,得到M個字典樹;/n以I個所述字典樹為一個小組,將M個字典樹分為J個小組;/n將所述J個小組聚合為一個企業主體信息識別服務;/n將所述企業主體信息識別服務封裝為統一的遠程過程調用接口;/n調用所述遠程過程調用接口,同時使用多線程對所述J個小組進行并行查詢;/n存儲所識別的企業主體信息及相應的查詢結果。/n

    【技術特征摘要】
    1.一種從互聯網中識別分析企業主體信息方法,其特征在于,該方法包括以下步驟:
    將N個企業主體信息劃分為M個不同的區域,利用字典樹算法對每個所述區域中的所有所述企業主體信息構建字典樹,得到M個字典樹;
    以I個所述字典樹為一個小組,將M個字典樹分為J個小組;
    將所述J個小組聚合為一個企業主體信息識別服務;
    將所述企業主體信息識別服務封裝為統一的遠程過程調用接口;
    調用所述遠程過程調用接口,同時使用多線程對所述J個小組進行并行查詢;
    存儲所識別的企業主體信息及相應的查詢結果。


    2.根據權利要求1所述的一種從互聯網中識別分析企業主體信息方法,其特征在于,所述構建字典樹時,采用多線程進行并行構建。


    3.根據權利要求1或者2所述的一種從互聯網中識別分析企業主體信息方法,其特征在于,所述字典樹算法采用ac自動機算法,所述ac自動機算法中在構建失敗指針之后,還包括以下步驟:
    對失敗指針的二次處理:在同時滿足以下條件時,直接把尾節點的失敗指針修改為其父節點的失敗指針的失敗指針中的子節點:
    條件1:某一尾節點的所代表的字符串和其父節點所代表的字符串相同;
    條件2:該尾節點的失敗指針不是根節點,且其失敗指針的父節點是根節點;
    條件3:該尾節點的父節點的失敗指針的失敗指針不是指向根節點,且其父節點的失敗指針的失敗指針中的子節點中具有和該尾節點所代表的字符串相同的節點。


    4.根據權利要求3所述的一種從互聯網中識別分析企業主體信息方法,其特征在于,所述把尾節點的失敗指針修改為其父節點的失敗指針的失敗指針中的子節點之后,還包括:為每個節點添加是否為一個詞的結尾的屬性。


    5.根據權利要求1所述的一種從互聯網中識別分析企業主體信息方法,其特征在于,在所述為每個節點添加是否為一個詞的結尾的屬性之后,還包括:
    若某一節點向其根節點回溯的過程中所產生的關鍵詞和該根節點的某個分支的關鍵詞完全相同,則把所述節點的branch列表中添加一個指向所述分支的尾節點的指針。


    6.一種從互聯網中識別分析企業主體信息裝置...

    【專利技術屬性】
    技術研發人員:賈新李善平朱紅生晉梁昊
    申請(專利權)人:河南拓普計算機網絡工程有限公司
    類型:發明
    國別省市:河南;41

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av永久无码精品漫画| H无码精品3D动漫在线观看| 人妻少妇偷人精品无码| 亚洲爆乳大丰满无码专区| 日韩精品无码免费专区午夜不卡| 亚洲AV无码一区二区二三区入口| 无码人妻精品一区二区三区久久久| 亚洲熟妇少妇任你躁在线观看无码| 久久精品国产亚洲AV无码娇色| 精品久久久久久无码人妻| 人妻少妇偷人精品无码 | 国产精品99久久久精品无码 | 成人无码嫩草影院| 亚洲AV无码精品色午夜果冻不卡| 无码人妻丰满熟妇啪啪网站牛牛 | 久久亚洲AV成人无码国产| 久久人妻少妇嫩草AV无码蜜桃| 97性无码区免费| 免费无码中文字幕A级毛片| 国产乱人伦Av在线无码| 久久亚洲av无码精品浪潮| 人妻老妇乱子伦精品无码专区 | 曰批全过程免费视频在线观看无码| 一本大道无码av天堂| 久久亚洲AV无码精品色午夜| 亚洲国产精品无码久久SM | 亚洲Av永久无码精品黑人| 日韩精品无码AV成人观看| 中文有码vs无码人妻| 亚洲精品无码Av人在线观看国产| 狠狠躁天天躁无码中文字幕| 一级片无码中文字幕乱伦| 用舌头去添高潮无码视频| 无码视频免费一区二三区| 久久久久亚洲AV无码去区首| 全免费a级毛片免费看无码| 国产成人精品无码一区二区老年人 | 人妻少妇精品无码专区动漫| 亚洲AV无码专区在线厂| 国产精品成人99一区无码| 人妻丰满熟妇aⅴ无码|