基于機器學習建模抽取網頁結構的方法技術

技術編號：15691088 閱讀：76 留言：0更新日期：2017-06-24 04:00

本發明專利技術提供一種基于機器學習建模抽取網頁結構的方法，涉及數據采集、數據結構分析、機器學習技術，本發明專利技術包括機器學習的網頁抽取設計模式和存儲錄制規則；其中，網頁抽取設計模式是推薦網頁字段抽取方案，主動學習網頁字段抽取方法；存儲錄制規則是將錄制規則通過rest服務接收，并設置一組識別標簽。解決了網頁爬取，分析者需要自己分析查看網頁源碼、自己手動編寫抽取規則、規則不能重復使用等問題。

Method for extracting web page structure based on machine learning modeling

The present invention provides a method for extracting web structure modeling based on machine learning, involving data acquisition, data structure analysis, machine learning technology, the invention includes a design model and storage machine learning web recording rules; among them, web design pattern is recommended \field extraction scheme, active learning of\ field extraction method; storage the recording rules are recording rules received by the rest service, and set up a set of identification tags. Solve the web crawling, analysts need to analyze their own web page source code, and manually write their own extraction rules, rules can not be reused problems.

全部詳細技術資料下載

【技術實現步驟摘要】
基于機器學習建模抽取網頁結構的方法
本專利技術涉及數據采集、數據結構分析、機器學習技術，尤其涉及一種基于機器學習建模抽取網頁結構的方法。
技術介紹
目前身處在大數據的時代里，隨著公司和個人對數據的需求逐漸增多，而數據的安全性也受到了更嚴密的保護，對外開放的數據接口越來越少，那么就有了各種各樣的爬蟲軟件，比如《一種非結構化網頁信息的自動采集方法》專利中包含以下幾個步驟：1)計算機系統從數據存儲裝置中讀取網址鏈接表；2)檢測網址鏈接表中是否有待采集的網址，若否，則采集結束；3)若步驟2的檢測結果為是，則選擇對應于待采集的網址的分解規則；4)創建至少一個線程，該至少一個線程通過所選的分解規則分解當前網址的頁面；5)分解完成后，將需保存的網頁信息及采集狀態信息保存到數據存儲裝置，并返回步驟2）。但是大部分都是爬取到網頁內容后，都會遇到各種網頁結構抽取，網頁內容分析的困難，因為網頁結構千變萬化，不可能會有一種或幾種規則就能將所有網頁進行結構化數據抽取，所以不管爬取到的網頁URL有多少，到網頁結構抽取分析，將會是個瓶頸，會需要專業的分析人員，進行Dom、正則、Xpath等分析。
技術實現思路
為了解決以上技術問題，本專利技術提出了一種基于機器學習建模抽取網頁結構的方法。當人們打開網站時，通過瀏覽頁面信息，能快速的獲取到想要的信息，尤其是打開歷史網站，根本不用花很多時間，根據記憶力便能快速找到。我們把這種人類學習法用在了機器學習采集網頁上，在采集需求比較多的情況下，操作簡單化的網頁規則錄制將變得非常重要，它替代了專業的網頁規則抽取分析人員，只需要用戶通過鼠標選中網頁中需要的...
基于機器學習建模抽取網頁結構的方法

【技術保護點】
基于機器學習建模抽取網頁結構的方法，其特征在于，包括機器學習的網頁抽取設計模式和存儲錄制規則；其中，網頁抽取設計模式是推薦網頁字段抽取方案，主動學習網頁字段抽取方法；存儲錄制規則是將錄制規則通過rest服務接收，并設置一組識別標簽。

【技術特征摘要】
1.基于機器學習建模抽取網頁結構的方法，其特征在于，包括機器學習的網頁抽取設計模式和存儲錄制規則；其中，網頁抽取設計模式是推薦網頁字段抽取方案，主動學習網頁字段抽取方法；存儲錄制規則是將錄制規則通過rest服務接收，并設置一組識別標簽。2.根據權利要求1所述的方法，其特征在于識別標簽包括頁面url、規則名稱、時間戳做為數據的RowKey。3.根據權利要求1或2所述的方法，其特征在于，主要包括如下幾個方面，1）網頁結構模糊抽取，主要是根據機器建模中的概率算法提取出結構內容，若內容結構不符合，進行修改，并再次保存到建模中；2）通過貝葉斯學習，機器建模衍生出深層次的網頁抽取...

【專利技術屬性】
技術研發人員：孫海峰，崔樂樂，徐宏偉，
申請(專利權)人：山東浪潮云服務信息科技有限公司，
類型：發明
國別省市：山東,37

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術