• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于機器學習建模抽取網頁結構的方法技術

    技術編號:15691088 閱讀:76 留言:0更新日期:2017-06-24 04:00
    本發明專利技術提供一種基于機器學習建模抽取網頁結構的方法,涉及數據采集、數據結構分析、機器學習技術,本發明專利技術包括機器學習的網頁抽取設計模式和存儲錄制規則;其中,網頁抽取設計模式是推薦網頁字段抽取方案,主動學習網頁字段抽取方法;存儲錄制規則是將錄制規則通過rest服務接收,并設置一組識別標簽。解決了網頁爬取,分析者需要自己分析查看網頁源碼、自己手動編寫抽取規則、規則不能重復使用等問題。

    Method for extracting web page structure based on machine learning modeling

    The present invention provides a method for extracting web structure modeling based on machine learning, involving data acquisition, data structure analysis, machine learning technology, the invention includes a design model and storage machine learning web recording rules; among them, web design pattern is recommended \field extraction scheme, active learning of\ field extraction method; storage the recording rules are recording rules received by the rest service, and set up a set of identification tags. Solve the web crawling, analysts need to analyze their own web page source code, and manually write their own extraction rules, rules can not be reused problems.

    【技術實現步驟摘要】
    基于機器學習建模抽取網頁結構的方法
    本專利技術涉及數據采集、數據結構分析、機器學習技術,尤其涉及一種基于機器學習建模抽取網頁結構的方法。
    技術介紹
    目前身處在大數據的時代里,隨著公司和個人對數據的需求逐漸增多,而數據的安全性也受到了更嚴密的保護,對外開放的數據接口越來越少,那么就有了各種各樣的爬蟲軟件,比如《一種非結構化網頁信息的自動采集方法》專利中包含以下幾個步驟:1)計算機系統從數據存儲裝置中讀取網址鏈接表;2)檢測網址鏈接表中是否有待采集的網址,若否,則采集結束;3)若步驟2的檢測結果為是,則選擇對應于待采集的網址的分解規則;4)創建至少一個線程,該至少一個線程通過所選的分解規則分解當前網址的頁面;5)分解完成后,將需保存的網頁信息及采集狀態信息保存到數據存儲裝置,并返回步驟2)。但是大部分都是爬取到網頁內容后,都會遇到各種網頁結構抽取,網頁內容分析的困難,因為網頁結構千變萬化,不可能會有一種或幾種規則就能將所有網頁進行結構化數據抽取,所以不管爬取到的網頁URL有多少,到網頁結構抽取分析,將會是個瓶頸,會需要專業的分析人員,進行Dom、正則、Xpath等分析。
    技術實現思路
    為了解決以上技術問題,本專利技術提出了一種基于機器學習建模抽取網頁結構的方法。當人們打開網站時,通過瀏覽頁面信息,能快速的獲取到想要的信息,尤其是打開歷史網站,根本不用花很多時間,根據記憶力便能快速找到。我們把這種人類學習法用在了機器學習采集網頁上,在采集需求比較多的情況下,操作簡單化的網頁規則錄制將變得非常重要,它替代了專業的網頁規則抽取分析人員,只需要用戶通過鼠標選中網頁中需要的數據,通過就會轉化為采集器可以分析的編碼。本專利技術的技術方案是:一種基于機器學習建模抽取網頁結構的方法,包括機器學習的網頁抽取設計模式和存儲錄制規則;其中,網頁抽取設計模式是推薦網頁字段抽取方案,主動學習網頁字段抽取方法;存儲錄制規則是將錄制規則通過rest服務接收,并設置一組識別標簽,包括頁面url、規則名稱、時間戳做為數據的RowKey。主要內容為:1)網頁結構模糊抽取,主要是根據機器建模中的概率算法提取出結構內容,內容結構不符合,可以進行修改,并再次保存到建模中。2)通過貝葉斯學習,機器建模衍生出深層次的網頁抽取,比如抽取某網頁的標題,通過機器建模,不僅可以有抽取標題的選擇,而且可以抽取他的子類及父類相關的元素。3)網頁中列表及翻頁的規則錄制,包括采集一頁簡單網頁的列表或表格信息,包括一列或多列可以循環翻頁;4)列表及詳情錄制,采集一頁簡單網頁的列表信息及每一項的詳情信息,可以循環翻頁;5)URL列表錄制,采集多頁同類型簡單網頁信息,每一頁適用相同規則,提取到的數據匯總到同一張表。例如無翻頁,連續ID內容頁信息提??;6)單網頁錄制,采集一頁簡單的網頁信息。例如獲取某篇新聞的標題、時間、作者等。7)高級錄制,采集一個網站信息,可以配置采集深度,間隔,過濾url,代理等。本專利技術的有益效果是本專利技術安裝及操作非常簡單,而且可以快速生成要采集網站的分析規則,減少了專業網站分析人員參與,使普通用戶采集網站數據并生成結構化數據變的更加易用。附圖說明圖1是本專利技術的工作流程示意圖。具體實施方式下面對本專利技術的內容進行更加詳細的闡述:本專利技術是通過貝葉斯學習法研發的網頁錄制軟件,主要內容為:1)網頁結構模糊抽取,主要是根據機器建模中的概率算法提取出結構內容,內容結構不符合,可以進行修改,并再次保存到建模中。2)通過貝葉斯學習,機器建模衍生出深層次的網頁抽取,比如抽取某網頁的標題,通過機器建模,不僅可以有抽取標題的選擇,而且可以抽取他的子類及父類相關的元素。3)網頁中列表及翻頁的規則錄制,包括采集一頁簡單網頁的列表或表格信息,包括一列或多列可以循環翻頁;4)列表及詳情錄制,采集一頁簡單網頁的列表信息及每一項的詳情信息,可以循環翻頁;5)URL列表錄制,采集多頁同類型簡單網頁信息,每一頁適用相同規則,提取到的數據匯總到同一張表。例如無翻頁,連續ID內容頁信息提??;6)單網頁錄制,采集一頁簡單的網頁信息。例如獲取某篇新聞的標題、時間、作者等。7)高級錄制,采集一個網站信息,可以配置采集深度,間隔,過濾url,代理等。本專利技術安裝及操作具體步驟如下:1)安裝機器建模學習系統,可以安裝在云服務上,通過http協議的服務進行傳輸。2)將網站錄制軟件安裝到瀏覽器上。3)打開要采集的網站,點擊瀏覽器右上角本軟件的圖標,選擇要錄制的方式,比如:網頁中列表及翻頁的規則錄制。4)按照提示,進行選中網頁要錄制的內容,然后點擊“下一步”。5)設置是否翻頁,如果翻頁,點擊網頁中翻頁的標簽,不需要翻頁則點擊“下一步”。6)設置保存字段,點擊3)中選中的內容,進行數據建模,完成后點擊“錄制完成”。7)生成規則錄制文檔,提供給采集系統。本專利技術能讓網頁爬取者更快速的獲取網頁規則及內容信息,并且將網頁爬取和網頁規則分析進行了分離,通過該錄制網頁結構的方法生成的采集規則可以在不同類型的采集器中使用。解決了網頁爬取,分析者需要自己分析查看網頁源碼、自己手動編寫抽取規則、規則不能重復使用等問題。本文檔來自技高網...
    基于機器學習建模抽取網頁結構的方法

    【技術保護點】
    基于機器學習建模抽取網頁結構的方法,其特征在于,包括機器學習的網頁抽取設計模式和存儲錄制規則;其中,網頁抽取設計模式是推薦網頁字段抽取方案,主動學習網頁字段抽取方法;存儲錄制規則是將錄制規則通過rest服務接收,并設置一組識別標簽。

    【技術特征摘要】
    1.基于機器學習建模抽取網頁結構的方法,其特征在于,包括機器學習的網頁抽取設計模式和存儲錄制規則;其中,網頁抽取設計模式是推薦網頁字段抽取方案,主動學習網頁字段抽取方法;存儲錄制規則是將錄制規則通過rest服務接收,并設置一組識別標簽。2.根據權利要求1所述的方法,其特征在于識別標簽包括頁面url、規則名稱、時間戳做為數據的RowKey。3.根據權利要求1或2所述的方法,其特征在于,主要包括如下幾個方面,1)網頁結構模糊抽取,主要是根據機器建模中的概率算法提取出結構內容,若內容結構不符合,進行修改,并再次保存到建模中;2)通過貝葉斯學習,機器建模衍生出深層次的網頁抽取...

    【專利技術屬性】
    技術研發人員:孫海峰崔樂樂,徐宏偉,
    申請(專利權)人:山東浪潮云服務信息科技有限公司
    類型:發明
    國別省市:山東,37

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲综合无码一区二区三区 | 成人无码WWW免费视频| 亚洲精品无码久久久久久久| 最新中文字幕av无码专区| 精品无码人妻一区二区三区18| 亚洲AV无码片一区二区三区| 国产在线无码制服丝袜无码| 人妻av无码一区二区三区| 无码精品人妻一区| 曰产无码久久久久久精品 | 亚洲欧洲av综合色无码 | 人妻丰满熟妇无码区免费| 亚洲精品自偷自拍无码| 亚洲AV无码一区二区二三区软件| 无码一区18禁3D| 98久久人妻无码精品系列蜜桃| 国产精品无码国模私拍视频| 国产成人无码免费看视频软件| 中文字幕久无码免费久久| 国产精品午夜无码av体验区| 亚洲中文字幕无码久久2020| 免费无遮挡无码永久视频| 亚洲精品无码永久在线观看你懂的 | 精品久久久久久无码人妻蜜桃| 久久亚洲AV成人无码软件| 中文字幕人妻无码一夲道| 成人无码视频97免费| 成人无码嫩草影院| 亚洲中文字幕无码爆乳AV| 久久国产精品无码网站| 日韩A无码AV一区二区三区| 无码国产亚洲日韩国精品视频一区二区三区 | 亚洲日韩精品无码专区加勒比☆| 色综合久久久无码中文字幕| 亚洲一级特黄无码片| 久久久g0g0午夜无码精品| 亚洲av无码专区首页| 无码免费午夜福利片在线| 91嫩草国产在线无码观看| 69ZXX少妇内射无码| 少妇无码?V无码专区在线观看|