• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    網頁數據獲取方法、裝置、設備及介質制造方法及圖紙

    技術編號:24251643 閱讀:43 留言:0更新日期:2020-05-22 23:37
    本發明專利技術實施例公開了一種網頁數據獲取方法、裝置、設備及介質。該方法通過爬取預設網址的網頁數據;利用預設的機器學習算法集合對網頁數據進行分詞處理,得到網頁數據的詞向量關系、關鍵字;根據詞向量關系、關鍵字分析網頁數據的主題,得到網頁數據的主題分類結果;將符合預設條件的主題分類結果對應的網頁數據存儲至數據庫。根據本發明專利技術實施例,能夠快速精準獲取所需數據,大大減少處理時間,降低出錯率。

    Web data acquisition methods, devices, equipment and media

    【技術實現步驟摘要】
    網頁數據獲取方法、裝置、設備及介質
    本專利技術涉及互聯網
    ,尤其涉及一種網頁數據獲取方法、裝置、設備及介質。
    技術介紹
    隨著互聯網的發展,當前許多信息需要從網站收集并進行處理。目前從網站收集數據的方法主要是程序瀏覽網頁,使用正則表達式處理數據。但是當前的處理方式過于繁瑣,效率比較低,速度較慢;匹配易出錯,在大量的各種數據信息情況下,可能會失誤,造成最終結果的誤差和錯誤;編寫復雜且不便于閱讀;無法實現數據分類,數據分析等功能。
    技術實現思路
    為了解決上述中的至少一個技術問題,本專利技術實施例提供了一種數據獲取方法、裝置、設備及介質,能夠快速精準獲取所需數據,大大減少處理時間,降低出錯率。第一方面,本專利技術實施例提供了一種網頁數據獲取方法,方法包括:爬取預設網址的網頁數據;利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字;根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果;將符合預設條件的所述主題分類結果對應的網頁數據存儲至數據庫。根據本專利技術提供的網頁數據獲取方法,所述方法還包括:當所述主題分類結果不符合所述預設條件時,調整所述預設的機器學習算法集合的各算法參數,重新確定所述網頁數據的主題分類結果。根據本專利技術提供的網頁數據獲取方法,所述調整所述預設的機器學習算法集合的各算法參數,包括:調整詞向量的映射方向、調整所述關鍵字的提取范圍。r>根據本專利技術提供的網頁數據獲取方法,所述方法還包括:將符合所述預設條件的所述重新確定的主題分類結果對應的網頁數據及各算法參數存儲至數據庫。根據本專利技術提供的網頁數據獲取方法,所述方法還包括:利用梯度下降法調整所述預設的機器學習算法集合的各算法參數。根據本專利技術提供的網頁數據獲取方法,所述利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字,包括:利用結巴分詞算法對所述網頁數據進行分詞處理,得到所述網頁數據的分詞結果和詞頻統計結果;利用神經網絡Word2vec算法對所述分詞結果進行處理,得到詞向量關系;利用詞頻逆文本頻率TF-IDF算法對所述詞頻統計結果進行處理,并根據常用詞權重得到所述網頁數據的關鍵字。根據本專利技術提供的網頁數據獲取方法,所述方法還包括:進行分詞處理時,將常用詞作為分詞的主詞典,刪除所述網頁數據中的停用詞。根據本專利技術提供的網頁數據獲取方法,將符合所述預設條件的所述主題分類結果對應的網頁數據的關鍵字加入到所述常用詞的詞表中。根據本專利技術提供的網頁數據獲取方法,所述方法還包括:利用隱馬爾可夫模型HMM和維特比算法Viterbi對所述網頁數據的未登錄詞進行分詞處理,得到所述網頁數據未登錄詞的分詞結果和詞頻統計結果。根據本專利技術提供的網頁數據獲取方法,所述根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果,包括:利用聚類法Mean-Shift算法分析所述網頁數據的主題,得到所述網頁數據的主題分類結果。第二方面,本專利技術實施例提供了一種網頁數據獲取裝置,裝置包括:數據獲取模塊,用于爬取預設網址的網頁數據;第一分析模塊,用于利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字;第二分析模塊,用于根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果;數據存儲模塊,用于將符合預設條件的所述主題分類結果對應的網頁數據存儲至數據庫。第三方面,本專利技術實施例提供了一種網頁數據獲取設備,包括:至少一個處理器、至少一個存儲器以及存儲在存儲器中的計算機程序指令,當計算機程序指令被處理器執行時實現如上述實施方式中第一方面的方法。第四方面,本專利技術實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序指令,當計算機程序指令被處理器執行時實現如上述實施方式中第一方面的方法。本專利技術實施例提供的網頁數據獲取方法、裝置、設備及介質。該方案通過爬取預設網址的網頁數據;利用預設的機器學習算法集合對網頁數據進行分詞處理,得到網頁數據的詞向量關系、關鍵字;根據詞向量關系、關鍵字分析網頁數據的主題,得到網頁數據的主題分類結果;將符合預設條件的主題分類結果對應的網頁數據存儲至數據庫。能夠快速精準獲取所需數據,大大減少處理時間,降低出錯率。附圖說明為了更清楚地說明本專利技術實施例的技術方案,下面將對本專利技術實施例中所需要使用的附圖作簡單地介紹,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1示出了本專利技術實施例的網頁數據獲取方法的流程示意圖;圖2示出了本專利技術另一個實施例的網頁數據獲取方法的流程示意圖;圖3示出了本專利技術實施例的詞頻統計結果的示意圖;圖4示出了本專利技術實施例的詞向量關系示意圖;圖5示出了本專利技術實施例的機器學習算法集合的流程示意圖;圖6示出了本專利技術實施例的網頁數據獲取裝置的結構圖;圖7示出了本專利技術實施例的網頁數據獲取設備的硬件結構圖。具體實施方式下面將詳細描述本專利技術的各個方面的特征和示例性實施例,為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本專利技術進行進一步詳細描述。應理解,此處所描述的具體實施例僅被配置為解釋本專利技術,并不被配置為限定本專利技術。對于本領域技術人員來說,本專利技術可以在不需要這些具體細節中的一些細節的情況下實施。下面對實施例的描述僅僅是為了通過示出本專利技術的示例來提供對本專利技術更好的理解。需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。下面結合附圖,對本專利技術實施例的網頁數據獲取方法、裝置、設備及介質進行詳細說明。應注意,這些實施例并不是為了限制本專利技術的保護范圍。圖1示出了本專利技術實施例的網頁數據獲取方法的流程示意圖。如圖1所示,本專利技術實施例的網頁數據獲取方法包括如下步驟:S110,爬取預設網址的網頁數據;S120,利用預設的機器學習算法集合對網頁數據進行分詞處理,得到網頁數據的詞向量關系、關鍵字;S130,根據詞向量關系、關鍵字分析網頁數據的主題,得到網頁數據的主題分類結果;S140,將符合預設條件本文檔來自技高網...

    【技術保護點】
    1.一種網頁數據獲取方法,所述方法包括:/n爬取預設網址的網頁數據;/n利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字;/n根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果;/n將符合預設條件的所述主題分類結果對應的網頁數據存儲至數據庫。/n

    【技術特征摘要】
    1.一種網頁數據獲取方法,所述方法包括:
    爬取預設網址的網頁數據;
    利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字;
    根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果;
    將符合預設條件的所述主題分類結果對應的網頁數據存儲至數據庫。


    2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
    當所述主題分類結果不符合所述預設條件時,調整所述預設的機器學習算法集合的各算法參數,重新確定所述網頁數據的主題分類結果。


    3.根據權利要求2所述的方法,其特征在于,所述調整所述預設的機器學習算法集合的各算法參數,包括:
    調整詞向量的映射方向、調整所述關鍵字的提取范圍。


    4.根據權利要求2所述的方法,其特征在于,所述方法還包括:
    將符合所述預設條件的所述重新確定的主題分類結果對應的網頁數據及各算法參數存儲至數據庫。


    5.根據權利要求2所述的方法,其特征在于,所述方法還包括:
    利用梯度下降法調整所述預設的機器學習算法集合的各算法參數。


    6.根據權利要求1所述的方法,其特征在于,所述利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字,包括:
    利用結巴分詞算法對所述網頁數據進行分詞處理,得到所述網頁數據的分詞結果和詞頻統計結果;
    利用神經網絡Word2vec算法對所述分詞結果進行處理,得到詞向量關系;
    利用詞頻逆文本頻率TF-IDF算法對所述詞頻統計結果進行處理,并根據常用詞權重得到所述網頁數據的關鍵字。


    7.根據權利要求6所述的方法,其特征在于,所述方法還...

    【專利技術屬性】
    技術研發人員:韓恩高夢嬌
    申請(專利權)人:中國移動通信集團河北有限公司中國移動通信集團有限公司
    類型:發明
    國別省市:河北;13

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码粉嫩虎白一线天在线观看| 亚洲AV无码之国产精品| 亚洲成a人在线看天堂无码| 亚洲最大av无码网址| 亚洲成AV人片在线播放无码| 亚洲成a∧人片在线观看无码| 亚洲国产精品成人AV无码久久综合影院 | 精品无码久久久久国产动漫3d| 精品久久久无码人妻中文字幕豆芽 | 国产精品无码免费播放| 久久久久亚洲Av片无码v | 久久久久亚洲精品无码系列| 日本无码一区二区三区白峰美| 亚洲精品无码日韩国产不卡?V| 亚洲日韩国产AV无码无码精品| 亚洲AV无码1区2区久久| 成人无码AV一区二区| 精品人妻无码专区在中文字幕| 亚洲精品无码少妇30P| 无码精品A∨在线观看| 亚洲精品无码AV人在线播放| 国产99久久九九精品无码| 免费人妻av无码专区| 精品久久久久久无码中文野结衣| 欧洲精品久久久av无码电影 | 精品无码国产AV一区二区三区| 97久久精品亚洲中文字幕无码| 国产做无码视频在线观看浪潮 | 亚洲a无码综合a国产av中文| 亚洲AV无码无限在线观看不卡 | HEYZO无码综合国产精品| 性色av无码不卡中文字幕| 精品无码人妻一区二区三区18| 亚洲大尺度无码无码专线一区| 在人线av无码免费高潮喷水| 亚洲av成人无码网站…| 国产成人综合日韩精品无码| 精品无码成人片一区二区| 亚洲成A人片在线观看无码3D| 三上悠亚ssⅰn939无码播放| 日韩欧国产精品一区综合无码|