【技術實現步驟摘要】
網頁數據獲取方法、裝置、設備及介質
本專利技術涉及互聯網
,尤其涉及一種網頁數據獲取方法、裝置、設備及介質。
技術介紹
隨著互聯網的發展,當前許多信息需要從網站收集并進行處理。目前從網站收集數據的方法主要是程序瀏覽網頁,使用正則表達式處理數據。但是當前的處理方式過于繁瑣,效率比較低,速度較慢;匹配易出錯,在大量的各種數據信息情況下,可能會失誤,造成最終結果的誤差和錯誤;編寫復雜且不便于閱讀;無法實現數據分類,數據分析等功能。
技術實現思路
為了解決上述中的至少一個技術問題,本專利技術實施例提供了一種數據獲取方法、裝置、設備及介質,能夠快速精準獲取所需數據,大大減少處理時間,降低出錯率。第一方面,本專利技術實施例提供了一種網頁數據獲取方法,方法包括:爬取預設網址的網頁數據;利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字;根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果;將符合預設條件的所述主題分類結果對應的網頁數據存儲至數據庫。根據本專利技術提供的網頁數據獲取方法,所述方法還包括:當所述主題分類結果不符合所述預設條件時,調整所述預設的機器學習算法集合的各算法參數,重新確定所述網頁數據的主題分類結果。根據本專利技術提供的網頁數據獲取方法,所述調整所述預設的機器學習算法集合的各算法參數,包括:調整詞向量的映射方向、調整所述關鍵字的提取范圍。r>根據本專利技術提供的網頁數據獲取方法,所述方法還包括:將符合所述預設條件的所述重新確定的主題分類結果對應的網頁數據及各算法參數存儲至數據庫。根據本專利技術提供的網頁數據獲取方法,所述方法還包括:利用梯度下降法調整所述預設的機器學習算法集合的各算法參數。根據本專利技術提供的網頁數據獲取方法,所述利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字,包括:利用結巴分詞算法對所述網頁數據進行分詞處理,得到所述網頁數據的分詞結果和詞頻統計結果;利用神經網絡Word2vec算法對所述分詞結果進行處理,得到詞向量關系;利用詞頻逆文本頻率TF-IDF算法對所述詞頻統計結果進行處理,并根據常用詞權重得到所述網頁數據的關鍵字。根據本專利技術提供的網頁數據獲取方法,所述方法還包括:進行分詞處理時,將常用詞作為分詞的主詞典,刪除所述網頁數據中的停用詞。根據本專利技術提供的網頁數據獲取方法,將符合所述預設條件的所述主題分類結果對應的網頁數據的關鍵字加入到所述常用詞的詞表中。根據本專利技術提供的網頁數據獲取方法,所述方法還包括:利用隱馬爾可夫模型HMM和維特比算法Viterbi對所述網頁數據的未登錄詞進行分詞處理,得到所述網頁數據未登錄詞的分詞結果和詞頻統計結果。根據本專利技術提供的網頁數據獲取方法,所述根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果,包括:利用聚類法Mean-Shift算法分析所述網頁數據的主題,得到所述網頁數據的主題分類結果。第二方面,本專利技術實施例提供了一種網頁數據獲取裝置,裝置包括:數據獲取模塊,用于爬取預設網址的網頁數據;第一分析模塊,用于利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字;第二分析模塊,用于根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果;數據存儲模塊,用于將符合預設條件的所述主題分類結果對應的網頁數據存儲至數據庫。第三方面,本專利技術實施例提供了一種網頁數據獲取設備,包括:至少一個處理器、至少一個存儲器以及存儲在存儲器中的計算機程序指令,當計算機程序指令被處理器執行時實現如上述實施方式中第一方面的方法。第四方面,本專利技術實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序指令,當計算機程序指令被處理器執行時實現如上述實施方式中第一方面的方法。本專利技術實施例提供的網頁數據獲取方法、裝置、設備及介質。該方案通過爬取預設網址的網頁數據;利用預設的機器學習算法集合對網頁數據進行分詞處理,得到網頁數據的詞向量關系、關鍵字;根據詞向量關系、關鍵字分析網頁數據的主題,得到網頁數據的主題分類結果;將符合預設條件的主題分類結果對應的網頁數據存儲至數據庫。能夠快速精準獲取所需數據,大大減少處理時間,降低出錯率。附圖說明為了更清楚地說明本專利技術實施例的技術方案,下面將對本專利技術實施例中所需要使用的附圖作簡單地介紹,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1示出了本專利技術實施例的網頁數據獲取方法的流程示意圖;圖2示出了本專利技術另一個實施例的網頁數據獲取方法的流程示意圖;圖3示出了本專利技術實施例的詞頻統計結果的示意圖;圖4示出了本專利技術實施例的詞向量關系示意圖;圖5示出了本專利技術實施例的機器學習算法集合的流程示意圖;圖6示出了本專利技術實施例的網頁數據獲取裝置的結構圖;圖7示出了本專利技術實施例的網頁數據獲取設備的硬件結構圖。具體實施方式下面將詳細描述本專利技術的各個方面的特征和示例性實施例,為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本專利技術進行進一步詳細描述。應理解,此處所描述的具體實施例僅被配置為解釋本專利技術,并不被配置為限定本專利技術。對于本領域技術人員來說,本專利技術可以在不需要這些具體細節中的一些細節的情況下實施。下面對實施例的描述僅僅是為了通過示出本專利技術的示例來提供對本專利技術更好的理解。需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。下面結合附圖,對本專利技術實施例的網頁數據獲取方法、裝置、設備及介質進行詳細說明。應注意,這些實施例并不是為了限制本專利技術的保護范圍。圖1示出了本專利技術實施例的網頁數據獲取方法的流程示意圖。如圖1所示,本專利技術實施例的網頁數據獲取方法包括如下步驟:S110,爬取預設網址的網頁數據;S120,利用預設的機器學習算法集合對網頁數據進行分詞處理,得到網頁數據的詞向量關系、關鍵字;S130,根據詞向量關系、關鍵字分析網頁數據的主題,得到網頁數據的主題分類結果;S140,將符合預設條件本文檔來自技高網...
【技術保護點】
1.一種網頁數據獲取方法,所述方法包括:/n爬取預設網址的網頁數據;/n利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字;/n根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果;/n將符合預設條件的所述主題分類結果對應的網頁數據存儲至數據庫。/n
【技術特征摘要】
1.一種網頁數據獲取方法,所述方法包括:
爬取預設網址的網頁數據;
利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字;
根據所述詞向量關系、關鍵字分析所述網頁數據的主題,得到所述網頁數據的主題分類結果;
將符合預設條件的所述主題分類結果對應的網頁數據存儲至數據庫。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
當所述主題分類結果不符合所述預設條件時,調整所述預設的機器學習算法集合的各算法參數,重新確定所述網頁數據的主題分類結果。
3.根據權利要求2所述的方法,其特征在于,所述調整所述預設的機器學習算法集合的各算法參數,包括:
調整詞向量的映射方向、調整所述關鍵字的提取范圍。
4.根據權利要求2所述的方法,其特征在于,所述方法還包括:
將符合所述預設條件的所述重新確定的主題分類結果對應的網頁數據及各算法參數存儲至數據庫。
5.根據權利要求2所述的方法,其特征在于,所述方法還包括:
利用梯度下降法調整所述預設的機器學習算法集合的各算法參數。
6.根據權利要求1所述的方法,其特征在于,所述利用預設的機器學習算法集合對所述網頁數據進行分詞處理,得到所述網頁數據的詞向量關系、關鍵字,包括:
利用結巴分詞算法對所述網頁數據進行分詞處理,得到所述網頁數據的分詞結果和詞頻統計結果;
利用神經網絡Word2vec算法對所述分詞結果進行處理,得到詞向量關系;
利用詞頻逆文本頻率TF-IDF算法對所述詞頻統計結果進行處理,并根據常用詞權重得到所述網頁數據的關鍵字。
7.根據權利要求6所述的方法,其特征在于,所述方法還...
【專利技術屬性】
技術研發人員:韓恩,高夢嬌,
申請(專利權)人:中國移動通信集團河北有限公司,中國移動通信集團有限公司,
類型:發明
國別省市:河北;13
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。