并行化分布式互聯網數據抓取方法及其系統技術方案

技術編號：8347938 閱讀：254 留言：0更新日期：2013-02-21 01:26

本發明專利技術提出一種并行化分布式互聯網數據抓取方法及系統，其中該方法包括步驟：設置目標網站的抓取配置信息；根據所述抓取配置信息，從目標網站的版面索引頁開始，逐一抓取所述版面索引頁上出現的正文的鏈接，并深入所述正文的鏈接爬取正文分頁信息和正文內容；以及判斷所述正文是否包含評論數據，如果包含，則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。本發明專利技術的并行化分布式互聯網數據抓取方法及系統具有高質量高效率的優點。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機應用
和信息
，具體涉及一種并行化分布式互聯網數據抓取方法及其系統。
技術介紹
現今，互聯網的發展日新月異，中國的網民數量也在呈爆發式增長。互聯網已逐步取代傳統的媒體(包括報紙、書籍、廣播、電視等等)，變成人們獲取和發布信息的主要來源。同時，由于互聯網自由開放、使用簡單、傳播速度快、使用者眾多的特點，使得互聯網信息能夠迅速的傳播并造成影響。正是由于互聯網扮演的角色越來越重要，所以各種針對互聯網信息的研究也蓬勃發展起來。為了進行互聯網信息的研究，首先需要將海量的格式各異的互聯網網頁信息抓取處理，并進行統一的格式轉換，以方便后期分析處理；其次，需要應用高質量和高效率抓取技術。正是基于這一迫切需求，我們開發了并行化分布式互聯網數據抓取系統。
技術實現思路
本專利技術旨在至少在一定程度上解決上述技術問題之一或至少提供一種有用的商業選擇。為此，本專利技術的一個目的在于提出一種具有高質高效的并行化分布式互聯網數據抓取方法及其系統。本專利技術的一方面提出一種并行化分布式互聯網數據抓取方法，包括設置目標網站的抓取配置信息；根據所述抓取配置信息，從目標網站的版面索引頁開始，逐一抓取所述版面索引頁上出現的正文的鏈接，并深入所述正文的鏈接爬取正文分頁信息和正文內容；以及判斷所述正文是否包含評論數據，如果包含，則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。在本專利技術的方法的一個實施例中，還包括當抓取過程出現異常時，記錄日志信息，進行重試抓取，直至抓取成功。在本專利技術的方法的一個實施例中，所述數據抓取是以并行化分布式的模式進行。本專利技術...

【技術保護點】
一種并行化分布式互聯網數據抓取方法，其特征在于，包括步驟：設置目標網站的抓取配置信息；根據所述抓取配置信息，從目標網站的版面索引頁開始，逐一抓取所述版面索引頁上出現的正文的鏈接，并深入所述正文的鏈接爬取正文分頁信息和正文內容；以及判斷所述正文是否包含評論數據，如果包含，則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。

【技術特征摘要】

【專利技術屬性】
技術研發人員：楊睿塵，
申請(專利權)人：北京騰逸科技發展有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術