本發明專利技術提出一種并行化分布式互聯網數據抓取方法及系統,其中該方法包括步驟:設置目標網站的抓取配置信息;根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;以及判斷所述正文是否包含評論數據,如果包含,則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。本發明專利技術的并行化分布式互聯網數據抓取方法及系統具有高質量高效率的優點。
【技術實現步驟摘要】
本專利技術涉及計算機應用
和信息
,具體涉及一種并行化分布式互聯網數據抓取方法及其系統。
技術介紹
現今,互聯網的發展日新月異,中國的網民數量也在呈爆發式增長。互聯網已逐步取代傳統的媒體(包括報紙、書籍、廣播、電視等等),變成人們獲取和發布信息的主要來源。同時,由于互聯網自由開放、使用簡單、傳播速度快、使用者眾多的特點,使得互聯網信息能夠迅速的傳播并造成影響。正是由于互聯網扮演的角色越來越重要,所以各種針對互聯網信息的研究也蓬勃發展起來。為了進行互聯網信息的研究,首先需要將海量的格式各異的互聯網網頁信息抓取處理,并進行統一的格式轉換,以方便后期分析處理;其次,需要應用高質量和高效率抓取技術。正是基于這一迫切需求,我們開發了并行化分布式互聯網數據抓取系統。
技術實現思路
本專利技術旨在至少在一定程度上解決上述技術問題之一或至少提供一種有用的商業選擇。為此,本專利技術的一個目的在于提出一種具有高質高效的并行化分布式互聯網數據抓取方法及其系統。本專利技術的一方面提出一種并行化分布式互聯網數據抓取方法,包括設置目標網站的抓取配置信息;根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;以及判斷所述正文是否包含評論數據,如果包含,則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。在本專利技術的方法的一個實施例中,還包括當抓取過程出現異常時,記錄日志信息,進行重試抓取,直至抓取成功。在本專利技術的方法的一個實施例中,所述數據抓取是以并行化分布式的模式進行。本專利技術的另一方面還提出一種并行化分布式互聯網數據抓取系統,包括配置模塊,所述配置模塊用于用戶設置目標網站的抓取配置信息;正文抓取模塊,根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;判斷模塊,所述判斷模塊用于判斷所述正文是否包含評論數據;以及評論抓取模塊,所述評論抓取模塊用于當所述正文包含評論數據時,進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。在本專利技術的系統的一個實施例中,還包括日志記錄模塊,所述日志記錄模塊用于當抓取過程出現異常時,記錄日志信息,此時所述并行化分布式互聯網數據抓取系統進行重試抓取,直至抓取成功。在本專利技術的系統的一個實施例中,所述數據抓取模塊為并行化分布式結構。綜上所述,首先,本專利技術提出了一個并行化分布式互聯網數據抓取方法和系統,它能夠通過配置的方式自由的擴展需要抓取的目標站點,并采用了并行化和分布式設計,使得數據抓取效率和實時性得到了很好的保證。其次,本專利技術采用了靈活判重和增量抓取機制,在無需二次查詢數據庫的前提下,只是針對本地網頁保存路徑的文件進行監測,就可以實現抓取網頁的判重和增量抓取,保證了所抓取數據的唯一性,節約了大量的軟硬件資源。再者,本專利技術還可以支持針對動態和靜態兩類網頁的統一抓取。因此,本專利技術的方法和系統具有高質量和高效率的優點。本專利技術的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中流程圖流程圖及圖I是本專利技術實施例的并行化分布式互聯網數據抓取方法的流程圖2是本專利技術實施例的并行化分布式互聯網數據抓取系統的結構框圖3是本專利技術實施例的并行化分布式互聯網數據抓取方法的正常情況下的詳細圖4是本專利技術實施例的并行化分布式互聯網數據抓取方法的異常情況下的詳細圖5是本專利技術實施例的并行化分布式特征的數據抓取模塊的布局結構示意圖;以圖6是本專利技術實施例的動靜態網頁統一抓取示意圖。具體實施例方式下面詳細描述本專利技術的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本專利技術,而不能理解為對本專利技術的限制。在本專利技術的描述中,需要理解的是,術語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底” “內”、“外”、“順時針”、“逆時針”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本專利技術和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本專利技術的限制。此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個或者更多個該特征。在本專利技術的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。在本專利技術中,除非另有明確的規定和限定,術語“安裝”、“相連”、“連接”、“固定”等術語應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通。對于本領域的普通技術人員而言,可以根據具體情況理解上述術語在本專利技術中的具體含義。在本專利技術中,除非另有明確的規定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接觸,也可以包括第一和第二特征不是直接接觸而是通過它們之間的另外的特征接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或僅僅表示第一特征水平高度小于第二特征。本專利技術屬于計算機應用
和信息
,主要涉及基于深度優先爬取的定向網絡爬蟲的實現。網絡爬蟲是基于互聯網信息分析的基礎和前提,所有的分析操作都是在網絡爬蟲抓取海量互聯網數據的基礎上進行的。本專利技術專利的主要目的是為了解決海量互聯網數據的高效準確抓取,抓取數據靈活判重和增量抓取,動、靜態網頁的統一抓取等三方面的問題。由于基于互聯網數據分析的一個突出的要求是數據的時效性要高,而且互聯網數據量都是十分驚人的,所以為了保證互聯網數據的全面性,需要有一種可以高效準確的抓取海量互聯網數據的技術。為此我們開發了并行化分布式互聯網數據抓取系統。為了實現其并行化分布式的特點,實現了一種靈活高效率的抓取數據判重和增量抓取機制,保證抓取數據的唯一性和軟硬件資源的高利用率。由于現在存在于互聯網上的網頁的存在動態和靜態兩類網頁。因此,我們的抓取系統必須能夠同時支持對動態和靜態網頁的抓取,針對動態和靜態網頁,我們采取的是完全一致的抓取方法和流程,降低了程序的復雜性和后期維護的難度。本專利技術的一方面提出一種并行化分布式互聯網數據抓取方法,如圖I所示,包括SI.設置目標網站的抓取配置信息;S2.根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;S3.以及判斷所述正文是否包含評論數據,如果包含,則進一步深入所述評論頁的鏈接爬取評論分頁信本文檔來自技高網...
【技術保護點】
一種并行化分布式互聯網數據抓取方法,其特征在于,包括步驟:設置目標網站的抓取配置信息;根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;以及判斷所述正文是否包含評論數據,如果包含,則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。
【技術特征摘要】
【專利技術屬性】
技術研發人員:楊睿塵,
申請(專利權)人:北京騰逸科技發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。