• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    并行化分布式互聯網數據抽取方法及其系統技術方案

    技術編號:8347937 閱讀:193 留言:0更新日期:2013-02-21 01:26
    本發明專利技術的提出一種并行化分布式互聯網數據抽取方法及系統,其中該方法包括步驟:獲取爬取得到的網頁序列,依次獲取網頁配置信息并對網頁進行數據抽取;對數據抽取得到的內容進行編碼轉換;對編碼轉換后的內容進行數據清洗;以及判斷數據清洗后的內容是否信息重復,如不重復,存入數據庫。本發明專利技術的并行化分布式互聯網數據抽取方法及系統具有高質量高效率的優點。

    【技術實現步驟摘要】

    本專利技術涉及計算機應用
    和信息
    ,具體涉及一種并行化分布式互聯網數據抽取方法及其系統
    技術介紹
    現今,互聯網的發展日新月異,中國的網民數量也在呈爆發式增長。互聯網已逐步取代傳統的媒體(包括報紙、書籍、廣播、電視等等),變成人們獲取和發布信息的主要來源。同時,由于互聯網自由開放、使用簡單、傳播速度快、使用者眾多的特點,使得互聯網信息能夠迅速的傳播并造成影響。正是由于互聯網扮演的角色越來越重要,所以各種針對互聯網信息的研究也蓬勃發展起來。為了進行互聯網信息的研究,首先需要將海量的格式各異的互聯網網頁信息抽取處理,并進行統一的格式轉換,以方便后期分析處理;其次,需要應用高質量和高效率抽取技術。正是基于這一迫切需求,我們開發了并行化分布式互聯網數據 抽取系統。
    技術實現思路
    本專利技術旨在至少在一定程度上解決上述技術問題之一或至少提供一種有用的商業選擇。為此,本專利技術的一個目的在于提出一種具有高質高效的并行化分布式互聯網數據抽取方法及其系統。本專利技術的一方面提出一種并行化分布式互聯網數據抽取方法,包括步驟獲取爬取得到的網頁序列,依次獲取網頁配置信息并對網頁進行數據抽取;對數據抽取得到的內容進行編碼轉換;對編碼轉換后的內容進行數據清洗;以及判斷數據清洗后的內容是否信息重復,如不重復,存入數據庫。在本專利技術的方法的一個實施例中,所述數據抽取是以并行化分布式的模式進行。在本專利技術的方法的一個實施例中,所述編碼轉換包括將數值型信息轉換為統一長度的整數或者浮點數;將所有的時間信息轉化為統一格式的絕對時間;以及將單位信息轉化為統一的數據單位和度量衡。在本專利技術的方法的一個實施例中,所述數據清洗包括針對正文的數據清洗和針對評論的數據清洗。本專利技術的另一方面提出一種并行化分布式互聯網數據抽取系統,包括數據抽取模塊,所述數據抽取模塊用于獲取爬取得到的網頁序列,依次獲取網頁配置信息并對網頁進行數據抽取;編碼轉換模塊,所述編碼轉換模塊用于對數據抽取得到的內容進行編碼轉換;數據清洗模塊,所述數據清洗模塊用于對編碼轉換后的內容進行數據清洗;判斷重復模塊,所述判斷重復模塊用于判斷數據清洗后的內容是否信息重復;以及存儲模塊,如果所述判斷重復模塊的結果為不重復,將數據清洗后的內容存入數據庫。在本專利技術的系統的一個實施例中,所述數據抽取模塊為并行化分布式結構。在本專利技術的系統的一個實施例中,所述編碼轉換模塊包括數值轉換子模塊,所述數值轉換子模塊用于將數值型信息轉換為統一長度的整數或者浮點數;時間轉換子模塊,所述時間轉換子模塊用于將所有的時間信息轉化為統一格式的絕對時間;以及單位轉換子模塊,所述單位轉換子模塊用于將單位信息轉化為統一的數據單位和度量衡。在本專利技術的系統的一個實施例中,所述數據清洗模塊包括正文數據清洗子模塊和評論數據清洗子模塊。首先,本專利技術的的方法和系統能夠通過配置的方式自由的擴展需要抽取的目標站點,由于采用了并行化和分布式的設計,使得數據抽取的效率和實時性得到了很好的保證。其次,本專利技術中采用了抽取數據清洗機制,針對抽取數據進行過濾凈化,去除其中可能包含的各種非法無意義的內容,大大提高了抽取數據的有效程度,保證了之后針對抽取數據的分析處理的準確性和真實性。再者,本專利技術針對抽取到的數據做了統一的數據格式轉換和字符編碼轉換,為最終的程序處理和數據存儲提供了很大的便利。因此,本專利技術的方法和系統具有高質量和高效率的優點。 本專利技術的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中圖I是本專利技術實施例的并行化分布式互聯網數據抽取方法的流程圖;圖2是本專利技術實施例的并行化分布式互聯網數據抽取系統的結構框圖;圖3是本專利技術實施例的并行化分布式互聯網數據抽取方法的詳細流程圖;和圖4是本專利技術實施例的并行化分布式特征的數據抽取模塊的結構示意圖。具體實施例方式下面詳細描述本專利技術的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本專利技術,而不能理解為對本專利技術的限制。在本專利技術的描述中,需要理解的是,術語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底” “內”、“外”、“順時針”、“逆時針”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本專利技術和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本專利技術的限制。此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個或者更多個該特征。在本專利技術的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。在本專利技術中,除非另有明確的規定和限定,術語“安裝”、“相連”、“連接”、“固定”等術語應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通。對于本領域的普通技術人員而言,可以根據具體情況理解上述術語在本專利技術中的具體含義。在本專利技術中,除非另有明確的規定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接觸,也可以包括第一和第二特征不是直接接觸而是通過它們之間的另外的特征接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或僅僅表示第一特征水平高度小于第二特征。本專利技術屬于計算機應用
    和信息
    ,主要涉及針對抓取得到的網頁進行數據抽取,數據清洗過濾,數據格式統一和編碼轉換的實現。數據抽取是基于互聯網信息分析的基礎和前提,所有的分析操作都是在數據抽取所獲得干凈的和統一編碼和數據格式的數據的基礎上進行的。 本專利技術專利的主要目的是為了解決海量異構的互聯網數據的高效準確抽取,抽取數據的清洗過濾,數據格式統一和編碼轉換三方面的問題。因為基于互聯網數據的分析的突出的要求是分析數據的時效性要高。由于互聯網數據量都是十分驚人的,網頁結構千差萬別,所以為了保證互聯網數據分析的時效性、全面性和分析處理的便利性,需要有一種可以高效準確的抽取海量異構互聯網數據技術。我們所開發的并行化分布式互聯網數據抽取系統解決了這一迫切需求。不過,抽取出來的數據中可能包含了許多無意義的非法的字符或內容,需要進行清洗過濾,否則會影響之后的數據分析的效果。最后,由于現在存在于互聯網上的網頁千差萬別,不同網頁上采用的數據結構也大不相同,比如時間格式,就有多種格式。而且,不同網頁采用的字符編碼格式往往也大不相同。所以,為了方便之后對抽取數據的分析處理,在保存抽取數據之前還需要對抽取的數據做統一的數據格式轉換和字符編碼格式本文檔來自技高網
    ...

    【技術保護點】
    一種并行化分布式互聯網數據抽取方法,其特征在于,包括步驟:獲取爬取得到的網頁序列,依次獲取網頁配置信息并對網頁進行數據抽取;對數據抽取得到的內容進行編碼轉換;對編碼轉換后的內容進行數據清洗;以及判斷數據清洗后的內容是否信息重復,如不重復,存入數據庫。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:楊睿塵
    申請(專利權)人:北京騰逸科技發展有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码丰满熟妇浪潮一区二区AV| 国产做无码视频在线观看| yy111111少妇影院无码| 小泽玛丽无码视频一区| 亚洲中文久久精品无码| 亚洲国产精品无码中文lv| 日韩人妻无码精品专区| 加勒比无码一区二区三区| 精品亚洲A∨无码一区二区三区 | 国产成人无码一区二区在线观看| 亚洲人成人无码网www电影首页| 97久久精品亚洲中文字幕无码| 国产午夜无码福利在线看网站| 亚洲AV无码精品色午夜果冻不卡 | 无码人妻精品一区二区三区不卡| 日韩人妻无码一区二区三区综合部| 日日摸夜夜添无码AVA片| 在线看无码的免费网站| 中文字幕人妻无码系列第三区| 国产午夜激无码av毛片| 特级无码a级毛片特黄| 亚洲heyzo专区无码综合| 免费A级毛片无码A∨免费| 无码人妻久久久一区二区三区 | 精品韩国亚洲av无码不卡区| 精品无码一区二区三区亚洲桃色 | 国产品无码一区二区三区在线| 四虎成人精品无码| 无码人妻品一区二区三区精99| 人妻无码人妻有码中文字幕| 国产精品一区二区久久精品无码| 日韩电影无码A不卡| 手机在线观看?v无码片| 波多野结AV衣东京热无码专区| 国产午夜无码片在线观看| 亚洲精品无码av天堂| 亚洲中文字幕无码一区| 亚洲av无码不卡一区二区三区 | 特级无码a级毛片特黄| 亚洲国产精品无码久久九九 | 亚洲中文字幕无码久久精品1|