• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置制造方法及圖紙

    技術(shù)編號:24331358 閱讀:36 留言:0更新日期:2020-05-29 19:43
    本發(fā)明專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置。其中,方法包括:接收功能組件的拖拽指令和配置指令,根據(jù)拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;根據(jù)有向無環(huán)圖和各功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;將網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得客戶端執(zhí)行網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。本發(fā)明專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置,通過有向無環(huán)圖描述互聯(lián)網(wǎng)數(shù)據(jù)采集邏輯,通過流程引擎生成網(wǎng)絡(luò)爬蟲的代碼,通過客戶端執(zhí)行網(wǎng)絡(luò)爬蟲的代碼實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集,不需要進(jìn)行Python編程,爬蟲定義過程無代碼、界面更友好,能降低互聯(lián)網(wǎng)數(shù)據(jù)采集門檻,能擴大互聯(lián)網(wǎng)數(shù)據(jù)采集方法適用范圍,更簡單、方便。

    Internet data collection method and device

    【技術(shù)實現(xiàn)步驟摘要】
    互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置
    本專利技術(shù)涉及計算機
    ,更具體地,涉及一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置。
    技術(shù)介紹
    互聯(lián)網(wǎng)數(shù)據(jù)采集,是基于HTTP技術(shù),模擬瀏覽器請求等操作,采集網(wǎng)絡(luò)上公開發(fā)布的網(wǎng)頁、圖片等資源,解決人工采集工作量大的問題的技術(shù)。常用的互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)包括網(wǎng)絡(luò)爬蟲。Scrapy網(wǎng)絡(luò)爬蟲框架是一種開源Python網(wǎng)絡(luò)爬蟲框架,封裝了一系列用于網(wǎng)絡(luò)請求、文檔解析過程,簡化爬蟲開發(fā),用于采集網(wǎng)絡(luò)中非結(jié)構(gòu)化數(shù)據(jù)。開發(fā)過程使用流水線方式,適合進(jìn)行邏輯編排。目前,基于Scrapy網(wǎng)絡(luò)爬蟲框架進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集時,需要根據(jù)采集任務(wù)編寫Python腳本,實現(xiàn)Scrapy采集邏輯。現(xiàn)有方法步驟比較復(fù)雜,需要專業(yè)人員編寫Python腳本,門檻較高。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置,用以解決或者至少部分地解決現(xiàn)有技術(shù)存在的復(fù)雜、不方便的缺陷。第一方面,本專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法,包括:接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;將所述網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得所述客戶端執(zhí)行所述網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。優(yōu)選地,所述接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖的具體步驟包括:接收所述拖拽指令,根據(jù)所述拖拽指令,將功能組件拖拽到畫布上,作為節(jié)點;接收連接指令,根據(jù)所述連接指令連接相應(yīng)的節(jié)點,獲得待配置的有向無環(huán)圖;接收所述配置指令,根據(jù)所述配置指令,對各所述節(jié)點進(jìn)行配置,獲得所述有向無環(huán)圖。優(yōu)選地,所述獲得所述有向無環(huán)圖之后,還包括:將所述有向無環(huán)圖保存為XML文件。優(yōu)選地,所述根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼的具體步驟包括:根據(jù)所述有向無環(huán)圖,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù);根據(jù)所述執(zhí)行計劃、所述各配置參數(shù)和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼。優(yōu)選地,所述根據(jù)所述有向無環(huán)圖,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù)的具體步驟包括:對所述XML文件進(jìn)行解析,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù)。優(yōu)選地,所述對所述XML文件進(jìn)行解析的具體步驟包括:提取所述XML文件中的mxCell元素,將每個所述mxCell元素分別構(gòu)造為ExecuteNode或Edge對象,得到ExecuteNode集合與Edge集合;根據(jù)所述ExecuteNode集合與Edge集合,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù)。優(yōu)選地,所述接收功能組件的拖拽指令和配置指令之前,還包括:定義各所述功能組件。第二方面,本專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集裝置,包括:采集編輯模塊,用于接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;流程處理模塊,用于根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;作業(yè)執(zhí)行模塊,用于將所述網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得所述客戶端執(zhí)行所述網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。第三方面,本專利技術(shù)實施例提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,執(zhí)行所述程序時實現(xiàn)如第一方面的各種可能的實現(xiàn)方式中任一種可能的實現(xiàn)方式所提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法的步驟。第四方面,本專利技術(shù)實施例提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面的各種可能的實現(xiàn)方式中任一種可能的實現(xiàn)方式所提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法的步驟。本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置,通過有向無環(huán)圖描述互聯(lián)網(wǎng)數(shù)據(jù)采集邏輯,流程定義后通過流程引擎生成網(wǎng)絡(luò)爬蟲的代碼,通過客戶端執(zhí)行網(wǎng)絡(luò)爬蟲的代碼實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集,不需要用戶進(jìn)行Python編程,爬蟲定義過程無代碼、界面更友好,能降低互聯(lián)網(wǎng)數(shù)據(jù)采集門檻,能擴大互聯(lián)網(wǎng)數(shù)據(jù)采集方法適用范圍,更簡單、方便。附圖說明為了更清楚地說明本專利技術(shù)實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術(shù)的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為根據(jù)本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法的流程示意圖;圖2為根據(jù)本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法中解析XML文件的流程示意圖;圖3為根據(jù)本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集裝置的結(jié)構(gòu)示意圖;圖4為根據(jù)本專利技術(shù)實施例提供的電子設(shè)備的實體結(jié)構(gòu)示意圖。具體實施方式為使本專利技術(shù)實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本專利技術(shù)實施例中的附圖,對本專利技術(shù)實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本專利技術(shù)一部分實施例,而不是全部的實施例。基于本專利技術(shù)中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術(shù)保護(hù)的范圍。為了克服現(xiàn)有技術(shù)的上述問題,本專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置,其專利技術(shù)構(gòu)思是,以一種無代碼、界面友好的方式實現(xiàn)爬蟲定義,降低互聯(lián)網(wǎng)數(shù)據(jù)采集門檻,更簡單、方便。圖1為根據(jù)本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法的流程示意圖。如圖1所示,該方法包括:步驟S101、接收功能組件的拖拽指令和配置指令,根據(jù)拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖。具體地,將互聯(lián)網(wǎng)數(shù)據(jù)采集過程拆解為可解耦的通用邏輯模塊(即功能組件),在畫布上以塊元素展示,使用GUI(圖形用戶界面,GraphicalUserInterface)塊元素拖拽,在畫布上對功能組件進(jìn)行編排連接,構(gòu)建一個描述采集過程的有向無環(huán)圖(DAG,Directedacyclicgraph)。拖拽指令和配置指令,可以基于瀏覽器進(jìn)行輸入。功能組件,用于實現(xiàn)某一功能,例如賦值、存儲、Html解析和采集等。用戶根據(jù)當(dāng)前數(shù)據(jù)采集任務(wù),輸入相應(yīng)的拖拽指令。拖拽指令,用于將某一功能組件拖拽到畫布中的某個位置。可以理解的是,由于互聯(lián)網(wǎng)數(shù)據(jù)采集的過程比較復(fù)雜,需要多個功能組件,因而步驟S101中接收多條拖拽指令。需要說明的是,由于互聯(lián)網(wǎng)數(shù)據(jù)采集的過程比較復(fù)雜,同一個功能組件可能被拖拽多次。對于被拖拽到畫布中的每一功能組件,用戶根據(jù)當(dāng)前數(shù)據(jù)采集任務(wù),輸入相應(yīng)的配置指令。配置指令,用于對功能組件的動態(tài)參數(shù)進(jìn)行配置。完成拖拽和配置之后,可以得到有向無環(huán)圖。有向無環(huán)圖指的是一個無回路的有向圖。有向無環(huán)圖中的節(jié)點,為功能組件。有本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】
    1.一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,包括:/n接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;/n根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;/n將所述網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得所述客戶端執(zhí)行所述網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。/n

    【技術(shù)特征摘要】
    1.一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,包括:
    接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;
    根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;
    將所述網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得所述客戶端執(zhí)行所述網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。


    2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,所述接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖的具體步驟包括:
    接收所述拖拽指令,根據(jù)所述拖拽指令,將功能組件拖拽到畫布上,作為節(jié)點;
    接收連接指令,根據(jù)所述連接指令連接相應(yīng)的節(jié)點,獲得待配置的有向無環(huán)圖;
    接收所述配置指令,根據(jù)所述配置指令,對各所述節(jié)點進(jìn)行配置,獲得所述有向無環(huán)圖。


    3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,所述獲得所述有向無環(huán)圖之后,還包括:
    將所述有向無環(huán)圖保存為XML文件。


    4.根據(jù)權(quán)利要求3所述的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼的具體步驟包括:
    根據(jù)所述有向無環(huán)圖,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù);
    根據(jù)所述執(zhí)行計劃、所述各配置參數(shù)和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼。


    5.根據(jù)權(quán)利要求4所述的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述有向無環(huán)圖,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù)的具體步驟包括:...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:劉睿黃踐焜
    申請(專利權(quán))人:北京天元創(chuàng)新科技有限公司
    類型:發(fā)明
    國別省市:北京;11

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 真人无码作爱免费视频| 国产强被迫伦姧在线观看无码| 亚洲一级特黄大片无码毛片 | 无码精品视频一区二区三区| 中文无码精品一区二区三区| 无码精品视频一区二区三区| 手机在线观看?v无码片| 无码午夜成人1000部免费视频| 波多野结衣VA无码中文字幕电影| 亚洲AV无码精品色午夜果冻不卡| 国产av永久精品无码| 曰韩人妻无码一区二区三区综合部 | 13小箩利洗澡无码视频网站免费| 影音先锋中文无码一区| 中文无码人妻有码人妻中文字幕| 人妻无码久久精品人妻| 亚洲av无码一区二区三区观看| 亚洲日韩乱码中文无码蜜桃臀网站 | 精品久久久久久久无码| 国产午夜片无码区在线播放| 午夜成人无码福利免费视频| 精品久久无码中文字幕| 亚洲精品无码久久毛片波多野吉衣 | 亚洲日韩精品无码专区加勒比| 亚洲AV无码1区2区久久| 国产在线无码不卡影视影院| 中文字幕无码视频专区| 永久免费av无码网站韩国毛片| 无码人妻一区二区三区免费n鬼沢 无码人妻一区二区三区免费看 | 国产AV无码专区亚洲AV漫画| 午夜无码中文字幕在线播放| 亚洲AV永久无码天堂影院| 麻豆国产精品无码视频| 日韩精品人妻系列无码专区免费| 最新国产精品无码| 少妇精品无码一区二区三区| 亚洲AV无码专区亚洲AV伊甸园| 亚洲国产精品无码专区影院| 国产AV一区二区三区无码野战 | 无码乱码av天堂一区二区| 无码成人精品区在线观看|