• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種腳本生成方法與裝置制造方法及圖紙

    技術編號:15704860 閱讀:99 留言:0更新日期:2017-06-26 10:05
    本申請公開了一種腳本生成方法與裝置,用于解決現有技術中利用網絡爬蟲抓取網頁內容時,人工編寫抓取腳本效率較低的問題。該方法包括:確定用戶在顯示的網頁中選定的網頁內容;根據確定的網頁內容,確定顯示的網頁內容對應的網頁代碼;根據所述網頁代碼,生成抓取腳本。

    【技術實現步驟摘要】
    一種腳本生成方法與裝置
    本申請涉及計算機
    ,尤其涉及一種腳本生成方法與裝置。
    技術介紹
    在現有技術中,由于網絡爬蟲可以抓取網頁中的文本內容,目前被廣泛的應用于搜索、數據挖掘等領域中。網絡爬蟲可以抓取網頁中的全部內容,也可以抓取網頁中的部分內容。目前,若要利用網絡爬蟲去抓取目標網頁中的目標內容,工作人員需先編寫抓取目標內容的腳本,網絡爬蟲才能夠根據該腳本,抓取到目標內容。例如,若現在想要利用網絡爬蟲抓取如圖1中所示的網頁中的商品的價格信息,即“價錢:$149.99”。那么,工作人員便要通過瀏覽器訪問相應的網頁,然后在該網頁對應的網頁代碼中查找“價錢:$149.99”對應的網頁代碼,即“價錢:$149.99”對應的最小的文檔對象模型(DocumentObjectModel,dom)樹。其中,“價錢:$149.99”對應的最小的dom樹如下所示:<divid="kfs_family_16"class="kfs-inner-containerkfs-selected"style="width:20%;left:40%;background-image:url(https://images-na.ssl-images-amazon.com/images/G/01/kindle/stripe/kfs-selector-2._CB386844303_.gif);"onClick="javascript:(function(){})()"><aclass="kfs-currentkfs-link"><imgclass="kfs-img"style="margin-top:9px;"src="https://images-na.ssl-images-amazon.com/images/G/01/kindle/dp/2015/848470/famnav/fs-m._CB292709393_.png"/><br/>FireHD8<br/><spanclass="kfs-price">$149.99</span><br/></a><divid="kfs_popover_content_16"=class="kfs-popover-container"style="display:none;">Incrediblythinandlight,designedforentertainment</div>在查找到“價錢:$149.99”對應的最小的dom樹后,獲取“價錢:$149.99”對應的超文本標記語言(HyperTextMarkupLanguage,HTML)屬性值信息,比如id="kfs_family_16"、class="kfs-price"等。工作人員根據該些屬性值信息,編寫出包含該些HTML屬性值信息的抓取腳本。將編寫好的腳本以及該商品對應的網頁代碼一并送入解析引擎中,以使得解析引擎可以根據抓取腳本中的id以及class,查找到“價錢:$149.99”對應的最小的dom樹,并在該最小的dom樹中提取出“價錢:$149.99”這一價格信息。雖然通過上述方法,網絡爬蟲能夠抓取網頁中的內容,但是需要人工編寫抓取腳本,效率較低。
    技術實現思路
    本申請實施例提供一種腳本生成方法與裝置,用于解決現有技術中利用網絡爬蟲抓取網頁內容時,人工編寫抓取腳本效率較低的問題。本申請實施例采用下述技術方案:一種腳本生成方法,包括:確定用戶在顯示的網頁中選定的網頁內容;根據確定的網頁內容,確定所述網頁內容對應的網頁代碼;根據所述網頁代碼,生成抓取腳本。一種腳本生成裝置,包括:內容確定模塊,確定用戶在顯示的網頁中選定的網頁內容;代碼確定模塊,根據確定的網頁內容,確定所述網頁內容對應的網頁代碼;腳本生成模塊,根據所述網頁代碼,生成抓取腳本。本申請實施例采用的上述至少一個技術方案能夠達到以下有益效果:與現有技術中利用網絡爬蟲抓取網頁內容時,需人工編寫抓取腳本相比,采用本申請實施例提供的腳本生成方法,通過確定用戶在網頁中選定的網頁內容,確定出該網頁內容對應的網頁代碼,并根據該網頁代碼生成抓取腳本,從而解決了現有技術中利用網絡爬蟲抓取網頁內容時,人工編寫抓取腳本效率較低的問題。附圖說明此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:圖1為現有技術中的目標網頁中的內容;圖2a為本申請實施例提供的一種腳本生成方法的具體流程圖;圖2b為本申請實施例提供的確定HTML屬性值的頁面;圖2c為本申請實施例提供的詢問用戶抓取哪一種網頁內容的頁面;圖2d為本申請實施例提供的用戶框選網頁內容后顯示出的頁面;圖2e為本申請實施例提供的用戶兩次框選網頁內容后顯示出的頁面;圖3為本申請實施例提供的一種腳本生成裝置的具體結構示意圖。具體實施方式為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。以下結合附圖,詳細說明本申請實施例提供的技術方案。為了解決了現有技術中利用網絡爬蟲抓取網頁內容時,人工編寫抓取腳本效率較低的問題,本申請實施例提供一種腳本生成方法。該方法的執行主體,可以但不限于為手機、平板電腦或個人電腦(PersonalComputer,PC)等用戶終端,或者該些用戶終端上運行的應用(Application,APP),或者,還可以是服務器等設備。為便于描述,下文以該方法的執行主體為PC為例,對該方法的實施方式進行介紹??梢岳斫?,該方法的執行主體為PC只是一種示例性的說明,并不應理解為對該方法的限定。該方法的具體流程示意圖如圖2a所示,包括下述步驟:步驟11,顯示網頁。在本申請實施例中,當用戶想要利用網絡爬蟲抓取網頁中的網頁內容時,可以通過PC中安裝的瀏覽器或者其他具有瀏覽器功能的應用訪問該網址,以使得該PC可以顯示出該網頁,便于后續操作。后續以瀏覽器為例進行說明。具體的,用戶可以在瀏覽器中的網址輸入框中輸入網址,并訪問該網址,該PC便顯示出該網址對應的網頁。步驟12,確定用戶在顯示的網頁中選定的網頁內容。在PC顯示出網頁后,用戶可以根據實際需求,在該網頁中選定想要抓取的網頁內容,以使得瀏覽器可以確定用戶在網頁中選定的網頁內容,進而進行后續操作,最終生成抓取腳本。用戶之所以可以在網頁中選定網頁內容,是因為網頁的網頁代碼中存在第一腳本。該第一腳本用于提供在網頁中選定網頁內容的功能。第一腳本包括層疊樣式表(CascadingStyleSheets,CSS)腳本。一般情況下,第一腳本位于網頁的網頁代碼中的頂部或底部。這是因為若將第一腳本嵌入到網頁的網頁代碼的中間位置,在瀏覽器執行后續操作時,有可能會誤將該第一腳本作為網頁的網頁代碼的一部分,進而影響最終抓取腳本的生成。因此,一般將第一腳本嵌入在網頁代本文檔來自技高網
    ...
    一種腳本生成方法與裝置

    【技術保護點】
    一種腳本生成方法,其特征在于,所述方法包括:確定用戶在顯示的網頁中選定的網頁內容;根據確定的網頁內容,確定所述網頁內容對應的網頁代碼;根據所述網頁代碼,生成抓取腳本。

    【技術特征摘要】
    1.一種腳本生成方法,其特征在于,所述方法包括:確定用戶在顯示的網頁中選定的網頁內容;根據確定的網頁內容,確定所述網頁內容對應的網頁代碼;根據所述網頁代碼,生成抓取腳本。2.如權利要求1所述的方法,其特征在于,確定用戶在顯示的網頁中選定的網頁內容之前,所述方法還包括:將預設的第一腳本嵌入到所述網頁的網頁代碼中;其中,所述第一腳本用于提供在所述網頁中選定網頁內容的功能,所述第一腳本包括層疊樣式表CSS腳本。3.如權利要求1所述的方法,其特征在于,根據確定的網頁內容,確定所述網頁內容對應的網頁代碼之前,所述方法還包括:將預設的第二腳本嵌入到所述網頁的網頁代碼中,所述第二腳本包括JS腳本;根據確定的網頁內容,確定所述網頁內容對應的網頁代碼,具體包括:根據確定的網頁內容,通過所述第二腳本,確定所述網頁內容對應的網頁代碼。4.如權利要求1所述的方法,其特征在于,確定所述網頁內容對應的網頁代碼,具體包括:在所述網頁的網頁代碼中,確定所述網頁內容對應的最小的文檔對象模型dom樹;在所述最小的dom樹中,確定所述網頁內容對應的超文本標記語言HTML屬性值。5.如權利要求4所述的方法,其特征在于,根據所述網頁代碼,生成腳本,具體包括:將確定出的所述HTML屬性值添加到預設的腳本生成模板中,生成抓取腳本,所述抓取腳本用于抓取與所述HTML屬性值相匹配的網頁內容。6.如權利要求5所述的方法,其特征在于,所述方法還包括:將所述抓取腳本以及網頁代碼發送給解析引擎,通過解析引擎,抓取相應的網頁內容。7.一種腳本...

    【專利技術屬性】
    技術研發人員:孫宇,
    申請(專利權)人:阿里巴巴集團控股有限公司,
    類型:發明
    國別省市:開曼群島,KY

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩精品无码一区二区三区四区| 丰满少妇人妻无码专区| 日韩aⅴ人妻无码一区二区| 亚洲成a人在线看天堂无码 | 在线观看无码的免费网站| 久青草无码视频在线观看 | 亚洲一区无码中文字幕乱码| 亚洲最大无码中文字幕| 黄A无码片内射无码视频 | 国语成本人片免费av无码| av无码人妻一区二区三区牛牛 | 亚洲av无码专区在线电影| 国产免费久久久久久无码| 精品无码一区在线观看| 日韩av无码免费播放| 特级小箩利无码毛片| 亚洲精品中文字幕无码AV| 国产自无码视频在线观看| 加勒比无码一区二区三区| 精品无码日韩一区二区三区不卡| 少妇无码AV无码一区| 国产av永久精品无码| 无码爆乳护士让我爽| 少妇无码一区二区二三区| 精品无码一级毛片免费视频观看| 日韩精品无码一区二区三区| 成年无码av片完整版| 熟妇人妻中文av无码| 久久久精品无码专区不卡| 人妻aⅴ中文字幕无码| 亚洲午夜成人精品无码色欲| 亚洲AV无码乱码在线观看裸奔| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 最新高清无码专区| 国产精品va无码免费麻豆| 亚洲中文字幕无码久久| 亚洲AV综合色区无码二区偷拍| 亚洲精品无码不卡| 亚洲色无码国产精品网站可下载| 性无码免费一区二区三区在线 | 最新中文字幕av无码专区|