本發明專利技術提出了一種站點資源管理方法,包括以下步驟:對web站點進行數據挖掘以獲取web站點中各個頁面;獲取web站點各個頁面的分塊特征;將具有強分塊特征的頁面分為不同類型的頁面;獲取各個頁面的分簇特征并根據分簇特征將各個頁面分組;根據各個分組中具有強分塊特征的頁面的類型確定分組中的頁面的類型。本發明專利技術還提出了一種站點資源管理裝置。本發明專利技術根據網頁結構等因素針對網頁的網頁類型進行分類,為對站點網頁資源進行管理、分類提供了判斷依據。
【技術實現步驟摘要】
本專利技術涉及互聯網應用
,特別涉及一種站點資源管理方法及裝置。
技術介紹
隨著互聯網技術,尤其是智能搜索、智能廣告推薦等技術的發展,對于網站進行分 析、歸類的需求越來越被重視。如此一來,就需要一種將站點的網頁資源自動進行分類及組 織的管理方法?,F有技術中,通常根據網頁的內容對網頁的類型進行劃分,但因計算機自身 并不具有主動判斷能力,使用這一方法的效率不高。
技術實現思路
本專利技術旨在至少在一定程度上解決上述技術問題之一或至少提供一種有用的商 業選擇。為此,本專利技術的第一個目的在于提出一種站點資源管理方法,根據網頁結構等因 素針對網頁的網頁類型進行分類,為對站點網頁資源進行管理、分類提供了判斷依據。本發 明的第二個目的在于提出一種站點資源管理裝置。為達到上述目的,本專利技術第一方面的實施例提出了一種站點資源管理方法,包括 以下步驟對web站點進行數據挖掘以獲取所述web站點的各個頁面;獲取所述各個頁面 的分塊特征;將具有強分塊特征的頁面分為不同類型的頁面;獲取所述各個頁面的分簇特 征并根據所述分簇特征將所述各個頁面分組;根據各個分組中具有強分塊特征的頁面的類 型確定所述分組中的頁面的類型。根據本專利技術實施例的站點資源管理方法,通過基于頁面基礎功能塊和資源塊特征 信息、頁面分簇信息等信息對頁面類型進行識別,根據網頁頁面的結構,對網頁的類型進行 智能判斷,利用了機器對于比較、匹配運算的高執行效率的特點,顯著地提高了分類效率, 節省了時間和人力成本。在本專利技術的一個實施例中,所述強分塊特征包括導航塊、索引塊、圖片塊、文本 塊。在本專利技術的一個實施例中,所述不同類型的頁面包括首頁頁面、索引頁頁面、列表 頁頁面、正文頁頁面、封面頁頁面。在本專利技術的一個實施例中,獲取所述各個頁面的分簇特征包括通過通配所述各個 頁面的URL pattern獲取所述各個頁面的分簇特征。在本專利技術的一個實施例中,所述通配包括對所述各個頁面的URL pattern在不同 粒度上的通配。在本專利技術的一個實施例中,獲取所述各個頁面的分簇特征包括通過對所述各個頁 面進行Xpath分簇而獲取所述各個頁面的分簇特征。在本專利技術的一個實施例中,在對所述各個頁面進行Xpath分簇時,對所述各個頁 面的目標節點的Xpath進行簽名。在本專利技術的一個實施例中,所述目標節點包括div節點,ul節點、a節點,視頻節點 和圖片節點。本專利技術第二方面的實施例提出了一種站點資源管理裝置,包括挖掘模塊,用于對 web站點進行數據挖掘以獲取所述web站點中各個頁面的URL數據;分塊特征獲取模塊,用 于獲取所述各個頁面的分塊特征;分簇特征獲取模塊,用于獲取所述各個頁面的分簇特征 并根據所述分簇特征將所述各個頁面分組;頁面分類模塊,用于將具有強分塊特征的頁面 分為不同類型的頁面,以及根據各個分組中具有強分塊特征的頁面的類型確定所述分組中 的頁面的類型。根據本專利技術實施例的站點資源管理裝置,通過基于頁面基礎功能塊和資源塊特征 信息、頁面分簇信息等信息對頁面類型進行識別,根據網頁頁面的結構,對網頁的類型進行 智能判斷,利用了機器對于比較、匹配運算的高執行效率的特點,顯著地提高了分類效率, 節省了時間和人力成本。在本專利技術的一個實施例中,所述強分塊特征包括導航塊、索引塊、圖片塊、文本 塊。在本專利技術的一個實施例中,所述不同類型的頁面包括首頁頁面、索引頁頁面、列表 頁頁面、正文頁頁面、封面頁頁面。在本專利技術的一個實施例中,所述分簇特征獲取模塊通過通配所述各個頁面的URL pattern獲取所述各個頁面的分簇特征。在本專利技術的一個實施例中,所述通配包括對所述各個頁面的URL pattern在不同 粒度上的通配。在本專利技術的一個實施例中,獲取所述各個頁面的分簇特征包括通過對所述各個頁 面進行Xpath分簇而獲取所述各個頁面的分簇特征。在本專利技術的一個實施例中,在對所述各個頁面進行Xpath分簇時,對所述各個頁 面的目標節點的Xpath進行簽名。在本專利技術的一個實施例中,所述目標節點包括div節點,ul節點、a節點,視頻節點 和圖片節點。本專利技術的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變 得明顯和容易理解,其中圖1為根據本專利技術一個實施例的站點資源管理方法的流程圖2為根據本專利技術一個實施例的具體對網頁進行分類的流程圖;以及圖3為根據本專利技術實施例的一個站點資源管理裝置的示意圖。具體實施方式下面詳細描述本專利技術的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本專利技術,而不能理解為對本專利技術的限制。在本專利技術中,除非另有明確的規定和限定,術語“安裝”、“相連”、“連接”、“固定”等術語應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通。對于本領域的普通技術人員而言,可以根據具體情況理解上述術語在本專利技術中的具體含義。下面分別參考圖1至圖2對本專利技術實施例的站點資源管理方法的流程進行描述。如圖1所示,根據本專利技術第一方面的實施例的站點資源管理方法,包括以下步驟SlOl :對web站點進行數據挖掘以獲取web站點中各個頁面。具體地,對站點進行數據挖掘包括日志挖掘和站點挖掘兩部分。日志挖掘挖掘網站的url以及url對應的pattern、query、搜索結果頁序號、pv 等信息,提供網站內url的基本url數據以及對應的訪問熱度信息,訪問熱度用于確定頁面的點擊量。在一個具體的實施例中,日志挖掘可以利用hadoop平臺實現。站點挖掘從網站首頁或頻道頁開始,定時抓取指定站點或頻道的頁面以下級頁面,分析頁面前后連接之間的指向關系,并且補全網站站點各個頁面的URL數據以及站點結構數據;在一個具體的實施例中,站點挖掘可以利用站點抓取技術實現。在本專利技術的一個實施例中,以站點7y7. com為例,進行日志挖掘和站點挖掘,其中,日志挖掘根據PV分析,得到站點內PV最高的3條URL及其pattern如表I所示本文檔來自技高網...
【技術保護點】
一種站點資源管理方法,其特征在于,包括以下步驟:對web站點進行數據挖掘以獲取所述web站點的各個頁面;獲取所述各個頁面的分塊特征;將具有強分塊特征的頁面分為不同類型的頁面;獲取所述各個頁面的分簇特征并根據所述分簇特征將所述各個頁面分組;以及根據各個分組中具有強分塊特征的頁面的類型確定所述分組中的頁面的類型。
【技術特征摘要】
1.一種站點資源管理方法,其特征在于,包括以下步驟 對web站點進行數據挖掘以獲取所述web站點的各個頁面; 獲取所述各個頁面的分塊特征; 將具有強分塊特征的頁面分為不同類型的頁面; 獲取所述各個頁面的分簇特征并根據所述分簇特征將所述各個頁面分組;以及 根據各個分組中具有強分塊特征的頁面的類型確定所述分組中的頁面的類型。2.根據權利要求1所述的方法,其特征在于,所述強分塊特征包括導航塊、索引塊、圖片塊、文本塊。3.根據權利要求1或2所述的方法,其特征在于,所述不同類型的頁面包括首頁頁面、索引頁頁面、列表頁頁面、正文頁頁面、封面頁頁面。4.根據權利要求1或2所述的方法,其特征在于,獲取所述各個頁面的分簇特征包括通過通配所述各個頁面的URL pattern獲取所述各個頁面的分簇特征。5.根據權利要求4所述的方法,其特征在于,所述通配包括對所述各個頁面的URLpattern在不同粒度上的通配。6.根據權利要求4所述的方法,其特征在于,獲取所述各個頁面的分簇特征包括通過對所述各個頁面進行Xpath分簇而獲取所述各個頁面的分簇特征。7.根據權利要求6所述的方法,其特征在于,在對所述各個頁面進行Xpath分簇時,對所述各個頁面的目標節點的Xpath進行簽名。8.根據權利要求7所述的方法,其特征在于,所述目標節點包括div節點,ul節點、a節點,視頻節點和圖片節點。9.一種站點資源管理裝置,其特征在于,包括 ...
【專利技術屬性】
技術研發人員:崔建偉,李偉剛,
申請(專利權)人:百度在線網絡技術北京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。