一種站點資源管理方法及裝置制造方法及圖紙

技術編號：8594061 閱讀：226 留言：0更新日期：2013-04-18 07:16

本發明專利技術提出了一種站點資源管理方法，包括以下步驟：對web站點進行數據挖掘以獲取web站點中各個頁面；獲取web站點各個頁面的分塊特征；將具有強分塊特征的頁面分為不同類型的頁面；獲取各個頁面的分簇特征并根據分簇特征將各個頁面分組；根據各個分組中具有強分塊特征的頁面的類型確定分組中的頁面的類型。本發明專利技術還提出了一種站點資源管理裝置。本發明專利技術根據網頁結構等因素針對網頁的網頁類型進行分類，為對站點網頁資源進行管理、分類提供了判斷依據。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及互聯網應用
，特別涉及一種站點資源管理方法及裝置。
技術介紹
隨著互聯網技術，尤其是智能搜索、智能廣告推薦等技術的發展，對于網站進行分析、歸類的需求越來越被重視。如此一來，就需要一種將站點的網頁資源自動進行分類及組織的管理方法?，F有技術中，通常根據網頁的內容對網頁的類型進行劃分，但因計算機自身并不具有主動判斷能力，使用這一方法的效率不高。
技術實現思路
本專利技術旨在至少在一定程度上解決上述技術問題之一或至少提供一種有用的商業選擇。為此，本專利技術的第一個目的在于提出一種站點資源管理方法，根據網頁結構等因素針對網頁的網頁類型進行分類，為對站點網頁資源進行管理、分類提供了判斷依據。本發明的第二個目的在于提出一種站點資源管理裝置。為達到上述目的，本專利技術第一方面的實施例提出了一種站點資源管理方法，包括以下步驟對web站點進行數據挖掘以獲取所述web站點的各個頁面；獲取所述各個頁面的分塊特征；將具有強分塊特征的頁面分為不同類型的頁面；獲取所述各個頁面的分簇特征并根據所述分簇特征將所述各個頁面分組；根據各個分組中具有強分塊特征的頁面的類型確定所述分組中的頁面的類型。根據本專利技術實施例的站點資源管理方法，通過基于頁面基礎功能塊和資源塊特征信息、頁面分簇信息等信息對頁面類型進行識別，根據網頁頁面的結構，對網頁的類型進行智能判斷，利用了機器對于比較、匹配運算的高執行效率的特點，顯著地提高了分類效率，節省了時間和人力成本。在本專利技術的一個實施例中，所述強分塊特征包括導航塊、索引塊、圖片塊、文本塊。在本專利技術的一個實施例...

【技術保護點】
一種站點資源管理方法，其特征在于，包括以下步驟：對web站點進行數據挖掘以獲取所述web站點的各個頁面；獲取所述各個頁面的分塊特征；將具有強分塊特征的頁面分為不同類型的頁面；獲取所述各個頁面的分簇特征并根據所述分簇特征將所述各個頁面分組；以及根據各個分組中具有強分塊特征的頁面的類型確定所述分組中的頁面的類型。

【技術特征摘要】
1.一種站點資源管理方法，其特征在于，包括以下步驟對web站點進行數據挖掘以獲取所述web站點的各個頁面；獲取所述各個頁面的分塊特征；將具有強分塊特征的頁面分為不同類型的頁面；獲取所述各個頁面的分簇特征并根據所述分簇特征將所述各個頁面分組；以及根據各個分組中具有強分塊特征的頁面的類型確定所述分組中的頁面的類型。2.根據權利要求1所述的方法，其特征在于，所述強分塊特征包括導航塊、索引塊、圖片塊、文本塊。3.根據權利要求1或2所述的方法，其特征在于，所述不同類型的頁面包括首頁頁面、索引頁頁面、列表頁頁面、正文頁頁面、封面頁頁面。4.根據權利要求1或2所述的方法，其特征在于，獲取所述各個頁面的分簇特征包括通過通配所述各個頁面的URL pattern獲取所述各個頁面的分簇特征。5.根據權利要求4所述的方法，其特征在于，所述通配包括對所述各個頁面的URLpattern在不同粒度上的通配。6.根據權利要求4所述的方法，其特征在于，獲取所述各個頁面的分簇特征包括通過對所述各個頁面進行Xpath分簇而獲取所述各個頁面的分簇特征。7.根據權利要求6所述的方法，其特征在于，在對所述各個頁面進行Xpath分簇時，對所述各個頁面的目標節點的Xpath進行簽名。8.根據權利要求7所述的方法,其特征在于,所述目標節點包括div節點，ul節點、a節點，視頻節點和圖片節點。9.一種站點資源管理裝置，其特征在于，包括 ...

【專利技術屬性】
技術研發人員：崔建偉，李偉剛，
申請(專利權)人：百度在線網絡技術北京有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

<li id="eaaao"></li>