本發(fā)明專利技術(shù)提供了一種確定權(quán)威網(wǎng)頁的方式及裝置,包括:獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;對多個首頁的統(tǒng)一資源定位符進行聚類處理;基于聚類結(jié)果從多個首頁中確定權(quán)威網(wǎng)頁。本發(fā)明專利技術(shù)的技術(shù)方案解決了如何從大量的網(wǎng)頁信息中定位到權(quán)威網(wǎng)頁的問題。本發(fā)明專利技術(shù)的技術(shù)方案依據(jù)主域和泛域?qū)ヂ?lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符進行分類,并根據(jù)類別的不同進行不同的從多個首頁的統(tǒng)一資源定位符篩選權(quán)威網(wǎng)頁。另外,基于用戶對統(tǒng)一資源定位符對應(yīng)的網(wǎng)頁的關(guān)注度高低判斷出的該統(tǒng)一資源定位符對應(yīng)的網(wǎng)頁是否為權(quán)威網(wǎng)頁的可靠性較高。從而提高了從大量的網(wǎng)頁信息中篩選出權(quán)威網(wǎng)頁的篩選效率。
【技術(shù)實現(xiàn)步驟摘要】
確定權(quán)威網(wǎng)頁的方式及裝置
本專利技術(shù)涉及計算機
,具體而言,本專利技術(shù)涉及確定權(quán)威網(wǎng)頁的方式及裝置。
技術(shù)介紹
在互聯(lián)網(wǎng)中充斥著大量的網(wǎng)頁信息,網(wǎng)頁信息方便了人們的生活,但是,由于網(wǎng)頁信息的來源多樣,且不具有較強的監(jiān)管力度,會存在較多包含錯誤或惡意信息的網(wǎng)頁;同時,由于惡意用戶為了盜取權(quán)威網(wǎng)頁的信譽度或者在私人網(wǎng)頁加入惡意程序盜取點擊該私人網(wǎng)頁的其他用戶的個人隱私和賬號密碼等,仿制同真正權(quán)威網(wǎng)頁相似的私人網(wǎng)頁,且私人網(wǎng)頁的域名也可與權(quán)威網(wǎng)頁的域名具有一定的相似度。因此,普通網(wǎng)民很難從海量網(wǎng)頁中甄別出包含信息真實有效的網(wǎng)頁。因此,如何從大量的網(wǎng)頁信息中確定出權(quán)威網(wǎng)頁是亟待解決的問題。
技術(shù)實現(xiàn)思路
為克服上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,特提出以下技術(shù)方案:本專利技術(shù)根據(jù)一個方面,提供了一種確定權(quán)威網(wǎng)頁的方式,包括:獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;對所述多個首頁的統(tǒng)一資源定位符進行聚類處理;基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁。優(yōu)選地,對所述多個首頁的統(tǒng)一資源定位符進行聚類,具體包括:提取各個首頁的統(tǒng)一資源定位符對應(yīng)的主域;將對應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。優(yōu)選地,基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁,具體包括:若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個統(tǒng)一資源定位符對應(yīng)的多個首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。優(yōu)選地,所述用戶關(guān)注度通過以下至少任一項來確定:首頁的平均訪問量;每次訪問的平均瀏覽時長。優(yōu)選地,基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁,具體包括:若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個統(tǒng)一資源定位符對應(yīng)的多個首頁均確定為權(quán)威網(wǎng)頁。優(yōu)選地,所述權(quán)威網(wǎng)頁為官網(wǎng)網(wǎng)頁。本專利技術(shù)根據(jù)另一個方面,提供了一種確定權(quán)威網(wǎng)頁的裝置,包括:定位符獲取模塊,用于獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;聚類處理模塊,用于對所述多個首頁的統(tǒng)一資源定位符進行聚類處理;權(quán)威網(wǎng)頁確定模塊,用于基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁。優(yōu)選地,所述聚類處理模塊具體包括:主域提取單元,用于提取各個首頁的統(tǒng)一資源定位符對應(yīng)的主域;聚合單元,用于將對應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。優(yōu)選地,所述權(quán)威網(wǎng)頁確定模塊具體用于:若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個統(tǒng)一資源定位符對應(yīng)的多個首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。優(yōu)選地,所述用戶關(guān)注度通過以下至少任一項來確定:首頁的平均訪問量;每次訪問的平均瀏覽時長。優(yōu)選地,所述權(quán)威網(wǎng)頁確定模塊具體用于:若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個統(tǒng)一資源定位符對應(yīng)的多個首頁均確定為權(quán)威網(wǎng)頁。優(yōu)選地,所述權(quán)威網(wǎng)頁為官網(wǎng)網(wǎng)頁。本專利技術(shù)的技術(shù)方案解決了如何從大量的網(wǎng)頁信息中篩選確定出權(quán)威網(wǎng)頁的問題。首先,獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;接著,對多個首頁的統(tǒng)一資源定位符進行聚類處理,聚類處理是對在互聯(lián)網(wǎng)中獲取的多個首頁的統(tǒng)一資源定位符依照其共有的主域進行歸類;最后,基于聚類結(jié)果從多個首頁中確定權(quán)威網(wǎng)頁,劃分屬于同一類的多個統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值的情形和屬于同一類的多個統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值的泛域情形,根據(jù)不同情形和用戶關(guān)注度篩選可靠性較高的權(quán)威網(wǎng)頁。本專利技術(shù)的技術(shù)方案依據(jù)統(tǒng)一資源定位符對互聯(lián)網(wǎng)中的多個首頁進行聚類,并根據(jù)聚類結(jié)果從多個首頁中篩選權(quán)威網(wǎng)頁。本專利技術(shù)提高了從大量的網(wǎng)頁信息中區(qū)分出權(quán)威網(wǎng)頁的篩選準(zhǔn)確率及篩選效率。本專利技術(shù)附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本專利技術(shù)的實踐了解到。附圖說明本專利技術(shù)上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:圖1所示是本專利技術(shù)實施例的確定權(quán)威網(wǎng)頁的方式的流程示意圖;圖2所示是本專利技術(shù)實施例的確定權(quán)威網(wǎng)頁的裝置的結(jié)構(gòu)示意圖。具體實施方式下面詳細(xì)描述本專利技術(shù)的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本專利技術(shù),而不能解釋為對本專利技術(shù)的限制。本
技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進一步理解的是,本專利技術(shù)的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的全部或任一單元和全部組合。本
技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語),具有與本專利技術(shù)所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。圖1所示是本專利技術(shù)實施例的確定權(quán)威網(wǎng)頁的方式的流程示意圖。權(quán)威網(wǎng)頁為官網(wǎng)網(wǎng)頁。一般官網(wǎng)提供的信息是比較權(quán)威的,那么可以認(rèn)為官網(wǎng)提供的地址信息和名稱信息一般也是正確的。官網(wǎng),即官方網(wǎng)站,一般是指由某組織與個人建立的最具權(quán)威、最有公信力、或唯一指定網(wǎng)站,其最大的特點是權(quán)威。步驟S110:獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;步驟S120:對多個首頁的統(tǒng)一資源定位符進行聚類處理;步驟S130:基于聚類結(jié)果從多個首頁中確定權(quán)威網(wǎng)頁。步驟S110:獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符。其中,統(tǒng)一資源定位符即URL(UniformResoureLocator),URL是對在互聯(lián)網(wǎng)上可以獲得資源的位置和訪問該資源的方法的一種簡潔表示。在互聯(lián)網(wǎng)中的服務(wù)器上存儲的每個文件都有一個唯一的URL,它包括文件的位置信息和與瀏覽器處理該文件信息的方法的相關(guān)信息。如,“北京大學(xué)”的網(wǎng)站首頁URL:http://www.pku.edu.cn/。具體地,通過網(wǎng)頁蜘蛛等網(wǎng)頁爬取工具,從互聯(lián)網(wǎng)中爬取多個首頁,并提取多個首頁分別對應(yīng)的URL。步驟S120:對多個首頁的統(tǒng)一資源定位符進行聚類處理。其中,聚類處理是研究樣品或指標(biāo)分類的一種統(tǒng)計分析的方法,同時也是數(shù)據(jù)挖掘的一個重要過程。聚類是由多個模式組成的,通常,模式是一個度量的向量,或者是多維空間中的一個點。聚類處理以相似性為基礎(chǔ),在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。優(yōu)選地,對多個首頁的統(tǒng)一資源定位符進行聚類的步驟具體包括步驟S221(圖中未標(biāo)出)和步驟S222(圖中未標(biāo)出):步驟S221:提取各個首頁的統(tǒng)一資源定位符對應(yīng)的主域;步驟S222:將對應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。例如,“北京大學(xué)”的網(wǎng)站首頁URL:http://www.pku.edu.cn/,提取其主域:pku.edu.cn。“北京大學(xué)沖刺班”的網(wǎng)站首頁U本文檔來自技高網(wǎng)...

【技術(shù)保護點】
一種確定權(quán)威網(wǎng)頁的方式,其特征在于,包括:獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;對所述多個首頁的統(tǒng)一資源定位符進行聚類處理;基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁。
【技術(shù)特征摘要】
1.一種確定權(quán)威網(wǎng)頁的方式,其特征在于,包括:獲取互聯(lián)網(wǎng)中的多個首頁的統(tǒng)一資源定位符;對所述多個首頁的統(tǒng)一資源定位符進行聚類處理;基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁。2.根據(jù)權(quán)利要求1所述的確定權(quán)威網(wǎng)頁的方式,其中,對所述多個首頁的統(tǒng)一資源定位符進行聚類,具體包括:提取各個首頁的統(tǒng)一資源定位符對應(yīng)的主域;將對應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。3.根據(jù)權(quán)利要求2所述的確定權(quán)威網(wǎng)頁的方式,其中,基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁,具體包括:若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個統(tǒng)一資源定位符對應(yīng)的多個首頁中選擇用戶關(guān)注度最高的首頁作為權(quán)威網(wǎng)頁。4.根據(jù)權(quán)利要求3所述的確定權(quán)威網(wǎng)頁的方式,其中,所述用戶關(guān)注度通過以下至少任一項來確定:首頁的平均訪問量;每次訪問的平均瀏覽時長。5.根據(jù)權(quán)利要求2所述的確定權(quán)威網(wǎng)頁的方式,其中,基于聚類結(jié)果從所述多個首頁中確定權(quán)威網(wǎng)頁,具體包括:若屬于同一類的多個統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王智廣,魏少俊,
申請(專利權(quán))人:北京奇虎科技有限公司,奇智軟件北京有限公司,
類型:發(fā)明
國別省市:北京,11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。