• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于權威網頁驗證POI數據準確性的方式及裝置制造方法及圖紙

    技術編號:15704845 閱讀:92 留言:0更新日期:2017-06-26 10:00
    本發明專利技術提供了一種基于權威網頁驗證POI數據準確性的方式及裝置,包括:獲取互聯網中的多個首頁的統一資源定位符;對多個首頁的統一資源定位符進行聚類處理;基于聚類結果從多個首頁中確定權威網頁;基于權威網頁,對待驗證的多個POI數據進行準確性驗證,以確定任一POI數據的準確性。本發明專利技術的技術方案解決了如何判斷在互聯網中收集到的POI數據的準確性的問題。通過可靠來源的權威網頁的地址及名稱數據來驗證待驗證的多個POI數據的準確性,大大提高了驗證多個POI數據準確性的效。進一步地,可通過驗證結果對POI數據進行篩選,并提高基于準確的POI數據的來提供服務的產品服務水準,增加使用這些產品的用戶的體驗。

    【技術實現步驟摘要】
    基于權威網頁驗證POI數據準確性的方式及裝置
    本專利技術涉及計算機
    ,具體而言,本專利技術涉及基于權威網頁驗證POI數據準確性的方式及裝置。
    技術介紹
    一個POI(PointOfInterest,興趣點)在地理信息系統中可以是一棟房子、一個商鋪、一個郵筒、一個公交站等。POI數據通常包括地址信息和名稱信息。傳統的POI數據采集方法,需要技術人員通過精密的測繪儀器去人工獲取POI的經緯度信息并標記下來,這種方法消耗的人力和時間成本較高,導致通過人工采集得到的POI數據的數量較少。互聯網上存在著大量的包含POI數據的網頁,如果從網頁中提取出POI數據供地理信息系統使用而非人工測量,則會大大節省人力和時間成本。但是,由于存在地址或名稱已變更而網頁未能及時維護更新,或個人用戶上傳低可靠性的信息,互聯網中獲取POI數據準確性較低,導致通過互聯網獲取的POI數據與實際地理位置不相符,準確性較低。因此,如何提高在互聯網中收集POI數據的準確性是亟待解決的問題。
    技術實現思路
    本專利技術針對現有技術的缺點,提出一種基于權威網頁驗證POI數據準確性的方式和裝置,用以解決現有技術存在的收集較多虛假的POI數據問題。本專利技術根據一個方面,提供了一種基于權威網頁驗證POI數據準確性的方式,包括:獲取互聯網中的多個首頁的統一資源定位符;對所述多個首頁的統一資源定位符進行聚類處理;基于聚類結果從所述多個首頁中確定權威網頁;基于所述權威網頁,對待驗證的多個POI數據進行準確性驗證,以確定任一POI數據的準確性。優選地,對所述多個首頁的統一資源定位符進行聚類,具體包括:提取各個首頁的統一資源定位符對應的主域;將對應同一主域的統一資源定位符聚合為同一類。優選地,基于聚類結果從所述多個首頁中確定權威網頁,具體包括:若屬于同一類的多個統一資源定位符的數量小于第一預定閾值,則從多個統一資源定位符對應的多個首頁中選擇用戶關注度最高的首頁作為權威網頁。優選地,所述用戶關注度通過以下至少任一項來確定:首頁的平均訪問量;每次訪問的平均瀏覽時長。優選地,基于聚類結果從所述多個首頁中確定權威網頁,具體包括:若屬于同一類的多個統一資源定位符的數量大于第二預定閾值,則將該類中的多個統一資源定位符對應的多個首頁均確定為權威網頁。優選地,基于所述權威網頁,對待驗證的多個POI數據進行準確性驗證,以確定任一POI數據的準確性,具體包括:提取所述權威網頁中包括地址信息及名稱信息的名稱地址對;將所述待驗證的多個POI數據與所述名稱地址對進行一一比對;當任一POI數據包括的地址信息及名稱信息與所述名稱地址對相匹配時,確定該POI數據為準確的POI數據。優選地,將所述待驗證的多個POI數據與所述名稱地址對進行一一比對,包括:對所述待驗證的多個POI數據的地址信息與所述名稱地址對中的地址信息進行歸一化處理,將其分別轉化為所述待驗證的多個POI數據的經緯度信息及所述名稱地址對的經緯度信息;將待驗證的多個POI數據的經緯度信息及名稱信息,與所述名稱地址對的經緯度信息及名稱信息進行一一比對。本專利技術根據另一個方面,提供了一種基于權威網頁驗證POI數據準確性的裝置,包括:定位符獲取模塊,用于獲取互聯網中的多個首頁的統一資源定位符;聚類處理模塊,用于對所述多個首頁的統一資源定位符進行聚類處理;權威網頁確定模塊,用于基于聚類結果從所述多個首頁中確定權威網頁;準確性驗證模塊,用于基于所述權威網頁,對待驗證的多個POI數據進行準確性驗證,以確定任一POI數據的準確性。優選地,所述聚類處理模塊具體包括:主域提取單元,用于提取各個首頁的統一資源定位符對應的主域;聚合單元,用于將對應同一主域的統一資源定位符聚合為同一類。優選地,所述權威網頁確定模塊具體用于:若屬于同一類的多個統一資源定位符的數量小于第一預定閾值,則從多個統一資源定位符對應的多個首頁中選擇用戶關注度最高的首頁作為權威網頁。優選地,所述用戶關注度通過以下至少任一項來確定:首頁的平均訪問量;每次訪問的平均瀏覽時長。優選地,所述權威網頁確定模塊具體用于:若屬于同一類的多個統一資源定位符的數量大于第二預定閾值,則將該類中的多個統一資源定位符對應的多個首頁均確定為權威網頁。優選地,所述準確性驗證模塊具體包括:第一提取單元,用于提取所述權威網頁中包括地址信息及名稱信息的名稱地址對;第一比對單元,用于將所述待驗證的多個POI數據與所述名稱地址對進行一一比對;數據確定單元,用于當任一POI數據包括的地址信息及名稱信息與所述名稱地址對相匹配時,確定該POI數據為準確的POI數據。優選地,所述第一比對單元包括:歸一化子單元,用于對所述待驗證的多個POI數據的地址信息與所述名稱地址對中的地址信息進行歸一化處理,將其分別轉化為所述待驗證的多個POI數據的經緯度信息及所述名稱地址對的經緯度信息;信息對比子單元,用于將待驗證的多個POI數據的經緯度信息及名稱信息,與所述名稱地址對的經緯度信息及名稱信息進行一一比對。本專利技術的技術方案解決了如何判斷在互聯網中收集到的POI數據的準確性的問題。首先,獲取互聯網中的多個首頁的統一資源定位符;接著,對多個首頁的統一資源定位符進行聚類處理,聚類處理是對在互聯網中獲取的多個首頁的統一資源定位符依照其共有的主域進行歸類;隨后,基于聚類結果從多個首頁中確定權威網頁,劃分屬于同一類的多個統一資源定位符的數量小于第一預定閾值的情形和屬于同一類的多個統一資源定位符的數量大于第二預定閾值的泛域情形,根據不同情形和用戶關注度篩選可靠性較高的權威網頁;最后,基于權威網頁,對待驗證的多個POI數據進行準確性驗證,以確定任一POI數據的準確性,即通過可靠來源的權威網頁的地址及名稱數據來驗證待驗證的多個POI數據的準確性,大大提高了驗證多個POI數據準確性的效。進一步地,可通過驗證結果對POI數據進行篩選,并提高基于準確的POI數據的來提供服務的產品服務水準,增加使用這些產品的用戶的體驗。本專利技術附加的方面和優點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:圖1為本專利技術實施例的基于權威網頁驗證POI數據準確性的方法的流程示意圖;圖2為本專利技術一個優選實施例的基于權威網頁驗證POI數據準確性的方法的流程示意圖;圖3為本專利技術另一優選實施例的基于權威網頁驗證POI數據準確性的方法的流程示意圖;圖4為本專利技術另一實施例的基于權威網頁驗證POI數據準確性的裝置的結構示意圖。具體實施方式下面詳細描述本專利技術的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本專利技術,而不能解釋為對本專利技術的限制。本
    技術人員可以理解,除非特意聲明,這里使用的單數形式“一”、“一個”、“所述”和“該”也可包括復數形式。應該進一步理解的是,本專利技術的說明書中使用的措辭“包括”是指存在所述特征、整數、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱本文檔來自技高網
    ...
    基于權威網頁驗證POI數據準確性的方式及裝置

    【技術保護點】
    一種基于權威網頁驗證POI數據準確性的方式,其特征在于,包括:獲取互聯網中的多個首頁的統一資源定位符;對所述多個首頁的統一資源定位符進行聚類處理;基于聚類結果從所述多個首頁中確定權威網頁;基于所述權威網頁,對待驗證的多個POI數據進行準確性驗證,以確定任一POI數據的準確性。

    【技術特征摘要】
    1.一種基于權威網頁驗證POI數據準確性的方式,其特征在于,包括:獲取互聯網中的多個首頁的統一資源定位符;對所述多個首頁的統一資源定位符進行聚類處理;基于聚類結果從所述多個首頁中確定權威網頁;基于所述權威網頁,對待驗證的多個POI數據進行準確性驗證,以確定任一POI數據的準確性。2.根據權利要求1所述的基于權威網頁驗證POI數據準確性的方式,其中,對所述多個首頁的統一資源定位符進行聚類,具體包括:提取各個首頁的統一資源定位符對應的主域;將對應同一主域的統一資源定位符聚合為同一類。3.根據權利要求2所述的基于權威網頁驗證POI數據準確性的方式,其中,基于聚類結果從所述多個首頁中確定權威網頁,具體包括:若屬于同一類的多個統一資源定位符的數量小于第一預定閾值,則從多個統一資源定位符對應的多個首頁中選擇用戶關注度最高的首頁作為權威網頁。4.根據權利要求3所述的基于權威網頁驗證POI數據準確性的方式,其中,所述用戶關注度通過以下至少任一項來確定:首頁的平均訪問量;每次訪問的平均瀏覽時長。5.根據權利要求2所述的基于權威網頁驗證POI數據準確性的方式,其中,基于聚類結果從所述多個首頁中確定權威網頁,具體包括:若屬于同一類的多個統一資源定位符的數量大于第二預定閾值,則將該類中的多個統一資源定位符對應的多個首頁均確定為權威網頁。6.根據權利要求1-5任一項所述的基于權威網頁驗證POI數據準確性的方式,基于所述權威網頁,對待驗證的多個POI數據進行準確性驗證,以確定任一POI數據的準確性,具體包括:提取所述權威網頁中包括地址信息及名稱信息的名稱地址對;...

    【專利技術屬性】
    技術研發人員:王智廣魏少俊
    申請(專利權)人:北京奇虎科技有限公司奇智軟件北京有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码日本电影一区二区网站| 无码精品尤物一区二区三区| 中文字幕日产无码| 亚洲爆乳无码精品AAA片蜜桃| 免费无码又爽又刺激毛片| 国产精品无码久久av不卡| 久久亚洲精品成人av无码网站| 中文字幕久无码免费久久| 久久久久亚洲AV成人无码| 国产V亚洲V天堂无码| 亚洲精品成人无码中文毛片不卡| 18禁超污无遮挡无码免费网站| 无码毛片视频一区二区本码| 精品无码国产一区二区三区51安| 免费看成人AA片无码视频吃奶| 久久男人Av资源网站无码软件 | 久久久久av无码免费网| 国产精品无码一区二区三区免费 | 人妻AV中出无码内射| 日韩精品久久无码中文字幕| 午夜成人无码福利免费视频| 久久无码高潮喷水| 日本爆乳j罩杯无码视频| 亚洲AV色无码乱码在线观看| 亚洲成A人片在线观看无码3D | 无码人妻AV一二区二区三区| 国产午夜无码片在线观看| 精品国产a∨无码一区二区三区 | 人妻无码一区二区三区四区| 精品无码无人网站免费视频| 日韩AV无码一区二区三区不卡毛片| 无码亚洲成a人在线观看| 亚洲AV无码成人精品区天堂 | 无码人妻精品一区二区| 亚洲精品无码AV中文字幕电影网站| 无码丰满熟妇juliaann与黑人| 少妇人妻无码精品视频app| 国产激情无码一区二区| 亚洲精品无码AV人在线播放| 岛国无码av不卡一区二区| 少妇无码太爽了不卡在线观看|