• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種應用爬取方法及系統技術方案

    技術編號:15704915 閱讀:173 留言:0更新日期:2017-06-26 10:25
    本發明專利技術涉及數據信息檢索技術領域,具體為一種應用爬取方法及系統。一種應用爬取方法,包括以下步驟,1)獲取應用的包名;2)將所述應用的包名通過布隆過濾器處理生成一爬取數組;3)對所述應用進行爬取并保存所述爬取數組。在對所述應用進行爬取之前,還包括:利用所述爬取數組與已存儲在應用爬取系統中的爬取數組做比較,判斷所述應用是否已爬取;若所述應用未爬取,對所述應用進行爬取,并將所述爬取數組存儲在所述應用爬取系統中。本發明專利技術通過布隆過濾器對應用進行過濾以保證在重復量不高的情況下爬取一個全量的應用,并通過白名單相似度進行對比,降低了應用爬取的錯誤率。

    Application climbing method and system

    The invention relates to the technical field of data information retrieval, in particular to an application crawling method and a system thereof. A crawling method comprises the following steps: 1) to obtain the name of the package; 2) the application of the package through the bloom filter processing to generate a crawling array; 3) of the application for crawling and storing the crawling array. On the application of crawling before, also includes: crawling array and stored in the application system of the crawling crawling array using the comparison, judging whether the application is crawling; if the application is not crawling, the application for crawling, and the climb from the array is stored in the application of crawling system. The present invention by Bloom filter to filter the application to ensure that the amount of repetition is not high in the case of a crawling the whole amount of application, and through comparing the white list similarity, reduces the error rate by crawling.

    【技術實現步驟摘要】
    一種應用爬取方法及系統
    本專利技術涉及數據信息檢索
    ,具體為一種應用爬取方法及系統。
    技術介紹
    隨著移動互聯網的日益興盛以及“互聯網+”的提出,移動互聯網的便捷性與高效性越來越為人們所熟知。O2O(OnlineToOffline,線上到線下)概念的提出及各種線上線下的應用,不僅快速促進了商品的買賣,也極大的豐富了人們的生活。在大眾的“互聯網+”的生活中,海量的移動應用(MobileApplications,簡稱app)占據著舉足重要的地位。國內各大移動應用市場為大眾的app需求提供了強有力的支撐。在移動互聯網的時代,盛產apk,推廣各個apk也會在各大android市場上架。我們做應用市場的時候爬取應用如果不局限于一個應用市場,比如要從應用寶,360的橙子市場,百度輕運用爬取apk,很多apk會在多家市場發布,海量的apk其中有些重復的apk,怎樣保證重復量不高的情況下爬取一個全量的apk包,是一個急需解決的難題。其中,apk的相似度計算是極其重要的一步。對于應用的相似性計算,有基于app內容的相似性計算方法。大部分的基于內容的相似性計算方法是基于app的描述信息,因為描述信息是能夠描述一個app本身比較權威的資料。但是,現有的描述信息的計算方法一般是基于詞袋模型來做的。詞袋模型沒有考慮詞與詞之間的順序,這樣就忽略了很多詞的上下文關系,在計算向量間的相似性時,比如兩個近義詞,由于不是同一個詞,很有可能使得相似性變小而出現很大的誤差。同時,計算相似性應用時,現有大多數方法并未將app的其他諸如名稱、類別及大小等信息考慮在內。而現有的方法又將諸如app的評論信息也加入其中。據我們觀察發現,app的評論信息的質量非常差,一般無法反應出app的真實內容。
    技術實現思路
    本專利技術針對現有技術存在的問題,提出了一種應用爬取的方法及系統。本專利技術解決其技術問題所采用的技術方案是:一種爬取應用方法,應用于應用爬取系統中,包括以下步驟,1)獲取應用的包名;2)將所述應用的包名通過布隆過濾器處理生成一爬取數組;3)利用所述爬取數組與已存儲在應用爬取系統中的爬取數組做比較,判斷所述應用是否已爬取;若所述應用未爬取,對所述應用進行爬取,并將所述爬取數組存儲在所述應用爬取系統中。作為優選,所述將所述應用的包名通過布隆過濾器處理生成一爬取數組,包括:創建一個多位的數組,將數組中的所有位均設置為0;選取一個以上哈希函數,獲取所述應用的包名對應不同哈希函數的不同結果值;根據所述結果值所對應的數組的相應位均設置為1。作為優選,所述哈希函數的個數可以通過計算式k=ln(2)*m/n獲得,其中,k表示哈希函數的個數,m表示爬取數組的位數,n表示應用的數量。作為優選,還包括,將所述應用的特征信息與白名單進行比較,所述白名單中記錄已爬取應用的特征信息。作為優選,如果某一應用在步驟3)中判定為已爬取,則將所述應用的特征信息與所述白名單中對應應用的特征信息做相似度對比,如果相似度大于一定閾值,則將所述應用判定為絕對已爬取;否則,將所述應用重新判定為未爬取。作為優選,所述應用特征信息包括應用的名稱、類型、描述、大小和關健詞。一種應用爬取系統,包括,爬取數組存儲模塊,用以存儲已爬取應用的爬取數組;包名獲取單元,用于通過應用的安裝包獲取應用的包名;應用檢測單元,用于通過包名檢測應用的爬取情況。作為優選,所述應用檢測單元包括,布隆過濾器,用于根據應用的包名生成一爬取數組;對比單元,用于將新生成的爬取數組與爬取系統中的爬取數組做對比以判斷應用是否已爬取。作為優選,所述應用爬取系統還包括白名單,用于記錄已爬取應用的特征信息。作為優選,所述布隆過濾器包括數組創建單元,哈希函數選取單元和數組位值設定單元。本專利技術的有益效果是,在需要爬取大量應用時,可通過布隆過濾器對應用進行過濾爬取以保證在重復量不高的情況下爬取一個全量的應用,采用布隆過濾器可大大節省應用的爬取時間,能夠節省大量的存儲空間,并且通過白名單機制將已判定為已爬取應用的應用與相似應用做相似度對比,以進一步確定應用是否真的已爬取,從而降低了應用爬取的錯誤率。附圖說明圖1為一種應用爬取方法的流程示意圖;圖2為一種應用爬取系統的結構示意圖;圖3為爬取數組生成的實施例一的示意圖;圖4為爬取數組生成的實施例二的示意圖。具體實施方式以下是本專利技術的具體實施例并結合附圖,對本專利技術的技術方案作進一步的描述,但本專利技術并不限于這些實施例。如圖1所示,一種應用爬取方法,應用于應用爬取系統中,包括以下步驟,1)獲取應用的包名。2)將所述應用的包名通過布隆過濾器處理生成一爬取數組。所述將所述應用的包名通過布隆過濾器處理生成一爬取數組,包括:創建一個多位的數組,將數組中的所有位均設置為0;選取一個以上哈希函數,獲取所述應用的包名對應不同哈希函數的不同結果值;根據所述結果值所對應的數組的相應位均設置為1。所述哈希函數的個數可以通過計算式k=ln(2)*m/n獲得,其中,k表示哈希函數的個數,m表示爬取數組的位數,n表示應用的數量。3)利用所述爬取數組與已存儲在應用爬取系統中的爬取數組做比較,判斷所述應用是否已爬取。若所述應用未爬取,對所述應用進行爬取,并將所述爬取數組存儲在所述應用爬取系統中。該方法還包括,將所述應用的特征信息與白名單進行比較,所述白名單中記錄已爬取應用的特征信息。如果某一應用在步驟3)中判定為已爬取,則將所述應用的特征信息與所述白名單中對應應用的特征信息做相似度對比,如果相似度大于一定閾值,則將所述應用判定為絕對已爬取;否則,將所述應用重新判定為未爬取。所述應用特征信息包括應用的名稱、類型、描述,大小和關健詞。如圖3所示,爬取數組生成的具體實施例一,11)創建一個10位的數組,將數組中的所有位均設置為0;12)選取2個不同的哈希函數,獲取同一包名對應不同哈希函數的不同結果值A1和A2;13)根據結果值A1將數組的相應位均設置為1,根據結果值A2將數組的相應位均設置為1,以根據應用的包名對應用生成一爬取數組。如圖4所示,爬取數組生成的具體實施例二,11)創建一個10位的數組,將數組中的所有位均設置為0;12)選取3個不同的哈希函數,獲取同一包名對應不同哈希函數的不同結果值B1,B2和B3;13)根據結果值B1將數組的相應位均設置為1,根據結果值B2將數組的相應位均設置為1,根據結果值B3將數組的相應位均設置為1,以根據應用的包名對應用生成一爬取數組。所述步驟2)通過布隆過濾器檢測應用的包名具體包括,21)通過步驟11)-13)對應用生成一個爬取數組;22)將該爬取數組與爬取系統的所有爬取數組做比較,如果爬取系統中已存在相同的爬取數組,則相應的應用已爬取;否則,相應的應用未爬取,則需要對所述應用進行爬取,并將所述爬取數組存儲在應用爬取系統中。。通過布隆過濾器檢測待爬取的應用的包名的實施例一,21)通過步驟12)中的哈希函數獲取3個不同的結果值C1,C2和C3;22)根據結果值查看爬取系統中的數組的相應位的數值,如果存在爬取數組的3個相應位的數值均為1,即結果值C1,C2和C3對應的數組的位值均為1,則表示相應的應用已爬取,放棄該應用的爬取。通過布隆過濾器檢測待爬取的應用的字符名的實施例二,21)通過步驟12)中的哈本文檔來自技高網
    ...
    一種應用爬取方法及系統

    【技術保護點】
    一種爬取應用方法,應用于應用爬取系統中,其特征在于:包括以下步驟,1)獲取應用的包名;2)將所述應用的包名通過布隆過濾器處理生成一爬取數組;3)利用所述爬取數組與已存儲在應用爬取系統中的爬取數組做比較,判斷所述應用是否已爬取;若所述應用未爬取,對所述應用進行爬取,并將所述爬取數組存儲在所述應用爬取系統中。

    【技術特征摘要】
    1.一種爬取應用方法,應用于應用爬取系統中,其特征在于:包括以下步驟,1)獲取應用的包名;2)將所述應用的包名通過布隆過濾器處理生成一爬取數組;3)利用所述爬取數組與已存儲在應用爬取系統中的爬取數組做比較,判斷所述應用是否已爬取;若所述應用未爬取,對所述應用進行爬取,并將所述爬取數組存儲在所述應用爬取系統中。2.根據權利要求1所述的一種爬取應用方法,其特征在于,所述將所述應用的包名通過布隆過濾器處理生成一爬取數組,包括:創建一個多位的數組,將數組中的所有位均設置為0;選取一個以上哈希函數,獲取所述應用的包名對應不同哈希函數的不同結果值;根據所述結果值所對應的數組的相應位均設置為1。3.根據權利要求1所述的一種爬取應用方法,其特征在于,所述哈希函數的個數可以通過計算式k=ln(2)*m/n獲得,其中,k表示哈希函數的個數,m表示爬取數組的位數,n表示應用的數量。4.根據權利要求1所述的一種爬取應用方法,其特征在于,還包括,將所述應用的特征信息與白名單進行比較,所述白名單中記錄已爬取應用的特征信息。5.根據權利要求4所述的應用爬取方法...

    【專利技術屬性】
    技術研發人員:雷建朝
    申請(專利權)人:上海斐訊數據通信技術有限公司
    類型:發明
    國別省市:上海,31

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品欧洲av无码一区二区14| 潮喷无码正在播放| 精品多人p群无码| 精品人妻系列无码一区二区三区 | 亚洲天堂2017无码中文| 日韩精品无码一区二区中文字幕 | 久久AV高清无码| 真人无码作爱免费视频| 蜜桃成人无码区免费视频网站| 日韩AV无码一区二区三区不卡 | 国产成人麻豆亚洲综合无码精品| 无码人妻视频一区二区三区| 全免费a级毛片免费看无码| 亚洲国产精品无码专区| 四虎成人精品无码永久在线| 亚洲中文无码亚洲人成影院| 亚洲AV无码精品无码麻豆| 亚洲一级Av无码毛片久久精品| 久久精品无码专区免费青青| 亚洲AV日韩AV永久无码免下载| 成人av片无码免费天天看| 亚洲一级特黄大片无码毛片| 午夜无码一区二区三区在线观看| 亚洲最大天堂无码精品区| 亚洲av专区无码观看精品天堂| 国产亚洲精品无码成人| 亚洲va中文字幕无码久久不卡| 精品无码国产污污污免费网站国产| 亚洲av无码专区在线电影天堂| 无码人妻丰满熟妇区免费| 亚洲av无码成人黄网站在线观看 | 无码人妻丰满熟妇啪啪网站牛牛| 亚洲性无码av在线| 亚洲国产成AV人天堂无码| 久久亚洲精品成人av无码网站 | 无码人妻aⅴ一区二区三区| 亚洲AV无码一区二区一二区| 亚洲人成网亚洲欧洲无码| 无码中文字幕乱码一区| 免费A级毛片无码久久版| 亚洲AⅤ无码一区二区三区在线|