The invention relates to the technical field of data information retrieval, in particular to an application crawling method and a system thereof. A crawling method comprises the following steps: 1) to obtain the name of the package; 2) the application of the package through the bloom filter processing to generate a crawling array; 3) of the application for crawling and storing the crawling array. On the application of crawling before, also includes: crawling array and stored in the application system of the crawling crawling array using the comparison, judging whether the application is crawling; if the application is not crawling, the application for crawling, and the climb from the array is stored in the application of crawling system. The present invention by Bloom filter to filter the application to ensure that the amount of repetition is not high in the case of a crawling the whole amount of application, and through comparing the white list similarity, reduces the error rate by crawling.
【技術實現步驟摘要】
一種應用爬取方法及系統
本專利技術涉及數據信息檢索
,具體為一種應用爬取方法及系統。
技術介紹
隨著移動互聯網的日益興盛以及“互聯網+”的提出,移動互聯網的便捷性與高效性越來越為人們所熟知。O2O(OnlineToOffline,線上到線下)概念的提出及各種線上線下的應用,不僅快速促進了商品的買賣,也極大的豐富了人們的生活。在大眾的“互聯網+”的生活中,海量的移動應用(MobileApplications,簡稱app)占據著舉足重要的地位。國內各大移動應用市場為大眾的app需求提供了強有力的支撐。在移動互聯網的時代,盛產apk,推廣各個apk也會在各大android市場上架。我們做應用市場的時候爬取應用如果不局限于一個應用市場,比如要從應用寶,360的橙子市場,百度輕運用爬取apk,很多apk會在多家市場發布,海量的apk其中有些重復的apk,怎樣保證重復量不高的情況下爬取一個全量的apk包,是一個急需解決的難題。其中,apk的相似度計算是極其重要的一步。對于應用的相似性計算,有基于app內容的相似性計算方法。大部分的基于內容的相似性計算方法是基于app的描述信息,因為描述信息是能夠描述一個app本身比較權威的資料。但是,現有的描述信息的計算方法一般是基于詞袋模型來做的。詞袋模型沒有考慮詞與詞之間的順序,這樣就忽略了很多詞的上下文關系,在計算向量間的相似性時,比如兩個近義詞,由于不是同一個詞,很有可能使得相似性變小而出現很大的誤差。同時,計算相似性應用時,現有大多數方法并未將app的其他諸如名稱、類別及大小等信息考慮在內。而現有的方法又將諸如app的 ...
【技術保護點】
一種爬取應用方法,應用于應用爬取系統中,其特征在于:包括以下步驟,1)獲取應用的包名;2)將所述應用的包名通過布隆過濾器處理生成一爬取數組;3)利用所述爬取數組與已存儲在應用爬取系統中的爬取數組做比較,判斷所述應用是否已爬取;若所述應用未爬取,對所述應用進行爬取,并將所述爬取數組存儲在所述應用爬取系統中。
【技術特征摘要】
1.一種爬取應用方法,應用于應用爬取系統中,其特征在于:包括以下步驟,1)獲取應用的包名;2)將所述應用的包名通過布隆過濾器處理生成一爬取數組;3)利用所述爬取數組與已存儲在應用爬取系統中的爬取數組做比較,判斷所述應用是否已爬取;若所述應用未爬取,對所述應用進行爬取,并將所述爬取數組存儲在所述應用爬取系統中。2.根據權利要求1所述的一種爬取應用方法,其特征在于,所述將所述應用的包名通過布隆過濾器處理生成一爬取數組,包括:創建一個多位的數組,將數組中的所有位均設置為0;選取一個以上哈希函數,獲取所述應用的包名對應不同哈希函數的不同結果值;根據所述結果值所對應的數組的相應位均設置為1。3.根據權利要求1所述的一種爬取應用方法,其特征在于,所述哈希函數的個數可以通過計算式k=ln(2)*m/n獲得,其中,k表示哈希函數的個數,m表示爬取數組的位數,n表示應用的數量。4.根據權利要求1所述的一種爬取應用方法,其特征在于,還包括,將所述應用的特征信息與白名單進行比較,所述白名單中記錄已爬取應用的特征信息。5.根據權利要求4所述的應用爬取方法...
【專利技術屬性】
技術研發人員:雷建朝,
申請(專利權)人:上海斐訊數據通信技術有限公司,
類型:發明
國別省市:上海,31
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。