本發明專利技術提供了一種數據處理方法和裝置,以解決多次遍歷多種不同的文件導致處理時間比較長,效率較低的問題。所述的方法包括:獲取n種目標文件,其中,所述目標文件用于存儲各個目標的描述信息,一種目標文件存儲一種類型的描述信息;對第一種目標文件進行遍歷,并依次獲取所述第一種目標文件中的目標,對應類型的描述信息,以及所述目標在第一種目標文件中的行數;按照在第一種目標文件中的行數確定所述目標在其他目標文件的相應行數,并依次在其他目標文件的相應行數查找所述目標,并獲取對應類型的描述信息,其中,所述其他目標文件是除第一種目標文件以外的n-1種目標文件;將所述目標和對應各類型的描述信息進行關聯,構成總目標文件。
【技術實現步驟摘要】
本專利技術涉及數據處理技術,特別是涉及一種數據處理方法和裝置。
技術介紹
一個目標可能含有多種不同類型的描述信息,而在對目標的數據進行處理時,由于不同類型的描述信息是由不同的處理方法得到的,因此會對各類型的描述信息分別進行存儲。上述的處理方法就使得同一目標的描述信息存儲于多個不同的文件中,因而當要對該目標進行處理時,就需要分別從不同的文件中獲取該目標的描述信息。在這個過程中,需要分別遍歷每一個文件的數據,以查找所述目標的描述信息。例如,針對網絡中不同網站的瀏覽數據,則所述網站的瀏覽數據可以包括訪問量、點擊率、用戶的平均訪問時間等,若將網站作為目標,由于對于不同的瀏覽數據會采用不同的處理方法,因而上述瀏覽數據經過處理后會保存于不同的文件中。當要對網站的瀏覽數據進行綜合分析時,就需要分別獲取每個網站的瀏覽數據,即針對每一個網站,要分別遍歷每一個文件,查找到所述目標再獲取對應的數據。但是,采用上述這種方法獲取數據時,由于要多次遍歷多種不同的文件,因此處理時間比較長,效率較低。
技術實現思路
本專利技術提供了一種數據處理方法和裝置,以解決現有技術多次遍歷多種不同的文件,導致處理時間比較長,效率較低的問題。為了解決上述問題,本專利技術公開了一種數據處理方法,包括:獲取η種目標文件,其中,所述目標文件用于存儲各個目標的描述信息,一種目標文件存儲一種類型的描述信息,η為正整數;對第一種目標文件進行遍歷,并依次獲取所述第一種目標文件中的目標,對應類型的描述信息,以及所述目標在第一種目標文件中的行數; 按照在第一種目標文件中的行數確定所述目標在其他目標文件的相應行數,并依次在其他目標文件的相應行數查找所述目標,并獲取對應類型的描述信息,其中,所述其他目標文件是除第一種目標文件以外的η-1種目標文件;將所述目標和對應各類型的描述信息進行關聯,構成總目標文件。可選的,所述獲取η種目標文件之后,還包括:獲取每種目標文件的總行數,并將其他目標文件的總行數,以第一種目標文件的總行數為基準進行歸一化處理,獲取其他目標文件相對應第一種目標文件的行數比。可選的,當所述目標在第一種目標文件中的行數達到預設條件時,重新計算所述行數比??蛇x的,所述重新計算所述行數比,包括:將第一種目標文件的總行數減去所述目標在第一種目標文件中的行數,獲取對應的第一行數;獲取所述目標在各其他目標文件中的各相應行數,并將各其他目標文件的總行數減去對應各相應行數,獲取在各其他目標文件中對應的第二行數;將所述在各其他目標文件中對應的第二行數,以所述第一行數為基準進行歸一化處理,獲取重新計算的其他目標文件相對應第一種目標文件的行數比??蛇x的,所述按照在第一種目標文件中的行數確定所述目標在其他目標文件的相應行數,包括:按照在第一種目標文件中的行數和對應的行數比,計算所述目標在其他目標文件的相應行數。可選的,所述在其他目標文件的相應行數查找所述目標,包括:查找其他目標文件的相應行數,檢測所述相應行數上存儲的是否是所述目標;若所述相應行數上存儲的不是所述目標,則在所述相應行數的相鄰行數上查找所述目標,直到查找到所述目標為止??蛇x的,所述目標文件中存儲有各目標的標識信息,所述標識信息用于唯一標識一個目標;所述查找其他目標文件的相應行數,檢測所述相應行數上存儲的是否是所述目標,包括:查找其他目標文件的相應行數,并獲取所述相應行數上存儲的目標的標識信息;檢測所述相應行數上存儲的目標的標識信息,與所述目標的標識信息是否匹配;若匹配,則所述相應行數上存儲的是所述目標;若不匹配,則所述相應行數上存儲的不是所述目標??蛇x的,所述在所述相應行數的相鄰行數上查找所述目標,包括:檢測所述相應行數上存儲的目標的標識信息,是否大于所述目標的標識信息;若大于所述目標的標識信息,則在其他目標文件中所述相應行數之前的行數上查找所述目標;若小于所述目標的標識信息,則在其他目標文件中所述相應行數之后的行數上查找所述目標。相應的,本專利技術實施例還提供了一種數據處理裝置,包括: 獲取模塊,用于獲取η種目標文件,其中,所述目標文件用于存儲各個目標的描述信息,一種目標文件存儲一種類型的描述信息,η為正整數;遍歷并獲取模塊,用于對第一種目標文件進行遍歷,并依次獲取所述第一種目標文件中的目標,對應類型的描述信息,以及所述目標在第一種目標文件中的行數;查找并獲取模塊,用于按照在第一種目標文件中的行數確定所述目標在其他目標文件的相應行數,并依次在其他目標文件的相應行數查找所述目標,并獲取對應類型的描述信息,其中,所述其他目標文件是除第一種目標文件以外的η-1種目標文件;組成模塊,用于將所述目標和對應各類型的描述信息進行關聯,構成總目標文件??蛇x的,所述的裝置還包括:行數比計算模塊,用于獲取每種目標文件的總行數,并將其他目標文件的總行數,以第一種目標文件的總行數為基準進行歸一化處理,獲取其他目標文件相對應第一種目標文件的行數比。與現有技術相比,本專利技術包括以下優點:首先,可以在遍歷第一種目標文件以獲取目標和對應類型的描述信息時,獲取目標在第一種目標文件中的行數,從而確定所述目標在其他目標文件的相應行數,所述相應行數可以用于快速的確定目標在其他目標文件中的位置。再依次在其他目標文件的相應行數查找所述目標,并獲取對應類型的描述信息,從而將所述目標和η種類型的描述信息構成總目標文件。因此本專利技術實施例所提供的方法可以快速的查找到各目標文件中目標的描述信息,方法簡單并且效率較高。其次,本專利技術實施例可以預先依據每種目標文件的總行數,計算出其他目標文件相對應第一種目標文件的行數比,從而依據所述行數比計算相應行數,進而可以快速的定位目標在其他文件中的位置,有利于提高查找的效率。再次,本專利技術實施例還在查找過程中調整行數比,即當所述目標在第一種目標文件中的行數達到預設條件時,重新計算所述行數比,從而提高對目標在其他目標文件中的位置的定位精度,進一步提高查找的效率。再次,本專利技術實施例依據相應行數查找到其他目標文件上的目標后,還可以依據目標的標識信息確定其是否是所述目標,若不是所述目標,在依據對標識信息的比較,可以定位所述目標在所述相應行數的上或下的位置上,從而可以快速的查找到所述目標,提高查找的效率。附圖說明圖1是本專利技術實施例所述一種數據處理方法流程圖;圖2是本專利技術實施例所述重新計算所述行數比的方法流程圖;圖3是本專利技術實施例所述其他目標文件中目標的查找方法流程圖;圖4是本專利技術實施例所述數據處理裝置結構圖。具體實施例方式為使本專利技術的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本專利技術作進一步詳細的說明。一個目標可能含有多種不同類型的描述信息,而由于不同類型的描述信息是由不同的處理方法得到的,因此會對各類型的描述信息分別進行存儲,即存儲于不同的目標文件中。例如,目標為網站,通過網絡中各網站的瀏覽數據進行統計、分析等處理操作,確定網站的η種描述信息構成η種目標文件。其中,一種目標文件存儲一種類型的描述信息,而每種目標文件中都存有各網站(目標)的描述信息。所述描述信息可以包括:點擊率(Page View, PV) /獨立用戶(UniqueVisitor,UV),訪問時間和訪問數據等。其中,PV/UV,訪問時間和訪問數據等分別代表一種類型本文檔來自技高網...
【技術保護點】
一種數據處理方法,其特征在于,包括:獲取n種目標文件,其中,所述目標文件用于存儲各個目標的描述信息,一種目標文件存儲一種類型的描述信息,n為正整數;對第一種目標文件進行遍歷,并依次獲取所述第一種目標文件中的目標,對應類型的描述信息,以及所述目標在第一種目標文件中的行數;按照在第一種目標文件中的行數確定所述目標在其他目標文件的相應行數,并依次在其他目標文件的相應行數查找所述目標,并獲取對應類型的描述信息,其中,所述其他目標文件是除第一種目標文件以外的n?1種目標文件;將所述目標和對應各類型的描述信息進行關聯,構成總目標文件。
【技術特征摘要】
1.一種數據處理方法,其特征在于,包括: 獲取η種目標文件,其中,所述目標文件用于存儲各個目標的描述信息,一種目標文件存儲一種類型的描述信息,η為正整數; 對第一種目標文件進行遍歷,并依次獲取所述第一種目標文件中的目標,對應類型的描述信息,以及所述目標在第一種目標文件中的行數; 按照在第一種目標文件中的行數確定所述目標在其他目標文件的相應行數,并依次在其他目標文件的相應行數查找所述目標,并獲取對應類型的描述信息,其中,所述其他目標文件是除第一種目標文件以外的η-1種目標文件; 將所述目標和對應各類型的描述信息進行關聯,構成總目標文件。2.根據權利要求1所述的方法,其特征在于,所述獲取η種目標文件之后,還包括: 獲取每種目標文件的總行數,并將其他目標文件的總行數,以第一種目標文件的總行數為基準進行歸一化處理,獲取其他目標文件相對應第一種目標文件的行數比。3.根據權利要求2所述的方法,其特征在于,還包括: 當所述目標在第一種目標文件中的行數達到預設條件時,重新計算所述行數比。4.根據權利要求3所述的方法,其特征在于,所述重新計算所述行數比,包括: 將第一種目標文件的總行數減去所述目標在第一種目標文件中的行數,獲取對應的第一行數; 獲取所述目標在各其他目標文件中的各相應行數,并將各其他目標文件的總行數減去對應各相應行數,獲取在各其他目標文件中對應的第二行數; 將所述在各其他目標文件中對應的第二行數,以所述第一行數為基準進行歸一化處理,獲取重新計算的其他目標文件相對應第一種目標文件的行數比。5.根據權利要求2或4任一所述的方法,其特征在于,所述按照在第一種目標文件中的行數確定所述目標在其他目標文件的相應行數,包括: 按照在第一種目標文件中的行數和對應的行數比,計算所述目標在其他目標文件的相應行數。6.根據權利要求5所述的方法,其特征在于,所述在其他目標文件的相應行數查找所述目標,包括: 查找其他目標文件的相應行數,檢測所述相應行數上存儲的是否是所述目標; 若所述相...
【專利技術屬性】
技術研發人員:羅峰,黃蘇支,李娜,
申請(專利權)人:北京億贊普網絡技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。