The embodiment of the invention discloses a method and a device for data processing. The method comprises: acquiring data; does not contain missing values is determined according to the data sample of each attribute in the missing value of frequent itemsets corresponding to each attribute item attribute information does not contain missing values in the data sample; choose to focus from frequent items fill property; according to the filling property and corresponding property contains the absence of value the data in the sample value of the attribute value in determining the filling value, and according to the fill value update contains missing values in the data sample. The embodiment of the invention adopts the technical scheme, according to each attribute item does not contain the attribute information of the missing value is determined for the filling of missing values filling properties, the relationship between the corresponding attribute and other attributes value considering the lack of, can improve the effectiveness and correctness of data filling, improve processing the speed of the missing value, reduce the value required to handle missing time.
【技術實現步驟摘要】
數據處理的方法及裝置
本專利技術涉及信息處理
,尤其涉及一種數據處理的方法及裝置。
技術介紹
近年來,隨著信息處理技術的發展,大數據被越來越多的應用到了導航系統或城市規劃等各個領域。目前的大數據架構通常是以數據流為導向來進行數據處理的,即,首先從數據源獲取數據并將獲取到的數據進行存儲,然后對數據進行預處理,再根據預處理后的數據進行數據建模、數據分析與數據挖掘,最后實現數據變現。由此可見,數據預處理是大數據結構中整個數據處理過程的基礎,其質量與精準度可能會直接影響到后續環節中數據維度建模的指標定義、數據挖掘算法的選擇或數據的準確性度量等,是數據處理過程的重要環節之一。數據預處理的過程中通常會涉及到對數據中的缺失值進行處理,現有技術中,在對數據進行處理時一般會采用人工填寫、刪除含缺失值的記錄數據(即刪除法)、使用特殊字符(如NULL)填充、或者使用統計學上的均值或眾數進行缺失值的填補等方法對數據中的缺失值進行處理。但是,當數據量較多或達到一定級別時,人工填寫需耗費較多的時間與精力,無法滿足數據流實時快速傳輸與處理的需求;刪除含缺失值的記錄數據、使用統一的特殊字符或者使用統計學上的均值或眾數進行缺失值填充不具有針對性,會導致數據準精確性和有效性降低,由此可見,現有技術無法同時滿足缺失值處理的高效率和高精度的要求。
技術實現思路
有鑒于此,本專利技術實施例提供一種數據處理的方法及裝置,以解決現有技術中的數據處理方法無法同時滿足缺失值處理的高效率和高精度的要求的技術問題。第一方面,本專利技術實施例提供了一種數據處理的方法,包括:獲取數據樣本,所述數據樣本包括包含缺 ...
【技術保護點】
一種數據處理的方法,其特征在于,包括:獲取數據樣本,所述數據樣本包括包含缺失值的數據樣本和未包含缺失值的數據樣本;根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集;從所述頻繁項集中選擇填充屬性項;根據所述填充屬性項中與所述包含缺失值的數據樣本中的缺失值的對應屬性的屬性值確定填充值,并根據所述填充值更新所述包含缺失值的數據樣本。
【技術特征摘要】
1.一種數據處理的方法,其特征在于,包括:獲取數據樣本,所述數據樣本包括包含缺失值的數據樣本和未包含缺失值的數據樣本;根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集;從所述頻繁項集中選擇填充屬性項;根據所述填充屬性項中與所述包含缺失值的數據樣本中的缺失值的對應屬性的屬性值確定填充值,并根據所述填充值更新所述包含缺失值的數據樣本。2.根據權利要求1所述的方法,其特征在于,所述屬性信息包括屬性項的支持度信息和置信度信息,相應的,所述根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集,包括:根據所述數據樣本中與所述缺失值對應的屬性的非缺失率確定與所述缺失值相對應的最小支持閾值和最小置信閾值;從所述未包括缺失值的數據樣本中選取支持度信息大于或等于最小支持閾值的屬性項組成候選頻繁項集,所述屬性項包含與所述缺失值對應的屬性的屬性值;從所述候選頻繁項集中選取置信度信息大于或等于最小置信閾值的屬性項組成與所述缺失值對應的頻繁項集。3.根據權利要求2所述的方法,其特征在于,所述根據所述數據樣本中與所述缺失值對應的屬性的非缺失率確定與所述缺失值相對應的最小支持閾值和最小置信閾值,包括:如果Rnm≥90%,則MinSup=1-Rnm;如果60%≤Rnm<90%,則MinSup=1-0.9×Rnm;如果Rnm<60%,則MinSup=Rnm;其中,Rnm為所述數據樣本中與所述缺失值對應的屬性的非缺失率,MinSup為與所述缺失值相對應的最小支持閾值。4.根據權利要求3所述的方法,其特征在于,所述根據所述數據樣本中與所述缺失值對應的屬性的非缺失率確定與所述缺失值相對應的最小支持閾值和最小置信閾值,還包括:如果Rnm≥90%,則MinCon=0.92;如果80%≤Rnm<90%,則MinCon=0.9×Rnm+0.1;如果70%≤Rnm<80%,則MinCon=0.95×Rnm+0.1;如果Rnm<70%,則MinCon=0.75;其中,Rnm為所述數據樣本中與所述缺失值對應的屬性的非缺失率,MinCon為與所述缺失值相對應的最小置信閾值。5.根據權利要求1所述的方法,其特征在于,所述從所述頻繁項集中選擇填充屬性項,具體為:根據所述頻繁項集中各屬性項的支持度信息和/或對應的有效屬性值個數,確定與所述缺失值對應的填充屬性項,其中,所述有效...
【專利技術屬性】
技術研發人員:徐驕,
申請(專利權)人:廣州視源電子科技股份有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。