• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    數據處理的方法及裝置制造方法及圖紙

    技術編號:15501101 閱讀:305 留言:0更新日期:2017-06-03 22:37
    本發明專利技術實施例公開了一種數據處理的方法及裝置。該方法包括:獲取數據樣本;根據未包含缺失值的數據樣本的各屬性項的屬性信息確定未包含缺失值的數據樣本的各屬性項中與缺失值對應的頻繁項集;從頻繁項集中選擇填充屬性項;根據填充屬性項中與包含缺失值的數據樣本中的缺失值的對應屬性的屬性值確定填充值,并根據填充值更新包含缺失值的數據樣本。本發明專利技術實施例通過采用上述技術方案,根據未包含缺失值的各屬性項的屬性信息確定用于填充缺失值的填充屬性項,綜合考慮缺失值對應屬性與其它各屬性之間的關聯關系,可以提高填充值的正確性與數據信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時間。

    Method and apparatus for data processing

    The embodiment of the invention discloses a method and a device for data processing. The method comprises: acquiring data; does not contain missing values is determined according to the data sample of each attribute in the missing value of frequent itemsets corresponding to each attribute item attribute information does not contain missing values in the data sample; choose to focus from frequent items fill property; according to the filling property and corresponding property contains the absence of value the data in the sample value of the attribute value in determining the filling value, and according to the fill value update contains missing values in the data sample. The embodiment of the invention adopts the technical scheme, according to each attribute item does not contain the attribute information of the missing value is determined for the filling of missing values filling properties, the relationship between the corresponding attribute and other attributes value considering the lack of, can improve the effectiveness and correctness of data filling, improve processing the speed of the missing value, reduce the value required to handle missing time.

    【技術實現步驟摘要】
    數據處理的方法及裝置
    本專利技術涉及信息處理
    ,尤其涉及一種數據處理的方法及裝置。
    技術介紹
    近年來,隨著信息處理技術的發展,大數據被越來越多的應用到了導航系統或城市規劃等各個領域。目前的大數據架構通常是以數據流為導向來進行數據處理的,即,首先從數據源獲取數據并將獲取到的數據進行存儲,然后對數據進行預處理,再根據預處理后的數據進行數據建模、數據分析與數據挖掘,最后實現數據變現。由此可見,數據預處理是大數據結構中整個數據處理過程的基礎,其質量與精準度可能會直接影響到后續環節中數據維度建模的指標定義、數據挖掘算法的選擇或數據的準確性度量等,是數據處理過程的重要環節之一。數據預處理的過程中通常會涉及到對數據中的缺失值進行處理,現有技術中,在對數據進行處理時一般會采用人工填寫、刪除含缺失值的記錄數據(即刪除法)、使用特殊字符(如NULL)填充、或者使用統計學上的均值或眾數進行缺失值的填補等方法對數據中的缺失值進行處理。但是,當數據量較多或達到一定級別時,人工填寫需耗費較多的時間與精力,無法滿足數據流實時快速傳輸與處理的需求;刪除含缺失值的記錄數據、使用統一的特殊字符或者使用統計學上的均值或眾數進行缺失值填充不具有針對性,會導致數據準精確性和有效性降低,由此可見,現有技術無法同時滿足缺失值處理的高效率和高精度的要求。
    技術實現思路
    有鑒于此,本專利技術實施例提供一種數據處理的方法及裝置,以解決現有技術中的數據處理方法無法同時滿足缺失值處理的高效率和高精度的要求的技術問題。第一方面,本專利技術實施例提供了一種數據處理的方法,包括:獲取數據樣本,所述數據樣本包括包含缺失值的數據樣本和未包含缺失值的數據樣本;根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集;從所述頻繁項集中選擇填充屬性項;根據所述填充屬性項中與所述包含缺失值的數據樣本中的缺失值的對應屬性的屬性值確定填充值,并根據所述填充值更新所述包含缺失值的數據樣本。第二方面,本專利技術實施例還提供了一種數據處理的裝置,包括:數據樣本獲取模塊,用于獲取數據樣本,所述數據樣本包括包含缺失值的數據樣本和未包含缺失值的數據樣本;頻繁項集確定模塊,用于根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集;填充屬性項選擇模塊,用于從所述頻繁項集中選擇填充屬性項;填充值確定模塊,用于根據所述填充屬性項中與所述包含缺失值的數據樣本中的缺失值的對應屬性的屬性值確定填充值,并根據所述填充值更新所述包含缺失值的數據樣本。本專利技術實施例提供的數據處理的技術方案,獲取數據樣本,根據未包含缺失值的數據樣本各屬性的屬性信息確定未包含缺失值的數據樣本的各屬性項中與包含缺失值的數據樣本中的缺失值對應的頻繁項集,從頻繁項集中選擇填充屬性項,根據填充項中與缺失值對應屬性的屬性值確定填充值,并根據所確定的填充值對包含缺失值的數據樣本進行更新。本專利技術實施例通過采用上述技術方案,根據未包含缺失值的各屬性項的屬性信息確定用于填充缺失值的填充屬性項,綜合考慮缺失值對應屬性與其它各屬性之間的關聯關系,可以提高填充值的正確性與數據信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時間,進而提高后續數據處理流程的準確性與整個數據處理過程的平均速度。附圖說明通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本專利技術的其它特征、目的和優點將會變得更明顯:圖1為本專利技術實施例一提供的一種數據處理的方法的流程示意圖;圖2為本專利技術實施例二提供的一種數據處理的方法的流程示意圖;圖3為本專利技術實施例三提供的一種數據處理的裝置的結構框圖。具體實施方式下面結合附圖和實施例對本專利技術作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本專利技術,而非對本專利技術的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本專利技術相關的部分而非全部內容。實施例一本專利技術實施例一提供一種數據處理的方法。該方法可由數據處理的裝置執行,其中該裝置可以由硬件和/或軟件實現,一般可集成在數據處理平臺中。圖1是本專利技術實施例一提供的數據處理的方法的流程示意圖,如圖1所示,該方法包括:S110、獲取數據樣本,所述數據樣本包括包含缺失值的數據樣本和未包含缺失值的數據樣本。本實施例中,數據樣本可以是實體類數據樣本,數據樣本可以包括第一數據樣本和第二數據樣本,其中第一數據樣本是包含缺失值的數據樣本,第二數據樣本是未包含缺失值的數據樣本。具體應用中,數據樣本可以預先存儲在與數據處理平臺相對應的數據庫中,在獲取數據樣本時,直接從數據樣本的存儲位置調用該數據樣本即可;也可以實時從數據傳輸接口獲取其他平臺或數據庫發送的數據樣本并對數據樣本中的缺失值進行處理,此處不作限制。S120、根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集。本實施例中,為減少確定用于填充缺失值的填充值所需的計算量,包含缺失值的數據樣本的各屬性項優選為可用屬性項,即,屬性項中的各屬性均不為缺失值。其中,各屬性項中可以包括兩個屬性值、三個屬性值甚至更多個屬性值,此處不作限制。在對數據樣本中包含的缺失值進行處理時,可以以橫向或縱向的順序進行處理,即,可以以數據樣本為單位進行處理,也可以以屬性為單位進行處理。包含缺失值的數據樣本和不包含缺失值的數據樣本的具體定義可以根據處理方式的不同靈活設定,例如,可以將任意一個或多個屬性值缺失的數據樣本均定義為包含缺失值的數據樣本,相應的,將不包含缺失值的數據樣本定義為所有屬性值均不缺失的數據樣本;也可以在對數據樣本某一個屬性中包含的缺失值進行處理時,只將該屬性的屬性值缺失的數據樣本定義為包含缺失值的數據樣本,相應的,將不包含缺失值的數據樣本定義為該屬性的屬性值不缺失的數據樣本。考慮到在對數據樣本某一個屬性中包含的缺失值進行處理時,該屬性的屬性值不缺失但是其他屬性的屬性值缺失的數據樣本也可以包含一個或多個屬性項,例如,假設包含缺失值的數據樣本中缺失值所對應的屬性為屬性A,某一數據樣本共有4個屬性:屬性A(屬性值為a1)、屬性B(屬性值為b1)、屬性C和屬性D(屬性值為d1),其中,該數據樣本中屬性C的屬性值缺失,此時該數據樣本仍可構成如下屬性項:(a1,b1)、(a1,d1)、(b1,d1)和(a1,b1,d1),因此,優選的,在對數據樣本某一個屬性中包含的缺失值進行處理時,可以只將該屬性的屬性值缺失的數據樣本定義為包含缺失值的數據樣本,將不包含缺失值的數據樣本定義為該屬性的屬性值不缺失的數據樣本。在對某一缺失值進行處理時,未包含缺失值的數據樣本的各屬性項中可以包含缺失值對應屬性的屬性值,也可以不包含缺失值對應屬性的屬性值。例如,假設包含缺失值的數據樣本中缺失值所對應的屬性為屬性A,某一未包含缺失值的數據樣本共有4個屬性:屬性A(屬性值為a2)、屬性B(屬性值為b2)、屬性C(屬性值為c2)和屬性D(屬性值為d2),則由該未包含缺失值的數據樣本組成的屬性項可以包含缺失值對應屬性(屬性A)的屬性值a2,如屬性項可以為(a2,b2)、(a2,c2)、(a2,d2)本文檔來自技高網...
    數據處理的方法及裝置

    【技術保護點】
    一種數據處理的方法,其特征在于,包括:獲取數據樣本,所述數據樣本包括包含缺失值的數據樣本和未包含缺失值的數據樣本;根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集;從所述頻繁項集中選擇填充屬性項;根據所述填充屬性項中與所述包含缺失值的數據樣本中的缺失值的對應屬性的屬性值確定填充值,并根據所述填充值更新所述包含缺失值的數據樣本。

    【技術特征摘要】
    1.一種數據處理的方法,其特征在于,包括:獲取數據樣本,所述數據樣本包括包含缺失值的數據樣本和未包含缺失值的數據樣本;根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集;從所述頻繁項集中選擇填充屬性項;根據所述填充屬性項中與所述包含缺失值的數據樣本中的缺失值的對應屬性的屬性值確定填充值,并根據所述填充值更新所述包含缺失值的數據樣本。2.根據權利要求1所述的方法,其特征在于,所述屬性信息包括屬性項的支持度信息和置信度信息,相應的,所述根據所述未包含缺失值的數據樣本的各屬性項的屬性信息確定所述未包含缺失值的數據樣本的各屬性項中與所述缺失值對應的頻繁項集,包括:根據所述數據樣本中與所述缺失值對應的屬性的非缺失率確定與所述缺失值相對應的最小支持閾值和最小置信閾值;從所述未包括缺失值的數據樣本中選取支持度信息大于或等于最小支持閾值的屬性項組成候選頻繁項集,所述屬性項包含與所述缺失值對應的屬性的屬性值;從所述候選頻繁項集中選取置信度信息大于或等于最小置信閾值的屬性項組成與所述缺失值對應的頻繁項集。3.根據權利要求2所述的方法,其特征在于,所述根據所述數據樣本中與所述缺失值對應的屬性的非缺失率確定與所述缺失值相對應的最小支持閾值和最小置信閾值,包括:如果Rnm≥90%,則MinSup=1-Rnm;如果60%≤Rnm<90%,則MinSup=1-0.9×Rnm;如果Rnm<60%,則MinSup=Rnm;其中,Rnm為所述數據樣本中與所述缺失值對應的屬性的非缺失率,MinSup為與所述缺失值相對應的最小支持閾值。4.根據權利要求3所述的方法,其特征在于,所述根據所述數據樣本中與所述缺失值對應的屬性的非缺失率確定與所述缺失值相對應的最小支持閾值和最小置信閾值,還包括:如果Rnm≥90%,則MinCon=0.92;如果80%≤Rnm<90%,則MinCon=0.9×Rnm+0.1;如果70%≤Rnm<80%,則MinCon=0.95×Rnm+0.1;如果Rnm<70%,則MinCon=0.75;其中,Rnm為所述數據樣本中與所述缺失值對應的屬性的非缺失率,MinCon為與所述缺失值相對應的最小置信閾值。5.根據權利要求1所述的方法,其特征在于,所述從所述頻繁項集中選擇填充屬性項,具體為:根據所述頻繁項集中各屬性項的支持度信息和/或對應的有效屬性值個數,確定與所述缺失值對應的填充屬性項,其中,所述有效...

    【專利技術屬性】
    技術研發人員:徐驕
    申請(專利權)人:廣州視源電子科技股份有限公司
    類型:發明
    國別省市:廣東,44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品三级在线观看无码| 性色AV蜜臀AV人妻无码| 久久久久亚洲AV无码去区首| 亚洲日韩精品无码AV海量| 久久水蜜桃亚洲AV无码精品| 日韩成人无码中文字幕| 久久精品中文字幕无码绿巨人 | 无码精品人妻一区二区三区免费 | 精品人妻无码专区中文字幕| 人妻无码第一区二区三区 | 色欲aⅴ亚洲情无码AV| 亚洲爆乳无码一区二区三区| 亚洲精品无码成人| 色综合久久久久无码专区| 国模吧无码一区二区三区| 国产成人亚洲精品无码AV大片| r级无码视频在线观看| 久久综合精品国产二区无码| 曰韩精品无码一区二区三区| 日韩AV片无码一区二区不卡| 精品人妻系列无码一区二区三区| 一区二区三区无码视频免费福利 | 蜜桃成人无码区免费视频网站| 无码人妻精品一区二区蜜桃百度| 中文字幕av无码一二三区电影| 无码专区中文字幕无码| 国产真人无码作爱视频免费| 久久久久亚洲AV无码专区桃色| 波多野结衣VA无码中文字幕电影| 亚洲AV成人噜噜无码网站| 无码人妻一区二区三区在线视频| 亚洲中文字幕久久精品无码喷水| 九九久久精品无码专区| 亚洲国产精品无码久久青草| 日韩精品无码久久一区二区三| 爽到高潮无码视频在线观看| 亚洲最大av无码网址| 精品久久久无码中文字幕| 国内精品人妻无码久久久影院导航| 无码视频一区二区三区| 精品人妻中文无码AV在线|