• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    數(shù)據(jù)集分類方法、裝置、計算機設(shè)備和存儲介質(zhì)制造方法及圖紙

    技術(shù)編號:43537205 閱讀:14 留言:0更新日期:2024-12-03 12:20
    本申請實施例中提供了一種數(shù)據(jù)集分類方法、裝置、計算機設(shè)備和存儲介質(zhì),所述方法包括:獲取數(shù)據(jù)集中的訓(xùn)練集和測試集;基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,其中,所述隨機森林分類模型基于差分隱私保護機制構(gòu)建;將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森林分類模型,得到測試集所有樣本的分類結(jié)果。本申請的隨機森林分類模型能夠降低用戶隱私信息的泄露風(fēng)險。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請涉及數(shù)據(jù)處理,具體地,涉及一種數(shù)據(jù)集分類方法、裝置、計算機設(shè)備和存儲介質(zhì)


    技術(shù)介紹

    1、隨著人工智能的發(fā)展,科技進入了數(shù)字化時代,數(shù)據(jù)是企業(yè)和個人最寶貴的資產(chǎn),電子商務(wù)、醫(yī)療系統(tǒng)和社交網(wǎng)絡(luò)等收集了大量的用戶數(shù)據(jù),用于用戶分析、商業(yè)決策等,但是數(shù)據(jù)發(fā)布、共享和分析的過程中,存在著用戶個人隱私信息泄露的風(fēng)險,數(shù)據(jù)安全得不到保障。數(shù)據(jù)的隱私保護主要包括兩方面,一是針對數(shù)據(jù)集的保護,二是針對統(tǒng)計信息的保護。針對數(shù)據(jù)集的隱私處理,并不能解決統(tǒng)計信息的隱私泄露,如刪除數(shù)據(jù)的標(biāo)志符屬性如id、姓名等敏感信息,能夠在一定程度上保護個人隱私,但是還不能滿足個人信息保護的需求。相關(guān)技術(shù)中,雖然對用戶姓名進行了隨機化處理,但是仍然能夠通過部分查詢記錄結(jié)合背景知識,定位到具體用戶。因此,除了數(shù)據(jù)標(biāo)識處理之外,還需要研究統(tǒng)計信息的隱私防護問題。

    2、隨機森林由于具有較強的可解釋性、魯棒性,應(yīng)用廣泛,是一種重要的數(shù)據(jù)挖掘方法。然而,隨機森林算法本身和相應(yīng)的統(tǒng)計信息均有可能泄露用戶隱私信息,存在著較大風(fēng)險。


    技術(shù)實現(xiàn)思路

    1、本申請實施例中提供了一種數(shù)據(jù)集分類方法、裝置、計算機設(shè)備和存儲介質(zhì)。

    2、本申請實施例的第一個方面,提供了一種數(shù)據(jù)集分類方法,所述方法包括:

    3、獲取數(shù)據(jù)集中的訓(xùn)練集和測試集;

    4、基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,其中,所述隨機森林分類模型基于差分隱私保護機制構(gòu)建;

    5、將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森林分類模型,得到測試集所有樣本的分類結(jié)果。

    6、在本申請一個可選的實施例中,所述基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,包括:

    7、輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的數(shù)目、列選取方式、樣本選擇比例和隱私預(yù)算大小,輸出包含t棵決策樹的樹集合,其中,每棵樹分配的隱私大小通過以下表達式計算得到:

    8、ε=b/t

    9、其中,ε為每棵樹分配的隱私預(yù)算大小,b為隱私預(yù)算大小,t為樹的數(shù)目。

    10、在本申請一個可選的實施例中,所述輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的數(shù)目、列選取方式、樣本選擇比例和隱私預(yù)算大小,輸出包含t棵決策樹的樹集合,包括:

    11、輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的最大深度、最小劃分樣本數(shù)、葉子節(jié)點最小樣本數(shù)、單棵樹的隱私預(yù)算大小和樹的深度,輸出一顆決策樹,其中,所述決策樹為cart樹,通過以下表達式確定當(dāng)前cart樹每一層的隱私預(yù)算大小:

    12、ε'=wd*ε

    13、all_percent=1+2+…+(d+1)+(dmax+1)

    14、wd=(d+1)/all_percent

    15、其中,all_percent為一棵樹共分配的隱私份數(shù),wd為深度d層的權(quán)重,ε'為深度d層的隱私預(yù)算大小,ε為每棵樹分配的隱私預(yù)算大小,將每一層的隱私預(yù)算大小分為兩份,一份用于樣本集樣本計數(shù)ε”1=ε'/2,一份用于樣本集劃分ε”2=ε”1,其中,樣本集選自訓(xùn)練集,

    16、執(zhí)行上一步驟t次,得到t棵決策樹,以得到包含t棵決策樹的樹集合。

    17、在本申請一個可選的實施例中,對于每顆決策樹,通過以下表達式對當(dāng)前決策樹的樣本集添加laplace噪聲:

    18、datasize=|dataset|+lap(1/ε”1)

    19、其中,datasize為樣本集的數(shù)據(jù)大小,dataset為樣本集的特征集合,lap(1/ε”1)為laplace噪聲,

    20、如果樣本集標(biāo)簽一致或者樣本集小于最小劃分樣本或者小于最大深度,則停止建樹,返回添加laplace噪聲的葉子節(jié)點標(biāo)簽,

    21、如果當(dāng)前決策樹的深度小于或等于最大深度,根據(jù)添加分配的隱私預(yù)算計算過程獲取最佳分裂屬性和分裂值,然后根據(jù)最佳屬性和分裂值劃分樣本集,如果劃分后的左樣本集或者右樣本集的樣本數(shù)小于最小樣本數(shù)或者小于基尼指數(shù)閾值,則停止建樹,返回添加laplace噪聲的葉子節(jié)點標(biāo)簽,否則根據(jù)劃分的左樣本集和右樣本集分別遞歸建樹。

    22、在本申請一個可選的實施例中,所述根據(jù)添加分配的隱私預(yù)算計算過程獲取最佳分裂屬性和分裂值,包括:

    23、輸入特征數(shù)據(jù)集、標(biāo)簽數(shù)據(jù)集和隱私屬性選擇分配的隱私預(yù)算,輸出分裂特征和分裂值,其中,將所有屬性看作連續(xù)屬性,將隱私預(yù)算分為n+1份,每份分別用于指數(shù)機制的使用,n份隱私預(yù)算用于n個屬性最佳分裂值的選擇,一份隱私預(yù)算用于選擇最佳分裂屬性;

    24、基于屬性的個數(shù)n,以及選擇分裂值時的隱私預(yù)算εvalue和選擇分裂屬性時的隱私預(yù)算εfeature,分別通過以下表達式選擇最佳的分裂特征和分裂值:

    25、

    26、

    27、其中,a為屬性集合,q(d,a)為評價函數(shù)基尼指數(shù),d為樣本集,εvalue為選擇屬性分裂值時的隱私預(yù)算,δq為評價函數(shù)的全局敏感度,εfeature為選擇分裂屬性時的隱私預(yù)算,其中,

    28、

    29、其中,ε”=ε”2=ε”1。

    30、在本申請一個可選的實施例中,在選擇最佳分裂屬性時,按照百分位數(shù)作為屬性的分裂值,每次數(shù)據(jù)集劃分時依次選擇分裂值,將屬性值小于等于分裂值的樣本劃分左孩子,將屬性值大于分裂值的樣本劃分到右孩子。

    31、在本申請一個可選的實施例中,所述將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森林分類模型,得到測試集所有樣本的分類結(jié)果,包括:

    32、對于測試集的每個樣本數(shù)據(jù),將測試集的每個樣本分別輸入隨機森林分類模型的每棵決策樹,獲取每棵決策樹對當(dāng)前樣本的預(yù)測結(jié)果;

    33、選擇所有決策樹對應(yīng)的預(yù)測結(jié)果中眾數(shù)最多的類別作為當(dāng)前樣本的最終標(biāo)簽;

    34、重復(fù)執(zhí)行上述步驟,獲取全部測試集的預(yù)測結(jié)果。

    35、本申請實施例的第二個方面,提供了一種數(shù)據(jù)集分類裝置,包括:

    36、獲取模塊,用于獲取數(shù)據(jù)集中的訓(xùn)練集和測試集;

    37、構(gòu)建模塊,用于基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,其中,所述隨機森林分類模型基于差分隱私保護機制構(gòu)建;

    38、輸入模塊,用于將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森林分類模型,得到測試集所有樣本的分類結(jié)果。

    39、本申請實施例的第三個方面,提供了一種計算機設(shè)備,包括:包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)如上任一項數(shù)據(jù)集分類方法的步驟。

    40、本申請實施例的第四個方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,計算機程序被處理器執(zhí)行時實現(xiàn)如上任一項的數(shù)據(jù)集分類方法的步驟。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種數(shù)據(jù)集分類方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,包括:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的數(shù)目、列選取方式、樣本選擇比例和隱私預(yù)算大小,輸出包含T棵決策樹的樹集合,包括:

    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,對于每顆決策樹,通過以下表達式對當(dāng)前決策樹的樣本集添加Laplace噪聲:

    5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)添加分配的隱私預(yù)算計算過程獲取最佳分裂屬性和分裂值,包括:

    6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在選擇最佳分裂屬性時,按照百分位數(shù)作為屬性的分裂值,每次數(shù)據(jù)集劃分時依次選擇分裂值,將屬性值小于等于分裂值的樣本劃分左孩子,將屬性值大于分裂值的樣本劃分到右孩子。

    7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森林分類模型,得到測試集所有樣本的分類結(jié)果,包括:

    8.一種數(shù)據(jù)集分類裝置,其特征在于,包括:

    9.一種計算機設(shè)備,包括:包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述數(shù)據(jù)集分類方法的步驟。

    10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的數(shù)據(jù)集分類方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種數(shù)據(jù)集分類方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,包括:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的數(shù)目、列選取方式、樣本選擇比例和隱私預(yù)算大小,輸出包含t棵決策樹的樹集合,包括:

    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,對于每顆決策樹,通過以下表達式對當(dāng)前決策樹的樣本集添加laplace噪聲:

    5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)添加分配的隱私預(yù)算計算過程獲取最佳分裂屬性和分裂值,包括:

    6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在選擇最佳分裂屬性時,按照百...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:樊春美楊立鵬李雯張智紀(jì)宇宣仲碩王思宇
    申請(專利權(quán))人:中國鐵道科學(xué)研究院集團有限公司電子計算技術(shù)研究所
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 99热门精品一区二区三区无码| 无码人妻精品一区二区三区在线| 无码人妻一区二区三区免费 | 人妻无码久久精品人妻| 久久av无码专区亚洲av桃花岛| 丰满爆乳无码一区二区三区| 久久久久久久无码高潮| 无码人妻少妇久久中文字幕 | 国产亚洲?V无码?V男人的天堂 | 黑人无码精品又粗又大又长 | 日韩精品无码免费一区二区三区 | 成人无码区免费A∨直播| 69堂人成无码免费视频果冻传媒| 亚洲av中文无码| 无码高潮爽到爆的喷水视频app| 亚洲AV无码一区二区二三区入口 | 亚洲国产AV无码专区亚洲AV| 18禁超污无遮挡无码免费网站国产| 久久青青草原亚洲av无码app| 中文字幕AV中文字无码亚| 西西4444www大胆无码| 成人无码区免费视频观看| 久久精品无码一区二区三区不卡 | 少妇人妻无码精品视频| 亚洲精品无码乱码成人| 日韩精品无码免费专区网站| 日韩人妻系列无码专区| 加勒比无码一区二区三区| 无码少妇丰满熟妇一区二区| 人妻丰满熟妇AV无码区| 久久久久久久久免费看无码| 亚洲成av人无码亚洲成av人| 亚洲日韩看片无码电影| 亚洲日韩精品无码AV海量| 亚洲精品无码一区二区| 国产午夜av无码无片久久96| 精品少妇人妻AV无码专区不卡 | 亚洲最大av资源站无码av网址| 久久久无码精品亚洲日韩按摩| 亚洲色av性色在线观无码| 亚洲va成无码人在线观看|