【技術(shù)實現(xiàn)步驟摘要】
本申請涉及數(shù)據(jù)處理,具體地,涉及一種數(shù)據(jù)集分類方法、裝置、計算機設(shè)備和存儲介質(zhì)。
技術(shù)介紹
1、隨著人工智能的發(fā)展,科技進入了數(shù)字化時代,數(shù)據(jù)是企業(yè)和個人最寶貴的資產(chǎn),電子商務(wù)、醫(yī)療系統(tǒng)和社交網(wǎng)絡(luò)等收集了大量的用戶數(shù)據(jù),用于用戶分析、商業(yè)決策等,但是數(shù)據(jù)發(fā)布、共享和分析的過程中,存在著用戶個人隱私信息泄露的風(fēng)險,數(shù)據(jù)安全得不到保障。數(shù)據(jù)的隱私保護主要包括兩方面,一是針對數(shù)據(jù)集的保護,二是針對統(tǒng)計信息的保護。針對數(shù)據(jù)集的隱私處理,并不能解決統(tǒng)計信息的隱私泄露,如刪除數(shù)據(jù)的標(biāo)志符屬性如id、姓名等敏感信息,能夠在一定程度上保護個人隱私,但是還不能滿足個人信息保護的需求。相關(guān)技術(shù)中,雖然對用戶姓名進行了隨機化處理,但是仍然能夠通過部分查詢記錄結(jié)合背景知識,定位到具體用戶。因此,除了數(shù)據(jù)標(biāo)識處理之外,還需要研究統(tǒng)計信息的隱私防護問題。
2、隨機森林由于具有較強的可解釋性、魯棒性,應(yīng)用廣泛,是一種重要的數(shù)據(jù)挖掘方法。然而,隨機森林算法本身和相應(yīng)的統(tǒng)計信息均有可能泄露用戶隱私信息,存在著較大風(fēng)險。
技術(shù)實現(xiàn)思路
1、本申請實施例中提供了一種數(shù)據(jù)集分類方法、裝置、計算機設(shè)備和存儲介質(zhì)。
2、本申請實施例的第一個方面,提供了一種數(shù)據(jù)集分類方法,所述方法包括:
3、獲取數(shù)據(jù)集中的訓(xùn)練集和測試集;
4、基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,其中,所述隨機森林分類模型基于差分隱私保護機制構(gòu)建;
5、將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森
6、在本申請一個可選的實施例中,所述基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,包括:
7、輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的數(shù)目、列選取方式、樣本選擇比例和隱私預(yù)算大小,輸出包含t棵決策樹的樹集合,其中,每棵樹分配的隱私大小通過以下表達式計算得到:
8、ε=b/t
9、其中,ε為每棵樹分配的隱私預(yù)算大小,b為隱私預(yù)算大小,t為樹的數(shù)目。
10、在本申請一個可選的實施例中,所述輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的數(shù)目、列選取方式、樣本選擇比例和隱私預(yù)算大小,輸出包含t棵決策樹的樹集合,包括:
11、輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的最大深度、最小劃分樣本數(shù)、葉子節(jié)點最小樣本數(shù)、單棵樹的隱私預(yù)算大小和樹的深度,輸出一顆決策樹,其中,所述決策樹為cart樹,通過以下表達式確定當(dāng)前cart樹每一層的隱私預(yù)算大小:
12、ε'=wd*ε
13、all_percent=1+2+…+(d+1)+(dmax+1)
14、wd=(d+1)/all_percent
15、其中,all_percent為一棵樹共分配的隱私份數(shù),wd為深度d層的權(quán)重,ε'為深度d層的隱私預(yù)算大小,ε為每棵樹分配的隱私預(yù)算大小,將每一層的隱私預(yù)算大小分為兩份,一份用于樣本集樣本計數(shù)ε”1=ε'/2,一份用于樣本集劃分ε”2=ε”1,其中,樣本集選自訓(xùn)練集,
16、執(zhí)行上一步驟t次,得到t棵決策樹,以得到包含t棵決策樹的樹集合。
17、在本申請一個可選的實施例中,對于每顆決策樹,通過以下表達式對當(dāng)前決策樹的樣本集添加laplace噪聲:
18、datasize=|dataset|+lap(1/ε”1)
19、其中,datasize為樣本集的數(shù)據(jù)大小,dataset為樣本集的特征集合,lap(1/ε”1)為laplace噪聲,
20、如果樣本集標(biāo)簽一致或者樣本集小于最小劃分樣本或者小于最大深度,則停止建樹,返回添加laplace噪聲的葉子節(jié)點標(biāo)簽,
21、如果當(dāng)前決策樹的深度小于或等于最大深度,根據(jù)添加分配的隱私預(yù)算計算過程獲取最佳分裂屬性和分裂值,然后根據(jù)最佳屬性和分裂值劃分樣本集,如果劃分后的左樣本集或者右樣本集的樣本數(shù)小于最小樣本數(shù)或者小于基尼指數(shù)閾值,則停止建樹,返回添加laplace噪聲的葉子節(jié)點標(biāo)簽,否則根據(jù)劃分的左樣本集和右樣本集分別遞歸建樹。
22、在本申請一個可選的實施例中,所述根據(jù)添加分配的隱私預(yù)算計算過程獲取最佳分裂屬性和分裂值,包括:
23、輸入特征數(shù)據(jù)集、標(biāo)簽數(shù)據(jù)集和隱私屬性選擇分配的隱私預(yù)算,輸出分裂特征和分裂值,其中,將所有屬性看作連續(xù)屬性,將隱私預(yù)算分為n+1份,每份分別用于指數(shù)機制的使用,n份隱私預(yù)算用于n個屬性最佳分裂值的選擇,一份隱私預(yù)算用于選擇最佳分裂屬性;
24、基于屬性的個數(shù)n,以及選擇分裂值時的隱私預(yù)算εvalue和選擇分裂屬性時的隱私預(yù)算εfeature,分別通過以下表達式選擇最佳的分裂特征和分裂值:
25、
26、
27、其中,a為屬性集合,q(d,a)為評價函數(shù)基尼指數(shù),d為樣本集,εvalue為選擇屬性分裂值時的隱私預(yù)算,δq為評價函數(shù)的全局敏感度,εfeature為選擇分裂屬性時的隱私預(yù)算,其中,
28、
29、其中,ε”=ε”2=ε”1。
30、在本申請一個可選的實施例中,在選擇最佳分裂屬性時,按照百分位數(shù)作為屬性的分裂值,每次數(shù)據(jù)集劃分時依次選擇分裂值,將屬性值小于等于分裂值的樣本劃分左孩子,將屬性值大于分裂值的樣本劃分到右孩子。
31、在本申請一個可選的實施例中,所述將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森林分類模型,得到測試集所有樣本的分類結(jié)果,包括:
32、對于測試集的每個樣本數(shù)據(jù),將測試集的每個樣本分別輸入隨機森林分類模型的每棵決策樹,獲取每棵決策樹對當(dāng)前樣本的預(yù)測結(jié)果;
33、選擇所有決策樹對應(yīng)的預(yù)測結(jié)果中眾數(shù)最多的類別作為當(dāng)前樣本的最終標(biāo)簽;
34、重復(fù)執(zhí)行上述步驟,獲取全部測試集的預(yù)測結(jié)果。
35、本申請實施例的第二個方面,提供了一種數(shù)據(jù)集分類裝置,包括:
36、獲取模塊,用于獲取數(shù)據(jù)集中的訓(xùn)練集和測試集;
37、構(gòu)建模塊,用于基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,其中,所述隨機森林分類模型基于差分隱私保護機制構(gòu)建;
38、輸入模塊,用于將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森林分類模型,得到測試集所有樣本的分類結(jié)果。
39、本申請實施例的第三個方面,提供了一種計算機設(shè)備,包括:包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)如上任一項數(shù)據(jù)集分類方法的步驟。
40、本申請實施例的第四個方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,計算機程序被處理器執(zhí)行時實現(xiàn)如上任一項的數(shù)據(jù)集分類方法的步驟。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種數(shù)據(jù)集分類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的數(shù)目、列選取方式、樣本選擇比例和隱私預(yù)算大小,輸出包含T棵決策樹的樹集合,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,對于每顆決策樹,通過以下表達式對當(dāng)前決策樹的樣本集添加Laplace噪聲:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)添加分配的隱私預(yù)算計算過程獲取最佳分裂屬性和分裂值,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在選擇最佳分裂屬性時,按照百分位數(shù)作為屬性的分裂值,每次數(shù)據(jù)集劃分時依次選擇分裂值,將屬性值小于等于分裂值的樣本劃分左孩子,將屬性值大于分裂值的樣本劃分到右孩子。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將測試集的樣本數(shù)據(jù)輸入已構(gòu)建的隨機森林分類模型,得到測試集所有樣本的分類結(jié)果,包括:
8.一種數(shù)據(jù)集分類裝置,
9.一種計算機設(shè)備,包括:包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述數(shù)據(jù)集分類方法的步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的數(shù)據(jù)集分類方法的步驟。
...【技術(shù)特征摘要】
1.一種數(shù)據(jù)集分類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述訓(xùn)練集的樣本數(shù)據(jù),構(gòu)建隨機森林分類模型,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述輸入訓(xùn)練集的樣本數(shù)據(jù)的特征集合、標(biāo)簽集合、樹的數(shù)目、列選取方式、樣本選擇比例和隱私預(yù)算大小,輸出包含t棵決策樹的樹集合,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,對于每顆決策樹,通過以下表達式對當(dāng)前決策樹的樣本集添加laplace噪聲:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)添加分配的隱私預(yù)算計算過程獲取最佳分裂屬性和分裂值,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在選擇最佳分裂屬性時,按照百...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:樊春美,楊立鵬,李雯,張智,紀(jì)宇宣,仲碩,王思宇,
申請(專利權(quán))人:中國鐵道科學(xué)研究院集團有限公司電子計算技術(shù)研究所,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。