The invention discloses a privacy protection method, released in a sensitive data includes: receiving data from the user set and the corresponding generalized multiple input tree, each set of data traversing the data set, and in turn to determine whether each column of data in the group of data there is a corresponding generalization of the input tree, if there is, according to the attributes of the data values in the corresponding generalized input nodes corresponding to tree search, and the node information input to the coordinates of the array, if it does not exist, it will attribute the data value of the input coordinates of the array, so as to get the M line array, and add the initial value is 0 the flag for each array, the establishment of P clusters, randomly selected from the M array in which p coordinate coordinate arrays respectively as the center point of the P clusters. The invention uses the method of prior clustering and generalization, and not only improves the calculation efficiency, but also lays the foundation for large-scale calculation.
【技術實現步驟摘要】
一種敏感數據發(fā)布中的隱私保護方法
本專利技術屬于計算機安全領域,更具體地,涉及一種敏感數據發(fā)布中的隱私保護方法。
技術介紹
隨著互聯(lián)網技術的迅猛發(fā)展,各種互聯(lián)網應用如雨后春筍般噴涌而出。不可否認,這些互聯(lián)網應用很大程度地方便了我們的生活。但是在使用這些應用的同時,我們的各種行為數據也將被各大應用廠商所儲存。由于研究需要或其它目的,數據持有者需要將這些數據發(fā)布出去,從而導致用戶的隱私信息泄漏,大數據環(huán)境下隱私泄露問題日益突出,加密和隱藏數據發(fā)布過程中的敏感數據變得非常重要。敏感數據需要進行隱私保護,其主要目標是,消除用戶敏感數據和用戶身份信息之間的對應關系。目前主流的隱私保護策略主要是采用k-匿名的隱私保護方法,實現k-匿名的算法有很多,例如有DATAFLY算法,該算法在實現k-匿名化的時候以表中的屬性為一組對于數據表中的所有元組進行K-匿名化;還有MDAV算法,該算法即先對數據集中數據進行劃分,針對每個k-匿名組再進行輸出。上述采用k-匿名的隱私保護方法在選取構成k-匿名組的數據的時候是通過計算兩組數據之間的相似性來判斷的,要么對于屬性值為混合型數據時并沒有做過多探討,要么是簡單地認為當兩組數據在當前坐標下的屬性值相同則距離為0,屬性值不同則距離為1。這樣必然會造成兩組數據之間的相似性計算不準確,導致k-匿名組分配的不合理。
技術實現思路
針對現有技術的以上缺陷或改進需求,本專利技術提供了一種敏感數據發(fā)布中的隱私保護方法,其目的在于,通過使用一種基于語義的概化輸入樹來進行數據之間的距離計算和數據的概化輸出,解決上述現有的方法中存在的由于相似性計算不準確,導致k ...
【技術保護點】
一種敏感數據發(fā)布中的隱私保護方法,其特征在于,包括以下步驟:(1)接收來自用戶的數據集以及對應的多個概化輸入樹,該數據集具有m組,每組數據具有n個屬性;(2)遍歷數據集中的每一組數據,并依次判斷該組數據中的每一列數據是否存在對應的概化輸入樹,如果存在,則根據該數據的屬性值在對應概化輸入樹中查找對應的節(jié)點,并將該節(jié)點的信息輸入到坐標數組中,如果不存在,則直接將該數據的屬性值輸入坐標數組中,從而得到m行坐標數組,并為每個坐標數組添加初始值為0的標志位;(3)建立標志位分別為1,2,…,p的p個簇,從m行坐標數組中隨機選擇其中p行坐標數組分別作為建立的p個簇的中心點,其中0<p≤m;(4)依次對m行坐標數組中的每一行,分別獲取其與p個中心點之間的距離,選取得到的p個結果中最小值對應的中心點對應的簇,將該行坐標數組添加到對應的簇中,并將當前行坐標數組的標志位設置為當前簇的標志位;(5)重新獲取步驟(4)中得到的每個簇的中心點作為新的中心點;(6)判斷步驟(5)獲得的新的中心點是否與對應的原中心點是否相同,如果相同則進入步驟(7),否則返回步驟(4);(7)針對得到的每一個簇,判斷該簇中坐 ...
【技術特征摘要】
1.一種敏感數據發(fā)布中的隱私保護方法,其特征在于,包括以下步驟:(1)接收來自用戶的數據集以及對應的多個概化輸入樹,該數據集具有m組,每組數據具有n個屬性;(2)遍歷數據集中的每一組數據,并依次判斷該組數據中的每一列數據是否存在對應的概化輸入樹,如果存在,則根據該數據的屬性值在對應概化輸入樹中查找對應的節(jié)點,并將該節(jié)點的信息輸入到坐標數組中,如果不存在,則直接將該數據的屬性值輸入坐標數組中,從而得到m行坐標數組,并為每個坐標數組添加初始值為0的標志位;(3)建立標志位分別為1,2,…,p的p個簇,從m行坐標數組中隨機選擇其中p行坐標數組分別作為建立的p個簇的中心點,其中0<p≤m;(4)依次對m行坐標數組中的每一行,分別獲取其與p個中心點之間的距離,選取得到的p個結果中最小值對應的中心點對應的簇,將該行坐標數組添加到對應的簇中,并將當前行坐標數組的標志位設置為當前簇的標志位;(5)重新獲取步驟(4)中得到的每個簇的中心點作為新的中心點;(6)判斷步驟(5)獲得的新的中心點是否與對應的原中心點是否相同,如果相同則進入步驟(7),否則返回步驟(4);(7)針對得到的每一個簇,判斷該簇中坐標數組的個數是否大于2k,其中k是用戶預先設置的匿名組的數量,是則計算出該簇的中心點,獲取該簇中距離該中心點最遠的坐標數組s,獲取距離坐標數組s最遠的坐標數組u,將距離坐標數組s最近的k-1個坐標數組與s歸為一個k匿名組中,將距離坐標數組u最近的k-1個坐標數組與u歸為一個k匿名組中,并將這些歸入k匿名組中的坐標數組從簇中刪除;否則判斷該簇中坐標數組的個數是否大于k,如果是則將該簇中坐標數組歸為一個k匿名組,并將這些歸入k匿名組中的坐標數組從簇中刪除,否則將該簇中坐標數組歸入上一次歸入的k匿名組中,并將這些歸入k匿名組中的坐標數組從簇中刪除;(8)重復步驟(7),直到簇中的坐標數組數量為0為止;(9)根據概化輸入樹對得到的多個k匿名組進行概化輸出。2.根據權利要求1所述的隱私保護方法,其特征在于,節(jié)點的信息包括節(jié)點所在的層數、節(jié)點的屬性值、以及節(jié)點的父節(jié)點。3.根據權利要求1所述的隱私保護方法,其特征在于,步驟(4)中,當元素為數字時,計算距離時是采用歐氏距離計算公式。4.根據權利要求1所述的隱私保護方法,其特征在于,步驟(4)中,當元素是字符串時,如果元素的屬性值相同則距離為0,屬性值不同則距離為1。5.根據權利要求1所述的隱私保護方法,其特征在于,步驟(4)中,當元素是節(jié)點信息時,距離的計算過程是:首先比較兩個節(jié)點是否相同,相同則距離為1,不同則比較其所在的層數是否相同,如果層數相同則比較其父節(jié)點是否相同,父節(jié)點相同則距離值為1/r,其中r為所在層數,父節(jié)點不同則繼續(xù)判斷其各自上一級父節(jié)點是否相同,如果相同,則判斷距離值等于該上一級父節(jié)點所在層數的倒數,否則繼續(xù)判斷其上一級父節(jié)點并重復本過程;如果層數不相同,則將層數大的節(jié)點的上一級父節(jié)點與另一個節(jié)點進行比較,看二者層數是否相同,如果層數相同,則依照上述層數相同時候的原則進行判斷,如果還不相同,則繼續(xù)尋找其上一級父節(jié)點,并重復本過程。6.根據權利要求1所述的隱私保護方法,其特征在于,步驟(5)中,當簇...
【專利技術屬性】
技術研發(fā)人員:李春花,周可,胡家琦,
申請(專利權)人:華中科技大學,
類型:發(fā)明
國別省市:湖北,42
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。