• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種敏感數據發(fā)布中的隱私保護方法技術

    技術編號:15691381 閱讀:155 留言:0更新日期:2017-06-24 04:32
    本發(fā)明專利技術公開了一種敏感數據發(fā)布中的隱私保護方法,包括:接收來自用戶的數據集以及對應的多個概化輸入樹,遍歷數據集中的每一組數據,并依次判斷該組數據中的每一列數據是否存在對應的概化輸入樹,如果存在,則根據該數據的屬性值在對應概化輸入樹中查找對應的節(jié)點,并將該節(jié)點的信息輸入到坐標數組中,如果不存在,則直接將該數據的屬性值輸入坐標數組中,從而得到m行坐標數組,并為每個坐標數組添加初始值為0的標志位,建立p個簇,從m行坐標數組中隨機選擇其中p行坐標數組分別作為建立的p個簇的中心點。本發(fā)明專利技術使用先聚類再概化的方法,不僅提高了計算效率,也為進行大規(guī)模計算奠定了基礎。

    Privacy protection method in sensitive data publishing

    The invention discloses a privacy protection method, released in a sensitive data includes: receiving data from the user set and the corresponding generalized multiple input tree, each set of data traversing the data set, and in turn to determine whether each column of data in the group of data there is a corresponding generalization of the input tree, if there is, according to the attributes of the data values in the corresponding generalized input nodes corresponding to tree search, and the node information input to the coordinates of the array, if it does not exist, it will attribute the data value of the input coordinates of the array, so as to get the M line array, and add the initial value is 0 the flag for each array, the establishment of P clusters, randomly selected from the M array in which p coordinate coordinate arrays respectively as the center point of the P clusters. The invention uses the method of prior clustering and generalization, and not only improves the calculation efficiency, but also lays the foundation for large-scale calculation.

    【技術實現步驟摘要】
    一種敏感數據發(fā)布中的隱私保護方法
    本專利技術屬于計算機安全領域,更具體地,涉及一種敏感數據發(fā)布中的隱私保護方法。
    技術介紹
    隨著互聯(lián)網技術的迅猛發(fā)展,各種互聯(lián)網應用如雨后春筍般噴涌而出。不可否認,這些互聯(lián)網應用很大程度地方便了我們的生活。但是在使用這些應用的同時,我們的各種行為數據也將被各大應用廠商所儲存。由于研究需要或其它目的,數據持有者需要將這些數據發(fā)布出去,從而導致用戶的隱私信息泄漏,大數據環(huán)境下隱私泄露問題日益突出,加密和隱藏數據發(fā)布過程中的敏感數據變得非常重要。敏感數據需要進行隱私保護,其主要目標是,消除用戶敏感數據和用戶身份信息之間的對應關系。目前主流的隱私保護策略主要是采用k-匿名的隱私保護方法,實現k-匿名的算法有很多,例如有DATAFLY算法,該算法在實現k-匿名化的時候以表中的屬性為一組對于數據表中的所有元組進行K-匿名化;還有MDAV算法,該算法即先對數據集中數據進行劃分,針對每個k-匿名組再進行輸出。上述采用k-匿名的隱私保護方法在選取構成k-匿名組的數據的時候是通過計算兩組數據之間的相似性來判斷的,要么對于屬性值為混合型數據時并沒有做過多探討,要么是簡單地認為當兩組數據在當前坐標下的屬性值相同則距離為0,屬性值不同則距離為1。這樣必然會造成兩組數據之間的相似性計算不準確,導致k-匿名組分配的不合理。
    技術實現思路
    針對現有技術的以上缺陷或改進需求,本專利技術提供了一種敏感數據發(fā)布中的隱私保護方法,其目的在于,通過使用一種基于語義的概化輸入樹來進行數據之間的距離計算和數據的概化輸出,解決上述現有的方法中存在的由于相似性計算不準確,導致k-匿名組分配不合理的技術問題。為實現上述目的,按照本專利技術的一個方面,提供了一種敏感數據發(fā)布中的隱私保護方法,包括以下步驟:(1)接收來自用戶的數據集以及對應的多個概化輸入樹,該數據集具有m組,每組數據具有n個屬性;(2)遍歷數據集中的每一組數據,并依次判斷該組數據中的每一列數據是否存在對應的概化輸入樹,如果存在,則根據該數據的屬性值在對應概化輸入樹中查找對應的節(jié)點,并將該節(jié)點的信息輸入到坐標數組中,如果不存在,則直接將該數據的屬性值輸入坐標數組中,從而得到m行坐標數組,并為每個坐標數組添加初始值為0的標志位;(3)建立標志位分別為1,2,…,p的p個簇,從m行坐標數組中隨機選擇其中p行坐標數組分別作為建立的p個簇的中心點,其中0<p≤m;(4)依次對m行坐標數組中的每一行,分別獲取其與p個中心點之間的距離,選取得到的p個結果中最小值對應的中心點對應的簇,將該行坐標數組添加到對應的簇中,并將當前行坐標數組的標志位設置為當前簇的標志位;(5)重新獲取步驟(4)中得到的每個簇的中心點作為新的中心點;(6)判斷步驟(5)獲得的新的中心點是否與對應的原中心點是否相同,如果相同則進入步驟(7),否則返回步驟(4);(7)針對得到的每一個簇,判斷該簇中坐標數組的個數是否大于2k,其中k是用戶預先設置的匿名組的數量,是則計算出該簇的中心點,獲取該簇中距離該中心點最遠的坐標數組s,獲取距離坐標數組s最遠的坐標數組u,將距離坐標數組s最近的k-1個坐標數組與s歸為一個k匿名組中,將距離坐標數組u最近的k-1個坐標數組與u歸為一個k匿名組中,并將這些歸入k匿名組中的坐標數組從簇中刪除;否則判斷該簇中坐標數組的個數是否大于k,如果是則將該簇中坐標數組歸為一個k匿名組,并將這些歸入k匿名組中的坐標數組從簇中刪除,否則將該簇中坐標數組歸入上一次歸入的k匿名組中,并將這些歸入k匿名組中的坐標數組從簇中刪除;(8)重復步驟(7),直到簇中的坐標數組數量為0為止;(9)根據概化輸入樹對得到的多個k匿名組進行概化輸出。優(yōu)選地,節(jié)點的信息包括節(jié)點所在的層數、節(jié)點的屬性值、以及節(jié)點的父節(jié)點。優(yōu)選地,步驟(4)中,當元素為數字時,計算距離時是采用歐氏距離計算公式。優(yōu)選地,步驟(4)中,當元素是字符串時,如果元素的屬性值相同則距離為0,屬性值不同則距離為1。優(yōu)選地,步驟(4)中,當元素是節(jié)點信息時,距離的計算過程是:首先比較兩個節(jié)點是否相同,相同則距離為1,不同則比較其所在的層數是否相同,如果層數相同則比較其父節(jié)點是否相同,父節(jié)點相同則距離值為1/r,其中r為所在層數,父節(jié)點不同則繼續(xù)判斷其各自上一級父節(jié)點是否相同,如果相同,則判斷距離值等于該上一級父節(jié)點所在層數的倒數,否則繼續(xù)判斷其上一級父節(jié)點并重復本過程;如果層數不相同,則將層數大的節(jié)點的上一級父節(jié)點與另一個節(jié)點進行比較,看二者層數是否相同,如果層數相同,則依照上述層數相同時候的原則進行判斷,如果還不相同,則繼續(xù)尋找其上一級父節(jié)點,并重復本過程。優(yōu)選地,步驟(5)中,當簇中的某一列元素是數字時,中心點是通過對所有元素取平均值來獲得;當簇中的某一列元素是字符串時,中心點就是出現次數最多的字符串;當簇中的某一列元素是節(jié)點信息時,首先對各節(jié)點的層數取平均值,然后向下取整,在概化輸入樹中搜素第一個與取整后的層數相匹配的節(jié)點作為新的中心點。優(yōu)選地,步驟(9)具體為,對于k匿名組中數字類型,是通過輸出該匿名組中數字的取值范圍進行概化;對于k匿名組中字符串型數據,如果該k匿名組中所有的字符串均相同,則輸出該字符串,否則輸出通配符;對于k匿名組中節(jié)點信息,首先比較兩個節(jié)點是否相同,相同則輸出當前節(jié)點,不同則比較其所在的層數是否相同,如果層數相同則比較其父節(jié)點是否相同,父節(jié)點相同則輸出該父節(jié)點,父節(jié)點不同則繼續(xù)判斷其各自上一級父節(jié)點是否相同,如果相同,則輸出該上一級父節(jié)點,否則繼續(xù)判斷其上一級父節(jié)點并重復本過程;如果層數不相同,則將層數大的節(jié)點的上一級父節(jié)點與另一個節(jié)點進行比較,看二者層數是否相同,如果層數相同,則依照上述層數相同時候的原則進行判斷,如果還不相同,則繼續(xù)尋找其上一級父節(jié)點,并重復本過程。按照本專利技術的另一方面,提供了一種敏感數據發(fā)布中的隱私保護系統(tǒng),包括:第一模塊,用于接收來自用戶的數據集以及對應的多個概化輸入樹,該數據集具有m組,每組數據具有n個屬性;第二模塊,用于遍歷數據集中的每一組數據,并依次判斷該組數據中的每一列數據是否存在對應的概化輸入樹,如果存在,則根據該數據的屬性值在對應概化輸入樹中查找對應的節(jié)點,并將該節(jié)點的信息輸入到坐標數組中,如果不存在,則直接將該數據的屬性值輸入坐標數組中,從而得到m行坐標數組,并為每個坐標數組添加初始值為0的標志位;第三模塊,用于建立標志位分別為1,2,…,p的p個簇,從m行坐標數組中隨機選擇其中p行坐標數組分別作為建立的p個簇的中心點,其中0<p≤m;第四模塊,用于依次對m行坐標數組中的每一行,分別獲取其與p個中心點之間的距離,選取得到的p個結果中最小值對應的中心點對應的簇,將該行坐標數組添加到對應的簇中,并將當前行坐標數組的標志位設置為當前簇的標志位;第五模塊,用于重新獲取第四模塊中得到的每個簇的中心點作為新的中心點;第六模塊,用于判斷第五模塊獲得的新的中心點是否與對應的原中心點是否相同,如果相同則進入第七模塊,否則返回第四模塊;第七模塊,用于針對得到的每一個簇,判斷該簇中坐標數組的個數是否大于2k,其中k是用戶預先設置的匿名組的數量,是則計算出該簇的中心點,獲取該簇中距離該中心點本文檔來自技高網...
    一種敏感數據發(fā)布中的隱私保護方法

    【技術保護點】
    一種敏感數據發(fā)布中的隱私保護方法,其特征在于,包括以下步驟:(1)接收來自用戶的數據集以及對應的多個概化輸入樹,該數據集具有m組,每組數據具有n個屬性;(2)遍歷數據集中的每一組數據,并依次判斷該組數據中的每一列數據是否存在對應的概化輸入樹,如果存在,則根據該數據的屬性值在對應概化輸入樹中查找對應的節(jié)點,并將該節(jié)點的信息輸入到坐標數組中,如果不存在,則直接將該數據的屬性值輸入坐標數組中,從而得到m行坐標數組,并為每個坐標數組添加初始值為0的標志位;(3)建立標志位分別為1,2,…,p的p個簇,從m行坐標數組中隨機選擇其中p行坐標數組分別作為建立的p個簇的中心點,其中0<p≤m;(4)依次對m行坐標數組中的每一行,分別獲取其與p個中心點之間的距離,選取得到的p個結果中最小值對應的中心點對應的簇,將該行坐標數組添加到對應的簇中,并將當前行坐標數組的標志位設置為當前簇的標志位;(5)重新獲取步驟(4)中得到的每個簇的中心點作為新的中心點;(6)判斷步驟(5)獲得的新的中心點是否與對應的原中心點是否相同,如果相同則進入步驟(7),否則返回步驟(4);(7)針對得到的每一個簇,判斷該簇中坐標數組的個數是否大于2k,其中k是用戶預先設置的匿名組的數量,是則計算出該簇的中心點,獲取該簇中距離該中心點最遠的坐標數組s,獲取距離坐標數組s最遠的坐標數組u,將距離坐標數組s最近的k?1個坐標數組與s歸為一個k匿名組中,將距離坐標數組u最近的k?1個坐標數組與u歸為一個k匿名組中,并將這些歸入k匿名組中的坐標數組從簇中刪除;否則判斷該簇中坐標數組的個數是否大于k,如果是則將該簇中坐標數組歸為一個k匿名組,并將這些歸入k匿名組中的坐標數組從簇中刪除,否則將該簇中坐標數組歸入上一次歸入的k匿名組中,并將這些歸入k匿名組中的坐標數組從簇中刪除;(8)重復步驟(7),直到簇中的坐標數組數量為0為止;(9)根據概化輸入樹對得到的多個k匿名組進行概化輸出。...

    【技術特征摘要】
    1.一種敏感數據發(fā)布中的隱私保護方法,其特征在于,包括以下步驟:(1)接收來自用戶的數據集以及對應的多個概化輸入樹,該數據集具有m組,每組數據具有n個屬性;(2)遍歷數據集中的每一組數據,并依次判斷該組數據中的每一列數據是否存在對應的概化輸入樹,如果存在,則根據該數據的屬性值在對應概化輸入樹中查找對應的節(jié)點,并將該節(jié)點的信息輸入到坐標數組中,如果不存在,則直接將該數據的屬性值輸入坐標數組中,從而得到m行坐標數組,并為每個坐標數組添加初始值為0的標志位;(3)建立標志位分別為1,2,…,p的p個簇,從m行坐標數組中隨機選擇其中p行坐標數組分別作為建立的p個簇的中心點,其中0<p≤m;(4)依次對m行坐標數組中的每一行,分別獲取其與p個中心點之間的距離,選取得到的p個結果中最小值對應的中心點對應的簇,將該行坐標數組添加到對應的簇中,并將當前行坐標數組的標志位設置為當前簇的標志位;(5)重新獲取步驟(4)中得到的每個簇的中心點作為新的中心點;(6)判斷步驟(5)獲得的新的中心點是否與對應的原中心點是否相同,如果相同則進入步驟(7),否則返回步驟(4);(7)針對得到的每一個簇,判斷該簇中坐標數組的個數是否大于2k,其中k是用戶預先設置的匿名組的數量,是則計算出該簇的中心點,獲取該簇中距離該中心點最遠的坐標數組s,獲取距離坐標數組s最遠的坐標數組u,將距離坐標數組s最近的k-1個坐標數組與s歸為一個k匿名組中,將距離坐標數組u最近的k-1個坐標數組與u歸為一個k匿名組中,并將這些歸入k匿名組中的坐標數組從簇中刪除;否則判斷該簇中坐標數組的個數是否大于k,如果是則將該簇中坐標數組歸為一個k匿名組,并將這些歸入k匿名組中的坐標數組從簇中刪除,否則將該簇中坐標數組歸入上一次歸入的k匿名組中,并將這些歸入k匿名組中的坐標數組從簇中刪除;(8)重復步驟(7),直到簇中的坐標數組數量為0為止;(9)根據概化輸入樹對得到的多個k匿名組進行概化輸出。2.根據權利要求1所述的隱私保護方法,其特征在于,節(jié)點的信息包括節(jié)點所在的層數、節(jié)點的屬性值、以及節(jié)點的父節(jié)點。3.根據權利要求1所述的隱私保護方法,其特征在于,步驟(4)中,當元素為數字時,計算距離時是采用歐氏距離計算公式。4.根據權利要求1所述的隱私保護方法,其特征在于,步驟(4)中,當元素是字符串時,如果元素的屬性值相同則距離為0,屬性值不同則距離為1。5.根據權利要求1所述的隱私保護方法,其特征在于,步驟(4)中,當元素是節(jié)點信息時,距離的計算過程是:首先比較兩個節(jié)點是否相同,相同則距離為1,不同則比較其所在的層數是否相同,如果層數相同則比較其父節(jié)點是否相同,父節(jié)點相同則距離值為1/r,其中r為所在層數,父節(jié)點不同則繼續(xù)判斷其各自上一級父節(jié)點是否相同,如果相同,則判斷距離值等于該上一級父節(jié)點所在層數的倒數,否則繼續(xù)判斷其上一級父節(jié)點并重復本過程;如果層數不相同,則將層數大的節(jié)點的上一級父節(jié)點與另一個節(jié)點進行比較,看二者層數是否相同,如果層數相同,則依照上述層數相同時候的原則進行判斷,如果還不相同,則繼續(xù)尋找其上一級父節(jié)點,并重復本過程。6.根據權利要求1所述的隱私保護方法,其特征在于,步驟(5)中,當簇...

    【專利技術屬性】
    技術研發(fā)人員:李春花周可胡家琦
    申請(專利權)人:華中科技大學
    類型:發(fā)明
    國別省市:湖北,42

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久亚洲精品成人无码| 亚洲中文字幕无码av| 亚洲av无码天堂一区二区三区 | 无码av人妻一区二区三区四区| 中文字幕日产无码| 国产精品一级毛片无码视频| 亚洲国产成人精品无码区二本 | 本免费AV无码专区一区| 久久亚洲AV成人无码| 成在人线av无码免费高潮喷水| 在线看片无码永久免费视频| 亚洲爆乳精品无码一区二区三区| 日韩少妇无码一区二区三区 | 精品无码一区二区三区水蜜桃| 亚洲AV永久无码精品成人| 成人免费一区二区无码视频| 人妻无码αv中文字幕久久| 国产亚洲大尺度无码无码专线| 深夜a级毛片免费无码| 伊人久久大香线蕉无码| 人妻无码αv中文字幕久久琪琪布| 超清无码一区二区三区| 国产精品白浆无码流出| 亚洲精品GV天堂无码男同| 亚洲日韩乱码中文无码蜜桃 | 久久无码专区国产精品| 红桃AV一区二区三区在线无码AV| 人妻系列无码专区久久五月天| 中文无码字慕在线观看| 亚洲日韩乱码中文无码蜜桃臀| 亚洲爆乳无码一区二区三区| 亚洲av永久无码精品古装片| 无码人妻精品一区二区在线视频| 亚洲国产一二三精品无码| 亚洲精品无码成人片久久| 亚洲av无码一区二区三区不卡| 在线精品无码字幕无码AV| 久久老子午夜精品无码怎么打| 无码区国产区在线播放| 中文字幕AV无码一区二区三区| 亚洲精品av无码喷奶水糖心|