【技術實現(xiàn)步驟摘要】
本申請涉及計算機,特別是涉及一種數(shù)據(jù)處理方法和相關裝置。
技術介紹
1、隨著各個企業(yè)和機構采集存儲維護不同的數(shù)據(jù),有越來越多的需求希望打通企業(yè)和機構間的數(shù)據(jù)墻實現(xiàn)更全面和準確地數(shù)據(jù)分析,縱向聯(lián)邦學習因為其在金融、醫(yī)療等領域的高效與可解釋性而受到廣泛的使用。例如,在金融場景中,銀行與支付機構各自持有同一個用戶的不同的行為特征,雙方通過聯(lián)合構建聯(lián)邦梯度提升決策樹(gradient?boostingdecision?tree,gbdt)來判斷是否存在不合規(guī)行為。
2、在算法開始,不同的參與方需要對齊同一批用戶,因此在需要采用隱私集合求交(private?set?intersection,psi)算法來獲取交集用戶的數(shù)據(jù),且求交完后不會給對方暴露非交集用戶的任何數(shù)據(jù),但這會相互暴露交集用戶中的數(shù)據(jù),存在標簽泄露的風險。
3、為了應對這一情況,匿蹤聯(lián)邦算法被提出,這些方案大多基于電路隱私集合求交(circuit?private?set?intersection,circuit-psi)來實現(xiàn)。然而相關技術提供的匿蹤聯(lián)邦算法需要大量數(shù)據(jù)特征參數(shù)與gbdt節(jié)點的子節(jié)點選擇指示參數(shù)的隱私比較運算,而隱私比較運算的開銷很大,從而導致相關技術提供的匿蹤聯(lián)邦算法效率較低。
技術實現(xiàn)思路
1、為了解決上述技術問題,本申請?zhí)峁┝艘环N數(shù)據(jù)處理方法和相關裝置,將數(shù)據(jù)特征參數(shù)與子節(jié)點選擇指示參數(shù)的比較變?yōu)楸镜剡\算,從而無需與其他參與方進行數(shù)據(jù)交換,節(jié)省隱私比較過程由于數(shù)據(jù)交換帶來的大量開銷
2、本申請實施例公開了如下技術方案:
3、一方面,本申請實施例提供一種數(shù)據(jù)處理方法,所述方法由第一參與方執(zhí)行,所述方法包括:
4、獲取業(yè)務數(shù)據(jù)以及第一決策樹,所述第一決策樹運行在所述第一參與方上,所述第一決策樹通過縱向聯(lián)邦學習訓練得到,且包括n棵樹,所述n棵樹分別包括多個葉子節(jié)點和多個非葉子節(jié)點,所述多個非葉子節(jié)點分別預配置有子節(jié)點選擇指示參數(shù),所述子節(jié)點選擇指示參數(shù)用于劃分用于處理所述業(yè)務數(shù)據(jù)的非葉子節(jié)點的子節(jié)點;
5、針對所述n棵樹中第t棵樹的非葉子節(jié)點j,響應于所述非葉子節(jié)點j的所述子節(jié)點選擇指示參數(shù)和所述第一參與方存儲的參考子節(jié)點選擇指示參數(shù)滿足預設匹配條件,將所述業(yè)務數(shù)據(jù)的數(shù)據(jù)特征參數(shù)與所述非葉子節(jié)點j的子節(jié)點選擇指示參數(shù)進行比較,得到比較結(jié)果,并根據(jù)所述比較結(jié)果確定用于處理所述業(yè)務數(shù)據(jù)的所述非葉子節(jié)點j的子節(jié)點,t為小于或等于n的正整數(shù),j為整數(shù);
6、基于確定出的用于處理所述業(yè)務數(shù)據(jù)的所述非葉子節(jié)點j的子節(jié)點,確定所述業(yè)務數(shù)據(jù)在所述第t棵樹上的第一劃分結(jié)果;
7、獲取所述第一參與方持有的第一布爾交集分片,所述第一布爾交集分片用于指示所述業(yè)務數(shù)據(jù)的業(yè)務數(shù)據(jù)標識是否在標識交集結(jié)果中;
8、根據(jù)所述第一布爾交集分片和所述第一劃分結(jié)果,確定所述業(yè)務數(shù)據(jù)對應的業(yè)務標簽。
9、一方面,本申請實施例提供一種數(shù)據(jù)處理裝置,所述裝置部署在第一參與方,所述裝置包括獲取單元和確定單元:
10、所述獲取單元,用于獲取業(yè)務數(shù)據(jù)以及第一決策樹,所述第一決策樹運行在所述第一參與方上,所述第一決策樹通過縱向聯(lián)邦學習訓練得到,且包括n棵樹,所述n棵樹分別包括多個葉子節(jié)點和多個非葉子節(jié)點,所述多個非葉子節(jié)點分別預配置有子節(jié)點選擇指示參數(shù),所述子節(jié)點選擇指示參數(shù)用于劃分用于處理所述業(yè)務數(shù)據(jù)的非葉子節(jié)點的子節(jié)點;
11、所述確定單元,用于針對所述n棵樹中第t棵樹的非葉子節(jié)點j,響應于所述非葉子節(jié)點j的所述子節(jié)點選擇指示參數(shù)和所述第一參與方存儲的參考子節(jié)點選擇指示參數(shù)滿足預設匹配條件,將所述業(yè)務數(shù)據(jù)的數(shù)據(jù)特征參數(shù)與所述非葉子節(jié)點j的子節(jié)點選擇指示參數(shù)進行比較,得到比較結(jié)果,并根據(jù)所述比較結(jié)果確定用于處理所述業(yè)務數(shù)據(jù)的所述非葉子節(jié)點j的子節(jié)點,t為小于或等于n的正整數(shù),j為整數(shù);
12、所述確定單元,還用于基于確定出的用于處理所述業(yè)務數(shù)據(jù)的所述非葉子節(jié)點j的子節(jié)點,確定所述業(yè)務數(shù)據(jù)在所述第t棵樹上的第一劃分結(jié)果;
13、所述獲取單元,還用于獲取所述第一參與方持有的第一布爾交集分片,所述第一布爾交集分片用于指示所述業(yè)務數(shù)據(jù)的業(yè)務數(shù)據(jù)標識是否在標識交集結(jié)果中;
14、所述確定單元,還用于根據(jù)所述第一布爾交集分片和所述第一劃分結(jié)果,確定所述業(yè)務數(shù)據(jù)對應的業(yè)務標簽。
15、一方面,本申請實施例提供一種計算機設備,所述計算機設備包括處理器以及存儲器:
16、所述存儲器用于存儲計算機程序,并將所述計算機程序傳輸給所述處理器;
17、所述處理器用于根據(jù)所述計算機程序中的指令執(zhí)行前述任一方面所述的方法。
18、一方面,本申請實施例提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)用于存儲計算機程序,所述計算機程序當被處理器執(zhí)行時使所述處理器執(zhí)行前述任一方面所述的方法。
19、一方面,本申請實施例提供一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)前述任一方面所述的方法。
20、由上述技術方案可以看出,本申請在進行匿蹤縱向聯(lián)邦推理時,將數(shù)據(jù)特征參數(shù)與子節(jié)點選擇指示參數(shù)的比較變?yōu)楸镜剡\算,即在獲取業(yè)務數(shù)據(jù)以及第一決策樹后,先在本地進行數(shù)據(jù)特征參數(shù)與子節(jié)點選擇指示參數(shù)的比較。具體的,由于第一參與方通過參與縱向聯(lián)邦學習訓練得到第一決策樹,第一參與方上存儲有第一決策樹的參數(shù)子節(jié)點選擇指示參數(shù),且第一決策樹包括n棵樹,n棵樹分別包括多個葉子節(jié)點和多個非葉子節(jié)點,多個非葉子節(jié)點分別預配置有子節(jié)點選擇指示參數(shù),子節(jié)點選擇指示參數(shù)用于劃分用于處理業(yè)務數(shù)據(jù)的非葉子節(jié)點的子節(jié)點,因此針對n棵樹中第t棵樹的非葉子節(jié)點j,響應于非葉子節(jié)點j的子節(jié)點選擇指示參數(shù)和參考子節(jié)點選擇指示參數(shù)滿足預設匹配條件,即子節(jié)點選擇指示參數(shù)在第一參與方本地,則在本地將業(yè)務數(shù)據(jù)的數(shù)據(jù)特征參數(shù)與非葉子節(jié)點j的子節(jié)點選擇指示參數(shù)進行比較,得到比較結(jié)果,并根據(jù)比較結(jié)果確定用于處理業(yè)務數(shù)據(jù)的非葉子節(jié)點j的子節(jié)點,t為小于或等于n的正整數(shù),j為整數(shù),進而基于確定出的用于處理業(yè)務數(shù)據(jù)的非葉子節(jié)點j的子節(jié)點,確定業(yè)務數(shù)據(jù)在第t棵樹上的第一劃分結(jié)果。只有子節(jié)點選擇指示參數(shù)在本地時,才在本地執(zhí)行數(shù)據(jù)特征參數(shù)與子節(jié)點選擇指示參數(shù)的比較,從而節(jié)省隱私比較過程由于數(shù)據(jù)交換帶來的大量開銷,提高隱私比較效率。之后,進行標簽推理,具體的,可以獲取第一參與方持有的第一布爾交集分片,第一布爾交集分片用于指示業(yè)務數(shù)據(jù)的業(yè)務數(shù)據(jù)標識是否在標識交集結(jié)果中,以根據(jù)第一布爾交集分片和第一劃分結(jié)果,確定業(yè)務數(shù)據(jù)對應的業(yè)務標簽。與相關技術相比,本申請將數(shù)據(jù)特征參數(shù)與子節(jié)點選擇指示參數(shù)的比較變?yōu)楸镜剡\算,從而無需與其他參與方進行數(shù)據(jù)交換,節(jié)省隱私比較過程由于數(shù)據(jù)交換帶來的大量開銷,提高隱私比較效率,進而提升匿蹤縱向聯(lián)邦推理的效率。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法由第一參與方執(zhí)行,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述非葉子節(jié)點j包括M個子節(jié)點,所述根據(jù)所述比較結(jié)果確定用于處理所述業(yè)務數(shù)據(jù)的所述非葉子節(jié)點j的子節(jié)點,包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述若所述比較結(jié)果為所述M個子節(jié)點中第k個子節(jié)點對應的比較結(jié)果,確定由所述非葉子節(jié)點j的所述第k個子節(jié)點處理所述業(yè)務數(shù)據(jù),包括:
4.根據(jù)權利要求2所述的方法,其特征在于,所述M個子節(jié)點包括第一子節(jié)點和第二子節(jié)點,所述若所述比較結(jié)果為所述M個子節(jié)點中第k個子節(jié)點對應的比較結(jié)果,確定由所述非葉子節(jié)點j的所述第k個子節(jié)點處理所述業(yè)務數(shù)據(jù),包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權利要求5所述的方法,其特征在于,所述確定所述非葉子節(jié)點j的每個子節(jié)點均用于處理所述業(yè)務數(shù)據(jù),包括:
7.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述第一布爾交集分片和所述第一劃分結(jié)果,確定所述業(yè)務數(shù)據(jù)對應的業(yè)務標簽,包括:
...【技術特征摘要】
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法由第一參與方執(zhí)行,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述非葉子節(jié)點j包括m個子節(jié)點,所述根據(jù)所述比較結(jié)果確定用于處理所述業(yè)務數(shù)據(jù)的所述非葉子節(jié)點j的子節(jié)點,包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述若所述比較結(jié)果為所述m個子節(jié)點中第k個子節(jié)點對應的比較結(jié)果,確定由所述非葉子節(jié)點j的所述第k個子節(jié)點處理所述業(yè)務數(shù)據(jù),包括:
4.根據(jù)權利要求2所述的方法,其特征在于,所述m個子節(jié)點包括第一子節(jié)點和第二子節(jié)點,所述若所述比較結(jié)果為所述m個子節(jié)點中第k個子節(jié)點對應的比較結(jié)果,確定由所述非葉子節(jié)點j的所述第k個子節(jié)點處理所述業(yè)務數(shù)據(jù),包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權利要求5所述的方法,其特征在于,所述確定所述非葉子節(jié)點j的每個子節(jié)點均用于處理所述業(yè)務數(shù)據(jù),包括:
7.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述第一布爾交集分片和所述第一劃分結(jié)果,確定所述業(yè)務數(shù)據(jù)對應的業(yè)務標簽,包括:
8.根據(jù)權利要求7所述的方法,其特征在于,所述接收第二參與方同步的第二劃分結(jié)果,包括:
9.根據(jù)權利要求1所述的方法,其特征在于,所述第t棵樹為基于所述業(yè)務數(shù)據(jù)對所述n棵樹進行遍歷的過程中,在當前時刻遍歷到的樹,所述非葉子節(jié)點j為基于所述業(yè)務數(shù)據(jù)對所述第t棵樹的所有非葉子節(jié)點進行遍歷的過程中,在所述當前時刻遍歷到的非葉子節(jié)點,則所述基于確...
【專利技術屬性】
技術研發(fā)人員:黃晨宇,蔣杰,陳鵬,張凡,黃丹青,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。