【技術實現步驟摘要】
風控模型是智能風控體系中的核心部件。當前業界主流的風控模型多為提升樹模型,包括xgboost、lgbm等。提升樹模型為有監督學習模型,其訓練數據中包含特征變量(x)和目標值(y)。為避免模型過擬合,通常在建模過程中將數據集拆分為訓練集(train)、測試集(test)和時間外驗證集(oot),且建模時需要對特征變量進行篩選。變量篩選通常從變量的有效性和穩定性兩個維度考量:變量有效性要求x與y有較高的相關性,以期獲得較高的準確率;變量穩定性要求不同數據集上x與y有較高的相似性,以期獲得較好的泛化性。變量穩定性包括分布穩定性和趨勢穩定性,分布穩定性要求訓練集上x的分布與其他數據集上一致,常用判定方法為psi;趨勢穩定性要求訓練集上y隨x變化的趨勢與其他數據集上一致,常用判定方法為bivar。psi和bivar分別對每一維x和y之間的穩定性進行判定,是單維穩定性判定方法。xgboost和lgbm等樹模型的訓練數據通常包括成百上千個特征變量,將此高維空間的變量穩定性拆解到單維空間上進行判定,在趨勢穩定性上能得到正確的判定結果,但極易造成分布穩定性的誤判。高維空間上的分布穩定性可等效為分布相似性問題。若分布穩定性較高,那么訓練集與其他數據集在高維空間上將有較高的分布相似性。常見的空間分布相似性判定指標包括歐式距離、kl散度、js散度等,為計算上述指標,需先將連續空間切分為離散空間,并在此基礎上聚合出最終的指標值。上述指標所需的計算量隨空間維度增加而指數級增加,在高維空間下需要耗費大量的計算量,甚至引發“維數災”。因此,期望一種適用于提升樹模型的變量分布穩定性判定
技術介紹
技術實現思路
1、為了解決上述技術問題,提出了本申請。本申請的實施例提供了一種適用于提升樹模型的變量分布穩定性判定方法,其通過采集訓練數據后,在后端引入基于樹模型的數據處理和分析算法來進行訓練數據的分析,以實現從高維空間到低維空間的特征變換,并在低維空間中進行分布穩定性判定。特別地,在本申請的技術方案中,采用歐式距離作為分布穩定性判定的指標,并將其作為損失函數值,對基于樹模型的特征提取器進行訓練,通過最小化損失函數值,使得訓練集與其他數據集在低維空間中的分布相似度最大化,從而實現了對提升樹模型的變量穩定性判定。這種方法能夠在保證計算效率的同時,實現對高維空間中特征變量的分布穩定性的可靠判定。它充分利用了提升樹模型的特點,并通過語義權重值的計算和特征篩選來解決傳統方法中的問題。通過這種方式,可以提高風控模型的性能和泛化能力,從而更好地應對實際應用中的挑戰。
2、根據本申請的一個方面,提供了一種適用于提升樹模型的變量分布穩定性判定方法,其包括:
3、獲取訓練數據;
4、將所述訓練數據通過基于樹模型的特征提取器以得到特征變量的序列;
5、對所述特征變量的序列進行上下文特征變量編碼分析以得到上下文特征變量編碼特征向量的序列;
6、計算所述上下文特征變量編碼特征向量的序列中各個上下文特征變量編碼特征向量相對于所述上下文特征變量編碼特征向量的序列的整體的語義權重值以得到語義權重值的序列;
7、基于所述語義權重值的序列與預定閾值之間的比較,對所述特征變量的序列進行特征篩選以得到稀疏化特征變量的序列;
8、計算所述特征變量的序列和所述稀疏化特征變量的序列之間的歐式距離;以及
9、以所述歐式距離作為損失函數值,對所述基于樹模型的特征提取器進行訓練。
10、與現有技術相比,本申請提供的一種適用于提升樹模型的變量分布穩定性判定方法,其通過采集訓練數據后,在后端引入基于樹模型的數據處理和分析算法來進行訓練數據的分析,以實現從高維空間到低維空間的特征變換,并在低維空間中進行分布穩定性判定。特別地,在本申請的技術方案中,采用歐式距離作為分布穩定性判定的指標,并將其作為損失函數值,對基于樹模型的特征提取器進行訓練,通過最小化損失函數值,使得訓練集與其他數據集在低維空間中的分布相似度最大化,從而實現了對提升樹模型的變量穩定性判定。這種方法能夠在保證計算效率的同時,實現對高維空間中特征變量的分布穩定性的可靠判定。它充分利用了提升樹模型的特點,并通過語義權重值的計算和特征篩選來解決傳統方法中的問題。通過這種方式,可以提高風控模型的性能和泛化能力,從而更好地應對實際應用中的挑戰。
本文檔來自技高網...【技術保護點】
1.一種適用于提升樹模型的變量分布穩定性判定方法,其特征在于,包括:
2.根據權利要求1所述的適用于提升樹模型的變量分布穩定性判定方法,其特征在于,對所述特征變量的序列進行上下文特征變量編碼分析以得到上下文特征變量編碼特征向量的序列,包括:將所述特征變量的序列通過包含嵌入層的上下文編碼器以得到所述上下文特征變量編碼特征向量的序列。
3.根據權利要求2所述的適用于提升樹模型的變量分布穩定性判定方法,其特征在于,計算所述上下文特征變量編碼特征向量的序列中各個上下文特征變量編碼特征向量相對于所述上下文特征變量編碼特征向量的序列的整體的語義權重值以得到語義權重值的序列,包括:以如下公式計算所述上下文特征變量編碼特征向量的序列中各個上下文特征變量編碼特征向量相對于所述上下文特征變量編碼特征向量的序列的整體的語義權重值以得到所述語義權重值的序列;
4.根據權利要求3所述的適用于提升樹模型的變量分布穩定性判定方法,其特征在于,響應于所述語義權重值的序列中的被比較的特征變量對應的語義權重值大于所述預定閾值,對所述被比較的特征變量進行特征選擇。
5.
6.根據權利要求5所述的適用于提升樹模型的變量分布穩定性判定方法,其特征在于,以所述歐式距離作為損失函數值,對所述基于樹模型的特征提取器進行訓練,包括:以所述歐式距離作為損失函數值,對所述基于樹模型的特征提取器進行訓練,其中,在對所述基于樹模型的特征提取器的每次迭代訓練過程中的每次迭代時,對所述稀疏化特征變量的序列進行優化。
...【技術特征摘要】
1.一種適用于提升樹模型的變量分布穩定性判定方法,其特征在于,包括:
2.根據權利要求1所述的適用于提升樹模型的變量分布穩定性判定方法,其特征在于,對所述特征變量的序列進行上下文特征變量編碼分析以得到上下文特征變量編碼特征向量的序列,包括:將所述特征變量的序列通過包含嵌入層的上下文編碼器以得到所述上下文特征變量編碼特征向量的序列。
3.根據權利要求2所述的適用于提升樹模型的變量分布穩定性判定方法,其特征在于,計算所述上下文特征變量編碼特征向量的序列中各個上下文特征變量編碼特征向量相對于所述上下文特征變量編碼特征向量的序列的整體的語義權重值以得到語義權重值的序列,包括:以如下公式計算所述上下文特征變量編碼特征向量的序列中各個上下文特征變量編碼特征向量相對于所述上下文特征變量編碼特征向量的序列的整體的語義權重值以得到所述語義權重值的序列;
...
【專利技術屬性】
技術研發人員:周維浩,王震,段美寧,
申請(專利權)人:杭銀消費金融股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。