The invention provides an algorithm based on principal component analysis of the medical insurance fraud identification method, including: obtaining medical insurance data, generating structured data sets of the medical insurance; data standardization, standardization of generating matrix; calculate the covariance matrix matrix standardization, and the characteristic equation of the sample covariance matrix, to determine the main components; the variables of the normalized conversion component scores were calculated respectively; the mean and standard deviation of each principal component scores, calculate the abnormal threshold of each principal component dimension according to the Chebyshev law; each principal component is to coordinate, making two-dimensional scatter plots, each dot represents the actual Medicare accounts, judge is greater than the anomaly threshold step S5 in the Medicare reimbursement account as abnormal account. The invention of Medicare data cleaning, sorting, taking the principal component analysis method is adopted to reduce the dimensionality of fraud related variables, to calculate the abnormal threshold according to statistical methods, high risk identification of insurance fraud.
【技術實現步驟摘要】
一種基于主成分分析算法的醫保欺詐識別方法
本專利技術涉及計算機應用
,特別涉及一種基于主成分分析算法的醫保欺詐識別方法。
技術介紹
隨著社會經濟的發展,國家為了給老百姓提供更好的醫保環境,醫保政策越來越好。然而,一些人通過各種各樣的手段騙取醫保,導致醫保基金不合理流失。另一方面,由于經辦機構的監管模式主要以人工審核監管為主,多采用基于簡單規則的數據篩選方法,從醫療基金收支監測、簡單指標預警等方面開展基金風險管理工作,不僅速度慢,人力成本高,而且難以保證對欺詐行為的識別準確度。在現有的技術中,專利(申請號:201510760477.4;名稱:一種醫療保險異常數據在線智能檢測方法)提出,對已標注為異常的醫保數據樣本進行特征學習,然后運用機器學習算法進行在線檢查,然而如何確定目標樣本是否異常,該專利并未涉及。此外,專利(申請號:201410598935.4;名稱:一種基于數據挖掘的醫保欺詐行為的檢測方法)采取對醫保參保人的信息記錄進行分位數打分的方法確定異常級別,并將多種異常類別簡單加總確定總異常分值。該方法把連續性變量人為分段,損失了數據信息,而且忽略了各變量間可能存在的相關性,使總異常分值失去準確性。
技術實現思路
本專利技術的目的旨在至少解決所述技術缺陷之一。為此,本專利技術的目的在于提出一種基于主成分分析算法的醫保欺詐識別方法。為了實現上述目的,本專利技術的實施例提供一種基于主成分分析算法的醫保欺詐識別方法,包括如下步驟:步驟S1,獲取醫保基礎數據,生成醫保結構化數據集X;步驟S2,對所述醫保結構化數據集X中的各項數據進行標準化處理,生成標準化矩陣Z; ...
【技術保護點】
一種基于主成分分析算法的醫保欺詐識別方法,其特征在于,包括如下步驟:步驟S1,獲取醫保基礎數據,生成醫保結構化數據集X;步驟S2,對所述醫保結構化數據集X中的各項數據進行標準化處理,生成標準化矩陣Z;步驟S3,計算所述標準化矩陣Z的協方差矩陣R,并求解樣本協方差矩陣R的特征方程,確定主成分;步驟S4,將標準化后的指標變量轉換為主成分得分;步驟S5,分別計算每個主成分得分的均值和標準差,根據切比雪夫定律計算每個主成分維度下的異常閾值;步驟S6,以每個主成分為坐標,制作二維空間散點圖,將每個散點代表實際醫保賬戶,判斷大于步驟S5中異常閾值的醫保報銷賬號視為異常帳號,將異常帳號以可視化形式進行呈現。
【技術特征摘要】
1.一種基于主成分分析算法的醫保欺詐識別方法,其特征在于,包括如下步驟:步驟S1,獲取醫保基礎數據,生成醫保結構化數據集X;步驟S2,對所述醫保結構化數據集X中的各項數據進行標準化處理,生成標準化矩陣Z;步驟S3,計算所述標準化矩陣Z的協方差矩陣R,并求解樣本協方差矩陣R的特征方程,確定主成分;步驟S4,將標準化后的指標變量轉換為主成分得分;步驟S5,分別計算每個主成分得分的均值和標準差,根據切比雪夫定律計算每個主成分維度下的異常閾值;步驟S6,以每個主成分為坐標,制作二維空間散點圖,將每個散點代表實際醫保賬戶,判斷大于步驟S5中異常閾值的醫保報銷賬號視為異常帳號,將異常帳號以可視化形式進行呈現。2.如權利要求1所述的基于主成分分析算法的醫保欺詐識別方法,其特征在于,在所述步驟S1中,所述醫保基礎數據,包括:醫保基金帳號、每個帳號基金報銷總額、門診天數、基金報銷比例和門診花費總額。3.如權利要求2所述的基于主成分分析算法的醫保欺詐識別方法,其特征在于,在所述步驟S1中,計算每個醫保基金賬號每天門診花費總額和基金報銷總額,進而計算每年門診報銷總天數、基金報銷額和基金報銷比例,生成醫保結構化數據集X。4.如權利要求1所述的基于主成分分析算法的醫保欺詐識別方法,其特征在于,在所述步驟S2中,采集樣本向量x=(X1,X2,X3)T),n個樣品xi=(xi1,xi2,xi3)T,i=1,2,…,n,進行如下標準化變換:
【專利技術屬性】
技術研發人員:謝國亮,程嵐,孫志強,張憲錄,孫廣陽,
申請(專利權)人:天津艾登科技有限公司,
類型:發明
國別省市:天津,12
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。