The invention discloses a method for predicting lottery user product participation, which includes: acquiring original user data, extracting and transforming the original user data, classifying and loading the original user data into a database in a specified format; preprocessing the original user data stored in the database to obtain multi-dimensional user data; acquiring and using the multi-dimensional user data according to the multi-dimensional user data. The predictive feature set related to household product participation is input into the pre-trained fusion prediction model to predict the user product participation. The fusion prediction model is generated by at least Bayesian classifier, random forest classifier and iterative decision tree classifier. Accordingly, the invention also discloses a lottery user product participation prediction system, a terminal device and a computer readable storage medium. The technical scheme of the invention can reduce the prediction difficulty of lottery user product participation and improve the prediction accuracy.
【技術實現步驟摘要】
彩票用戶產品參與度預測方法、系統及設備、存儲介質
本專利技術涉及數據挖掘
,尤其涉及一種彩票用戶產品參與度預測方法、系統及終端設備、計算機可讀存儲介質。
技術介紹
彩票行業產品種類眾多,各種產品對于彩票公司的盈利價值有所不同,即抽成比例有高低之分。彩票公司希望發現用戶的投注偏好,吸引用戶更多地參與到高利潤率的彩票產品中,從而帶來更多的利潤。因此,針對彩票用戶對高利潤率產品的參與度預測正逐步得到重視。根據用戶對高利潤率產品的參與度,可以將用戶劃分為兩大類,即低參與度用戶和高參與度用戶,其中,高參與度用戶又可以細分為兩小類,即由于投注偏好的變化或者投注總量提升這兩類原因成為高參與度用戶。現有技術中,用于預測用戶產品參與度的分類模型主要有基于經驗和統計的規則模型,但這樣的模型在面對彩票行業海量、多樣、復雜的數據時很難提取出準確的規則來預測用戶的產品參與度;回歸分析也被廣泛應用于分類問題中,但對訓練數據的質量要求高,需排除自變量中的共線性問題以及合理地處理異常值和缺省值,而彩票用戶數據來源廣泛而復雜,往往存在異常和缺省,簡單的回歸分析并不能得到準確的預測結果。另外,神經網絡也是常用的預測模型,它是一組連接的輸入/輸出單元,其中每個連接都有一個加權值,神經網絡的分類知識體現在網絡連接上,被隱式地存儲在連接的權值中。神經網絡的學習過程是通過迭代運算對權值不斷進行調整的過程,學習的目標就是通過權值的調整使輸入元組被正確的標號,相比其他常用的數據挖掘技術,神經網絡用于分類問題預測有著良好的預測能力,但是缺點也不容忽視,比如神經網絡本身的黑盒化、不易解釋以及對計算力的 ...
【技術保護點】
1.一種彩票用戶產品參與度預測方法,其特征在于,包括:獲取原始用戶數據,對所述原始用戶數據進行抽取和轉換后,以指定格式分類加載至數據庫中;對所述數據庫中存儲的所述原始用戶數據進行預處理,獲得多維度用戶數據;其中,所述預處理至少包括一致性處理、除重處理、數據變換和數據歸約處理;所述多維度用戶數據至少包括用戶的個人信息、歷史投注信息和歷史盈利信息;根據所述多維度用戶數據獲得與用戶產品參與度相關的預測特征集;將所述預測特征集輸入預先訓練的融合預測模型中,對用戶產品參與度進行預測;其中,所述融合預測模型至少由貝葉斯分類器、隨機森林分類器和迭代決策樹分類器融合生成。
【技術特征摘要】
1.一種彩票用戶產品參與度預測方法,其特征在于,包括:獲取原始用戶數據,對所述原始用戶數據進行抽取和轉換后,以指定格式分類加載至數據庫中;對所述數據庫中存儲的所述原始用戶數據進行預處理,獲得多維度用戶數據;其中,所述預處理至少包括一致性處理、除重處理、數據變換和數據歸約處理;所述多維度用戶數據至少包括用戶的個人信息、歷史投注信息和歷史盈利信息;根據所述多維度用戶數據獲得與用戶產品參與度相關的預測特征集;將所述預測特征集輸入預先訓練的融合預測模型中,對用戶產品參與度進行預測;其中,所述融合預測模型至少由貝葉斯分類器、隨機森林分類器和迭代決策樹分類器融合生成。2.如權利要求1所述的彩票用戶產品參與度預測方法,其特征在于,所述根據所述多維度用戶數據獲得與用戶產品參與度相關的預測特征集,具體包括:根據數據統計分析從所述多維度用戶數據中構建與用戶產品參與度相關的潛在特征集;根據迭代測試對所述潛在特征集進行調整、篩選和組合,獲得所述預測特征集。3.如權利要求1所述的彩票用戶產品參與度預測方法,其特征在于,所述方法通過以下步驟對所述融合預測模型進行訓練:將預先獲得的與用戶產品參與度相關的訓練特征集劃分為訓練集和驗證集;當所述融合預測模型由所述貝葉斯分類器、所述隨機森林分類器和所述迭代決策樹分類器融合生成時,分別基于所述貝葉斯分類器、所述隨機森林分類器和所述迭代決策樹分類器根據所述訓練集進行建模,對應獲得至少兩個貝葉斯子分類器、至少兩個隨機森林子分類器和至少兩個迭代決策樹子分類器;根據所述驗證集分別獲得每一所述貝葉斯子分類器、每一所述隨機森林子分類器和每一所述迭代決策樹子分類器的準確率;分別確定準確率大于預設第一閾值的所述貝葉斯子分類器、準確率大于預設第二閾值的所述隨機森林子分類器和準確率大于預設第三閾值的所述迭代決策樹子分類器;根據確定的所述貝葉斯子分類器、所述隨機森林子分類器和所述迭代決策樹子分類器融合生成所述融合預測模型。4.如權利要求2所述的彩票用戶產品參與度預測方法,其特征在于,所述當所述融合預測模型由所述貝葉斯分類器、所述隨機森林分類器和所述迭代決策樹分類器融合生成時,分別基于所述貝葉斯分類器、所述隨機森林分類器和所述迭代決策樹分類器根據所述訓練集進行建模,對應獲得至少兩個貝葉斯子分類器、至少兩個隨機森林子分類器和至少兩個迭代決策樹子分類器,具體包括:根據網格搜索法從所述訓練集中選取不同的至少六組建模參數;其中,所述至少六組建模參數中包括與所述貝葉斯分類器對應的至少兩組第一建模參...
【專利技術屬性】
技術研發人員:譚浩宇,郭賢均,丁燁,
申請(專利權)人:云數信息科技深圳有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。