【技術實現步驟摘要】
一種確定用戶身份類別的方法及裝置
本申請涉及計算機信息
,尤其涉及一種確定用戶身份類別的方法及裝置。
技術介紹
許多服務提供商的業務的開展依賴于對客戶資料的收集。服務提供商收集到上述客戶的資料后,會依據客戶提供的信息為客戶提供服務。現有技術中對客戶資料的收集和處理,往往由客戶直接向服務提供商提供所需資料,提出服務需求,服務提供商依據客戶提供的資料為客戶提供服務。但這種方式的缺陷在于:資料的收集完全依賴于客戶主動,服務提供商只能被動接收,因此,服務提供商無法主動及時尋找到潛在客戶,并且由于客戶提供資料的局限性,也難以對客戶提供的資料進行統計分析。而與此同時,隨著互聯網的廣泛應用,用戶在使用互聯網的過程中,在互聯網上存儲了大量帶有用戶信息的數據。如何利用用戶留存在互聯網上的數據對用戶進行分析處理,確定用戶的類別,例如用戶的社會身份類別,從而尋找到潛在用戶,成為了亟待解決的問題。
技術實現思路
本申請實施例提供了一種確定用戶身份類別的方法和裝置,旨在對用戶相關的數據信息進行主動收集和分析處理,從而確定用戶身份類別。為實現上述目的,本申請實施例提供了一種確定用戶身份類別的方法,其特征在于,所述方法包括:接收用戶的數據信息,所述數據信息包括多個含有用戶身份信息的標記文本;將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配;其中,所述關鍵詞詞庫中包括至少一個屬性關鍵詞及與屬性關鍵詞對應的類別;統計所述標記文本與類別相對應的對應次數;其中,所述類別對應與所述標記文本相匹配的屬性關鍵詞;依據用戶的所述標記文本與所述類別的對應次數,確定用戶身份類別。作為優選,本申請實施 ...
【技術保護點】
一種確定用戶身份類別的方法,其特征在于,所述方法包括:接收用戶的數據信息,所述數據信息包括多個含有用戶身份信息的標記文本;將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配;其中,所述關鍵詞詞庫中包括至少一個屬性關鍵詞及與屬性關鍵詞對應的類別;統計所述標記文本與類別相對應的對應次數;其中,所述類別對應與所述標記文本相匹配的屬性關鍵詞;依據用戶的所述標記文本與所述類別的對應次數,確定用戶身份類別。
【技術特征摘要】
1.一種確定用戶身份類別的方法,其特征在于,所述方法包括:接收用戶的數據信息,所述數據信息包括多個含有用戶身份信息的標記文本;將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配;其中,所述關鍵詞詞庫中包括至少一個屬性關鍵詞及與屬性關鍵詞對應的類別;統計所述標記文本與類別相對應的對應次數;其中,所述類別對應與所述標記文本相匹配的屬性關鍵詞;依據用戶的所述標記文本與所述類別的對應次數,確定用戶身份類別。2.按照權利要求1所述方法,其特征在于,在接收用戶的數據信息之后,在將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配之前,還包括:對所述標記文本進行分詞,將所述標記文本切分成至少一個切分詞;將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配,包括:將所述標記文本中的所述切分詞分別與所述屬性關鍵詞進行匹配。3.按照權利要求2所述方法,其特征在于,統計所述標記文本與類別相對應的對應次數,包括:若所述切分詞與所述屬性關鍵詞匹配,則將所述屬性關鍵詞所對應的類別與包含所述切分詞的標記文本相對應的對應次數增加一個步長單位或者計為一個步長單位;將相同的類別與用戶的各標記文本相對應的對應次數進行累加,確定用戶的標記文本與各類別相對應的對應次數。4.按照權利要求1所述方法,其特征在于,所述數據信息還包括用戶的認證信息;依據用戶的所述標記文本與所述類別的對應次數,確定用戶身份類別,包括:對于有認證信息的已認證用戶,將與該用戶的認證信息一致的類別作為已認證類別;將所述已認證類別對應的類別,確定為有認證信息的已認證用戶的身份類別;依據所述已認證用戶的標記文本與所述已認證類別相對應的對應次數,計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數的分布概率,記為第一概率;依據所述第一概率,確定所述未認證用戶的身份類別。5.按照權利要求4所述方法,其特征在于,依據所述已認證用戶的標記文本與所述已認證類別相對應的對應次數,計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數的分布概率,包括:對所述已認證類別,計算已認證用戶的標記文本與所述已認證類別相對應的條件下,各對應次數出現的條件概率,記為第二概率;對已認證用戶的標記文本與已認證類別相對應的對應次數,將不大于對應次數本數的各對應次數對應的所述第二概率進行累加,記為第三概率;依據所述第三概率,確定所述第一概率;所述第一概率與所述第三概率在所述類別和所述對應次數上一一對應。6.按照權利要求5所述方法,其特征在于,對所述已認證類別,計算已認證用戶的標記文本與所述已認證類別相對應的條件下,各對應次數出現的條件概率,包括:對所述已認證類別,統計與所述已認證類別相對應的已認證用戶的總數,記為第一統計量;對已認證類別與已認證用戶的標記文本相對應的對應次數,統計各相同的對應次數出現的數量,記為第二統計量;對已認證類別與已認證用戶的標記文本相對應的各對應次數,分別以所述第二統計量為被除數、以所述第一統計量為除數,計算得到已認證用戶的標記文本與所述已認證類別相對應的條件下、各對應次數出現的條件概率,記為所述第二概率。7.按照權利要求4所述方法,其特征在于,依據所述第一概率,確定所述未認證用戶的身份類別,包括:將所述未認證用戶的標記文本相對應的類別中所述第一概率最高的預設個類別對應的類別確定為所述未認證用戶的身份類別。8.按照權利要求4所述方法,其特征在于,所述數據信息還包括用戶的注冊信息和業務信息;在依據所述已認證用戶的標記文本與所述已認證類別相對應的對應次數,計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數的分布概率之后,還包括:將所述注冊信息和所述業務信息分別進行分類;將包含同類注冊信息和同類業務信息的未認證用戶分入同一群組中;依據未認證用戶的標記文本與各類別相對應的對應次數,將與所述對應次數相應的所述第一概率作為未認證用戶的標記文本與各類別相對應的概率;依據分入同一群組的各未認證用戶的標記文本與相同類別相對應的概率,按照預設計算規則計算得到該組用戶與各類別相對應的概率,記為第四概率;依據所述第一概率和所述第四概率,確定所述未認證用戶的身份類別。9.按照權利要求8所述方法,其特征在于,所述預設計算規則包括:將分入同一群組的各未認證用戶的標記文本與相同類別相對應的概率進行數學平均計算或者加權平均計算。10.按照權利要求8所述方法,其特征在于,依據所述第一概率和所述第四概率,確定所述未認證用戶的身份類別,包括:將與所述未認證用戶的標記文本相對應的各類別所對應的所述第一概率和所述第四概率相比較,將概率最高的預設個類別對應的類別...
【專利技術屬性】
技術研發人員:李輝,梅煒,操穎平,林嘉南,
申請(專利權)人:阿里巴巴集團控股有限公司,
類型:發明
國別省市:開曼群島,KY
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。