【技術實現步驟摘要】
一種基于文本信息和機器學習的商品分類方法
本專利技術涉及一種基于文本信息和機器學習的商品分類方法,屬于機器學習商品分層方法。
技術介紹
在某些特定的網絡平臺應用系統中,例如電子商務、社交網站、即時通訊等,需要對所有商品,尤其是活躍商品進行分級分層,針對不同層級的商品,在后臺標記不同標簽,針對不同標簽的商品提供區別化的面向用戶的內容和服務。對于電商平臺而言,在目前商品基數普遍很大的情況下,需要考慮三個方面的問題:首先,各層級的商品數量均勻,一方面不會形成大量的“金字塔”底端商品,在業務上無法給予對應用戶提供服務,另一方面,形成不同層級商品的合理流動需要不同群體的商品量不應該有太大差別;其次,同一層級內的商品特性要相近,不同層級之間的特征要有明顯的差別,這樣可以更好的提供個性化的內容和服務;最后,針對不同分級提供不同的技術保障方案,這要求分級盡可能要均勻且穩定,穩定具體是指一來分級數量不能經常增加,二來同一分級內的商品數目要穩定,不能失衡。考慮到這三個方面的問題,必須尋找一種方法使商品能夠依據用戶消費行為數據產生的特征有差別的劃分在不同分級中,并保證商品在各個層級之間較均勻的分布。目前市場上的商品畫像或者商品分層分級方法主要針對商品的屬性及訪問購買情況建立特征庫,對特征歸一化后利用評分卡模型對商品做初始值打分,按照階梯成長方式劃定不同用戶的層級。如:第一級是0~100分以內,第二級上限則需要會員提高成長值到兩倍為100~200,第三級上限又是第二級的兩倍為200~400,如此類推。商品在不同層級間的流動按照區間結 ...
【技術保護點】
1.一種基于文本信息和機器學習的商品分類方法,其特征在于,包括以下步驟:/nS1:收集系統中的歷史商品文本數據及實時收集到的文本流數據,所述歷史商品文本數據和實時收集到的文本流數據包括:用戶評價數據、商品標題數據、商品核心參數及經解析的用戶情緒數據;/n所述用戶評價數據包括用戶收到商品后的售后評論文本信息,從中得到的用戶評論的語料、評論的時間、頻次信息及商家反饋信息;/n所述商品標題數據包括核心搜索觸達的關鍵詞、標題關鍵詞的數量、商品的核心要素、主要的商品類別及網紅詞匯;/n所述商品核心參數包括商品的產地、重量、廠商信息的分詞和提煉組合;/n所述經解析的用戶情緒數據是用戶體現在商品評論中的情緒,以及用戶在評論時通過語言表漏出的當前情感,包括語氣是否舒緩,語調是否平緩,是否有辱罵語言;/nS2:對商品文本數據經過機器學習算法解析,結合用戶交易行為數據,形成完整的結構化的遍歷所有商品的商品粒度的屬性、瀏覽、交易、售后、喜好、熱度數據集;/nS3:對數據集進行數據清洗,剔除共線性特征;/nS4:進行歸一化的數據正態分布變化,形成用于商品聚類、分類的特征群,以此為基礎進行統一算法建模,經若干次 ...
【技術特征摘要】
1.一種基于文本信息和機器學習的商品分類方法,其特征在于,包括以下步驟:
S1:收集系統中的歷史商品文本數據及實時收集到的文本流數據,所述歷史商品文本數據和實時收集到的文本流數據包括:用戶評價數據、商品標題數據、商品核心參數及經解析的用戶情緒數據;
所述用戶評價數據包括用戶收到商品后的售后評論文本信息,從中得到的用戶評論的語料、評論的時間、頻次信息及商家反饋信息;
所述商品標題數據包括核心搜索觸達的關鍵詞、標題關鍵詞的數量、商品的核心要素、主要的商品類別及網紅詞匯;
所述商品核心參數包括商品的產地、重量、廠商信息的分詞和提煉組合;
所述經解析的用戶情緒數據是用戶體現在商品評論中的情緒,以及用戶在評論時通過語言表漏出的當前情感,包括語氣是否舒緩,語調是否平緩,是否有辱罵語言;
S2:對商品文本數據經過機器學習算法解析,結合用戶交易行為數據,形成完整的結構化的遍歷所有商品的商品粒度的屬性、瀏覽、交易、售后、喜好、熱度數據集;
S3:對數據集進行數據清洗,剔除共線性特征;
S4:進行歸一化的數據正態分布變化,形成用于商品聚類、分類的特征群,以此為基礎進行統一算法建模,經若干次算法和業務的商品分類驗證迭代,得到包含基礎屬性、交易、瀏覽、喜好、熱度方面的商品粒度的分層畫像數據;
S5:商品分層畫像數據在外化展示服務中形成基于現有模型結果的用戶瀏覽、交易使用反饋回流數據;
S6:商品數據更新沉淀到現有商品分層數據中形成新的商品分層迭代。
2.如權利要求1所述的一種基于文本信息和機器學習的商品分類方法,其特征在于,步驟S2的機器學習算法中包括無效語句過濾模型、句法分析模型、異常/熱詞分類識別模型、N-gram模型,CRF關鍵詞預測模型和標題熱度模型。
3.如權利要求2所述的一種基于文本信息和機器學習的商品分類方法,其特征在于,所述無效語句過濾模型采用積累的日常/歷史及過往大促的商品評論和標題進行標注作為非業務語句過濾模型的訓練樣本,通過卡方統計檢驗挖掘正負樣本中的顯著有效和無效詞,選定若干頂部詞組組合成判別評論或標題是否有效的分類器詞典,在所述無效語句過濾模型的訓練階段,所述評論和標題的分詞結果分別被映射到分類器詞典上而得到10000維的稀疏向量,將向量組合成kv格式的特征輸入到邏輯回歸二分類算法得到最終信息有效性判定,并將商品標題類未通過的有效詞做GBDT的二次判定回收規則形成最終的有效信息過濾;
所述句法分析模型中定義一句話至少包含謂語或賓語的情況下具有信息量,對評論和標題分別使用詞的詞性標注做邏輯判斷的方式解析產品的文本信息內容,并在句法分析后,針對評論和標題由于復雜性的不同將分別做不同的文本處理方案;
所述異常/熱詞分類識別模型包括需要冷啟動的異常/熱詞詞典,所述異常/熱詞詞典通過初始收集整理得出,經過清洗的評論經過自定義的兩個詞典之后會判斷為是否是熱詞評論或異常評論,在所述異常/熱詞詞典內未判定為異常或熱詞的語句,再經過一次邏輯回歸的二分類做二次判斷,對于命中兩個詞典的評論,將分別基于負向和正向的額外加權以對商品的分層形成額外的影響。
4.如權利要求2所述的一種基于文本信息和機器學習的商品分類方法,其特征在于,所述N-gram語言模型每天將近一個月的用戶評論信息通過Bi-Gram和Tri-Gram獲取多元詞組的頻次信息,構建動態的多元詞組概率模型,對于每個評論,得到其所有的Bi-Gram和Tri-Gram組合,然后按照離線訓練好的概率模型確定最終保留的多元詞組,并保留相同多元詞組的評論作為doc,每個評論的多元詞組作為word,采用tfidf計算所有多元詞組的得分,去掉低于最低閾值的多元詞組,同時讓業務對多元詞組進行評估,加大業務意...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。