• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>沈鑫專利>正文

    一種基于文本信息和機器學習的商品分類方法技術

    技術編號:26259387 閱讀:49 留言:0更新日期:2020-11-06 17:53
    本發明專利技術的一種基于文本信息和機器學習的商品分類方法,包括以下步驟:S1:收集系統中的歷史商品文本數據及實時收集到的文本流數據;S2:對商品文本數據經過機器學習算法解析,結合用戶交易行為數據,形成完整的結構化的遍歷所有商品的商品粒度的數據集;S3:對數據集進行數據清洗,剔除共線性特征;S4:進行歸一化的數據正態分布變化,形成用于商品聚類、分類的特征群,進一步得到分層畫像數據;S5:商品分層畫像數據在外化展示服務中形成基于現有模型結果的用戶瀏覽、交易使用反饋回流數據;S6:新的商品數據沉淀到現有商品分層數據中形成新的商品分層迭代。該方法提升了商品分層、分類的準確性。

    【技術實現步驟摘要】
    一種基于文本信息和機器學習的商品分類方法
    本專利技術涉及一種基于文本信息和機器學習的商品分類方法,屬于機器學習商品分層方法。
    技術介紹
    在某些特定的網絡平臺應用系統中,例如電子商務、社交網站、即時通訊等,需要對所有商品,尤其是活躍商品進行分級分層,針對不同層級的商品,在后臺標記不同標簽,針對不同標簽的商品提供區別化的面向用戶的內容和服務。對于電商平臺而言,在目前商品基數普遍很大的情況下,需要考慮三個方面的問題:首先,各層級的商品數量均勻,一方面不會形成大量的“金字塔”底端商品,在業務上無法給予對應用戶提供服務,另一方面,形成不同層級商品的合理流動需要不同群體的商品量不應該有太大差別;其次,同一層級內的商品特性要相近,不同層級之間的特征要有明顯的差別,這樣可以更好的提供個性化的內容和服務;最后,針對不同分級提供不同的技術保障方案,這要求分級盡可能要均勻且穩定,穩定具體是指一來分級數量不能經常增加,二來同一分級內的商品數目要穩定,不能失衡。考慮到這三個方面的問題,必須尋找一種方法使商品能夠依據用戶消費行為數據產生的特征有差別的劃分在不同分級中,并保證商品在各個層級之間較均勻的分布。目前市場上的商品畫像或者商品分層分級方法主要針對商品的屬性及訪問購買情況建立特征庫,對特征歸一化后利用評分卡模型對商品做初始值打分,按照階梯成長方式劃定不同用戶的層級。如:第一級是0~100分以內,第二級上限則需要會員提高成長值到兩倍為100~200,第三級上限又是第二級的兩倍為200~400,如此類推。商品在不同層級間的流動按照區間結合扣減機制的分級方法,當商品某些特征的值下降,會扣減對應權重的得分,這樣商品等級就有可能下降。另外對于商品特征的捕捉上,主要集中在對商品在平臺內完整使用鏈路動作的捕捉,分析和特征化。但是以上方案從商品特征的整理到商品層級的劃分都存在一些局限,對于商品量極大的電子商務網站來說,商品基礎大,從產品使用鏈路上來說,商品的瀏覽購買情況整體呈現“金字塔”型分布,大部分商品的活躍度不高,甚至不活躍,少部分極度活躍,這樣就造成其層級劃分不均勻,大部分不活躍商品被劃分到同一層級內,活躍層級內的商品占比又很低。同時,由于商品購買有一定的周期性、季節性,也會受到突發事件的影響,其層級變化很快,這樣就造成單個商品在不同層級間頻繁跳躍,造成層級不穩定。在商品瀏覽、購買鏈路上收集數據,由于是購買單向鏈路,只能收集到用戶對商品的購買動作,缺少了用戶的商品需求服務(例如商品購買意愿、潛在購買需求情況)以及售后評價數據,這樣如果用戶對商品的數據在意愿上強烈,但是沒有任何購買記錄,商品就會被誤認為是不活躍商品,同時對活躍商品來說,缺少了部分商品潛在購買的刻畫,整體商品畫像就是不完整不全面的。沒有商品的購買意愿、購買評價數據,商品畫像更多的只是基于歷史結構化的購買行為數據,無法通過用戶和商品的非結構文本數據挖掘出潛在信息的交互,發現商品的購買意圖、售后的數據,對商品的分層形成數據補充。同時這些商品畫像數據更多的是商品表征數據的呈現,缺少了商品“性格”的發現,對商品的內在發掘不夠理想。
    技術實現思路
    為克服現有技術的不足,本專利技術提出一種基于文本信息和機器學習的商品分類方法,其基于商品文本信息,通過機器學習算法展現商品文本多維度特征數據,將傳統的商品分層從純結構化數據轉變為文本數據+結構化數據的綜合特征,形成量化指標,提升了商品分層、分類的準確性。為實現上述目的,本專利技術的一種基于文本信息和機器學習的商品分類方法,包括以下步驟:S1:收集系統中的歷史商品文本數據及實時收集到的文本流數據,歷史商品文本數據和實時收集到的文本流數據包括:用戶評價數據、商品標題數據、商品核心參數及經解析的用戶情緒數據;用戶評價數據包括用戶收到商品后的售后評論文本信息,從中得到的用戶評論的語料、評論的時間、頻次信息及商家反饋信息;商品標題數據包括核心搜索觸達的關鍵詞、標題關鍵詞的數量、商品的核心要素、主要的商品類別及網紅詞匯;商品核心參數包括商品的產地、重量、廠商信息的分詞和提煉組合;經解析的用戶情緒數據是用戶體現在商品評論中的情緒,以及用戶在評論時通過語言表漏出的當前情感,包括語氣是否舒緩,語調是否平緩,是否有辱罵語言;S2:對商品文本數據經過機器學習算法解析,結合用戶交易行為數據,形成完整的結構化的遍歷所有商品的商品粒度的屬性、瀏覽、交易、售后、喜好、熱度數據集;S3:對數據集進行數據清洗,剔除共線性特征;S4:進行歸一化的數據正態分布變化,形成用于商品聚類、分類的特征群,以此為基礎進行統一算法建模,經若干次算法和業務的商品分類驗證迭代,得到包含基礎屬性、交易、瀏覽、喜好、熱度方面的商品粒度的分層畫像數據;S5:商品分層畫像數據在外化展示服務中形成基于現有模型結果的用戶瀏覽、交易使用反饋回流數據;S6:商品數據更新沉淀到現有商品分層數據中形成新的商品分層迭代。進一步地,步驟S2的機器學習算法中包括無效語句過濾模型、句法分析模型、異常/熱詞分類識別模型、N-gram模型,CRF關鍵詞預測模型和標題熱度模型。進一步地,無效語句過濾模型采用積累的日常/歷史及過往大促的商品評論和標題進行標注作為非業務語句過濾模型的訓練樣本,通過卡方統計檢驗挖掘正負樣本中的顯著有效和無效詞,選定若干頂部詞組組合成判別評論或者標題是否有效的分類器詞典,在無效語句過濾模型的訓練階段,評論和標題的分詞結果分別被映射到分類器詞典上而得到10000維的稀疏向量,將向量組合成kv格式的特征輸入到邏輯回歸二分類算法得到最終信息有效性判定,并將商品標題類未通過的有效詞做GBDT的二次判定回收規則形成最終的有效信息過濾;句法分析模型中定義一句話至少包含謂語或賓語的情況下具有信息量,對評論和標題分別使用詞的詞性標注做邏輯判斷的方式解析產品的文本信息內容,并在句法分析后,針對評論和標題由于復雜性的不同將分別做不同的文本處理方案;異常/熱詞分類識別模型包括需要冷啟動的異常/熱詞詞典,異常/熱詞詞典通過初始收集整理得出,經過清洗的評論經過自定義的兩個詞典之后會判斷為是否是熱詞評論或異常評論,在異常/熱詞詞典內未判定為異常或熱詞的語句,再經過一次邏輯回歸的二分類做二次判斷,對于命中兩個詞典的評論,將分別基于負向和正向的額外加權以對商品的分層形成額外的影響。進一步地,N-gram語言模型每天將近一個月的用戶評論信息通過Bi-Gram和Tri-Gram獲取多元詞組的頻次信息,構建動態的多元詞組概率模型,對于每個評論,得到其所有的Bi-Gram和Tri-Gram組合,然后按照離線訓練好的概率模型確定最終應該保留的多元詞組,并保留相同多元詞組的評論作為doc,每個評論的多元詞組作為word,采用tfidf計算所有多元詞組的得分,去掉低于最低閾值的多元詞組,同時讓業務對多元詞組進行評估,加大業務意義重要的多元詞組的權重;CRF模型在給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型,假本文檔來自技高網
    ...

    【技術保護點】
    1.一種基于文本信息和機器學習的商品分類方法,其特征在于,包括以下步驟:/nS1:收集系統中的歷史商品文本數據及實時收集到的文本流數據,所述歷史商品文本數據和實時收集到的文本流數據包括:用戶評價數據、商品標題數據、商品核心參數及經解析的用戶情緒數據;/n所述用戶評價數據包括用戶收到商品后的售后評論文本信息,從中得到的用戶評論的語料、評論的時間、頻次信息及商家反饋信息;/n所述商品標題數據包括核心搜索觸達的關鍵詞、標題關鍵詞的數量、商品的核心要素、主要的商品類別及網紅詞匯;/n所述商品核心參數包括商品的產地、重量、廠商信息的分詞和提煉組合;/n所述經解析的用戶情緒數據是用戶體現在商品評論中的情緒,以及用戶在評論時通過語言表漏出的當前情感,包括語氣是否舒緩,語調是否平緩,是否有辱罵語言;/nS2:對商品文本數據經過機器學習算法解析,結合用戶交易行為數據,形成完整的結構化的遍歷所有商品的商品粒度的屬性、瀏覽、交易、售后、喜好、熱度數據集;/nS3:對數據集進行數據清洗,剔除共線性特征;/nS4:進行歸一化的數據正態分布變化,形成用于商品聚類、分類的特征群,以此為基礎進行統一算法建模,經若干次算法和業務的商品分類驗證迭代,得到包含基礎屬性、交易、瀏覽、喜好、熱度方面的商品粒度的分層畫像數據;/nS5:商品分層畫像數據在外化展示服務中形成基于現有模型結果的用戶瀏覽、交易使用反饋回流數據;/nS6:商品數據更新沉淀到現有商品分層數據中形成新的商品分層迭代。/n...

    【技術特征摘要】
    1.一種基于文本信息和機器學習的商品分類方法,其特征在于,包括以下步驟:
    S1:收集系統中的歷史商品文本數據及實時收集到的文本流數據,所述歷史商品文本數據和實時收集到的文本流數據包括:用戶評價數據、商品標題數據、商品核心參數及經解析的用戶情緒數據;
    所述用戶評價數據包括用戶收到商品后的售后評論文本信息,從中得到的用戶評論的語料、評論的時間、頻次信息及商家反饋信息;
    所述商品標題數據包括核心搜索觸達的關鍵詞、標題關鍵詞的數量、商品的核心要素、主要的商品類別及網紅詞匯;
    所述商品核心參數包括商品的產地、重量、廠商信息的分詞和提煉組合;
    所述經解析的用戶情緒數據是用戶體現在商品評論中的情緒,以及用戶在評論時通過語言表漏出的當前情感,包括語氣是否舒緩,語調是否平緩,是否有辱罵語言;
    S2:對商品文本數據經過機器學習算法解析,結合用戶交易行為數據,形成完整的結構化的遍歷所有商品的商品粒度的屬性、瀏覽、交易、售后、喜好、熱度數據集;
    S3:對數據集進行數據清洗,剔除共線性特征;
    S4:進行歸一化的數據正態分布變化,形成用于商品聚類、分類的特征群,以此為基礎進行統一算法建模,經若干次算法和業務的商品分類驗證迭代,得到包含基礎屬性、交易、瀏覽、喜好、熱度方面的商品粒度的分層畫像數據;
    S5:商品分層畫像數據在外化展示服務中形成基于現有模型結果的用戶瀏覽、交易使用反饋回流數據;
    S6:商品數據更新沉淀到現有商品分層數據中形成新的商品分層迭代。


    2.如權利要求1所述的一種基于文本信息和機器學習的商品分類方法,其特征在于,步驟S2的機器學習算法中包括無效語句過濾模型、句法分析模型、異常/熱詞分類識別模型、N-gram模型,CRF關鍵詞預測模型和標題熱度模型。


    3.如權利要求2所述的一種基于文本信息和機器學習的商品分類方法,其特征在于,所述無效語句過濾模型采用積累的日常/歷史及過往大促的商品評論和標題進行標注作為非業務語句過濾模型的訓練樣本,通過卡方統計檢驗挖掘正負樣本中的顯著有效和無效詞,選定若干頂部詞組組合成判別評論或標題是否有效的分類器詞典,在所述無效語句過濾模型的訓練階段,所述評論和標題的分詞結果分別被映射到分類器詞典上而得到10000維的稀疏向量,將向量組合成kv格式的特征輸入到邏輯回歸二分類算法得到最終信息有效性判定,并將商品標題類未通過的有效詞做GBDT的二次判定回收規則形成最終的有效信息過濾;
    所述句法分析模型中定義一句話至少包含謂語或賓語的情況下具有信息量,對評論和標題分別使用詞的詞性標注做邏輯判斷的方式解析產品的文本信息內容,并在句法分析后,針對評論和標題由于復雜性的不同將分別做不同的文本處理方案;
    所述異常/熱詞分類識別模型包括需要冷啟動的異常/熱詞詞典,所述異常/熱詞詞典通過初始收集整理得出,經過清洗的評論經過自定義的兩個詞典之后會判斷為是否是熱詞評論或異常評論,在所述異常/熱詞詞典內未判定為異常或熱詞的語句,再經過一次邏輯回歸的二分類做二次判斷,對于命中兩個詞典的評論,將分別基于負向和正向的額外加權以對商品的分層形成額外的影響。


    4.如權利要求2所述的一種基于文本信息和機器學習的商品分類方法,其特征在于,所述N-gram語言模型每天將近一個月的用戶評論信息通過Bi-Gram和Tri-Gram獲取多元詞組的頻次信息,構建動態的多元詞組概率模型,對于每個評論,得到其所有的Bi-Gram和Tri-Gram組合,然后按照離線訓練好的概率模型確定最終保留的多元詞組,并保留相同多元詞組的評論作為doc,每個評論的多元詞組作為word,采用tfidf計算所有多元詞組的得分,去掉低于最低閾值的多元詞組,同時讓業務對多元詞組進行評估,加大業務意...

    【專利技術屬性】
    技術研發人員:沈鑫
    申請(專利權)人:沈鑫
    類型:發明
    國別省市:浙江;33

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 内射无码专区久久亚洲| 无码毛片视频一区二区本码| 无码av免费一区二区三区| 亚洲中文无码线在线观看| 亚洲?v无码国产在丝袜线观看| 亚洲精品无码久久千人斩| 免费a级毛片无码a∨蜜芽试看| 熟妇人妻系列aⅴ无码专区友真希| 无码人妻精品中文字幕| 亚洲精品无码久久久久AV麻豆| 久久人妻少妇嫩草AV无码专区| 无码人妻精品一区二区蜜桃AV| 亚洲国产成人精品无码一区二区| 国产又爽又黄无码无遮挡在线观看 | 亚洲av专区无码观看精品天堂| 精品久久久久久中文字幕无码| 免费无遮挡无码永久视频| 亚洲成a人片在线观看无码 | 无码8090精品久久一区| 中文字幕无码成人免费视频| 亚洲国产精品无码专区| 中文字幕精品无码久久久久久3D日动漫 | 亚洲中文字幕无码不卡电影| 少妇仑乱A毛片无码| 中文字幕AV无码一区二区三区| 国产精品无码av在线播放| 人妻无码一区二区三区| 日韩精品无码永久免费网站| 无码夜色一区二区三区| 亚洲精品无码久久久久YW| 久热中文字幕无码视频| 久久亚洲精品无码AV红樱桃 | 久久亚洲AV成人无码国产电影| 免费A级毛片av无码| 日韩免费人妻AV无码专区蜜桃 | 18禁免费无码无遮挡不卡网站 | 亚洲中文字幕久久精品无码喷水| 午夜无码一区二区三区在线观看| 无码成人AAAAA毛片| 成在线人免费无码高潮喷水| 久久久久亚洲AV无码专区桃色|