樣本構建方法及裝置制造方法及圖紙

技術編號：36691979 閱讀：34 留言：0更新日期：2023-02-27 20:00

本說明書提供樣本構建方法及裝置，其中所述樣本構建方法包括：獲取多個歷史對話序列，將多個歷史對話序列中包含關鍵詞的至少兩個對話序列作為初始對話序列，并在多個歷史對話序列中篩選第一負對話序列；生成至少兩個初始對話序列分別對應的初始對話樣本，以及所述第一負對話序列對應的第一負對話樣本；根據至少兩個初始對話樣本的屬性信息，將至少兩個初始對話樣本劃分為第一正對話樣本和第二負對話樣本，其中，所述第一正對話樣本和所述第二負對話樣本均包含關鍵詞；將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合，將所述第一正對話樣本存儲至正對話樣本集合。將所述第一正對話樣本存儲至正對話樣本集合。將所述第一正對話樣本存儲至正對話樣本集合。

全部詳細技術資料下載

【技術實現步驟摘要】
樣本構建方法及裝置

[0001]本說明書涉及計算機
，特別涉及一種樣本構建方法。本說明書同時涉及一種樣本構建裝置，一種計算設備，以及一種計算機可讀存儲介質。

技術介紹

[0002]隨著互聯網技術的發展，線上服務逐漸走進人們的學習和生活。線上交流模式會產生大量的對話數據，通過對這些對話數據進行檢測，即可確定服務方在提供咨詢、問題解決等服務的過程中是否出現不合規的服務方式或服務用語等。
[0003]現有技術中，在對對話數據進行合規性檢測時，通常使用人工閱讀對話數據，以及關鍵詞檢索的方法。然而人工閱讀的方式需要耗費大量的人力資源，且準確率較低；關鍵詞檢索的方法直接基于對話數據進行關鍵詞檢測，樣本較為單一，且具有較大的局限性，誤召回概率高，預測準確度低，因此，亟需一種樣本構建方法以解決上述問題。

技術實現思路

[0004]有鑒于此，本說明書實施例提供了一種樣本構建方法。本說明書同時涉及一種樣本構建裝置，一種計算設備，以及一種計算機可讀存儲介質，以解決現有技術中存在的技術缺陷。
[0005]根據本說明書實施例的第一方面，提供了一種樣本構建方法，包括：
[0006]獲取多個歷史對話序列，將多個歷史對話序列中包含關鍵詞的至少兩個對話序列作為初始對話序列，并在多個歷史對話序列中篩選第一負對話序列；
[0007]生成至少兩個初始對話序列分別對應的初始對話樣本，以及所述第一負對話序列對應的第一負對話樣本；
[0008]根據至少兩個初始對話樣本的屬性信息，將至少兩個初始對話樣本...

【技術保護點】

【技術特征摘要】
1.一種樣本構建方法，其特征在于，包括：獲取多個歷史對話序列，將多個歷史對話序列中包含關鍵詞的至少兩個對話序列作為初始對話序列，并在多個歷史對話序列中篩選第一負對話序列；生成至少兩個初始對話序列分別對應的初始對話樣本，以及所述第一負對話序列對應的第一負對話樣本；根據至少兩個初始對話樣本的屬性信息，將至少兩個初始對話樣本劃分為第一正對話樣本和第二負對話樣本，其中，所述第一正對話樣本和所述第二負對話樣本均包含關鍵詞；將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合，將所述第一正對話樣本存儲至正對話樣本集合。2.根據權利要求1所述的方法，其特征在于，所述至少兩個初始對話序列中，任意一個初始對話序列對應的初始對話樣本的確定，包括：在所述初始對話序列中確定包含關鍵詞的中心對話語句；基于所述初始對話序列生成包含所述中心對話語句的初始對話樣本。3.根據權利要求2所述的方法，其特征在于，所述基于所述初始對話序列生成包含所述中心對話語的初始對話樣本，包括：在所述初始對話序列中選擇與所述中心對話語句對應的前序對話文本和后續對話文本；將所述前序對話文本、所述后續對話文本與所述中心對話語句進行組合，獲得初始對話樣本。4.根據權利要求1所述的方法，其特征在于，所述將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合，將所述第一正對話樣本存儲至正對話樣本集合，包括：對所述第一負對話樣本和所述第二負對話樣本進行調整處理后存儲至負對話樣本集合，對所述第一正對話樣本進行調整處理后存儲至正對話樣本集合。5.根據權利要求4所述的方法，其特征在于，所述對所述第一負對話樣本和所述第二負對話樣本進行調整處理后存儲至負對話樣本集合，對所述第一正對話樣本進行調整處理后存儲至正對話樣本集合，包括：分別對所述第一負對話樣本和所述第二負對話樣本包含的噪聲數據進行刪除或修改，獲得第一負去噪對話樣本和第二負去噪對話樣本，并分別對所述第一負去噪對話樣本和所述第二負去噪對話樣本進行整合處理，將處理結果存儲至負對話樣本集合；對所述第一正對話樣本包含的噪聲數據進行刪除或修改，獲得第一正去噪對話樣本，對所述第一正去噪對話樣本進行整合處理，將處理結果存儲至正對話樣本集合。6.根據權利要求1所述的方法，其特征在于，所述將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合，將所述第一正對話樣本存儲至正對話樣本集合步驟執行之后，還包括：在所述負對話樣本集合和所述正對話樣本集合中提取目標對話樣本，其中，所述目標對話樣本包含目標正對話子樣本和目標負對應子樣本；基于所述目標對話樣本訓練對話檢測模型，直至獲得滿足訓練停止條件的目標對話檢測模型。7.根據權利要求6所述的方法，其特征在于，所述在所述負對話樣本集合和所述正對話
樣本集合...

【專利技術屬性】
技術研發人員：閻覃，張天宇，孫子鈞，趙薇，柳景明，
申請(專利權)人：北京猿力教育科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術