• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    樣本構建方法及裝置制造方法及圖紙

    技術編號:36691979 閱讀:34 留言:0更新日期:2023-02-27 20:00
    本說明書提供樣本構建方法及裝置,其中所述樣本構建方法包括:獲取多個歷史對話序列,將多個歷史對話序列中包含關鍵詞的至少兩個對話序列作為初始對話序列,并在多個歷史對話序列中篩選第一負對話序列;生成至少兩個初始對話序列分別對應的初始對話樣本,以及所述第一負對話序列對應的第一負對話樣本;根據至少兩個初始對話樣本的屬性信息,將至少兩個初始對話樣本劃分為第一正對話樣本和第二負對話樣本,其中,所述第一正對話樣本和所述第二負對話樣本均包含關鍵詞;將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合,將所述第一正對話樣本存儲至正對話樣本集合。將所述第一正對話樣本存儲至正對話樣本集合。將所述第一正對話樣本存儲至正對話樣本集合。

    【技術實現步驟摘要】
    樣本構建方法及裝置


    [0001]本說明書涉及計算機
    ,特別涉及一種樣本構建方法。本說明書同時涉及一種樣本構建裝置,一種計算設備,以及一種計算機可讀存儲介質。

    技術介紹

    [0002]隨著互聯網技術的發展,線上服務逐漸走進人們的學習和生活。線上交流模式會產生大量的對話數據,通過對這些對話數據進行檢測,即可確定服務方在提供咨詢、問題解決等服務的過程中是否出現不合規的服務方式或服務用語等。
    [0003]現有技術中,在對對話數據進行合規性檢測時,通常使用人工閱讀對話數據,以及關鍵詞檢索的方法。然而人工閱讀的方式需要耗費大量的人力資源,且準確率較低;關鍵詞檢索的方法直接基于對話數據進行關鍵詞檢測,樣本較為單一,且具有較大的局限性,誤召回概率高,預測準確度低,因此,亟需一種樣本構建方法以解決上述問題。

    技術實現思路

    [0004]有鑒于此,本說明書實施例提供了一種樣本構建方法。本說明書同時涉及一種樣本構建裝置,一種計算設備,以及一種計算機可讀存儲介質,以解決現有技術中存在的技術缺陷。
    [0005]根據本說明書實施例的第一方面,提供了一種樣本構建方法,包括:
    [0006]獲取多個歷史對話序列,將多個歷史對話序列中包含關鍵詞的至少兩個對話序列作為初始對話序列,并在多個歷史對話序列中篩選第一負對話序列;
    [0007]生成至少兩個初始對話序列分別對應的初始對話樣本,以及所述第一負對話序列對應的第一負對話樣本;
    [0008]根據至少兩個初始對話樣本的屬性信息,將至少兩個初始對話樣本劃分為第一正對話樣本和第二負對話樣本,其中,所述第一正對話樣本和所述第二負對話樣本均包含關鍵詞;
    [0009]將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合,將所述第一正對話樣本存儲至正對話樣本集合。
    [0010]根據本說明書實施例的第二方面,提供了一種樣本構建裝置,包括:
    [0011]獲取模塊,被配置為獲取多個歷史對話序列,將多個歷史對話序列中包含關鍵詞的至少兩個對話序列作為初始對話序列,并在多個歷史對話序列中篩選第一負對話序列;
    [0012]生成模塊,被配置為生成至少兩個初始對話序列分別對應的初始對話樣本,以及所述第一負對話序列對應的第一負對話樣本;
    [0013]劃分模塊,被配置為根據至少兩個初始對話樣本的屬性信息,將至少兩個初始對話樣本劃分為第一正對話樣本和第二負對話樣本,其中,所述第一正對話樣本和所述第二負對話樣本均包含關鍵詞;
    [0014]存儲模塊,被配置為將所述第一負對話樣本和所述第二負對話樣本存儲至負對話
    樣本集合,將所述第一正對話樣本存儲至正對話樣本集合。
    [0015]根據本說明書實施例的第三方面,提供了一種計算設備,包括:
    [0016]存儲器和處理器;
    [0017]所述存儲器用于存儲計算機可執行指令,所述處理器用于執行所述計算機可執行指令,以實現所述樣本構建方法的步驟。
    [0018]根據本說明書實施例的第四方面,提供了一種計算機可讀存儲介質,其存儲有計算機可執行指令,該指令被處理器執行時實現所述樣本構建方法的步驟。
    [0019]本說明書提供的樣本構建方法,獲取多個歷史對話序列,將多個歷史對話序列中包含關鍵詞的至少兩個對話序列作為初始對話序列,并在多個歷史對話序列中篩選第一負對話序列;生成至少兩個初始對話序列分別對應的初始對話樣本,以及樣本構建第一負對話序列對應的第一負對話樣本;根據至少兩個初始對話樣本的屬性信息,將至少兩個初始對話樣本劃分為第一正對話樣本和第二負對話樣本,其中,樣本構建第一正對話樣本和樣本構建第二負對話樣本均包含關鍵詞;將樣本構建第一負對話樣本和樣本構建第二負對話樣本存儲至負對話樣本集合,將樣本構建第一正對話樣本存儲至正對話樣本集合。
    [0020]本說明書一實施例實現了在多個歷史對話序列中選擇包含關鍵詞的至少兩個初始對話序列,再根據每個初始對話序列對應的初始對話樣本屬性信息將初始對話樣本劃分為第一正對話樣本和第二負對話樣本。在多個歷史對話序列中篩選第一負對話序列,生成第一負對話樣本,進而提高了樣本的多樣性,在后續基于第一負對話樣本、第一正對話樣本和第二負對話樣本進行檢測模型的訓練,提升了檢測模型的預測準確度。
    附圖說明
    [0021]圖1是本說明書一實施例提供的一種樣本構建方法的樣本構建示意圖;
    [0022]圖2是本說明書一實施例提供的一種樣本構建方法的流程圖;
    [0023]圖3是本說明書一實施例提供的一種樣本構建方法的示意圖;
    [0024]圖4是本說明書一實施例提供的一種應用于對話數據的樣本構建方法的處理流程圖;
    [0025]圖5是本說明書一實施例提供的一種樣本構建裝置的結構示意圖;
    [0026]圖6是本說明書一實施例提供的一種計算設備的結構框圖。
    具體實施方式
    [0027]在下面的描述中闡述了很多具體細節以便于充分理解本說明書。但是本說明書能夠以很多不同于在此描述的其它方式來實施,本領域技術人員可以在不違背本說明書內涵的情況下做類似推廣,因此本說明書不受下面公開的具體實施的限制。
    [0028]在本說明書一個或多個實施例中使用的術語是僅僅出于描述特定實施例的目的,而非旨在限制本說明書一個或多個實施例。在本說明書一個或多個實施例和所附權利要求書中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本說明書一個或多個實施例中使用的術語“和/或”是指并包含一個或多個相關聯的列出項目的任何或所有可能組合。
    [0029]應當理解,盡管在本說明書一個或多個實施例中可能采用術語第一、第二等來描
    述各種信息,但這些信息不應限于這些術語。這些術語僅用來將同一類型的信息彼此區分開。例如,在不脫離本說明書一個或多個實施例范圍的情況下,第一也可以被稱為第二,類似地,第二也可以被稱為第一。取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在
    ……
    時”或“當
    ……
    時”或“響應于確定”。
    [0030]首先,對本說明書一個或多個實施例涉及的名詞術語進行解釋。
    [0031]BERT(Bidirectional Encoder Representation from Transformers):用于自然語言處理的預訓練技術。BERT利用大量的無監督數據預訓練一個Transformer堆疊的神經網絡,再應用于下游任務中,Transformer可以編碼單詞雙向信息,能夠更好地完成文本理解。
    [0032]對話內容質檢:通過自然語言處理技術判斷對話中,是否存在違規行為。主要質檢內容:違規詞語、違規行為、服務態度等。
    [0033]Focal Loss:Focal loss(聚焦損失函數)主要是為了解決有監督機器學習場景中正負樣本比例嚴重失衡的問題,通過設計新的損失函數,使模型在訓練過程中能夠自動分配樣本權重,達到平本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種樣本構建方法,其特征在于,包括:獲取多個歷史對話序列,將多個歷史對話序列中包含關鍵詞的至少兩個對話序列作為初始對話序列,并在多個歷史對話序列中篩選第一負對話序列;生成至少兩個初始對話序列分別對應的初始對話樣本,以及所述第一負對話序列對應的第一負對話樣本;根據至少兩個初始對話樣本的屬性信息,將至少兩個初始對話樣本劃分為第一正對話樣本和第二負對話樣本,其中,所述第一正對話樣本和所述第二負對話樣本均包含關鍵詞;將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合,將所述第一正對話樣本存儲至正對話樣本集合。2.根據權利要求1所述的方法,其特征在于,所述至少兩個初始對話序列中,任意一個初始對話序列對應的初始對話樣本的確定,包括:在所述初始對話序列中確定包含關鍵詞的中心對話語句;基于所述初始對話序列生成包含所述中心對話語句的初始對話樣本。3.根據權利要求2所述的方法,其特征在于,所述基于所述初始對話序列生成包含所述中心對話語的初始對話樣本,包括:在所述初始對話序列中選擇與所述中心對話語句對應的前序對話文本和后續對話文本;將所述前序對話文本、所述后續對話文本與所述中心對話語句進行組合,獲得初始對話樣本。4.根據權利要求1所述的方法,其特征在于,所述將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合,將所述第一正對話樣本存儲至正對話樣本集合,包括:對所述第一負對話樣本和所述第二負對話樣本進行調整處理后存儲至負對話樣本集合,對所述第一正對話樣本進行調整處理后存儲至正對話樣本集合。5.根據權利要求4所述的方法,其特征在于,所述對所述第一負對話樣本和所述第二負對話樣本進行調整處理后存儲至負對話樣本集合,對所述第一正對話樣本進行調整處理后存儲至正對話樣本集合,包括:分別對所述第一負對話樣本和所述第二負對話樣本包含的噪聲數據進行刪除或修改,獲得第一負去噪對話樣本和第二負去噪對話樣本,并分別對所述第一負去噪對話樣本和所述第二負去噪對話樣本進行整合處理,將處理結果存儲至負對話樣本集合;對所述第一正對話樣本包含的噪聲數據進行刪除或修改,獲得第一正去噪對話樣本,對所述第一正去噪對話樣本進行整合處理,將處理結果存儲至正對話樣本集合。6.根據權利要求1所述的方法,其特征在于,所述將所述第一負對話樣本和所述第二負對話樣本存儲至負對話樣本集合,將所述第一正對話樣本存儲至正對話樣本集合步驟執行之后,還包括:在所述負對話樣本集合和所述正對話樣本集合中提取目標對話樣本,其中,所述目標對話樣本包含目標正對話子樣本和目標負對應子樣本;基于所述目標對話樣本訓練對話檢測模型,直至獲得滿足訓練停止條件的目標對話檢測模型。7.根據權利要求6所述的方法,其特征在于,所述在所述負對話樣本集合和所述正對話
    樣本集合...

    【專利技術屬性】
    技術研發人員:閻覃,張天宇孫子鈞,趙薇,柳景明,
    申請(專利權)人:北京猿力教育科技有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码不卡私人影院| 无码视频免费一区二三区| 国产午夜激无码av毛片| 国产免费AV片无码永久免费| 亚洲成?Ⅴ人在线观看无码| 亚洲中文字幕无码不卡电影| 无码av免费毛片一区二区| 潮喷无码正在播放| 国语成本人片免费av无码| 人妻丰满熟妇A v无码区不卡| 久久精品aⅴ无码中文字字幕重口 久久精品国产亚洲AV无码娇色 | 亚洲国产av高清无码| 亚洲精品无码你懂的网站| 亚洲成A∨人片在线观看无码| yy111111少妇影院里无码| 99无码人妻一区二区三区免费| 亚洲精品高清无码视频| 一道久在线无码加勒比| 蜜臀亚洲AV无码精品国产午夜.| 精品久久久久久无码不卡 | 国产在线无码视频一区二区三区 | H无码精品3D动漫在线观看| 亚洲精品无码专区久久| 日韩网红少妇无码视频香港| 亚洲精品无码不卡在线播HE| 黄A无码片内射无码视频| 国产免费av片在线无码免费看| 无码狠狠躁久久久久久久| 亚洲AV综合色区无码二区爱AV| 亚洲精品成人无码中文毛片不卡| 日韩精品无码一区二区三区四区| 在线无码午夜福利高潮视频| 成人免费无遮挡无码黄漫视频| 亚洲av永久无码精品网址| 亚洲欧洲国产综合AV无码久久| 久久亚洲AV无码精品色午夜 | 国产拍拍拍无码视频免费| 精品无人区无码乱码毛片国产| 蜜臀亚洲AV无码精品国产午夜.| 西西4444www大胆无码| 精品久久久久久无码人妻蜜桃|