【技術實現步驟摘要】
本專利技術屬于數據處理,具體地說是一種基于正負相關樣例微調大模型的領域意圖識別方法。
技術介紹
1、在智能客服應用中,對話機器人的核心模塊是意圖識別,旨在理解用戶問句并給出正確的意圖類別,對于不同的行業,定義的意圖集合都有所不同。在大模型出現之前,意圖識別大多使用傳統的深度學習模型或bert類的預訓練語言模型,而這些模型需要行業特定的數據進行訓練或微調。模型效果依賴于數據的質量和豐富度,特別是在意圖類別較多的情況下,數據不平衡是一個常見問題,數據量少的意圖往往識別效果有限;且傳統模型的規模與復雜度也限制了模型的能力。
2、而由于大模型在預訓練階段和指令微調階段已經整合了大規模數據的相關知識,模型已經具有一定的表達能力,在預測階段,可以直接基于指令提示詞進行分類。而對于包含幾百甚至幾千個意圖的行業場景,由于上下文長度的限制,可能無法在提示詞中給出所有的意圖名稱,且模型容易出現遺忘。為了解決多意圖的問題,可以通過檢索增強生成rag(retrieval-augmented?generation)的方式,檢索當前用戶問句的相似句及對應意圖,限制提供給大模型的意圖數量。這種方法雖然在一定程度上緩解了多意圖的識別問題,但是由于漏召回、錯誤召回問題,仍會影響大模型的識別效果。而且大模型的識別能力依賴于預訓練及指令微調階段所見過的數據,如果某個行業在預訓練階段包含的數據量較少,那么模型在該行業的知識和理解能力是欠缺的,而行業信息的缺失會限制大模型在該領域的理解和識別能力,影響識別效果。
3、因此,需要一種基于大模型的面向
技術實現思路
1、針對現有技術的不足,本專利技術提供一種基于正負相關樣例微調大模型的領域意圖識別方法,在依賴大模型做意圖識別或分類的場景中,能夠解決由于行業信息的缺失導致大模型在特定領域或行業下的意圖識別能力有限的問題,通過在特定行業數據下微調大模型,提升行業的識別效果;同時,對于意圖數量較多的行業,也能達到不錯的識別效果。
2、本專利技術的技術方案如下:一種基于正負相關樣例微調大模型的領域意圖識別方法,步驟如下:
3、s1、句向量生成,通過行業的無標簽數據微調一個行業特定的embedding模型;
4、s2、構建向量索引,通過步驟s1得到的embedding模型生成行業有標簽數據的向量并構建向量索引庫;
5、s3、構建候選意圖及例句,基于索引庫進行相似句檢索,生成當前樣本的候選意圖及例句;
6、s4、大模型微調,構造微調數據進行大模型微調。
7、優選地,所述步驟s1在句向量生成階段,旨在為行業語料和用戶問句query生成向量表征,為后續的檢索階段提供輸入數據;雖然存在一些通用的用于檢索的embedding模型,但是對于特定行業的檢索能力仍是有限的;為了增強特定垂直領域的召回和檢索能力,需要行業特定的embedding模型。
8、優選地,所述步驟s1具體行業特定的embedding模型的訓練方式步驟如下:
9、1)數據準備:準備行業下的大量無標簽數據集合u;
10、2)模型準備:需要準備兩個模型,其中一個作為teacher模型用于樣本篩選,另一個作為student模型用于微調;通過api調用的方式選擇了qwen系列模型作為teacher模型,記為模型t,選擇了bge-large-zh-v1.5作為student模型,記為模型s;
11、3)正負樣本構建:將數據集u中的每個樣本ui輸入模型s中,得到向量集合hu;通過計算向量之間的余弦相似度,給數據集u中的每個樣本ui召回topk的相似句;將相似度分數高于閾值的相似句作為xi的候選正樣本集合,x將相似度分數在0.4-0.7之間的相似句作為候選負樣本集合;對候選正樣本集合中的樣本根據相似度從大到小排序,將當前樣本xi與候選正樣本輸入給模型t,讓其判斷它們的相似性,將模型t判斷為相似的候選正樣本加入xi的正樣本集合pi={pk,k∈rk}中(k表示正樣本集合的大小),直到集合大小達到預設值;對于候選負樣本集中,隨機選取一個負樣本,讓模型t判斷該負樣本與當前樣本xi的相似性,將模型t判斷為不相似的樣本加入到xi的負樣本集合ni={nj,j∈rj}中(j表示負樣本集合的大小),直到負樣本集合大小滿足預設值;選取正樣本集合大小k=1,負樣本集合大小j=5;
12、4)模型微調:通過正負樣本的構建,可以得到每條微調數據的格式為{x,p,n},x為當前問句,p為x的正樣本集合,n為x的負樣本集合。將所有微調數據輸入到模型s中進行微調,將完成微調后的模型(記為s’)進行存儲,用于后續步驟的向量生成。
13、優選地,所述步驟s2中在構建向量索引階段,將通過步驟1生成的語料庫向量入庫,生成向量索引。
14、優選地,所述步驟s2中具體的執行步驟如下:
15、1)數據準備:在行業的意圖識別任務下,需要準備用于分類的labeled數據集c={x,y},即每個輸入句子xi都有一個對應的意圖標簽yi;
16、2)索引構建:通過步驟s1得到的向量模型s’,為數據集c中的每個輸入樣本xi生成對應的向量,得到labeled數據的向量集合ht={hi,i∈rn}(n表示數據集大小);通過向量檢索工具faiss生成向量集合ht的向量索引庫i并進行存儲。
17、優選地,所述步驟s3中利用大模型進行意圖分類時,需要給大模型提供可供選擇的意圖;在多意圖的場景下,為了保證模型的效果,需要限制提供給大模型的意圖數量;同時,為了增強大模型對特定行業的理解能力,除了正確意圖在候選意圖中的正相關樣本,還額外構建了正確意圖不在候選意圖中的負相關樣本。
18、優選地,所述步驟s3中構建候選意圖及例句具體的執行步驟如下:
19、1)遍歷labeled數據集c中的每個樣本xi,在步驟s2生成的索引庫i中,根據余弦相似句召回topk的相似句(不包括xi),每個相似句都有對應的意圖,將這些意圖作為樣本xi的候選意圖,得到樣本xi的候選意圖及例句集合li表示候選意圖,si表示候選意圖li的例句集合,例句集合大小|si|最大為5,集合l的大小|li|根據相似度排序,最多取前10個候選意圖;
20、2)根據yi是否在候選意圖集合li中,將候選意圖集合分為lp和ln,lp為正相關樣本集合,即候選意圖集合包含正確意圖yi;ln為負相關樣本集合,即候選意圖集合中不包含正確意圖lp,lp和ln的占比分別為r和1-r;
21、3)在相似句檢索后,ln的比例往往達不到期望值,需要對這部分的樣本做擴充,首先隨機選取一個樣本xi,然后在除了yi的其他意圖中隨機選取k個意圖作為候選意圖(k∈[1,10]),計算當前樣本xi與這k個意圖下所有語料的余弦相似度,對于每個候選意圖,在相似度大于0.5的樣本下隨機選擇m個樣本作為該意本文檔來自技高網...
【技術保護點】
1.一種基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于,其步驟如下:
2.根據權利要求1所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟S1在句向量生成階段,旨在為行業語料和用戶問句query生成向量表征,為后續的檢索階段提供輸入數據;雖然存在一些通用的用于檢索的embedding模型,但是對于特定行業的檢索能力仍是有限的;為了增強特定垂直領域的召回和檢索能力,需要行業特定的embedding模型。
3.根據權利要求2所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:
4.根據權利要求1所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟S2中在構建向量索引階段,將通過步驟1生成的語料庫向量入庫,生成向量索引。
5.根據權利要求4所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟S2中具體的執行步驟如下:
6.根據權利要求1所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟S3中利用大模型進行意圖分類時,需要給
7.根據權利要求6所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟S3中構建候選意圖及例句具體的執行步驟如下:
8.根據權利要求1所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟S4中經過上一步驟后,每條數據都包括一個輸入樣本xi,正確意圖yi,以及候選意圖及例句集合Li;通過這些領域數據對大模型進行微調,得到特定領域的意圖識別模型。
9.根據權利要求8所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟S4具體微調步驟如下:
10.根據權利要求1所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟S1-句向量生成階段,可以選擇不同的大模型和句向量生成模型作為微調的基礎模型;在構建正負樣本的過程中,相似度的計算方式可以是歐式距離等其他相似度度量方法;除了根據特定分數區間選擇候選負樣本,也可以隨機選取;
...【技術特征摘要】
1.一種基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于,其步驟如下:
2.根據權利要求1所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟s1在句向量生成階段,旨在為行業語料和用戶問句query生成向量表征,為后續的檢索階段提供輸入數據;雖然存在一些通用的用于檢索的embedding模型,但是對于特定行業的檢索能力仍是有限的;為了增強特定垂直領域的召回和檢索能力,需要行業特定的embedding模型。
3.根據權利要求2所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:
4.根據權利要求1所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟s2中在構建向量索引階段,將通過步驟1生成的語料庫向量入庫,生成向量索引。
5.根據權利要求4所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟s2中具體的執行步驟如下:
6.根據權利要求1所述的基于正負相關樣例微調大模型的領域意圖識別方法,其特征在于:所述步驟s3中利用大模型進行意圖分類時,需要給大模型提供可供選擇的意圖;在多意圖的場景...
【專利技術屬性】
技術研發人員:薛亮,
申請(專利權)人:杭州百聆科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。