【技術實現步驟摘要】
本專利技術屬于數據處理,具體涉及一種基于開源大模型的垂直領域意圖識別方法。
技術介紹
1、ic(intent?classification)即意圖識別,是nlp(natural?languageprocessing)自然語言處理領域里面的重要任務,如何有效的進行意圖識別是該領域的一個重要方向,其識別效果直接決定下游的效果,例如在對胡領域、智能客服領域。特別是在垂直領域任務中,例如線上智能銷售、醫療助手、財務助手等不同領域,需要基于明確的意圖結果來進行相關的處理,識別結果的準確率和召回率對于后續的處理效果影響巨大,如果識別錯誤會產生巨大的負面影響,如何在保障準確率的前提下逐步提升召回率是當前的一個行業痛點。
2、特別是針對網絡化、口語化、地域化等場景,例如在當前如火如荼的短視頻和直播領域,用戶的表達方式更為隨意,識別的難度在逐步加大。傳統方法需要依賴大量的規則、標注數據來進行識別模型的逐步提升,其核心的本質原因在于原有模型對于現實世界的認知不足,所能容納的語義空間有限,針對未登錄內容不能很好的理解,不能很好的處理這類任務,整體的優化維護成本較高。但隨著大模型(large?language?model,后面簡稱llm)的出現,為更好的進行意圖識別任務提供了新的方法和可行性,由于llm對現實世界有著更為豐富的認知,模型本身蘊含的語義空間足夠豐富,能夠更好的解決現有模型的痛點。
3、現有技術的缺點:
4、1、模型的泛化能力較弱,過度依賴于標注數據,針對未見場景的識別能力較弱。由于現有模型一般采用ber
5、2、迭代維護成本過高,模型能力的提升,嚴重依賴數據反饋,需要不斷的標注badcase以及增加新的場景來提升準確率和召回率;
6、3、缺乏一定的推理能力,針對待處理內容缺乏推理理解,只能處理當前語句中的數據,無法很好的識別上下文相關內容,特別是在多輪對話中,存在反問、諷刺、跳躍等多種情況,傳統基于單句的意圖模型無法處理;
7、4、過度依賴算法人員的能力,模型的效果好壞與算法人員的能力正相關,對人的依賴較大;
8、5、新增意圖困難,新增意圖需要考慮是否和原有意圖有重疊或者模糊的場景,如果和原有意圖有重疊,需要針對歷史意圖的語料進行二次處理。
9、6、多意圖支持效果不佳,在多意圖的場景下表現較差,由于缺乏推理能力,在復雜場景下會導致多意圖錯誤明顯的情況,例如在閑聊和買車場景,如果僅依賴單輪對話,在對話中很多場景都會歸為閑聊場景。實際上整體是買車意圖。
技術實現思路
1、本專利技術為了解決上述現有技術中存在的缺陷和不足,提供了一種面向行業的通用的意圖識別能力,支持多意圖的同時識別,能夠高質量、快速的支持面向行業的意圖識別任務,降低意圖識別的模型難度,在面向新場景中依然有較強的快速啟動能力,能低成本的解決意圖識別的潛在問題,為依賴的下游任務提供更精準可靠的識別結果的基于開源大模型的垂直領域意圖識別方法。
2、本專利技術提供如下技術方案:一種基于開源大模型的垂直領域意圖識別方法,步驟如下:
3、步驟一、準備pre-training語料;
4、步驟二、基于構建好的行業語料庫進行pre-training,將行業語料數據作為新的語料進行訓練,讓模型融合行業數據;
5、步驟三、基于自身的對話數據構造標注數據;
6、步驟四、基于構造好的標注數據進行fine-tune;
7、步驟五、基于原有的開源模型的評估數據集和自身構建的評估數據集進行模型效果的評估;
8、步驟六、啟動fine-tune后的模型,將意圖識別任務的模板固化,針對輸入的對話采用實體識別的prompt模板來和模型交互,輸出格式化的json數據,得到模型的結果。
9、優選地,步驟一具體是指針對當前的行業準備這個行業相關實體和對話的語料,盡可能的提供更多的語料,但需要確保語料不重復、語料的正確性。
10、優選地,步驟二中需要考慮要處理的場景,如果是中文場景,需要并基于中文模型基座,選擇的是chinese-llama-alpaca-2。
11、優選地,步驟三中以對話數據進行改造,不以單句輸入作為標注數據,每次以對話數據作為待標注數據,基于對話進行標注,即一個n輪的對話可以拆分成n個標注數據,都已當輪加歷史對話數據作為輸入,標注出到目前為止用戶所表達的意圖到底是什么,能夠解決原有意圖識別模型無法做多輪的推理問題。
12、優選地,步驟四中數據量不得少于2000條,且需要和原有模型的fine-tune數據集一起使用,確保模型在獲得新的能力的同時保留原有能力。
13、優選地,步驟二中采用的是chinese-llama-alpaca-2的7b版本,在算力允許的情況下可以選擇參數量更大的chinese-llama-alpaca-2的13b版本,或者可以選擇通義千問的開源版本或者百川的開源版本。
14、優選地,步驟二中采用的是v100?4卡32g的機器進行訓練或者根據不同情況選擇不同配置的機器進行訓練。
15、優選地,步驟一中選擇的是汽車行業的數據或者選擇其他行業的數據。
16、優選地,考慮多輪對話場景,在數據構造的時候采用多輪對話作為fine-tune語料,如果不存在多輪的場景,可以使用單句語料進行標注,降低標注難度。例如問答場景。
17、本專利技術的有益效果如下:
18、1、泛化能力增強,能夠更好的處理長尾問題,例如輸入的不規范、輸入的錯別字、口語化的表達等。由于大模型在預訓練期間有了足夠多的現實世界的語料,所以模型本身蘊含了對于現實世界的理解,針對長尾問題相比原有模型,其覆蓋能力明顯增加;
19、2、擴展能力增強,能夠更方便的增加新的意圖,例如原來識別20個意圖,現在需要增加1個意圖。在原有模型的處理流程中,需要針對歷史的標注輸入進行清洗,把和新增意圖有沖突的語料進行糾正。但采用llm方案不需要對歷史數據做過多干預,只需增加新的數據即可,模型的能力可以實現疊加;
20、3、在多輪對話中表現良好,傳統算法一般都是基于單句進行識別,在多輪對話中會失效,即如果出現上下文中推理問題,意圖轉折、跳轉等情況,模型不能很好的處理。但基于llm進行處理,能夠有效的解決這列上下文推理問題;
21、4、能夠有效的支持多意圖的識別,充分利用llm本身的推理能力,讓多意圖識別更為精準。
本文檔來自技高網...【技術保護點】
1.一種基于開源大模型的垂直領域意圖識別方法,其特征在于,步驟如下:
2.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟一具體是指針對當前的行業準備這個行業相關實體和對話的語料,盡可能的提供更多的語料,但需要確保語料不重復、語料的正確性。
3.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟二中需要考慮要處理的場景,如果是中文場景,需要并基于中文模型基座,選擇的是Chinese-LLaMA-Alpaca-2。
4.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟三中以對話數據進行改造,不以單句輸入作為標注數據,每次以對話數據作為待標注數據,基于對話進行標注,即一個N輪的對話可以拆分成N個標注數據,都已當輪加歷史對話數據作為輸入,標注出到目前為止用戶所表達的意圖到底是什么,能夠解決原有意圖識別模型無法做多輪的推理問題。
5.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟四中數據量不得少于2000條,且需要和原有模
6.根據權利要求3所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟二中采用的是Chinese-LLaMA-Alpaca-2的7B版本,在算力允許的情況下可以選擇參數量更大的Chinese-LLaMA-Alpaca-2的13B版本,或者可以選擇通義千問的開源版本或者百川的開源版本。
7.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟二中采用的是V100?4卡32G的機器進行訓練或者根據不同情況選擇不同配置的機器進行訓練。
8.根據權利要求2所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟一中選擇的是汽車行業的數據或者選擇其他行業的數據。
9.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:考慮多輪對話場景,在數據構造的時候采用多輪對話作為fine-tune語料,如果不存在多輪的場景,可以使用單句語料進行標注,降低標注難度。
...【技術特征摘要】
1.一種基于開源大模型的垂直領域意圖識別方法,其特征在于,步驟如下:
2.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟一具體是指針對當前的行業準備這個行業相關實體和對話的語料,盡可能的提供更多的語料,但需要確保語料不重復、語料的正確性。
3.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟二中需要考慮要處理的場景,如果是中文場景,需要并基于中文模型基座,選擇的是chinese-llama-alpaca-2。
4.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟三中以對話數據進行改造,不以單句輸入作為標注數據,每次以對話數據作為待標注數據,基于對話進行標注,即一個n輪的對話可以拆分成n個標注數據,都已當輪加歷史對話數據作為輸入,標注出到目前為止用戶所表達的意圖到底是什么,能夠解決原有意圖識別模型無法做多輪的推理問題。
5.根據權利要求1所述的一種基于開源大模型的垂直領域意圖識別方法,其特征在于:步驟四中數據量不得少于20...
【專利技術屬性】
技術研發人員:劉廣興,
申請(專利權)人:杭州百聆科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。