【技術實現步驟摘要】
本專利技術涉及機器學習方法領域,尤其涉及一種基于零樣本重放的增量學習方法。
技術介紹
1、結構化數據是一種常見的數據結構,常用于服務器和客戶端之間的數據交換。在物聯網監控告警業務中,物聯網設備會產生大量的實時數據,如充電樁實時狀態、交通燈實時狀態等信息,因此使用輕量級的json格式數據實現服務器與各聯網設備間的數據傳輸。為了使監控人員能夠快速準確地發現關鍵信息,需要利用自然語言處理技術抽取關鍵信息并進行高亮顯示。
2、為實現上述需求,目前常用的方法是用標注后的樣本集訓練模型,然后用該模型對實際數據進行預測。現有的樣本集構建方法主要有兩種,一種是人工方式,由標注人員對所有新數據進行標注形成樣本集;另一種是基于翻譯模型將一部分人工標注的數據作為源語言,先將源語言翻譯為英語、俄語、德語等中間語言,再將中間語言翻譯回源語言,從而將一份數據擴充成多份數據形成樣本集。現有模型的訓練方法主要基于訓練樣本集,在每次訓練時輸入新的樣本,容易造成模型過度學習新知識,對舊知識造成災難性遺忘。
3、現有技術主要存在以下缺陷,一是人工標注數據成本高、效率低、易出錯、依賴標注人員的專業性;二是基于翻譯模型擴充數據依賴翻譯模型的準確性、易丟失特定信息、對專業化程度高的領域支持效果差;三是在模型訓練過程中過度學習新知識,對舊知識造成災難性遺忘。
技術實現思路
1、鑒于上述的分析,本專利技術旨在提供一種基于零樣本重放的增量學習方法,用以解決現有訓練數據標注成本高、效率低、質量差、嚴重依賴標注
2、本專利技術提供了一種基于零樣本重放的增量學習方法,所述方法包括以下步驟:
3、獲取物聯網設備的實時監控數據;
4、構建物聯網監控模型,利用所述物聯網監控模型對所述監控數據進行預測得到預測后的監控數據;
5、利用完善的標簽體系對預測后的監控數據進行自動化標注;
6、基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型;
7、將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息。
8、進一步地,所述完善的標簽體系包括一級分類、二級分類、三級分類、四級分類4個等級,所述四級分類具有相應的別名庫;
9、所述利用完善的標簽體系對預測后的監控數據進行自動化標注包括:利用所述別名庫中的別名對所述數據的特征值進行自動化標注。
10、進一步地,所述基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型包括:
11、基于標注后的數據構建訓練樣本集;
12、首輪次訓練時,按照已設置的批大小將訓練集中的樣本輸入物聯網監控模型進行訓練,得到并保存每個別名的特征向量的平均值;
13、后續輪次訓練時,基于上一輪次獲取的所述每個別名的特征向量的平均值得到每個別名的樣本特征,將所述樣本特征與訓練集中的樣本一起輸入物聯網監控模型進行訓練,得到并保存每個別名的特征向量的平均值;
14、當訓練輪次達到閾值后得到訓練好的物聯網監控模型。
15、進一步地,所述將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息包括:
16、所述標注后的監控數據通過所述物聯網監控模型的編碼器將標注的特征值進行編碼得到該特征值的特征向量;
17、所述特征向量通過所述物聯網監控模型的解碼器進行相應的實體抽取和關系抽取,抽取的實體為所述標簽體系四級分類的別名,抽取的關系為該別名的起始和結束位置;
18、通過所述別名得到相應的特征值,根據所述起始和結束位置得到所述特征值的標注位置并進行高亮顯示。
19、進一步地,對所述物聯網監控模型進行訓練時,還包括如下步驟:
20、對于新增的屬性,對所述完善的標簽體系增加相應的分類名和別名得到優化的標簽體系,然后用該優化的標簽體系對預測后的監控數據進行標注,構建第二訓練樣本集;
21、基于第二訓練樣本集對物聯網監控模型進行訓練得到優化的物聯網監控模型。
22、進一步地,采用如下方式得到所述每個別名的特征向量的平均值:
23、
24、其中,vk為第k個別名所有樣本特征向量的平均值,m是每個別名的樣本數,rd為包含d個別名的實數向量,ct為所有別名的集合,f(x)為將輸入的樣本映射為每個別名的特征向量的函數,為第k個別名的第i個樣本。
25、進一步地,在進行下一輪訓練時,通過如下方式得到所述樣本特征:
26、
27、其中,sk為第k個別名的樣本特征,e為標準高斯分布采樣噪聲,r為不確定尺度,zik為第k個別名的第i個樣本的特征向量,d為特征向量中包含的元素個數,c1為別名的集合。
28、進一步地,所述損失函數的公式為:
29、
30、其中,n為訓練集中的樣本總數,樣本i包含別名j時yij為1否則為0,zij為第j個別名的第i個樣本的特征向量的未歸一化分數,zip為所有別名的第i個樣本的特征向量之和,e為自然常數。
31、進一步地,所述完善的標簽體系通過下述方法得到:
32、建立初始標簽體系;
33、將監控數據輸入訓練好的bert模型得到相應的特征值,基于所述特征值得到相應的特征參數名,所述特征參數名為標簽體系中的別名,將所述特征參數名進行核查后加入初始標簽體系的別名庫得到完善的標簽體系。
34、進一步地,將完善的標簽體系以樹形結構的形式展示到前端頁面以供用戶進行增刪改查,然后將增刪改查后的標簽同步到所述標簽體系中得到優化的標簽體系。
35、與現有技術相比,本專利技術至少可實現如下有益效果之一:
36、1、本專利技術通過結構化數據對模型進行訓練得到相應的特征值,基于所述特征值得到完善的標簽體系,因此可以自動地生成大量業務所需的特征標簽,實現了對特征標簽的體系化管理,并且對于同類問題可以復用所述標簽體系,提高了開發的效率。
37、2、本專利技術利用標簽體系對源源不斷的實時監控數據進行自動化的標注,因此可以大大提高數據標注的效率,降低出錯率,有效解決了現有數據標注成本高、效率低、質量差、嚴重依賴標注人員或翻譯模型的專業性的問題。
38、3、本專利技術對于新增的屬性,通過前端頁面對標簽體系進行增刪改查,因此可根據實際實時監控數據方便快捷地對標簽體系不斷進行優化,從而提高實時監控數據標注的質量。
39、4、本專利技術利用標簽體系對大量實時監控數據進行自動化的標注,大大減少了生成物聯網監控模型訓練樣本集的時間,從而提高了開發效率。
40、5、本專利技術使用標注過的樣本集對物聯網監控模型進行訓練,因此提高了物聯網監控模型對關鍵信息進行實體抽取的準確率以及訓練的效率。
...【技術保護點】
1.一種基于零樣本重放的物聯網信息抽取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述完善的標簽體系包括一級分類、二級分類、三級分類、四級分類4個等級,所述四級分類具有相應的別名庫;
3.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型包括:
4.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息包括:
5.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,對所述物聯網監控模型進行訓練時,還包括如下步驟:
6.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,采用如下方式得到所述每個別名的特征向量的平均值:
7.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,在進行下一輪訓練時,通過如下方式得到所
8.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述損失函數的公式為:
9.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述完善的標簽體系通過下述方法得到:
10.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,將完善的標簽體系以樹形結構的形式展示到前端頁面以供用戶進行增刪改查,然后將增刪改查后的標簽同步到所述標簽體系中得到優化的標簽體系。
...【技術特征摘要】
1.一種基于零樣本重放的物聯網信息抽取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述完善的標簽體系包括一級分類、二級分類、三級分類、四級分類4個等級,所述四級分類具有相應的別名庫;
3.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型包括:
4.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息包括:
5.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,對所述物聯網監控模型進行訓練時,還包括如...
【專利技術屬性】
技術研發人員:彭龍,孟英謙,紀沈江,楊亮,王嘉巖,杜宏博,李曉政,李皓,謝志豪,張世超,王文哲,薛行,王靜陽,
申請(專利權)人:中國兵器工業計算機應用技術研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。