• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于零樣本重放的增量學習方法技術

    技術編號:39987246 閱讀:15 留言:0更新日期:2024-01-09 01:59
    本發明專利技術涉及一種基于零樣本重放的增量學習方法,屬于機器學習方法領域。該方法包括以下步驟:獲取物聯網設備的實時監控數據;構建物聯網監控模型,利用所述物聯網監控模型對所述監控數據進行預測得到預測后的監控數據;利用完善的標簽體系對預測后的監控數據進行自動化標注;基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型;將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息。該方法使用標注過的樣本集進行模型訓練,提高了模型抽取信息的準確率以及訓練的效率;在增量學習過程中通過同時使用舊樣本的樣本特征和新樣本,在避免產生災難性遺忘的同時節省了數據存儲的開銷。

    【技術實現步驟摘要】

    本專利技術涉及機器學習方法領域,尤其涉及一種基于零樣本重放的增量學習方法


    技術介紹

    1、結構化數據是一種常見的數據結構,常用于服務器和客戶端之間的數據交換。在物聯網監控告警業務中,物聯網設備會產生大量的實時數據,如充電樁實時狀態、交通燈實時狀態等信息,因此使用輕量級的json格式數據實現服務器與各聯網設備間的數據傳輸。為了使監控人員能夠快速準確地發現關鍵信息,需要利用自然語言處理技術抽取關鍵信息并進行高亮顯示。

    2、為實現上述需求,目前常用的方法是用標注后的樣本集訓練模型,然后用該模型對實際數據進行預測。現有的樣本集構建方法主要有兩種,一種是人工方式,由標注人員對所有新數據進行標注形成樣本集;另一種是基于翻譯模型將一部分人工標注的數據作為源語言,先將源語言翻譯為英語、俄語、德語等中間語言,再將中間語言翻譯回源語言,從而將一份數據擴充成多份數據形成樣本集。現有模型的訓練方法主要基于訓練樣本集,在每次訓練時輸入新的樣本,容易造成模型過度學習新知識,對舊知識造成災難性遺忘。

    3、現有技術主要存在以下缺陷,一是人工標注數據成本高、效率低、易出錯、依賴標注人員的專業性;二是基于翻譯模型擴充數據依賴翻譯模型的準確性、易丟失特定信息、對專業化程度高的領域支持效果差;三是在模型訓練過程中過度學習新知識,對舊知識造成災難性遺忘。


    技術實現思路

    1、鑒于上述的分析,本專利技術旨在提供一種基于零樣本重放的增量學習方法,用以解決現有訓練數據標注成本高、效率低、質量差、嚴重依賴標注人員或翻譯模型的專業性,現有模型訓練過程中過度學習新知識、對舊知識造成災難性遺忘的問題。

    2、本專利技術提供了一種基于零樣本重放的增量學習方法,所述方法包括以下步驟:

    3、獲取物聯網設備的實時監控數據;

    4、構建物聯網監控模型,利用所述物聯網監控模型對所述監控數據進行預測得到預測后的監控數據;

    5、利用完善的標簽體系對預測后的監控數據進行自動化標注;

    6、基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型;

    7、將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息。

    8、進一步地,所述完善的標簽體系包括一級分類、二級分類、三級分類、四級分類4個等級,所述四級分類具有相應的別名庫;

    9、所述利用完善的標簽體系對預測后的監控數據進行自動化標注包括:利用所述別名庫中的別名對所述數據的特征值進行自動化標注。

    10、進一步地,所述基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型包括:

    11、基于標注后的數據構建訓練樣本集;

    12、首輪次訓練時,按照已設置的批大小將訓練集中的樣本輸入物聯網監控模型進行訓練,得到并保存每個別名的特征向量的平均值;

    13、后續輪次訓練時,基于上一輪次獲取的所述每個別名的特征向量的平均值得到每個別名的樣本特征,將所述樣本特征與訓練集中的樣本一起輸入物聯網監控模型進行訓練,得到并保存每個別名的特征向量的平均值;

    14、當訓練輪次達到閾值后得到訓練好的物聯網監控模型。

    15、進一步地,所述將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息包括:

    16、所述標注后的監控數據通過所述物聯網監控模型的編碼器將標注的特征值進行編碼得到該特征值的特征向量;

    17、所述特征向量通過所述物聯網監控模型的解碼器進行相應的實體抽取和關系抽取,抽取的實體為所述標簽體系四級分類的別名,抽取的關系為該別名的起始和結束位置;

    18、通過所述別名得到相應的特征值,根據所述起始和結束位置得到所述特征值的標注位置并進行高亮顯示。

    19、進一步地,對所述物聯網監控模型進行訓練時,還包括如下步驟:

    20、對于新增的屬性,對所述完善的標簽體系增加相應的分類名和別名得到優化的標簽體系,然后用該優化的標簽體系對預測后的監控數據進行標注,構建第二訓練樣本集;

    21、基于第二訓練樣本集對物聯網監控模型進行訓練得到優化的物聯網監控模型。

    22、進一步地,采用如下方式得到所述每個別名的特征向量的平均值:

    23、

    24、其中,vk為第k個別名所有樣本特征向量的平均值,m是每個別名的樣本數,rd為包含d個別名的實數向量,ct為所有別名的集合,f(x)為將輸入的樣本映射為每個別名的特征向量的函數,為第k個別名的第i個樣本。

    25、進一步地,在進行下一輪訓練時,通過如下方式得到所述樣本特征:

    26、

    27、其中,sk為第k個別名的樣本特征,e為標準高斯分布采樣噪聲,r為不確定尺度,zik為第k個別名的第i個樣本的特征向量,d為特征向量中包含的元素個數,c1為別名的集合。

    28、進一步地,所述損失函數的公式為:

    29、

    30、其中,n為訓練集中的樣本總數,樣本i包含別名j時yij為1否則為0,zij為第j個別名的第i個樣本的特征向量的未歸一化分數,zip為所有別名的第i個樣本的特征向量之和,e為自然常數。

    31、進一步地,所述完善的標簽體系通過下述方法得到:

    32、建立初始標簽體系;

    33、將監控數據輸入訓練好的bert模型得到相應的特征值,基于所述特征值得到相應的特征參數名,所述特征參數名為標簽體系中的別名,將所述特征參數名進行核查后加入初始標簽體系的別名庫得到完善的標簽體系。

    34、進一步地,將完善的標簽體系以樹形結構的形式展示到前端頁面以供用戶進行增刪改查,然后將增刪改查后的標簽同步到所述標簽體系中得到優化的標簽體系。

    35、與現有技術相比,本專利技術至少可實現如下有益效果之一:

    36、1、本專利技術通過結構化數據對模型進行訓練得到相應的特征值,基于所述特征值得到完善的標簽體系,因此可以自動地生成大量業務所需的特征標簽,實現了對特征標簽的體系化管理,并且對于同類問題可以復用所述標簽體系,提高了開發的效率。

    37、2、本專利技術利用標簽體系對源源不斷的實時監控數據進行自動化的標注,因此可以大大提高數據標注的效率,降低出錯率,有效解決了現有數據標注成本高、效率低、質量差、嚴重依賴標注人員或翻譯模型的專業性的問題。

    38、3、本專利技術對于新增的屬性,通過前端頁面對標簽體系進行增刪改查,因此可根據實際實時監控數據方便快捷地對標簽體系不斷進行優化,從而提高實時監控數據標注的質量。

    39、4、本專利技術利用標簽體系對大量實時監控數據進行自動化的標注,大大減少了生成物聯網監控模型訓練樣本集的時間,從而提高了開發效率。

    40、5、本專利技術使用標注過的樣本集對物聯網監控模型進行訓練,因此提高了物聯網監控模型對關鍵信息進行實體抽取的準確率以及訓練的效率。...

    【技術保護點】

    1.一種基于零樣本重放的物聯網信息抽取方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述完善的標簽體系包括一級分類、二級分類、三級分類、四級分類4個等級,所述四級分類具有相應的別名庫;

    3.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型包括:

    4.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息包括:

    5.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,對所述物聯網監控模型進行訓練時,還包括如下步驟:

    6.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,采用如下方式得到所述每個別名的特征向量的平均值:

    7.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,在進行下一輪訓練時,通過如下方式得到所述樣本特征:

    8.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述損失函數的公式為:

    9.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述完善的標簽體系通過下述方法得到:

    10.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,將完善的標簽體系以樹形結構的形式展示到前端頁面以供用戶進行增刪改查,然后將增刪改查后的標簽同步到所述標簽體系中得到優化的標簽體系。

    ...

    【技術特征摘要】

    1.一種基于零樣本重放的物聯網信息抽取方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述完善的標簽體系包括一級分類、二級分類、三級分類、四級分類4個等級,所述四級分類具有相應的別名庫;

    3.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述基于零樣本重放的方法構建訓練樣本集對所述物聯網監控模型進行訓練得到訓練好的物聯網監控模型包括:

    4.根據權利要求1所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,所述將標注后的監控數據輸入訓練好的物聯網監控模型得到高亮顯示的關鍵信息包括:

    5.根據權利要求3所述的基于零樣本重放的物聯網信息抽取方法,其特征在于,對所述物聯網監控模型進行訓練時,還包括如...

    【專利技術屬性】
    技術研發人員:彭龍孟英謙紀沈江楊亮王嘉巖杜宏博李曉政李皓謝志豪張世超王文哲薛行王靜陽
    申請(專利權)人:中國兵器工業計算機應用技術研究所
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 一本一道av中文字幕无码| 久久久久琪琪去精品色无码| 精品视频无码一区二区三区| 久久国产精品无码HDAV| 日韩放荡少妇无码视频| 中国无码人妻丰满熟妇啪啪软件| 日韩乱码人妻无码系列中文字幕 | 午夜福利av无码一区二区| 无码精品人妻一区二区三区中| 无码精品尤物一区二区三区| 国产精品毛片无码| 人妻少妇精品无码专区漫画| 一区二区三区无码视频免费福利 | 国产成人精品无码免费看| 亚洲人AV在线无码影院观看| 寂寞少妇做spa按摩无码| 18禁无遮挡无码网站免费| 久热中文字幕无码视频| 韩日美无码精品无码| 亚洲va中文字幕无码| 国产综合无码一区二区色蜜蜜| 无码毛片视频一区二区本码 | 精品亚洲A∨无码一区二区三区 | 国产无码一区二区在线| 亚洲精品无码日韩国产不卡av| 亚洲AV无码成人网站久久精品大 | 精品人妻系列无码天堂| 免费无码又爽又刺激网站 | 免费人妻av无码专区| 久久人妻无码中文字幕| 无码人妻丰满熟妇区免费| 中文字幕AV中文字无码亚| 中文字幕在线无码一区 | 人妻少妇乱子伦无码专区| 亚洲国产精品无码久久九九大片| 免费A级毛片av无码| 无码免费一区二区三区免费播放| 亚洲VA中文字幕不卡无码| 亚洲AV无码一区二区三区系列 | 国产精品无码久久综合| 国产aⅴ激情无码久久|