一種基于BERT的交互性元學習事件檢測方法技術

技術編號：36692512 閱讀：16 留言：0更新日期：2023-02-27 20:01

本發明專利技術公開了一種基于BERT的交互性元學習事件檢測方法。方法包括：獲取目標支持集，所述目標支持集包括至少一個參考數據集，所述參考數據集中包括至少一條參考數據；獲取目標數據；將所述目標支持集與所述目標數據進行拼接編碼，得到所述目標數據對應的事件類型；獲取目標參考數據集，所述目標參考數據集對應的事件類型與所述目標數據對應的事件類型相同，將所述目標參考數據集與所述目標數據進行拼接編碼，得到所述目標數據中的事件觸發詞。本發明專利技術提供的基于BERT的交互性元學習事件檢測方法，能更好的檢測句子中的事件單詞，提高對檢測句子中事件單詞的準確性。測句子中事件單詞的準確性。測句子中事件單詞的準確性。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于BERT的交互性元學習事件檢測方法

[0001]本專利技術涉及文字檢測
，特別涉及一種基于BERT的交互性元學習事件檢測方法。

技術介紹

[0002]隨著網絡技術的大規模普及，互聯網每時每刻都在產生著海量的自然語言數據，將事件信息從自然語言中抽取出來已經成為一個重要應用場景。然而由于事件的標注成本較高，并且在實際應用場景中有些事件如政變，經濟危機等缺乏標注語料，因此在某些場景中事件抽取任務難以獲得大量的標注數據來訓練模型。事件檢測作為事件抽取的重要子任務，如何通過少量數據獲得更好效果的模型成為一個亟待解決的問題。
[0003]現有的小樣本事件檢測技術多數基于元學習架構，即模型需要從一個由少量標注數據組成的支持集上，學習到事件特征，然后使用學習到的知識在由未標注數據組成的查詢集上進行推理。目前，相關技術一般聚焦于使用各種復雜的網絡結構獲得更好的支持集編碼以及查詢集編碼，如使用 CNN,RNN,GCN等多種神經網絡來對支持集進行編碼得到各個事件類型的原型，或者是設計一種基于記憶力機制的特征編碼方式來得到魯棒性強的句子編碼，還有的通過使用序列標注任務來做事件檢測模型，借鑒CRF轉移矩陣的思想，將轉移分數引入模型，設計端到端的事件檢測模型。
[0004]然而，這些模型都只側重于設計復雜的網絡結構，僅僅只是單獨的對支持集與查詢集進行編碼，在編碼過程中，支持集看不到來自查詢集的信息，查詢集也看不到來自支持集的信息，得到的句子編碼缺乏足夠豐富的語意信息，查詢結果不夠準確。
[0005]因此，現...

【技術保護點】

【技術特征摘要】
1.一種基于BERT的交互性元學習事件檢測方法，其特征在于，包括：獲取目標支持集，所述目標支持集包括至少一個參考數據集，所述參考數據集中包括至少一條參考數據，所述參考數據為標注了事件觸發詞和事件類型的句子；獲取目標數據，所述目標數據為未標注事件觸發詞的句子；將所述目標支持集與所述目標數據進行拼接編碼，得到所述目標數據對應的事件類型；獲取目標參考數據集，所述目標參考數據集對應的事件類型與所述目標數據對應的事件類型相同，將所述目標參考數據集與所述目標數據進行拼接編碼，得到所述目標數據中的事件觸發詞。2.根據權利要求1所述的基于BERT的交互性元學習事件檢測方法，其特征在于，所述目標支持集包含至少一種事件類型，每一種事件類型對應一個所述參考數據集；所述目標支持集的表達式為：其中，S為所述目標支持集，N為所述參考數據集數量，K為每組所述參考數據集中的參考數據數量，對于每條所述參考數據考數據數量，對于每條所述參考數據為第i個所述參考數據集中的第j個所述參考數據對應的句子，為第i個所述參考數據集中的第j個所述參考數據中的觸發詞對應的位置，e
i
為第i個所述參考數據集對應的事件類型。3.根據權利要求1所述的基于BERT的交互性元學習事件檢測方法，其特征在于，所述將所述目標支持集與所述目標數據進行拼接編碼，得到所述目標數據對應的事件類型，包括：將所述目標數據分別與所述目標支持集中的每條所述參考數據進行拼接，得到第一目標序列；對所述第一目標序列進行編碼，得到第一目標序列編碼；根據所述第一目標序列編碼獲取第一目標相似度；根據所述第一目標相似度獲取所述目標數據對應的事件類型。4.根據權利要求3所述的基于BERT的交互性元學習事件檢測方法，其特征在于，所述根據所述第一目標序列編碼獲取第一目標相似度，包括：將所述第一目標序列編碼經過一層全連接層，得到每個所述第一目標序列編碼中拼接的兩個句子的相似度分數；分別將各個所述參考數據集對應的相似度進行加和平均后，得到一個或多個所述目標數據與當前參考數據集對應的事件類型的所述第一目標相似度。5.根據權利要求4所述的基于BERT的交互性元學習事件檢測方法，其特征在于，所述將所述目標參考數據集與所述目標數據進行拼接編碼，得到所述目標數據中的事件觸發詞，包括：
將所述目標數據分別與所述目標參考數據集中的每條所述參考數據進行拼接，得到第二目標序列；對所述第二目標序列進行編碼，得到第二目標序列編碼；將所述目標數據分別與所述目標參考數據集中的每條所述參考數據中的觸發詞進行拼接，得到第三...

【專利技術屬性】
技術研發人員：戶保田，陶靖樅，劉振宇，
申請(專利權)人：哈爾濱工業大學深圳，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

<center id="ukgki"></center><table id="ukgki"></table>