基于圖文識別置信度的標注數據質檢方法、設備及介質技術

技術編號：37157086 閱讀：18 留言：0更新日期：2023-04-06 22:19

本發明專利技術公開一種基于圖文識別置信度的標注數據質檢方法、設備及介質，方法包括：步驟1，用已標注數據訓練得到正向解碼模型；步驟2，將具有待質檢標注數據的圖像輸入正向解碼模型得出待質檢標注數據的正向解碼得分；步驟3，用已標注數據訓練得到反向解碼模型；步驟4，將具有相同待質檢標注數據的圖像輸入反向解碼模型得出反向解碼得分；步驟5，將正向解碼得分和反向解碼得分加權融合得到標注質量得分作為待質檢標注數據的置信度；步驟6，通過置信度與預設閾值比較對待質檢標注數據質檢，將置信度高于預設閾值為合格標注數據，否則為不合格標注數據。該方法考慮多維度的信息，僅對置信度較低的標注數據進行人工復核，極大減少人工成本。本。本。

全部詳細技術資料下載

【技術實現步驟摘要】
基于圖文識別置信度的標注數據質檢方法、設備及介質

[0001]本專利技術涉及圖像文字識別領域，尤其涉及一種基于圖文識別數據的標注數據質檢方法、設備及介質。

技術介紹

[0002]隨著科學技術的發展，基于深度學習的自動化提取圖片上的文字信息取得了不錯的效果，極大的方便了人們的日常生活。但是基于深度學習的圖像文字識別技術需要大量含有標簽的數據來進行文本識別模型的訓練，隨著應用范圍的提升，不同場景不同語種的數據標注需求越來越廣泛，數據標注的量級也在不斷增長。數據標注的質量會很大影響到文本識別模型的能力，因此，在數據標注過程中，如何有效的檢查數據標注的正確性也成為數據標注過程中一個重要的方面。
[0003]現有的針對圖像文字數據標注的質檢方法主要基于兩種方案，第一種方案是利用人工進行抽檢，從整體數據中隨機選擇一部分數據來校驗數據標注的準確性；第二種方案是利用已有的文本識別模型進行文字識別，將文本識別模型解碼的后驗概率作為數據得分，通過閾值來判斷數據標注質量是否合格。
[0004]對于第一種方案，采用人工抽檢的方式需要大量專業的人員進行操作，人力成本較高，速度較慢，同時隨機抽檢的方式可能錯漏某些批次的數據，導致數據質檢的質量難以保證。而第二種方案，僅僅采用文本識別模型識別的結果作為數據質量的得分，沒有其他維度的輔助信息，數據篩選的可靠性不行。
[0005]有鑒于此，特提出本專利技術。

技術實現思路

[0006]本專利技術的目的是提供了一種基于圖文識別數據的標注數據質檢方法、設備及介質，能...

【技術保護點】

【技術特征摘要】
1.一種基于圖文識別置信度的標注數據質檢方法，其特征在于，包括：步驟1，利用已標注數據訓練得到一個正向解碼模型；所述已標注數據是指合格的標注文本圖像，包括文本區域圖像和對應的文字標注內容；步驟2，將具有待質檢標注數據的圖像輸入所述正向解碼模型，利用teacher
?
force的方式進行正向解碼，得出待質檢標注數據的正向解碼得分；步驟3，利用已標注數據訓練得到一個反向解碼模型；所述已標注數據是指合格的標注文本圖像，包括文本區域圖像和對應的文字標注內容；步驟4，將具有相同待質檢標注數據的圖像輸入所述反向解碼模型，利用teacher
?
forcing方式進行反向解碼，得出待質檢標注數據的反向解碼得分；步驟5，將所述正向解碼模型得出的待質檢標注數據的正向解碼得分和反向解碼模型得出的待質檢標注數據的反向解碼得分加權融合得到標注質量得分，該標注質量得分作為待質檢標注數據的置信度；步驟6，通過將待質檢標注數據的置信度與預設閾值比較對待質檢標注數據進行質檢，將置信度高于預設閾值的待質檢標注數據確定為合格標注數據，置信度低于預設閾值的待質檢標注數據確定為不合格標注數據。2.根據權利要求1所述的基于圖文識別置信度的標注數據質檢方法，其特征在于，所述正向解碼模型采用的是基于注意力機制attention的自回歸序列解碼的attention
?
ED框架。3.根據權利要求1或2所述的基于圖文識別置信度的標注數據質檢方法，其特征在于，所述步驟2中，所述正向解碼模型得出的待質檢標注數據的正向解碼得分用score
正
來表示為：其中，N表示正向解碼的字符總數；p
t
表示正向解碼模型解碼得到的第t個字符對應的識別概率。4.根據權利要求1所述的基于圖文識別置信度的標注數據質檢方法，其特征在于，所述反向解碼模型采用的是基于注意力機制attention的自回歸序列解碼的attentio...

【專利技術屬性】
技術研發人員：吳嘉嘉，趙坤，杜俊，
申請(專利權)人：中國科學技術大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術