本發明專利技術公開一種基于圖文識別置信度的標注數據質檢方法、設備及介質,方法包括:步驟1,用已標注數據訓練得到正向解碼模型;步驟2,將具有待質檢標注數據的圖像輸入正向解碼模型得出待質檢標注數據的正向解碼得分;步驟3,用已標注數據訓練得到反向解碼模型;步驟4,將具有相同待質檢標注數據的圖像輸入反向解碼模型得出反向解碼得分;步驟5,將正向解碼得分和反向解碼得分加權融合得到標注質量得分作為待質檢標注數據的置信度;步驟6,通過置信度與預設閾值比較對待質檢標注數據質檢,將置信度高于預設閾值為合格標注數據,否則為不合格標注數據。該方法考慮多維度的信息,僅對置信度較低的標注數據進行人工復核,極大減少人工成本。本。本。
【技術實現步驟摘要】
基于圖文識別置信度的標注數據質檢方法、設備及介質
[0001]本專利技術涉及圖像文字識別領域,尤其涉及一種基于圖文識別數據的標注數據質檢方法、設備及介質。
技術介紹
[0002]隨著科學技術的發展,基于深度學習的自動化提取圖片上的文字信息取得了不錯的效果,極大的方便了人們的日常生活。但是基于深度學習的圖像文字識別技術需要大量含有標簽的數據來進行文本識別模型的訓練,隨著應用范圍的提升,不同場景不同語種的數據標注需求越來越廣泛,數據標注的量級也在不斷增長。數據標注的質量會很大影響到文本識別模型的能力,因此,在數據標注過程中,如何有效的檢查數據標注的正確性也成為數據標注過程中一個重要的方面。
[0003]現有的針對圖像文字數據標注的質檢方法主要基于兩種方案,第一種方案是利用人工進行抽檢,從整體數據中隨機選擇一部分數據來校驗數據標注的準確性;第二種方案是利用已有的文本識別模型進行文字識別,將文本識別模型解碼的后驗概率作為數據得分,通過閾值來判斷數據標注質量是否合格。
[0004]對于第一種方案,采用人工抽檢的方式需要大量專業的人員進行操作,人力成本較高,速度較慢,同時隨機抽檢的方式可能錯漏某些批次的數據,導致數據質檢的質量難以保證。而第二種方案,僅僅采用文本識別模型識別的結果作為數據質量的得分,沒有其他維度的輔助信息,數據篩選的可靠性不行。
[0005]有鑒于此,特提出本專利技術。
技術實現思路
[0006]本專利技術的目的是提供了一種基于圖文識別數據的標注數據質檢方法、設備及介質,能利用多維度信息獲取的置信度對標注數據進行質檢,在減少人工標注質檢成本投入的同時,實現了數據標注質檢的覆蓋范圍,進而解決現有技術中存在的上述技術問題。
[0007]本專利技術的目的是通過以下技術方案實現的:
[0008]一種基于圖文識別置信度的標注數據質檢方法,包括:
[0009]步驟1,利用已標注數據訓練得到一個正向解碼模型;所述已標注數據是指合格的標注文本圖像,包括文本區域圖像和對應的文字標注內容;
[0010]步驟2,將具有待質檢標注數據的圖像輸入所述正向解碼模型,利用teacher
?
force的方式進行正向解碼,得出待質檢標注數據的正向解碼得分;
[0011]步驟3,利用已標注數據訓練得到一個反向解碼模型;所述已標注數據是指合格的標注文本圖像,包括文本區域圖像和對應的文字標注內容;
[0012]步驟4,將具有相同待質檢標注數據的圖像輸入所述反向解碼模型,利用teacher
?
forcing方式進行反向解碼,得出待質檢標注數據的反向解碼得分;
[0013]步驟5,將所述正向解碼模型得出的待質檢標注數據的正向解碼得分和反向解碼
模型得出的待質檢標注數據的反向解碼得分加權融合得到標注質量得分,該標注質量得分作為該條待質檢標注數據的置信度;
[0014]步驟6,通過將待質檢標注數據的置信度與預設閾值比較對待質檢標注數據進行質檢,將置信度高于預設閾值的待質檢標注數據確定為合格標注數據,置信度低于預設閾值的待質檢標注數據確定為不合格標注數據。
[0015]一種處理設備,包括:
[0016]至少一個存儲器,用于存儲一個或多個程序;
[0017]至少一個處理器,能執行所述存儲器所存儲的一個或多個程序,在一個或多個程序被處理器執行時,使得所述處理器能實現本專利技術所述的方法。
[0018]一種可讀存儲介質,存儲有計算機程序,當計算機程序被處理器執行時能實現本專利技術所述的方法。
[0019]與現有技術相比,本專利技術所提供的基于圖文識別數據的標注數據質檢方法、設備及介質,其有益效果包括:
[0020]在利用正向解碼模型對待質檢的標注數據打分基礎上,還利用反向解碼模型對待質檢的標注數據進行打分,通過對正、反向解碼模型兩次得分的融合,得到該條待質檢標注數據的置信度,最終利用得出的置信度與預設閾值比較對標注數據進行質檢。這種方式不僅考慮了多個維度的信息,僅對置信度較低的標注數據進行人工復核,會極大的減少人工成本。
附圖說明
[0021]為了更清楚地說明本專利技術實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域的普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他附圖。
[0022]圖1為本專利技術實施例提供的基于圖文識別數據的標注數據質檢方法的流程示意圖。
具體實施方式
[0023]下面結合本專利技術的具體內容,對本專利技術實施例中的技術方案進行清楚、完整地描述;顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例,這并不構成對本專利技術的限制。基于本專利技術的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術的保護范圍。
[0024]首先對本文中可能使用的術語進行如下說明:
[0025]術語“和/或”是表示兩者任一或兩者同時均可實現,例如,X和/或Y表示既包括“X”或“Y”的情況也包括“X和Y”的三種情況。
[0026]術語“包括”、“包含”、“含有”、“具有”或其它類似語義的描述,應被解釋為非排它性的包括。例如:包括某技術特征要素(如原料、組分、成分、載體、劑型、材料、尺寸、零件、部件、機構、裝置、步驟、工序、方法、反應條件、加工條件、參數、算法、信號、數據、產品或制品等),應被解釋為不僅包括明確列出的某技術特征要素,還可以包括未明確列出的本領域公
知的其它技術特征要素。
[0027]術語“由
……
組成”表示排除任何未明確列出的技術特征要素。若將該術語用于權利要求中,則該術語將使權利要求成為封閉式,使其不包含除明確列出的技術特征要素以外的技術特征要素,但與其相關的常規雜質除外。如果該術語只是出現在權利要求的某子句中,那么其僅限定在該子句中明確列出的要素,其他子句中所記載的要素并不被排除在整體權利要求之外。
[0028]除另有明確的規定或限定外,術語“安裝”、“相連”、“連接”、“固定”等術語應做廣義理解,例如:可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通。對于本領域的普通技術人員而言,可以根據具體情況理解上述術語在本文中的具體含義。
[0029]當濃度、溫度、壓力、尺寸或者其它參數以數值范圍形式表示時,該數值范圍應被理解為具體公開了該數值范圍內任何上限值、下限值、優選值的配對所形成的所有范圍,而不論該范圍是否被明確記載;例如,如果記載了數值范圍“2~8”時,那么該數值范圍應被解釋為包括“2~7”、“2~6”、“5~7”、“3~4和6~7”、“3~5和7”、“2和5~7”等范圍。除另有說明外,本文中記載的數值范圍既包括其端值也包括在該數值范圍內的所有整數和分數。
[0030本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于圖文識別置信度的標注數據質檢方法,其特征在于,包括:步驟1,利用已標注數據訓練得到一個正向解碼模型;所述已標注數據是指合格的標注文本圖像,包括文本區域圖像和對應的文字標注內容;步驟2,將具有待質檢標注數據的圖像輸入所述正向解碼模型,利用teacher
?
force的方式進行正向解碼,得出待質檢標注數據的正向解碼得分;步驟3,利用已標注數據訓練得到一個反向解碼模型;所述已標注數據是指合格的標注文本圖像,包括文本區域圖像和對應的文字標注內容;步驟4,將具有相同待質檢標注數據的圖像輸入所述反向解碼模型,利用teacher
?
forcing方式進行反向解碼,得出待質檢標注數據的反向解碼得分;步驟5,將所述正向解碼模型得出的待質檢標注數據的正向解碼得分和反向解碼模型得出的待質檢標注數據的反向解碼得分加權融合得到標注質量得分,該標注質量得分作為待質檢標注數據的置信度;步驟6,通過將待質檢標注數據的置信度與預設閾值比較對待質檢標注數據進行質檢,將置信度高于預設閾值的待質檢標注數據確定為合格標注數據,置信度低于預設閾值的待質檢標注數據確定為不合格標注數據。2.根據權利要求1所述的基于圖文識別置信度的標注數據質檢方法,其特征在于,所述正向解碼模型采用的是基于注意力機制attention的自回歸序列解碼的attention
?
ED框架。3.根據權利要求1或2所述的基于圖文識別置信度的標注數據質檢方法,其特征在于,所述步驟2中,所述正向解碼模型得出的待質檢標注數據的正向解碼得分用score
正
來表示為:其中,N表示正向解碼的字符總數;p
t
表示正向解碼模型解碼得到的第t個字符對應的識別概率。4.根據權利要求1所述的基于圖文識別置信度的標注數據質檢方法,其特征在于,所述反向解碼模型采用的是基于注意力機制attention的自回歸序列解碼的attentio...
【專利技術屬性】
技術研發人員:吳嘉嘉,趙坤,杜俊,
申請(專利權)人:中國科學技術大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。