• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于混合方法的文檔布局分析方法技術(shù)

    技術(shù)編號(hào):45274248 閱讀:3 留言:0更新日期:2025-05-13 19:13
    本發(fā)明專(zhuān)利技術(shù)公開(kāi)了一種基于混合方法的文檔布局分析方法,對(duì)每一塊文本節(jié)點(diǎn)進(jìn)行命名體識(shí)別和關(guān)系提取屬于數(shù)字圖像處理技術(shù)領(lǐng)域。本發(fā)明專(zhuān)利技術(shù)提出一個(gè)新穎的通道洗牌的動(dòng)態(tài)范圍卷積算法,確保全局的通道特征可以學(xué)習(xí)到相似像素而非臨近像素的特征,并使用適配器以較少的參數(shù)量學(xué)習(xí)文本特征。最終以預(yù)測(cè)的文本塊類(lèi)別和關(guān)系作為結(jié)果。最后本發(fā)明專(zhuān)利技術(shù)使用具有挑戰(zhàn)性的文檔數(shù)據(jù)集作為驗(yàn)證指標(biāo)(FUNSD),結(jié)果表明提出的方法可以取得明顯的性能提升。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)設(shè)計(jì)文檔處理,具體涉及一種利用混合方法來(lái)提取并結(jié)合文檔特征的文檔布局分析


    技術(shù)介紹

    1、文檔布局分析任務(wù)指的是通過(guò)理解文檔布局中的圖像、文本、表格和位置關(guān)系來(lái)構(gòu)建每個(gè)文檔頁(yè)面的結(jié)構(gòu)。優(yōu)秀的文檔布局分析有助于提升下游任務(wù)的質(zhì)量與一致性,提高用戶(hù)體驗(yàn)與接受度,并支持專(zhuān)業(yè)領(lǐng)域翻譯。文檔布局分析任務(wù)本質(zhì)上是一個(gè)目標(biāo)檢測(cè)問(wèn)題,現(xiàn)有的不同架構(gòu)的模型包括,基于transformer的編碼器,基于圖深度網(wǎng)絡(luò)(gnn)的模型以及使用卷積神經(jīng)網(wǎng)絡(luò)(cnns)的目標(biāo)檢測(cè)器。雖然這三種架構(gòu)的模型都成功地應(yīng)用到了文檔布局分析任務(wù)中,但它們各自都有其局限性。

    2、基于cnn的目標(biāo)檢測(cè)是通過(guò)返回邊界框和類(lèi)別來(lái)檢測(cè)文檔中各對(duì)象的布局位置。然而對(duì)于所有目標(biāo)檢測(cè)或分割模型而言,由于實(shí)例之間的邊界模糊,導(dǎo)致預(yù)測(cè)的邊界框可能會(huì)互相重疊。由于訓(xùn)練損失對(duì)于輕微偏移的預(yù)測(cè)框不太敏感,這限制了模型在優(yōu)化過(guò)程中對(duì)于減小邊界框重疊的貢獻(xiàn)。因此,很難使iou(交并比,表示預(yù)測(cè)的邊框和真實(shí)的邊框之間交集和并集的比值)達(dá)到很高的水平。特別是對(duì)于位于預(yù)測(cè)區(qū)域邊緣或被多個(gè)預(yù)測(cè)區(qū)域共享的文本框,為其準(zhǔn)確分配標(biāo)簽變得困難。這導(dǎo)致了在iou≥0.9時(shí)表現(xiàn)不夠令人滿(mǎn)意。此外該方法無(wú)法高精度地檢測(cè)僅跨越一個(gè)或兩個(gè)文本行的小規(guī)模文本區(qū)域(例如標(biāo)題、腳步和章節(jié)標(biāo)題)。其次,當(dāng)兩種不同類(lèi)型的文本區(qū)域具有相似的視覺(jué)紋理時(shí),例如段落和列表項(xiàng)、段落和章節(jié)標(biāo)題以及章節(jié)標(biāo)題和標(biāo)題,這些方法無(wú)法穩(wěn)健地區(qū)分它們。

    3、基于transformer的模型由于輸入序列長(zhǎng)度的限制,transformer編碼器系列方法無(wú)法處理非常長(zhǎng)的文檔,自注意力和全連接圖引入的高計(jì)算成本也限制其在工業(yè)中的可用性。

    4、基于gnn的模型在建模文檔的空間布局模式方面具有特殊優(yōu)勢(shì)。文檔的每個(gè)文本框都可以看作是圖中的空間分隔節(jié)點(diǎn);屬于同一布局區(qū)域的文本框可以被視為由邊連接的,因此不存在難以分配給某個(gè)組的模糊文本框。但目前基于gnn的文檔布局分析工作的重點(diǎn)都在于圖采樣、邊定義,對(duì)于節(jié)點(diǎn)本身特征的定義工作較少。因此,如何解決利用文檔本身的圖像、文本、布局等特征提升節(jié)點(diǎn)之間的區(qū)分度、提升節(jié)點(diǎn)之間的聯(lián)系,這對(duì)提升文檔布局分析的準(zhǔn)確度是亟待解決的關(guān)鍵問(wèn)題。


    技術(shù)實(shí)現(xiàn)思路

    1、本專(zhuān)利技術(shù)旨在提供一種基于混合方法的文檔布局分析方法。為定義節(jié)點(diǎn)特征,本專(zhuān)利技術(shù)采用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的視覺(jué)特征,利用transformer提取文本特征,并通過(guò)圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)節(jié)點(diǎn)之間的聯(lián)系。為增強(qiáng)文本像素之間的關(guān)聯(lián)性,本專(zhuān)利技術(shù)提出了一種基于通道洗牌的動(dòng)態(tài)范圍直方圖注意力機(jī)制。同時(shí),為了更高效地利用預(yù)訓(xùn)練的transformer模型提取文本特征,本專(zhuān)利技術(shù)設(shè)計(jì)了一種基于多層適配器的transformer模型。在特征融合階段,本專(zhuān)利技術(shù)通過(guò)交叉注意力機(jī)制將提取到的視覺(jué)特征和文本特征進(jìn)行深度融合,并利用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)上下文節(jié)點(diǎn)之間的信息交互,從而獲得每個(gè)文本塊的最終特征。隨后,對(duì)每個(gè)文本塊進(jìn)行分類(lèi),并判斷每對(duì)文本塊之間是否存在聯(lián)系,最終生成預(yù)測(cè)結(jié)果。對(duì)于具有聯(lián)系的文本塊,將其視為同一布局區(qū)域,從而實(shí)現(xiàn)文檔布局的精準(zhǔn)分析。

    2、本專(zhuān)利技術(shù)采用的技術(shù)方案為1、一種基于混合方法的文檔布局分析方法,其特征在于,對(duì)每一個(gè)文本塊的分類(lèi)以及對(duì)文本塊對(duì)之間聯(lián)系判斷,包括以下步驟:

    3、步驟1:初始化;

    4、初始化,設(shè)置批處理大小batch_size、每個(gè)訓(xùn)練輪次的樣本數(shù)量num_samples_per_epoch、輸入序列最大長(zhǎng)度max_seq_length、每個(gè)輸入樣本的最大塊數(shù)max_block_num、最大訓(xùn)練輪次max_epochs、梯度裁剪算法clip_gradient_algorithm及裁剪閾值clip_gradient_value、優(yōu)化器類(lèi)型method、學(xué)習(xí)率(lr)、權(quán)重衰減系數(shù)weight_decay、adamw優(yōu)化器的epsilon參數(shù)eps、學(xué)習(xí)率預(yù)熱步數(shù)warmup_steps、驗(yàn)證間隔val_interval;

    5、步驟2:混合方法文檔布局分析算法構(gòu)建;

    6、該算法基于卷積神經(jīng)網(wǎng)絡(luò)和transformer模型提取特征,利用圖神經(jīng)網(wǎng)絡(luò)傳遞文本塊之間的信息,最終對(duì)每個(gè)文本塊進(jìn)行分類(lèi),并判斷文本塊之間是否存在聯(lián)系。首先,讀取數(shù)據(jù)集中的批量數(shù)據(jù)batch。針對(duì)該批量數(shù)據(jù),依次執(zhí)行以下操作:使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的視覺(jué)特征。使用預(yù)訓(xùn)練的transformer模型提取文本特征,并通過(guò)多層適配器進(jìn)一步優(yōu)化特征提取效果。將提取到的視覺(jué)特征和文本特征通過(guò)交叉注意力機(jī)制進(jìn)行融合,生成跨模態(tài)的聯(lián)合特征表示。利用圖神經(jīng)網(wǎng)絡(luò)對(duì)文本塊之間的上下文信息進(jìn)行建模,傳遞節(jié)點(diǎn)間的信息,進(jìn)一步增強(qiáng)特征表示。最后,對(duì)每個(gè)文本塊的最終特征進(jìn)行分類(lèi),預(yù)測(cè)其類(lèi)別,同時(shí)判斷每對(duì)文本塊之間是否存在聯(lián)系。

    7、步驟3:視覺(jué)特征提取;

    8、步驟3.1:獲取視覺(jué)特征的邊界框;

    9、first_token_idxes:每個(gè)文本塊的第一個(gè)token索引;b_batch_dim:構(gòu)造批次索引,用于從bbox中提取對(duì)應(yīng)的邊界框;feature_bbox:提取每個(gè)文本塊的邊界框,形狀為[batch_size,num_first,4];block_num:文本塊的數(shù)量。準(zhǔn)確獲取每個(gè)文本塊的邊界框信息。步驟3.2:提取文檔圖像視覺(jué)特征

    10、使用convnext卷積網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)圖像的多尺度特征提取。它將圖像依次傳入多個(gè)階段stage,每個(gè)階段包括一次下采樣和若干個(gè)殘差塊block,從而逐步降低特征圖的分辨率、提升通道數(shù),最終輸出多級(jí)特征圖。

    11、輸入圖像的通道數(shù),默認(rèn)為3。每個(gè)階段包含的block殘差塊數(shù)量depths,默認(rèn)為[3,3,9,3],代表4個(gè)階段。每個(gè)階段的通道數(shù),默認(rèn)為[96,192,384,768]。

    12、在4個(gè)階段分別使用下采樣層和卷積快來(lái)處理圖像特征,具體如下:定義4個(gè)下采樣層,第一個(gè)下采樣層使用個(gè)了一個(gè)步長(zhǎng)為4的conv2d進(jìn)行大步長(zhǎng)卷積,快速將輸入尺寸縮小4倍;然后跟一個(gè)layernorm用于歸一化。后面3個(gè)下采樣層,每個(gè)都包括一個(gè)layernorm和一個(gè)步長(zhǎng)為2卷積核為2的conv2d,在進(jìn)行下一階段前,通道數(shù)也會(huì)隨之增加。定義4個(gè)卷積塊序列,對(duì)于每個(gè)階段i,都會(huì)構(gòu)造若干個(gè)block,數(shù)量由depths[i]決定。每個(gè)block塊使用步長(zhǎng)為3卷積核為7的深度可分離卷積dwconv在空間維度上提取特征,使用layernorm特征圖進(jìn)行歸一化,提升訓(xùn)練穩(wěn)定性,使用1×1卷積、gelu非線(xiàn)性層和1×1卷積,其中1x1卷積用于通道維度上的特征變換,引入非線(xiàn)性層提升模型表達(dá)能力。最后使用殘差連接和隨機(jī)深度,用于防止過(guò)擬合并提高訓(xùn)練穩(wěn)定性。

    13、在第i個(gè)階段使用第i個(gè)下采樣層和第i個(gè)卷積塊序列。先用下采樣層對(duì)當(dāng)前特征圖進(jìn)行通道變換或分辨率縮放。接著進(jìn)入該階段的多個(gè)block進(jìn)行深層卷積特征提取。輸入形狀通常是[batch_size,in_cha本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于混合方法的文檔布局分析方法,其特征在于,對(duì)每一個(gè)文本塊的分類(lèi)以及對(duì)文本塊對(duì)之間聯(lián)系判斷,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種基于混合方法的文檔布局分析方法,其特征在于,步驟2中,首先,讀取數(shù)據(jù)集中的批量數(shù)據(jù)batch;針對(duì)該批量數(shù)據(jù),依次執(zhí)行以下操作:使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的視覺(jué)特征;使用預(yù)訓(xùn)練的Transformer模型提取文本特征,并通過(guò)多層適配器進(jìn)一步優(yōu)化特征提取效果;將提取到的視覺(jué)特征和文本特征通過(guò)交叉注意力機(jī)制進(jìn)行融合,生成跨模態(tài)的聯(lián)合特征表示;利用圖神經(jīng)網(wǎng)絡(luò)對(duì)文本塊之間的上下文信息進(jìn)行建模,傳遞節(jié)點(diǎn)間的信息,進(jìn)一步增強(qiáng)特征表示;最后,對(duì)每個(gè)文本塊的最終特征進(jìn)行分類(lèi),預(yù)測(cè)其類(lèi)別,同時(shí)判斷每對(duì)文本塊之間是否存在聯(lián)系。

    3.根據(jù)權(quán)利要求1所述的一種基于混合方法的文檔布局分析方法,其特征在于,步驟3.2中,在4個(gè)階段分別使用下采樣層和卷積快來(lái)處理圖像特征,具體如下:定義4個(gè)下采樣層,第一個(gè)下采樣層使用個(gè)了一個(gè)步長(zhǎng)為4的Conv2d進(jìn)行大步長(zhǎng)卷積,快速將輸入尺寸縮小4倍;然后跟一個(gè)LayerNorm用于歸一化;后面3個(gè)下采樣層,每個(gè)都包括一個(gè)LayerNorm和一個(gè)步長(zhǎng)為2卷積核為2的Conv2d,在進(jìn)行下一階段前,通道數(shù)也會(huì)隨之增加;定義4個(gè)卷積塊序列,對(duì)于每個(gè)階段i,都會(huì)構(gòu)造若干個(gè)Block,數(shù)量由depths[i]決定;每個(gè)Block塊使用步長(zhǎng)為3卷積核為7的深度可分離卷積dwconv在空間維度上提取特征,使用LayerNorm特征圖進(jìn)行歸一化,提升訓(xùn)練穩(wěn)定性,使用1×1卷積、GELU非線(xiàn)性層和1×1卷積,其中1x1卷積用于通道維度上的特征變換,引入非線(xiàn)性層提升模型表達(dá)能力;最后使用殘差連接和隨機(jī)深度,用于防止過(guò)擬合并提高訓(xùn)練穩(wěn)定性;

    4.根據(jù)權(quán)利要求1所述的一種基于混合方法的文檔布局分析方法,其特征在于,步驟3.3的實(shí)施步驟如下:步驟3.3.1:通道注意力塊;

    5.根據(jù)權(quán)利要求1所述的一種基于混合方法的文檔布局分析方法,其特征在于,提取文檔語(yǔ)言文本特征:使用PDF解析器或OCR引擎逐行或逐塊掃描文檔,檢測(cè)文本片段;同時(shí)記錄每個(gè)文本片段在頁(yè)面中的位置信息;最終得到形如(文本,坐標(biāo))的數(shù)據(jù)列表,將文本和坐標(biāo)信息轉(zhuǎn)如下特征:文本嵌入TokenEmbedding,將每個(gè)文本段或分詞后的token映射成向量;一維位置嵌入1DPositionalEmbedding,使用標(biāo)準(zhǔn)的位置編碼表征每個(gè)token在序列中的位置;分段順序嵌入1DSegmentOrderEmbedding,給每個(gè)token附加一個(gè)SegmentID以區(qū)分句子;分段BIE標(biāo)簽嵌入1DBIEEmbedding;B、I、E分別表示段落開(kāi)始Beginning、段落中間Inside和段落結(jié)束End;二維段框嵌入2DBoundingBoxEmbedding將坐標(biāo)信息(x1,y1,x2,y2)歸一化到某個(gè)范圍,再映射到一定維度的坐標(biāo)向量;

    ...

    【技術(shù)特征摘要】

    1.一種基于混合方法的文檔布局分析方法,其特征在于,對(duì)每一個(gè)文本塊的分類(lèi)以及對(duì)文本塊對(duì)之間聯(lián)系判斷,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種基于混合方法的文檔布局分析方法,其特征在于,步驟2中,首先,讀取數(shù)據(jù)集中的批量數(shù)據(jù)batch;針對(duì)該批量數(shù)據(jù),依次執(zhí)行以下操作:使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的視覺(jué)特征;使用預(yù)訓(xùn)練的transformer模型提取文本特征,并通過(guò)多層適配器進(jìn)一步優(yōu)化特征提取效果;將提取到的視覺(jué)特征和文本特征通過(guò)交叉注意力機(jī)制進(jìn)行融合,生成跨模態(tài)的聯(lián)合特征表示;利用圖神經(jīng)網(wǎng)絡(luò)對(duì)文本塊之間的上下文信息進(jìn)行建模,傳遞節(jié)點(diǎn)間的信息,進(jìn)一步增強(qiáng)特征表示;最后,對(duì)每個(gè)文本塊的最終特征進(jìn)行分類(lèi),預(yù)測(cè)其類(lèi)別,同時(shí)判斷每對(duì)文本塊之間是否存在聯(lián)系。

    3.根據(jù)權(quán)利要求1所述的一種基于混合方法的文檔布局分析方法,其特征在于,步驟3.2中,在4個(gè)階段分別使用下采樣層和卷積快來(lái)處理圖像特征,具體如下:定義4個(gè)下采樣層,第一個(gè)下采樣層使用個(gè)了一個(gè)步長(zhǎng)為4的conv2d進(jìn)行大步長(zhǎng)卷積,快速將輸入尺寸縮小4倍;然后跟一個(gè)layernorm用于歸一化;后面3個(gè)下采樣層,每個(gè)都包括一個(gè)layernorm和一個(gè)步長(zhǎng)為2卷積核為2的conv2d,在進(jìn)行下一階段前,通道數(shù)也會(huì)隨之增加;定義4個(gè)卷積塊序列,對(duì)于每個(gè)階段i,都會(huì)構(gòu)造若干個(gè)block,數(shù)量由depths[i]決定;每個(gè)block塊使用步長(zhǎng)為3卷積核為7的深度可分離卷積dwc...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:孫慶成蘇航
    申請(qǐng)(專(zhuān)利權(quán))人:北京工業(yè)大學(xué)
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国产色爽免费无码视频| 亚洲AV无码专区亚洲AV伊甸园| 午夜福利无码不卡在线观看 | 伊人久久一区二区三区无码| 无码人妻少妇伦在线电影| 无码GOGO大胆啪啪艺术| 亚洲AV无码乱码在线观看牲色| 亚洲成AV人在线观看天堂无码| 无码av天天av天天爽| 少妇人妻无码精品视频| 久久精品无码av| 亚洲AV无码一区二区三区鸳鸯影院| 亚洲日产无码中文字幕| 亚洲av无码一区二区三区在线播放| 国产色无码精品视频免费| 日韩av片无码一区二区三区不卡 | 久久精品无码一区二区三区日韩| 少妇精品无码一区二区三区 | 中文字幕无码免费久久9一区9| 亚洲heyzo专区无码综合| 无套中出丰满人妻无码| 中文精品无码中文字幕无码专区| 精品久久久久久无码中文字幕漫画| 免费看又黄又无码的网站| 无码精品日韩中文字幕| 亚洲国产精品无码专区| 亚洲精品无码成人片久久| 亚洲AV无码成H人在线观看| 成人免费a级毛片无码网站入口| 中文无码一区二区不卡αv| 亚洲大尺度无码专区尤物| 亚洲人成无码网站| 亚洲gv猛男gv无码男同短文| 国产亚洲精久久久久久无码| 国产成人综合日韩精品无码不卡| a级毛片无码免费真人久久| 久久久久久无码国产精品中文字幕| 国产精品成人一区无码| 人妻无码中文字幕| 国产成人无码一区二区三区在线| 十八禁视频在线观看免费无码无遮挡骂过|