【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及計(jì)算機(jī)科學(xué),模式識(shí)別,表格識(shí)別與離散數(shù)學(xué)領(lǐng)域,尤其涉及一種從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法。
技術(shù)介紹
1、表格是生活與工作中常見的信息承載工具,用于組織、記錄、展示、傳播多種類型的數(shù)據(jù),如文字、符號(hào)、公式與圖像。表格的受眾廣泛,從應(yīng)試的學(xué)生,到金融、學(xué)術(shù)、醫(yī)療、教育等行業(yè)的工作者,都可能用到表格。例如,學(xué)生將答案填入試卷上的表格,老師再批改;會(huì)計(jì)從紙質(zhì)材料錄入表格至電腦,并對(duì)表格數(shù)據(jù)匯總、整理與統(tǒng)計(jì);學(xué)者閱讀文獻(xiàn)中的表格,理解文獻(xiàn)的實(shí)驗(yàn)方法與結(jié)論。這些過程涉及大量人工操作,繁瑣且易錯(cuò),因此我們迫切的希望利用模式識(shí)別與人工智能技術(shù),實(shí)現(xiàn)智能表格理解,可以自動(dòng)閱卷輔助批改、識(shí)別圖像中的表格并自動(dòng)錄入電腦、解析數(shù)據(jù)關(guān)聯(lián)關(guān)系并自動(dòng)整理與統(tǒng)計(jì)數(shù)據(jù)、生成總結(jié)性文字輔助理解。
2、實(shí)現(xiàn)智能表格理解須解決兩類問題,第一類,利用計(jì)算機(jī)視覺方法從圖像中抽取表格的原始數(shù)字化形式,目標(biāo)為抽取結(jié)果的打印與圖像一致。第二類,利用自然語言處理與理解方法,釋義數(shù)字化表格獲得易于人理解或高度組織化的信息,如自然語言描述、實(shí)體與實(shí)體關(guān)系。兩類技術(shù)的關(guān)鍵都是表格的數(shù)字化形式,但是目前該領(lǐng)域?qū)τ诤螢樽顑?yōu)的數(shù)字化形式還未形成一致的結(jié)論,究其原因是表格本體沒有統(tǒng)一的定義。這從表格結(jié)構(gòu)識(shí)別任務(wù)混亂的現(xiàn)狀中可以看出。表格結(jié)構(gòu)識(shí)別任務(wù)屬于第一類問題,旨在識(shí)別表格的二維組織形式。但是現(xiàn)有研究對(duì)表格結(jié)構(gòu)的理解、建模的方式都大相徑庭,有些工作用圖表示表格結(jié)構(gòu),圖的邊表示行列關(guān)系,利用圖神經(jīng)網(wǎng)絡(luò)預(yù)測頂點(diǎn)的連接關(guān)系;有些工作用一維符號(hào)序列,如標(biāo)記語言,表
3、綜上所述,需要提供一種合理的表示法,對(duì)于在表格中的單元格有行或單元格缺失的情況(如元素周期表,圖1)、單元格交叉的情況(圖2)、跨列或跨行合并的情況(圖3)和表格框線出現(xiàn)斷裂的情況(圖4),均能夠合理表示;并且專利技術(shù)一種方法能夠由該表示法轉(zhuǎn)換回表格結(jié)構(gòu)的原始數(shù)字化形式,如表格各單元格的起始行號(hào)、結(jié)束行號(hào)、起始列號(hào)與結(jié)束列號(hào)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,針對(duì)上述技術(shù)問題,本專利技術(shù)提供了一種從表格結(jié)構(gòu)的最優(yōu)的圖表示,來計(jì)算單元格起始行號(hào)、結(jié)束行號(hào)、起始列號(hào)與結(jié)束列號(hào)的方法。
2、一種從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,包括如下步驟:
3、步驟1,在圖的最左側(cè)與最右側(cè)接入兩個(gè)邊界頂點(diǎn),并用行邊連接它們;
4、步驟2,尋找圖中與單元格空缺相對(duì)應(yīng)的行相鄰點(diǎn)對(duì),并插入占位頂點(diǎn),并用列與行邊連接占位頂點(diǎn),其中行相鄰點(diǎn)對(duì)為行邊最大距離為1的頂點(diǎn)對(duì);
5、步驟3,計(jì)算每個(gè)頂點(diǎn)對(duì)應(yīng)的單元格的列割線數(shù)量;
6、步驟4,計(jì)算每個(gè)頂點(diǎn)對(duì)應(yīng)的單元格的起始列號(hào)與結(jié)束列號(hào);
7、步驟5,將邊的行與列標(biāo)簽交換,重復(fù)上述步驟,得到每個(gè)頂點(diǎn)對(duì)應(yīng)的單元格的起始行號(hào)與結(jié)束行號(hào)。
8、具體地,所述在圖的最左側(cè)與最右側(cè)接入兩個(gè)邊界頂點(diǎn),并用行邊連接它們,包括如下步驟:
9、圖中所有入度為零的圖頂點(diǎn)插入第一個(gè)邊界頂點(diǎn)并連接行邊,方向由邊界頂點(diǎn)指出,對(duì)所有出度為零的圖頂點(diǎn)插入第二個(gè)邊界頂點(diǎn)并連接行邊,方向是指向邊界頂點(diǎn)。
10、具體地,所述尋找圖中與單元格空缺相對(duì)應(yīng)的行相鄰點(diǎn)對(duì),并插入占位頂點(diǎn),并用列邊連接占位頂點(diǎn),包括以下步驟:
11、對(duì)圖的各頂點(diǎn)依據(jù)行列優(yōu)先關(guān)系,按照從上到下及從左到右的順序,進(jìn)行排序,得到排序后的頂點(diǎn)序列;
12、遍歷行相鄰頂點(diǎn)對(duì),對(duì)每個(gè)頂點(diǎn)對(duì)進(jìn)行:
13、①求出列雙軌道,基于軌道法判斷當(dāng)前行相鄰點(diǎn)對(duì)是否對(duì)應(yīng)單元格空缺;
14、②若有空缺則加入占位頂點(diǎn),并基于占位頂點(diǎn)連接規(guī)則,對(duì)當(dāng)前占位頂點(diǎn)與其他頂點(diǎn)連接列邊與行邊,其中列邊的方向由占位頂點(diǎn)指出。
15、具體地,所述對(duì)圖的各頂點(diǎn)依據(jù)行列優(yōu)先關(guān)系,按照從上到下及從左到右的順序,進(jìn)行排序,包括以下步驟:
16、每次選中一個(gè)入度為零的頂點(diǎn),從圖中移出并放入序列的末尾;
17、若有多個(gè)入度為零的頂點(diǎn),則考慮一階與二階行列優(yōu)先級(jí)確定優(yōu)先移出圖并放入序列末尾的頂點(diǎn);
18、若考慮優(yōu)先級(jí)后仍然存在無法比較順序的頂點(diǎn),則任意選則一個(gè)頂點(diǎn)放入序列末尾或存儲(chǔ)所有可能的排序結(jié)果;
19、其中一階行列優(yōu)先級(jí)是指,若兩個(gè)頂點(diǎn)有共同的父(子)頂點(diǎn),則列邊連接父(子)頂點(diǎn)的頂點(diǎn)優(yōu)先級(jí)高(低)于行邊連接的頂點(diǎn);
20、其中二階行列優(yōu)先級(jí)是指,若兩頂點(diǎn)在不考慮邊方向時(shí)是一個(gè)無向環(huán)的兩個(gè)端點(diǎn),且環(huán)上這兩頂點(diǎn)間的兩條支路都有且僅有兩個(gè)中間節(jié)點(diǎn),且一條支路滿足邊的標(biāo)簽順序?yàn)椤靶?列-行”,另一條滿足標(biāo)簽順序?yàn)椤傲?行-列”,且在考慮方向時(shí)一條支路的中間邊的方向與另一條支路的中間邊的方向相反,則標(biāo)簽為“列”的中間邊所指向的頂點(diǎn)的優(yōu)先級(jí)高于另一頂點(diǎn)。
21、具體地,所述求出列雙軌道,基于軌道法判斷當(dāng)前行相鄰點(diǎn)對(duì)之間是否對(duì)應(yīng)單元格空缺,包括如下步驟:
22、求出當(dāng)前行相鄰點(diǎn)對(duì)的起始頂點(diǎn)的列右軌道與結(jié)束頂點(diǎn)的列左軌道,得到該行相鄰點(diǎn)對(duì)的列雙軌道;
23、標(biāo)記排序后頂點(diǎn)序列上的左(右)軌道上的第一個(gè)(最后一個(gè))點(diǎn)以前(后)的點(diǎn)為外點(diǎn);
24、標(biāo)記在左(右)軌道點(diǎn)左(右)側(cè)且有行邊連接的點(diǎn)為外點(diǎn);
25、標(biāo)記頂點(diǎn)序列中相鄰左(右)軌道點(diǎn)之間的且與相鄰頂點(diǎn)有行邊連接,且方向?yàn)楸畴x(指向)該點(diǎn)的點(diǎn)為外點(diǎn);
26、標(biāo)記頂點(diǎn)序列中介于相鄰左(右)軌道點(diǎn)之間的且與相鄰軌道點(diǎn)有行邊連接,且方向?yàn)楸畴x(指向)該點(diǎn)的點(diǎn)為外點(diǎn);
27、標(biāo)記頂點(diǎn)序列中介于相鄰左(右)軌道點(diǎn)之間且與上一步中的外點(diǎn)有列邊連接的點(diǎn)為外點(diǎn);
28、從原圖中去除所有外點(diǎn),得到軌道子圖,并尋找軌道子圖中所有的路徑,得到軌道間所有點(diǎn)群;
29、對(duì)每個(gè)點(diǎn)群進(jìn)行如下判斷:
30、①點(diǎn)群的最左點(diǎn)與最右點(diǎn)之間的最長距離小于等于1,
31、②軌道子圖對(duì)點(diǎn)群中每個(gè)頂點(diǎn)貢獻(xiàn)的入度之和與出度之和的最大值λ=max[σi∈k<d(i)in>,σi∈k<d(i)out>]≤λ0,其中k為當(dāng)前點(diǎn)群的頂點(diǎn)總數(shù),i為求和遍歷指標(biāo),表示第i個(gè)頂點(diǎn),d(i)in表示第i個(gè)頂點(diǎn)來自軌道子圖貢獻(xiàn)的入度,d(i)out表示第i個(gè)頂點(diǎn)的出度,λ0表示當(dāng)前行相鄰點(diǎn)對(duì)這一點(diǎn)群的λ,<x>=max(x,1)
32、若有本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述A包括:
3.如權(quán)利要求1所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述B包括:
4.如權(quán)利要求3所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述B2包括:
5.如權(quán)利要求4所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,當(dāng)前行相鄰點(diǎn)對(duì)的起始頂點(diǎn)的列右軌道與結(jié)束頂點(diǎn)的列左軌道的獲取包括:
6.如權(quán)利要求4所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述基于軌道法判斷當(dāng)前行相鄰點(diǎn)對(duì)是否對(duì)應(yīng)單元格空缺包括:
7.如權(quán)利要求1所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述C具體包括:
8.如權(quán)利要求7所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述C2中,兩個(gè)頂點(diǎn)對(duì)是否貢獻(xiàn)重復(fù)的割線的判斷包括:
9.如權(quán)利要求8所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,
10.如權(quán)利要求1所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述D包括:
...【技術(shù)特征摘要】
1.一種從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述a包括:
3.如權(quán)利要求1所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述b包括:
4.如權(quán)利要求3所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述b2包括:
5.如權(quán)利要求4所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,當(dāng)前行相鄰點(diǎn)對(duì)的起始頂點(diǎn)的列右軌道與結(jié)束頂點(diǎn)的列左軌道的獲取包括:
6.如權(quán)利要求4所述的從表結(jié)構(gòu)的圖表示計(jì)算單元格行列號(hào)的方法,其特征在于,所述基于軌道法判斷當(dāng)前行相鄰點(diǎn)對(duì)是否對(duì)應(yīng)單元格空缺包括:
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊帆,葉鑒聰,石寧,
申請(qǐng)(專利權(quán))人:楊帆,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。