在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > TSRFormer:復(fù)雜場景的表格結(jié)構(gòu)識別新利器

            TSRFormer:復(fù)雜場景的表格結(jié)構(gòu)識別新利器

            發(fā)布人:MSRAsia 時(shí)間:2022-11-21 來源:工程師 發(fā)布文章
            編者按:近年來,各大企業(yè)和組織機(jī)構(gòu)都在經(jīng)歷數(shù)字化轉(zhuǎn)型。將文檔轉(zhuǎn)換成計(jì)算機(jī)所能識別的樣態(tài),是數(shù)字化轉(zhuǎn)型的關(guān)鍵步驟,如何識別出圖片中表格具體的結(jié)構(gòu)與內(nèi)容,并直接提取其中的數(shù)據(jù)和信息是學(xué)術(shù)界和工業(yè)界共同矚目的焦點(diǎn)。然而,目前的表格識別算法多用于識別橫平豎直的表格,對于全無邊界和實(shí)線的表格、行列之間存在大片空白區(qū)域的表格等日常生活中常見的表格還沒有較好的解決方案,對于拍攝角度傾斜而表格邊框彎曲等情況更是束手無策。今天我們將為大家介紹微軟亞洲研究院在表格結(jié)構(gòu)識別方向的最新進(jìn)展,研究員們提出了一種新的表格結(jié)構(gòu)識別算法 TSRFormer,能夠較好地識別復(fù)雜場景中不同類型的表格。


            如今,各行各業(yè)正在向數(shù)字化轉(zhuǎn)型,海量的文檔型數(shù)據(jù)也源源不斷地生成。用人工處理這些蘊(yùn)含著豐富信息的文檔,存在如耗時(shí)長、成本高、易出錯(cuò)等缺陷,在實(shí)際應(yīng)用中難以高效執(zhí)行。因此,社會對于自動(dòng)化文檔處理技術(shù)的需求日益增加,智能文檔處理(IDP)成為了近幾年的熱點(diǎn)。與此同時(shí),市場上也涌現(xiàn)出了許多相關(guān)產(chǎn)品,例如微軟就提供了全方位的 IDP 服務(wù)及解決方案(https://adoption.microsoft.com/intelligent-document-processing/)。如圖1所示,智能文檔處理通過光學(xué)字符識別(OCR)、文檔圖像分析、計(jì)算機(jī)視覺,以及自然語言處理等技術(shù),將復(fù)雜的非結(jié)構(gòu)化文檔數(shù)據(jù)轉(zhuǎn)變?yōu)槟鼙挥?jì)算機(jī)直接理解和使用的結(jié)構(gòu)化數(shù)據(jù),從而幫助企業(yè)或個(gè)人更加高效地獲取文檔中的有用信息。


            圖片

            圖1:智能文檔處理(IDP)的流程示意圖


            在各類文檔中,表格作為一種高效的信息表達(dá)形式,通常被人們用來呈現(xiàn)結(jié)構(gòu)化的數(shù)據(jù),例如公司財(cái)報(bào)、****、****流水、實(shí)驗(yàn)數(shù)據(jù)、醫(yī)院檢驗(yàn)報(bào)告等等。如何抽取及理解表格的技術(shù)一直都是 IDP 中的重要組成部分。


            表格抽取技術(shù)解決的主要問題是如何自動(dòng)地將圖像中的表格數(shù)字化,其包含兩個(gè)子任務(wù):表格檢測表格結(jié)構(gòu)識別。其中,表格結(jié)構(gòu)識別旨在從表格的圖像中還原表格的結(jié)構(gòu)信息,包括每個(gè)單元格的坐標(biāo)位置以及每個(gè)單元格所屬的行列信息。如圖2所示,在實(shí)際場景中,表格結(jié)構(gòu)識別是一個(gè)極具挑戰(zhàn)性的問題。其挑戰(zhàn)的難度主要在于表格的結(jié)構(gòu)與內(nèi)容的復(fù)雜多樣性,例如存在完全無邊界和實(shí)線的表格、包含許多空白單元格或者跨行跨列單元格的表格、行列之間存在大片空白區(qū)域的表格、嵌套的表格、密集的大表格、單元格包含多行文字內(nèi)容的表格等等。不僅如此,在相機(jī)拍攝的場景中,有些表格的邊框可能因拍攝角度而傾斜或彎曲,這都大大增加了表格結(jié)構(gòu)識別的難度。


            圖片圖片圖片圖片

            圖2:表格圖像的多樣性與復(fù)雜性(左右滑動(dòng)查看更多)


            近年來,表格結(jié)構(gòu)識別領(lǐng)域受到了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注,其中涌現(xiàn)出了大量研究成果。但這些研究成果的視角大多僅限于簡單的應(yīng)用場景,例如 PDF 或掃描文檔中橫平豎直的表格或分割線均為實(shí)線的表格,而對于圖2中這些在實(shí)際場景中經(jīng)常出現(xiàn)的情況,尤其是傾斜、彎曲且沒有實(shí)線的表格關(guān)注度較低。因此,現(xiàn)有的算法距離完全解決實(shí)際場景中的表格識別問題還存在很大差距。為了讓表格識別技術(shù)適用于更廣泛的應(yīng)用場景,微軟亞洲研究院的研究員們提出了一種新的表格結(jié)構(gòu)識別算法 TSRFormer[1],該算法能夠較好地識別復(fù)雜場景中不同類型的表格。


            圖片

            TSRFormer: 提供表格結(jié)構(gòu)識別新思路



            現(xiàn)有的表格結(jié)構(gòu)識別算法大致分為三種范式:編碼-解碼范式、自底向上范式和拆分-合并范式。編碼-解碼范式下的模型在輸入表格圖像后可以直接預(yù)測表示表格結(jié)構(gòu)的編碼序列(如 HTML、LaTeX 等)。該范式即使在識別較為容易的橫平豎直表格的任務(wù)中,仍然需要遠(yuǎn)超于其他范式的訓(xùn)練數(shù)據(jù)才能產(chǎn)出較好的效果。若要進(jìn)一步支持傾斜或彎曲的表格,則還需額外收集大量的數(shù)據(jù),因此研發(fā)成本較高。此外,目前基于該范式的方法在處理單元格較為密集的大表格時(shí),精度相對較低。


            自底向上范式一般需要依賴額外的模塊預(yù)先檢測文本或單元格作為基礎(chǔ)單元,再預(yù)測這些基礎(chǔ)單元是否屬于同一行、列或單元格從而定位表格結(jié)構(gòu)。所以該范式難以處理包含大量空白單元格或空行空列的表格。


            不同于以上兩種范式,微軟亞洲研究院的研究員們發(fā)現(xiàn)基于拆分-合并范式的方法具有更強(qiáng)的可擴(kuò)展性,在復(fù)雜場景中只需要較少的訓(xùn)練數(shù)據(jù)就能達(dá)到很高的精度,而且可以魯棒地處理包含空白單元格以及空行空列的表格。因此,基于該范式研究員們提出了 TSRFormer。如圖3所示,對于輸入的表格圖像,TSRFormer 先由拆分模塊預(yù)測出所有行、列的表格分割線,求交點(diǎn)后,生成 N x M 個(gè)單元格,再由合并模塊預(yù)測相鄰單元格是否需要合并從而恢復(fù)出跨多行、多列的單元格。


            圖片

            圖3:TSRFormer 的整體結(jié)構(gòu)圖


            在以往基于拆分-合并范式的方法中,預(yù)測拆分模塊的表格線一般通過圖像分割模型結(jié)合從分割圖中提取表格分割線的后處理模塊完成(如[2][3]等),而基于規(guī)則設(shè)計(jì)的后處理模塊難以處理低質(zhì)量的分割圖,這嚴(yán)重降低了模型針對諸如傾斜、彎曲的表格識別的精度以及泛化能力。不同于既有設(shè)計(jì),TSRFormer 提出了一種不需要后處理模塊的全新思路:通過直接回歸的方式來預(yù)測分割線。具體來說,該方法采用每條分割線上的若干采樣點(diǎn)來表示該分割線,并讓模型直接回歸每條分割線上采樣點(diǎn)的坐標(biāo),從而得到分割線的位置信息。


            為了讓 TSRFormer 能夠精確且高效地預(yù)測表格分割線,研究員們還提出了一套新的基于兩階段 DETR[4] 的分割線回歸算法:SepRETR。如圖4所示,在第一階段中,SepRETR 先用參考點(diǎn)預(yù)測模塊,為每一條表格分割線預(yù)測出一個(gè)參考點(diǎn)(reference point);在第二階段,由這些參考點(diǎn)的視覺以及空間信息組成的特征向量集合作為查詢特征(query)輸入進(jìn)一個(gè)****(Transformer decoder)來回歸對應(yīng)的完整分割線。


            圖片

            圖4:基于 SepRETR 的表格分割線預(yù)測模型(此處以行分割線為例)


            在此基礎(chǔ)上,研究員們進(jìn)一步提出了兩個(gè)改進(jìn)算法來提升模型性能:(1)提出了基于先驗(yàn)增強(qiáng)的匹配策略來解決原始 DETR[5] 訓(xùn)練收斂慢的問題;(2)僅采樣少量像素的特征作為****交叉注意力(cross attention)模塊的輸入,該方案可以使模型事半功倍,利用較少的計(jì)算量即可達(dá)到高定位精度。


            圖片

            實(shí)驗(yàn)結(jié)果及可視化效果



            目前,學(xué)術(shù)界的絕大部分公開數(shù)據(jù)集都只包含 PDF 或者掃描文檔圖像中完全橫平豎直的表格(如 SciTSR[6]、PubTabNet[7] 等)。與實(shí)際應(yīng)用場景相比,這類數(shù)據(jù)集較為簡單,不能涵蓋日常生活中的所有表格類型。近一年,復(fù)雜場景中的表格結(jié)構(gòu)識別問題逐漸受到關(guān)注,例如去年新發(fā)布的 WTW 數(shù)據(jù)集[8]就開始考慮實(shí)際自然場景中的表格。在該數(shù)據(jù)集中,由于相機(jī)拍攝引起的干擾,一些表格會出現(xiàn)傾斜或彎曲,這大大增加了表格結(jié)構(gòu)識別問題的難度。但 WTW 數(shù)據(jù)集只考慮了分割線均為實(shí)線的表格,而沒有包含無實(shí)線的表格。為了能夠更全面地測試模型在各類場景下的性能,研究員們收集了一個(gè)更加復(fù)雜的數(shù)據(jù)集,該數(shù)據(jù)集包含了各式各樣復(fù)雜場景的樣本,例如結(jié)構(gòu)復(fù)雜、包含大量空單元格或長跨行跨列單元格的無實(shí)線表格,以及傾斜甚至彎曲的表格等等。


            研究員們首先在三個(gè)較大規(guī)模的公開數(shù)據(jù)集 SciTSR、PubTabNet 以及 WTW 上驗(yàn)證了 TSRFormer 的性能。從表1、表2以及表3的結(jié)果可以看出,無論是在橫平豎直的簡單場景(SciTSR、PubTabNet)還是在分割線均為實(shí)線的自然場景(WTW)表格識別任務(wù)上,TSRFormer 均比現(xiàn)有的方法表現(xiàn)得更加優(yōu)秀。


            圖片

            表1:TSRFormer 與現(xiàn)有方法在 SciTSR 上的性能對比


            圖片

            表2:TSRFormer 與現(xiàn)有方法在 PubTabNet 上的性能對比(其中 TEDS[7] 指標(biāo)同時(shí)考慮表格結(jié)構(gòu)識別和表格內(nèi)容 OCR 識別的精度,而 TEDS-Struct[10] 僅評測表格結(jié)構(gòu)識別,因此后者更適用于公平比較表格結(jié)構(gòu)識別模型的精度)


            圖片

            表3:TSRFormer 與現(xiàn)有方法在 WTW 上的性能對比


            為了進(jìn)一步驗(yàn)證 TSRFormer 的有效性,研究員們在更具挑戰(zhàn)性的內(nèi)部數(shù)據(jù)集上開展了實(shí)驗(yàn),并將 TSRFormer 與另外兩個(gè)基于拆分-合并范式的代表算法——SPLERGE[2] 和 RobusTabNet[3],進(jìn)行了對比。為了使對比更加公平,在實(shí)現(xiàn)這三個(gè)方法的時(shí)候僅有表格分割線預(yù)測的部分不同,其余部分模型結(jié)構(gòu)均保持一致。從表4可以看出,由于 SPLERGE 假設(shè)表格是橫平豎直的,其在同樣是橫平豎直場景的數(shù)據(jù)集 SciTSR 和 PubTabNet 上都能取得接近 SOTA 的結(jié)果,但在包含傾斜甚至彎曲的內(nèi)部數(shù)據(jù)集上則大幅度落后于 TSRFormer,F(xiàn)1-score 相差了11.4%。圖5的可視化效果展示了 SPLERGE 與 TSRFormer 在復(fù)雜場景中的明顯差距。


            圖片

            表4:TSRFormer 與 SPLERGE 在多個(gè)數(shù)據(jù)集上的性能對比


            圖片

            圖5:TSRFormer()與 SPLERGE(藍(lán))的可視化效果對比


            在表5的消融實(shí)驗(yàn)中,研究員們將基于直接回歸的 TSRFormer 與目前基于圖像分割的最優(yōu)方案 RobusTabNet 進(jìn)行了對比。TSRFormer 與 RobusTabNet 均能處理傾斜或彎曲的表格。根據(jù)表5的實(shí)驗(yàn)結(jié)果,在更具挑戰(zhàn)性的內(nèi)部數(shù)據(jù)集中,相比 RobusTabNet,TSRFormer 的 F1-score 高出2.9%。關(guān)于消融實(shí)驗(yàn)的其他細(xì)節(jié),可見論文[1]。


            圖片

            表5:TSRFormer 與 RobusTabNet 在內(nèi)部數(shù)據(jù)集上的對比,以及各模塊的消融實(shí)驗(yàn)


            圖6中的可視化結(jié)果展示了基于直接回歸方法的優(yōu)勢。對于圖6這種單元格密集、彎曲且含有大面積空白區(qū)域的困難樣本,基于圖像分割的結(jié)果并不魯棒,這使得后續(xù)的后處理模塊難以提取出正確的分割線。而與之相反,基于直接回歸思想的 TSRFormer 并不需要任何后處理模塊,對表格中的數(shù)據(jù)和內(nèi)容識別得更為精確。


            圖片原始表格圖片RobusTabNet 的可視化結(jié)果圖片TSRFormer 的可視化結(jié)果

            圖6:TSRFormer 與 RobusTabNet 的可視化結(jié)果對比(左右滑動(dòng)查看更多)


            最后,圖7展示了 TSRFormer 在多個(gè)場景表格圖像上的可視化結(jié)果,可以看到該方法對于大部分復(fù)雜場景表格的識別呈現(xiàn)高魯棒性。


            圖片圖片

            圖7:TSRFormer 在各個(gè)數(shù)據(jù)集上的可視化結(jié)果(左右滑動(dòng)查看更多。(a-b)來自 SciTSR,(c-d)來自 PubTabNet,(e-h)來自 WTW,以及(i-l)來自內(nèi)部數(shù)據(jù)集


            圖片

            未來的挑戰(zhàn)



            雖然 TSRFormer 在識別大部分場景的表格圖像中取得了可喜成果,但要完全解決所有場景的表格結(jié)構(gòu)識別問題道阻且長。主要問題在于,目前的算法只考慮了視覺圖像單一模態(tài)的信息,而對于內(nèi)容極為復(fù)雜的表格,例如單元格包含多行文字內(nèi)容或存在極長且無實(shí)線的跨行跨列單元格,不僅需要利用圖像信息,還需要充分理解圖中文字的語義后,才能正確地識別表格結(jié)構(gòu)。此外,現(xiàn)有的方法仍然無法解析多層級的嵌套表格。微軟亞洲研究院的研究員們將不斷推進(jìn)表格結(jié)構(gòu)識別的性能,也歡迎同行共同交流、探索該領(lǐng)域更好的技術(shù)!



            參考文獻(xiàn):


            [1] Weihong Lin, Zheng Sun, Chixiang Ma, Mingze Li, Jiawei Wang, Lei Sun, Qiang Huo. TSRFormer: Table structure recognition with Transformers. In ACM Multimedia, 2022.

            [2] Chris Tensmeyer, Vlad I. Morariu, Brian Price, Scott Cohen, Tony Martinez. Deep splitting and merging for table structure decomposition. In ICDAR, 2019.

            [3] Chixiang Ma, Weihong Lin, Lei Sun, Qiang Huo. Robust table detection and structure recognition from heterogeneous document images. Pattern Recognition, 2023.

            [4] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai. Deformable DETR: Deformable Transformers for end-to-end object detection. In ICLR, 2021.

            [5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko. End-to-end object detection with Transformers. In ECCV, 2020.

            [6] Zewen Chi, Heyan Huang, Heng-Da Xu, Houjin Yu, Wanxuan Yin, XianLing Mao. Complicated table structure recognition. arXiv:1908.04729, 2019.

            [7] Xu Zhong, Elaheh ShafieiBavani, Antonio Jimeno Yepes. Image-based table recognition: Data, model, and evaluation. In ECCV, 2020.

            [8] Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang, Yongpan Wang, Gui-Song Xia. Parsing table structures in the wild. In ICCV, 2021.

            [9] Sachin Raja, Ajoy Mondal, CV Jawahar. Table structure recognition using top-down and bottom-up cues. In ECCV, 2020.

            [10] Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, Fei Wu. LGPMA: Complicated table structure recognition with local and global pyramid mask alignment. In ICDAR, 2021.

            [11] Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji. Show, read and reason: Table structure recognition with flexible context aggregator. In ACM Multimedia, 2021.

            [12] Xinyi Zheng, Douglas Burdick, Lucian Popa, Xu Zhong, Nancy Xin Ru Wang. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context. In WACV, 2021.


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉