M2Doc:文檔版面分析的可插拔多模態融合方法

一、文章介紹

文檔版面分析任務是文檔智能的一個關鍵任務。然而,現有的很多文檔版面分析研究方法都基於通用目標檢測方法,忽視了文檔的文本特徵而僅僅只關注於視覺特徵。近年來,基於預訓練的文檔智能模型在很多文檔下游任務中都取得了成功,然而在具體的文檔版面分析任務上同樣也只是簡單將預訓練的參數遷移到純視覺的目標檢測器中進行fintune。基於此,本文設計了可插拔的多模態融合方法M2Doc,可以賦予純視覺的目標檢測器感受多模態的能力。M2Doc包含兩個融合模塊,Early-Fusion和Late-Fusion模塊。其中Early-Fusion模塊使用一個類似Gate的機制去融合主幹網絡提取出的視覺和文本的模態特徵,Late-Fusion模塊使用簡單的加和操作去融合框級別的文本和視覺特徵。得益於M2Doc簡潔且有效的模型結構,它可以很容易地應用到多種目標檢測器上。我們的實驗結果也顯示使用M2Doc的目標檢測器可以在DocLayNet和M6Doc版面分析數據集上得到顯著的提升,值得一提的是DINO目標檢測器搭配M2Doc可以在多個數據集上取得SOTA的結果。

二、出發點

  • 版面分析任務與目標檢測任務最大的不同在於它們面向的場景不同,版面分析任務的檢測目標大多都是文本區域,也即天然就具有視覺和文本兩個屬性,故而使用多模態的建模方法去解決這個問題應該更符合任務的特點。
  • 版面分析任務的多數實例都具有語義的連接關係,例如存在上下文聯繫的兩個實例大概率屬於同一個類別,故而將語義信息考慮到文檔版面分析任務中應該是更符合直覺的建模方式。
  • 現有的文檔版面分析方法大多都是基於通用目標檢測器改進的,它們在相對簡單的物理版面分析數據集上能取得不錯的成績,但是在更復雜的邏輯版面分析場景中表現不佳。現有的多模態版面分析方法比較少,且也存在效果不好參數量過大等問題。

基於上述三點,本文爲單模態的檢測器設計了通用可插拔的多模態融合方法M2Doc,從而賦予它們在複雜邏輯版面分析場景中能感知文本內容和語義的能力。

三、M2Doc框架

M2Doc的總體框架如圖3(a)所示。整個網絡包含四個階段:文本表徵階段、特徵提取階段、Early-Fusion階段和Late-Fusion階段。其中兩個融合模塊都是可插拔的,可以輕鬆應用到其他的單模態目標檢測器中。

(1)文本Grid表徵階段:給定一張文檔的圖片,文檔圖片中包含多個單詞,我們處理的場景都提供OCR結果和對應的檢測框。爲了能夠得到每個單詞對應的特徵表示,我們將各個單詞按閱讀順序排布之後送入到預訓練語言模型BERT得到對應每個單詞的Embedding。然後我們利用OCR檢測框,將每個單詞的Embedding填回到其OCR框中。最終我們就得到了和原圖像高寬一致,只是通道維度不同的文本Grid輸入。這樣的表徵方式使得我們能夠最大限度地保留了文本模態的版面格式,同時又使得兩種模態的輸入能夠在像素級別上對齊,方便後面的特徵融合。

(2)特徵提取階段:因爲在前面我們提到兩種模態的輸入其實在像素級別上是對齊的,於是我們僅使用單個主幹網絡去提取文本和視覺特徵。我們使用ResNet網絡作爲我們的主幹網絡,經過主幹網絡之後我們得到了四個不同尺度的文本和視覺特徵。

(3)Early-Fusion階段:在傳統的單模態網絡中,主幹網絡提取出的特徵需要被用來生成候選框,以及作爲候選框的視覺特徵表達,所以我們需要在得到候選框之前就將兩個模態的特徵進行有效的融合。我們參照了指代分割領域的LAVT的做法,使用一個類似於Gate的機制來融合兩個模態對應尺度的特徵。在融合之後,考慮到在第一個階段中沒有文本的地方表徵爲0,於是我們使用LayerNorm去歸一化融合後的特徵。

(4)Late-Fusion階段:我們把第一次融合後的特徵送入到候選框生成模塊之後,得到了一系列的候選框。於是我們可以用一個簡單的IoU的操作爲每個候選框分配合適的文本特徵。並且將每個候選框對應的視覺和文本特徵進行二次融合。我們發現其實一個簡單的帶權重的加法融合的策略就已經能夠比較好的將兩個特徵進行融合。

四、實驗

a) 主實驗

 
 
 
  • 從三個版面分析數據集的結果來看,Cascade Mask R-CNN和DINO加上M2Doc在DocLayNet、M6Doc數據集上都取得了SOTA的結果,證明了其有效性。
  • M2Doc相比於原有Baseline取得了很大的提升,並且VSR作爲唯一一個多模態方法,它依然在DocLayNet數據集上和我們的方法相差較大,證明了M2Doc作爲一個可插拔方法的有效性。
  • PubLayNet是一個比較簡單的物理版面分析數據集,並且只區分五個和文本內容關係不大的基本元素,所以一個好的單模態檢測器就已經能夠在此數據集就已經能夠取得不錯的效果。並且和我們對比的方法大多都是用更大的主幹網絡(ViT、X101等),我們也在主幹網絡不佔優的情況下達到了一個Comparable的結果。

b) 可插拔實驗

 
 

可以看到,無論是在兩階段還是端到端的檢測器上,我們的方法都能夠很好地提升它們在複雜版面分析數據集上的表現,證明了M2Doc優秀的泛化能力和可插拔能力。

c) 消融實驗

五、總結與展望

總的來說,本文面向複雜邏輯版面分析場景提出了一個可插拔的多模態融合方法,很好地從多模態的視角出發,提升了現有的單模態目標檢測器在版面分析任務上的表現。我們認爲還有以下工作值得未來進行探索:

  • 如何設計統一高效的多模態模型能夠更好結合文檔的視覺和文本特徵是值得後續探索的。
  • 針對M2Doc,如何設計更有效的多模態融合策略也是值得進一步探索的。
  • 現有的關於文檔的密集文本的表徵方式相當複雜,如何能夠進一步簡化得到文本特徵的步驟也值得研究。

● 論文標題:

M2Doc: A Multi-modal Fusion Approach for Document Layout Analysis

● 論文作者:

張寧、鄭曉怡、陳佳禹、江宗源、黃俊、薛洋、金連文

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章