微軟推出預訓練模型VLP,可通過模仿人類來理解圖片與視頻內容

近日,微軟官方技術博客上發佈了一篇文章,文章表明:微軟的AI系統正在通過大規模的預訓練和統一的架構來擴展場景和語言理解。 該系統通過模仿人類對世界瞭解的方式來訓練圖像-文本對。微軟方面表示,其單模型編碼-解碼器視覺語言預訓練(VLP)模型既可以生成圖像描述,又可以回答有關場景的自然語言問題,爲將來可能達到人類同等水平的框架奠定了基礎。

圖片來源:Microsoft Research Blog

人類從小就開始學習,瞭解周圍的世界是一項必備的生存技能。人們通過觀察環境、與周圍環境以及其他人的互動直接或間接地學到了很多東西:比如一個叔叔指着一塊閃亮的紅色水果並講述了他的侄子是蘋果;或者一位老師讀了一本關於毛毛蟲的書,並告訴他毛毛蟲最後變成了蝴蝶;又或者一個孩子觀察着她的父母在談論寄信的事情,以及寄出郵件的郵遞員,她看到父母拿出了白色信封,上面印有刻字和郵票等等。

即使周圍的環境發生新的變化,人類也能通過經驗來理解這些變化。一枝花插在花瓶裏,而後院的花園裏種滿了花,孩子們能夠利用常識將這兩者聯繫起來,並隨着信息的獲取而調整意識裏舊的關聯,利用他們的內在常識來弄清楚他們遇到的事情。人類與物理環境、照片和書籍等物品的互動越多,就越能更好地理解和使用語言來解釋周圍環境中存在的事物和發生的事情。

可是,對於機器而言,場景理解和語言理解很難訓練,特別是在弱監督的條件下。如果沒有確切的標籤來學習場景中的所有組件,機器將難以獲得紮實的基礎,以建立需要了解場景和語言的其他功能。收集必要的標籤通常代價很高,即使好的標籤也只能提供對場景的合理理解,而不能提供語言信息。

那麼,主要的問題就變成了:是否可以利用網絡上可用的大量圖文對,來模仿人類改善場景和語言理解的方式?能否建立一個統一機器功能的模型,以在視覺語言生成任務和理解任務上都表現出色?

在微軟的論文《用於圖像標註和VQA的統一視覺語言預訓練》中,研究人員提出了一個統一的單模型編碼-解碼器系統,該系統能夠完成兩個不同的任務:生成圖像場景描述和視覺問題解答(VQA)。

生成場景描述並回答有關場景的自然語言問題,可以很好地指示系統在場景理解和語言理解方面的整體有效性。研發人員相信該模型(又被稱爲視覺語言預訓練(VLP)模型)是率先使用來自語言和視覺的數據來顯示針對不同下游任務的重大改進的模型之一。

目前該模型已經在GitHub上開源,已使用三百萬個圖文對進行了預訓練。微軟方面表示:如果可以進一步利用文本數據來訓練,並充分利用可公開獲得的視覺數據集——比如帶有標註的大型電影集,以及基於圖像和視頻的人類對話,或者在社交媒體上發佈的圖像或視頻下的評論,或許將有機會看到機器場景和語言理解達到人類平等。

微軟研究人員針對通用的視覺語言預培訓開發了統一的編碼-解碼器模型,並對它們進行了微調,以進行圖像標註和視覺問題解答。通過視覺語言預訓練,與隨機初始化或僅使用語言的預訓練相比,下游任務的訓練速度和整體準確性都得到了顯著提高。

在當前模型上進行改進

現有的圖像標註和VQA方法只有質量低下的標註和推理功能。這主要是由於三個原因:

  1. 上下文利用不充分。這是一項非常重要的功能,尤其是當給定場景中存在各種對象、關係和概念時,上下文的有效性不足。此外,該模型應該能夠識別重要的組成部分,以準確描述圖像並在給定自然語言問題的情況下對它們進行推理。
  2. 沒有利用大規模的訓練數據進行預訓練。這對於學習語言和視覺的通用表示形式至關重要,對於許多下游任務尤其有用,而不僅僅是對圖像標註和VQA有效。
  3. 體系結構在各種任務集上都設計得不能很好地執行。在這些任務集上,例如VQA和信息檢索需要語言和視覺對齊,並且使用單個模型執行語言生成。

而微軟的VLP模型試圖通過以下架構克服上述限制:

  • 部署共享的多層變壓器網絡(multi-layer transformer network)進行編碼和解碼;
  • 針對雙向和序列到序列預測進行優化;
  • 在自我關注機制中結合特殊的蒙版,以使單個模型可以在給定場景上執行生成和理解任務。

當前大多數對模型進行預訓練以處理多個任務的方法中,採用的是分別對編碼器和解碼器進行預訓練,或者僅對它們的編碼器進行預訓練。但是微軟的研發人員將編碼器和解碼器一起預訓練,並針對雙向和序列到序列的預測進行優化,這樣做可以創建更好地對齊的編碼-解碼器表示形式,從而允許將相同模型用於不同的任務,例如圖像標註和VQA。

測試與評估

研發人員在三個具有挑戰性的基準上評估了VLP對圖像進行標註和推理的能力:COCOFlickr30KVQA 2.0。結果是:VLP在幾個圖像標註和VQA指標上的表現均優於基線模型和最新模型,在訓練過程中,VLP被證明更準確,收斂速度更快。

對COCO和VQA 2.0的定性結果(如下圖2所示)表明,VLP不僅可以在生成標註時鍵入更多細節(如第一張照片的標註所示),而且還可以回答有關圖像的挑戰性問題。以前僅接受過語言訓練的模型無法正確回答此類問題。例如,VLP能夠在第一張照片中識別出不同人的服裝設計相似性,以及第二張照片中的主角並不是在自拍等等。

圖2:上表顯示了COCO和VQA 2.0的定性示例。第一列表示來自COCO驗證集的圖像;第二列顯示了五個人工標註;第三列表示由三種不同模型生成的標註及其對應的CIDEr分數,這是一種用於評估標註質量的指標,只有Unified VLP具有視覺語言預訓練;最後一列顯示VQA問題和與圖像相關聯的正確答案以及由模型生成的答案,前兩個是成功案例,後兩個是失敗案例。

該研發團隊表示:未來將繼續加強VLP架構和預訓練方法,同時在預訓練和一系列更多樣化的下游任務中添加更多數據。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章