ICDAR 2019比賽及數據集下載-任務-ICDAR 2019場景文本視覺問答中的穩健閱讀挑戰

 ICDAR 2019比賽及數據集下載

https://rrc.cvc.uab.es/?ch=11&com=tasks

任務-ICDAR 2019場景文本視覺問答中的穩健閱讀挑戰

挑戰包含三個任務,它們都是2019年競賽的新任務:

  • 高度上下文相關,每個圖像都有一個字典,其中包含出現在針對該圖像問題定義的答案中的單詞以及一系列干擾因素。
  • 弱上下文化,參與者將擁有一個針對所有數據集圖像的30,000個單詞的獨特詞典,該詞典是通過收集所有地面​​真實單詞加干擾因子而形成的。
  • 端到端,其中未給出可能的答案的預定義列表,並且必須通過以下方式自動生成正確的答案:處理圖像上下文,閱讀和理解圖像中的文本信息。

 

數據集和工具

SceneText-VQA數據集包含23,000張圖像,每個圖像最多包含三個問題/答案對。提供了火車和試車。訓練集由19000張圖像和26000個問題組成,而測試集由3000張圖像和每個任務4000個問題組成。圖1給出了預期的問題和答案類型的示例。

圖1.  此圖像可能的問題/答案對可能是:
(Q)圖像底部出現了哪個蘇打水品牌?(A)可口可樂。

 

除了數據集,我們還提供了一組實用程序功能和腳本,用於通過RRC在線平臺評估和可視化提交的結果,以及可以脫機使用的獨立代碼和實用程序(後者在比賽後提供)已完成)。

任務1-緊密關聯

在第一個任務中,將爲參與者提供每個圖像的可能答案的不同列表。該列表將包含圖像中出現的一些單詞,以及一些額外的詞典單詞。這樣,每個圖像將包含相對較小但不同的可能答案集。對於上面的示例圖像,將爲參與者提供一個列表,其中包括以下單詞以及一些詞典單詞:

[公衆,市場,中心,可口可樂,農民,享受……]

任務2-弱關聯

在此任務中,將爲參與者提供完整數據集的可能答案的完整列表,並補充一些詞典單詞。儘管對於數據集中的所有圖像,可能答案的列表將是相同的(靜態列表),但是該列表比上一個任務的答案集要大得多。該詞典由30,000個單詞組成,這些單詞是通過收集所有22k個地面真實單詞加上8k個生成的詞彙形成的。

任務3-打開字典

端到端任務是最通用且最具挑戰性的任務,因爲事先沒有提供任何答案。通過分析圖像的視覺環境以及閱讀和理解所有圖像所包含的文字信息,提交的用於此任務的方法應該能夠生成正確的答案。

評估指標

在所有這三個任務中,評估指標將是平均標準化Levenshtein相似度(ANLS)。ANLS可以順利捕獲OCR錯誤,並在預期的正確回答的情況下進行了輕微的懲罰,但識別度很差。它還使用值0.5的閾值,該閾值指示如果度量的值等於或大於0.5或0,則度量的輸出將是ANLS。此閾值的關鍵是確定答案是否已正確選擇但未正確識別,或者相反,輸出是從選項中選擇並給出答案的錯誤文本。

更正式地講,淨輸出與地面真相答案之間的ANLS 等式1 給出。其中N是問題總數,M是每個問題的GT答案總數,ij是地面真相答案,其中i = {0, ...,N},且j = {0,...,M},o q i是第i 個問題q i的網絡答案。


 

ANLS.png

 

 

它不區分大小寫,但是對空間敏感。例如:

 

  問:紅盤上的軟飲料公司名稱是什麼?

  可能的不同答案:

  • 一I1:可口可樂

  • 一個我2:可口可樂公司

ANLSSampleResults.png

 

 

投稿格式

每個任務的提交文件應該只有一個。應該將其格式化爲包含字典列表的JSON文件,其中有兩個鍵:“ questions_id”和“ answer”。“ question_id”鍵代表問題的唯一ID,而鍵“ answer”應爲模型的輸出。例如,結果文件可能命名爲:result_task1.json,並將包含類似於以下內容的列表:

[  

    {'answer':'Coca','question_id':1},

    {'answer':'停止','question_id':2},

    {'answer':'delta','question_id':3},

     ...,

     ...,

]

下載-ICDAR 2019場景文本視覺問答中的穩健閱讀挑戰

 

下載

訓練集:

您可以在下面下載圖像和json文件:

測試集:

描述

  • 用於訓練和驗證集的圖像來自多個數據集,即;ICDAR,ImageNet,VizWiz,IIIT Street Text,COCO-Text和Visual Genome。
  • 論文中的編號應在4月15日發佈的測試儀上報告。
  • 我們爲Task-1的每個圖像提供一個字典,爲Task-2的完整數據集提供一個字典,而對於Task-3則沒有額外的信息(有關詳細信息,請參閱“ 任務”說明)。

註釋說明

每個任務的註釋都發布在JSON文件中。JSOn文件具有表1第一行中所示的結構。在第二行中,“數據”字段詳細說明。

 

   任務1

 

 

   任務2

 

 

   任務3

 

{

   “數據”:[

          每個問題ID的詞典列表

   ],

   “ task_name”:“任務1-高度關聯”,

   “ dataset_name”:“ st-vqa”

}

 

 

 

{

   “數據”:[

          每個問題ID的詞典列表

   ],

   “ task_name”:“任務2-弱關聯”,

   “ dataset_name”:“ st-vqa”,

   “字典”:[

          所有詞彙表

   ]

}

{

   “數據”:[

          每個問題ID的詞典列表

   ],

   “ task_name”:“任務3-打開”,

   “ dataset_name”:“ st-vqa”

}

 

 

 

{

   “ set_name”:訓練或測試分組,

   “ file_name”:圖像文件的名稱,

   “數據集”:圖像數據集源,

   “ image_width”:整數,圖像的寬度,

   “ image_height”:整數,圖像的高度,

   “問題”:問題字符串

   “答案”:[

          正確答案列表(基本事實)

   ],

   “ question_tokens”:[

          來自已標記化問題的單詞列表

   ],

   “字典”:[

          100個可能的正確答案列表

   ],

   “ file_path”:根目錄中的相對圖像路徑,

   “ question_id”:表示唯一ID的整數

}

{

   “ set_name”:訓練或測試分組,

   “ file_name”:圖像文件的名稱,

   “數據集”:圖像數據集源,

   “ image_width”:整數,圖像的寬度,

   “ image_height”:整數,圖像的高度,

   “問題”:問題字符串

   “答案”:[

          正確答案列表(基本事實)

   ],

   “ question_tokens”:[

          來自已標記化問題的單詞列表

   ],

   “ file_path”:根目錄中的相對圖像路徑,

   “ question_id”:表示唯一ID的整數

}

 

 

 

{

   “ set_name”:訓練或測試分組,

   “ file_name”:圖像文件的名稱,

   “數據集”:圖像數據集源,

   “ image_width”:整數,圖像的寬度,

   “ image_height”:整數,圖像的高度,

   “問題”:問題字符串

   “答案”:[

          正確答案列表(基本事實)

   ],

   “ question_tokens”:[

          來自已標記化問題的單詞列表

   ],

   “ file_path”:根目錄中的相對圖像路徑,

   “ question_id”:表示唯一ID的整數

}

 

 

 

表1:註釋描述表

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章