ICDAR 2019比賽及數據集下載
https://rrc.cvc.uab.es/?ch=14&com=tasks
任務-ICDAR2019任意形狀文本的魯棒閱讀挑戰
我們提議的比賽包括三個主要任務:
- 場景文字檢測,
- 場景文字識別
- 場景文字發現。
注意
參賽者可以自由使用公開可用的數據集(例如ICDAR2015,MSRA-TD500,COCO-Text和MLT。)或合成圖像作爲本次比賽的額外訓練數據,而不允許公開訪問的私人數據不被使用。
基本事實格式
任務1和3
我們按照命名約定創建一個覆蓋數據集中所有圖像的JSON文件,以結構化格式存儲基本事實:
gt_ [image_id],其中image_id表示數據集中圖像的索引。
在JSON文件中,每個gt_ [image_id]對應於一個列表,其中列表中的每一行對應於圖像中的一個單詞,並以以下格式給出其邊界框座標,轉錄,語言類型和難度標誌:
{
“ gt_1”:[{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“轉錄”:“ trans1”,“語言”:“拉丁語”,“難以辨認“:false},
…
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“轉錄”:“ trans2”,“語言”:“中文”,“難以辨認”:false}] ,
“ gt_2”:[
{“ points”:[[x1,y1],[x2,y2],…,[xn,yn]],“ transcription”:“ trans3”,“ language”:“ Latin”,“難以辨認”:false}] ,
……
}
其中“點”中的x1,y1,x2,y2,...,xn,yn是多邊形邊界框的座標,可以是4、8、10、12個多邊形頂點。“轉錄”表示每個文本行的文本,“語言”表示轉錄的語言類型,可以是“拉丁”和“中文”。與COCOtext [3]和ICDAR2015 [2]相似,當設置爲“ true”時,“模糊性”表示“無關”文本區域,這不會影響結果。
任務2
給定的輸入將是帶有相應文本實例的裁剪圖像塊,以及相對的多邊形空間座標。與任務1相似,對於數據集中的所有圖像,我們按照命名約定創建一個JSON文件以結構化格式存儲基本事實:
gt_ [image_id],其中image_id表示數據集中圖像的索引。
{
“ gt_1”:[{“點”:[[x1,y1],[x2,y2],...,[xn,yn]],“轉錄”:“ trans1”,“語言”:“拉丁語”,“難以辨認“:false}],
“ gt_3”:[{“點”:[[x1,y1],[x2,y2],...,[xn,yn]],“轉錄”:“ trans2”,“語言”:“拉丁語”,“難以辨認“:false}],
“ gt_3”:[{“點”:[[x1,y1],[x2,y2],...,[xn,yn]],“轉錄”:“ trans3”,“語言”:“拉丁語”,“難以辨認“:false}],
……
}
注意,多邊形座標是作爲可選信息提供的。參與者可以自由決定是否使用該信息。
圖1:ArT數據集的示例圖像。紅色的裝訂線與多邊形的地面真實頂點一起形成。該數據集中的所有圖像均以“ jpg”後綴保存。
圖2. ArT的多邊形地面真值格式。
圖2說明了所有提到的屬性。值得指出的是,這種多邊形地面實況格式與所有以前的RRC不同,後者使用了軸對齊的邊界框[1、3]或四邊形[2]作爲唯一的地面實況格式。兩者分別具有兩個和四個頂點,這被認爲不適用於ArT中面向任意方向的文本實例,尤其是彎曲的文本實例。中文和拉丁文字均在ArT中進行了註釋。遵循MLT數據集的做法[5],我們用行級粒度註釋中文腳本,並以單詞級粒度註釋拉丁文腳本。
在此處下載提交示例:ArT-gt-example.zip
任務1:場景文本檢測
此任務的主要目的是在給定輸入圖像的情況下檢測每個文本實例的位置,這與所有先前的RRC場景文本檢測任務相似。此任務的輸入嚴格限制爲僅圖像,不允許任何其他形式的輸入來在檢測文本實例的過程中幫助模型。
- 輸入:場景文字圖像
- 輸出:每個文本實例在拉丁語腳本的單詞級別和在中文腳本的行級別的空間位置。
結果格式
所有提交結果的命名應遵循以下格式:res_ [image_id]。例如,與輸入圖像“ gt_1.jpg”相對應的文本文件的名稱應爲“ res_1”。要求參與者在單個JSON文件中提交所有圖像的檢測結果。提交文件格式如下:
{
“ res_1”:[
{“點”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c},
…
{“點”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c}],
“ res_2”:[
{“點”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c}],
……
}
JSON文件的密鑰應遵循res_ [image_id]的格式。同樣,n是頂點的總數(可以是不固定的,在不同的預測文本實例之間可以變化),而c是預測的置信度得分。爲了鼓勵嘗試此挑戰的不同方法,我們爲參與者提供了一個默認包裝腳本,這些參與者的模型將最終生成遮罩作爲其最終輸出,並在將其結果提交進行評估之前將其轉換爲多邊形頂點。參與者可以自由使用並鼓勵他們使用自己的方法將其遮罩輸出轉換爲多邊形頂點。
在此處下載提交示例:ArT-detection-example.zip
評估指標
對於T1,我們遵循CTW1500 [4]採用基於IoU的評估協議。IoU是基於閾值的評估協議,默認閾值設置爲0.5。我們將在0.5和0.7閾值上報告結果,但只有低於0.5的H均值將被視爲每個提交模型的最終分數,並用作提交排名的目的。爲了確保公平,競爭對手需要爲每次檢測提交可信度評分,因此我們可以迭代所有可信度閾值以找到最佳的H均值。同時,在有多個匹配項的情況下,我們僅考慮具有最高IOU的檢測區域,其餘匹配項將被視爲誤報。精度,召回率和F分數的計算如下:
其中TP,FP,FN和F分別表示真陽性,假陽性,假陰性和H均值。
所有難以辨認的文本實例和符號都標記爲“無關”區域,這不會對評估結果有所幫助。
任務2:場景文本識別
該任務的主要目的是識別裁剪圖像補丁中的每個字符,這也是以前RRC中的常見任務之一。考慮到與拉丁文字相比,中文文字識別的研究還不成熟,我們決定將T2進一步細分爲兩個子類別:
- T2.1-僅拉丁文字,
- T2.2-拉丁文字和中文文字。
我們希望這樣的劃分可以使非漢語的人更容易完成這項任務,因爲我們在這場比賽中要解決的主要問題是對任意形狀文本的挑戰。
- 輸入:裁剪的帶有文本實例的圖像補丁。
- 輸出:一串預測字符。
結果格式
對於T2,要求參與者在單個JSON文件中提交所有圖像的預測成績單:
{
“ res_1”:[{“ transcription”:“ trans1”}],
“ res_2”:[{“ transcription”:“ trans2”}],
“ res_3”:[{“ transcription”:“ trans3”}],
……
}
JSON文件的密鑰應遵循res_ [image_id]的格式。
注意:無論腳本如何,參與者都只需要提交一份即可。我們將按照拉丁和混合(拉丁和中文)兩種類別評估所有提交的內容。在評估拉丁文字的識別性能時,所有非拉丁文字都將被視爲“無關”區域。
在此處下載提交示例: ArT_recognition_example.zip
評估指標
對於T2.1,不區分大小寫的單詞準確性將作爲主要的挑戰度量標準。除此之外,所有針對文本斑點評估的標準實踐(例如i)對於包含符號的地面真相,我們將在中間考慮符號ii),但在基本事實和陳述的開頭和結尾都刪除符號(!?。:: *“()·[] /'_)。
對於T2.2,我們採用歸一化編輯距離度量(特別是1-NED)和不區分大小寫的單詞精度。1-NED還用於ICDAR 2017競賽ICPR-MTWI [6]。儘管將發佈兩個指標的結果,但僅將1-NED視爲正式排名指標。歸一化編輯距離(NED)的公式如下:
其中d(:)代表的Levenshtein距離,和 與 表示字符串的預測文本行,並在區域中的對應的基礎事實。注意,在所有地面真實位置上都計算了相應的地面真實,以選擇最大IoU中的 一個作爲預測對。N是“配對” GT和檢測到的區域的最大數量,其中包括單例:與任何檢測都不匹配的GT區域(與NULL /空字符串配對)和與任何GT區域不匹配的檢測(與NULL /空配對)空字符串)。
之所以選擇1-NED作爲T2.2的官方排名度量標準,是因爲中文腳本比拉丁文字具有更多的詞彙量,而且通常還有更長的詞彙量,這使得單詞準確度指標過於苛刻,無法正確評估T2.2。在1-NED評估協議中,將以一致的方式對待所有字符(拉丁文和中文)。
注意:爲避免註釋中的歧義,我們在評估前執行某些預處理步驟:1)英文字母不區分大小寫;2)繁體字和簡體字被視爲同一標籤;3)空格和符號將被刪除;4)所有難以辨認的圖像均不會影響評估結果。
任務3:場景文字識別
該任務的主要目的是以端到端的方式檢測和識別所提供圖像中的每個文本實例。與RRC 2017相似,將提供通用詞彙表(9萬個常用英語單詞)作爲此挑戰的參考。與T2相同,我們將T3分爲兩個子類別:
- T3.1拉丁文字僅能識別文字,
- T3.2拉丁和中文腳本文本識別。
- 輸入:場景文字圖像
- 輸出:拉丁文字的每個文本實例在單詞級別的空間位置,中文腳本的每個文本實例的空間位置以及每次檢測的預測單詞的空間位置。
結果格式
最後,要求參與者以以下格式在一個JSON文件中提交所有圖像的結果:
{
“ res_1”:[
{“點”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“轉錄”:“ trans1”},
…
{“點”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“轉錄”:“ trans2”}],
“ res_2”:[
{“點”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“轉錄”:“ trans3”}],
……
}
JSON文件的密鑰應遵循res_ [image_id]的格式。
注意:無論腳本是什麼,參與者都只需要提交一次即可。我們將按照拉丁和混合(拉丁和中文)兩種類別評估所有提交的內容。在評估拉丁文字的識別性能時,所有非拉丁文字都將被視爲“無關”區域。
在此處下載提交示例:ArT-end-to-end-result-example.zip
評估指標
對於T3,我們首先通過計算檢測結果與相應的地面真相交點(IoU)來進行評估。IoU值高於0.5的檢測區域將與識別基礎事實(即特定文本區域的成績單基礎事實)匹配。同時,在有多個匹配項的情況下,我們僅考慮具有最高IOU的檢測區域,其餘匹配項將被視爲誤報。然後,我們將使用不區分大小寫的單詞準確性H均值和1-NED(以1-NED作爲官方排名)評估T3.1的預測轉錄(而該評估中的中文區域將被忽略)。與T2.2相似,我們將同時發佈T3.2的度量標準(1-NED和不區分大小寫的單詞準確性),
注意:識別部分的預處理步驟與任務2相同。
參考文獻
- Karatzas,Dimosthenis等。“ ICDAR 2013健壯的閱讀比賽。” 文件分析與識別(ICDAR),2013年第12屆。IEEE,2013年。
- Karatzas,Dimosthenis等。“ ICDAR 2015強勁閱讀競賽。” 文檔分析與識別(ICDAR),2015年第13屆。IEEE,2015年。
- 戈麥斯,勞爾等人。“ ICDAR2017對COCO-Text的強大閱讀挑戰。” 第14屆IAPR國際文件分析與識別會議(ICDAR)。IEEE,2017年。
- 於良,劉,連文,金,等。“通過橫向和縱向序列連接的彎曲場景文本檢測。” 模式識別,2019年。
- Nayef,Nibal等。“ ICDAR2017在多語言場景文本檢測和腳本識別-RRC-MLT上的強大閱讀挑戰。” 文件分析與識別(ICDAR),2017年第14屆IAPR國際會議。卷 1. IEEE,2017年
- 石寶光等。“ ICDAR2017野外閱讀中文比賽(RCTW-17)。” 文件分析與識別(ICDAR),2017年第14屆IAPR國際會議。卷 1. IEEE,2017年。
=======
下載-ICDAR2019任意形狀文本的魯棒閱讀挑戰
ArT數據集將包含10,166張圖像。它分爲具有5,603張圖像的訓練集和4,563張圖像的測試集。
訓練數據和測試集的第一部分也可以從百度鏡像中找到: ArT數據集
注意
參賽者可以自由使用公開可用的數據集(例如ICDAR2015,MSRA-TD500,COCO-Text和MLT。)或合成圖像作爲本次比賽的額外訓練數據,而不允許公衆訪問的私人數據不被使用。
註冊確認
1)要確認是否參加了RRC競賽2019的ICDAR-2019 ArT挑戰,請發送電子郵件至 [email protected] ,標題爲“ 參加ICDAR-2019 ArT挑戰 ”
2)您參與或提交結果,這是一種興趣表達。您可以參加挑戰的一項或多項任務。沒有必要參加所有任務。
訓練套
- 對於任務1和任務3
- train_images.tar.gz (1.6G)-5,603張圖片
- train_labels.json (41M)- 用於 5,603張圖像的地面真實文件
- 對於任務2
- train_task2_images.tar.gz (439M)-50,029圖片
- train_labels_task2.json (35M)- 用於 50,029張圖像的地面真實文件
測試集
- 測試集的第一部分:
- 對於任務1和任務3
- test_part1_images.tar.gz (1.4G)-2271張圖片
- 對於任務2
- test_part1_task2_images.tar.gz (439M)-24836圖片
- 對於任務1和任務3
- 測試集的最後一部分:
- 對於任務1和任務3
- test_part2_images.tar.gz (1.4G) -2292張圖片
- 對於任務2
- test_part2_task2_images.tar.gz (467M)-27795 圖片
- 對於任務1和任務3
注意: 測試集的第一部分和第二部分的結果應一起 提交,評估結果將在4月30日之後提供 。
建議使用OpenCV 3.1進行圖像處理。