ICDAR 2019比賽及數據集下載
https://rrc.cvc.uab.es/?ch=16&com=tasks
任務-ICDAR2019對帶有部分標籤的大規模街景文本的強大閱讀挑戰
LSVT數據集將包含450、000張帶有文本的圖像,這些文本可在街道上自由捕獲,例如,店面和地標。其中50,000個具有完整註釋,分爲i)30,000個訓練集,ii)20,000個測試集。作爲訓練集的一部分,其餘400,000張圖像均進行了弱註釋。
爲了評估各個方面的文本閱讀性能,我們在此大型街景數據集上引入了兩個常見的任務,即文本檢測和端到端文本識別。
- 文本檢測,目的是將街景圖像中的文本本地化爲文本行級別,這與所有以前的RRC場景文本檢測任務相似。
- 端到端文本點,目的是以端到端的方式定位和識別圖像中的所有文本行。
注意
參賽者可以自由使用公開可用的數據集(例如ICDAR2015,RCTW-17,MSRA-TD500,COCO-Text和MLT)或合成圖像作爲本次比賽的額外訓練數據,而不能公開訪問的私有數據則不然。允許使用。
基本真理格式
對於數據集中所有帶有完整註釋的圖像,我們按照命名約定創建一個JSON文件,以結構化格式存儲地面真相:
gt_ [image_id],image_id是指數據集中圖像的索引。
在JSON文件中,每個gt_ [image_id]都與一個列表相對應,其中列表中的每一行都與圖像中的一個單詞相對應,並以以下格式給出其邊界框座標,轉錄和模糊度標誌:
{
“ gt_1”:[
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“轉錄”:“ trans1”,“模糊性”:false},
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“轉錄”:“ trans2”,“模糊性”:false}],
“ gt_2”:[
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“ transcription”:“ trans3”,“難以辨認”:false}],
……
}
其中“點”中的x1,y1,x2,y2,…,xn,yn是多邊形邊界框的座標,可以是4、8、12個多邊形頂點。設置爲“ true”時,“轉錄”表示每個文本行的文本,“難以辨認”表示“無關”文本區域,這不會影響結果。
與完全註釋基礎事實相似,對於數據集中具有弱註釋的圖像,我們將所有基礎事實存儲在單個JSON文件中。在JSON文件中,每個gt_ [image_id]都對應一個詞,我們在圖像中將其稱爲“感興趣的文本”:
{
“ gt_0”:[{“ transcription”:“ trans1”}],
“ gt_1”:[{“ transcription”:“ trans2”}],
“ gt_2”:[{“ transcription”:“ trans3”}],
……
}
在此處下載地面實況示例:LSVT-gt-example
任務1:文本檢測
此任務是評估文本檢測性能,其中應試者的方法應將街景圖像中的文本本地化爲文本行。
輸入:完整的街景圖像
輸出:所有文本實例的四邊形或多邊形中的文本行的位置。
結果格式
所有提交結果的命名應遵循以下格式:res_ [image_id]。例如,與輸入圖像“ gt_1.jpg”相對應的文本文件的名稱應爲“ res_1”。要求參與者在單個JSON文件中提交所有圖像的檢測結果。提交文件格式如下:
{
“ res_1”:[
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c},
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c}],
“ res_2”:[
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c}],
……
}
其中n是頂點的總數(可以是不固定的,在不同的預測文本實例之間有所不同)。c 是預測的置信度得分。
在此處下載提交示例:LSVT-detection-example
評估指標
遵循ICDAR 2015 [1]和ICDAR 2017-RCTW [2]數據集的評估協議,通過IoU(聯合交叉)對LSVT(T1)的檢測任務進行了精確度,召回率和F分數評估。閾值0.5和0.7,並且只有H均值低於0.5纔會用作最終排名的主要指標。同時,在有多個匹配項的情況下,我們僅考慮具有最高IOU的檢測區域,其餘匹配項將被視爲誤報。精度,召回率和F分數的計算如下:
其中TP,FP,FN和F分別表示真陽性,假陽性,假陰性和H均值。
所有檢測到的或遺漏的“無關”事實都不會對評估結果有所幫助。與COCO文本[3]和ICDAR2015 [1]相似,難以辨認的文本
實例和符號被標記爲“無關”區域。
任務2:端到端文本發現
該任務的主要目的是以端到端的方式檢測和識別所提供圖像中的每個文本實例。
輸入:完整的街景圖像
輸出:四邊形或多邊形中的文本行的位置以及圖像中所有文本實例的相應識別結果。
結果格式
該學員須提交預測的檢測和識別結果在一個JSON文件的所有圖像:
{
“ res_1”:[
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c,“轉錄”:“ trans1”},
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c,“轉錄”:“ trans2”}],
“ res_2”:[
{“點”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c,“轉錄”:“ trans3”}],
……
}
其中n是頂點的總數(可以是不固定的,在不同的預測文本實例之間有所不同)。c是預測的置信度得分。“轉錄”表示每個文本行的文本。
預計所有比賽參與者都將提交他們的測試結果,測試結果將在最終提交截止日期前幾周發佈。
在此處下載提交示例: LSVT端到端示例
評估指標
爲了更全面地比較端到端文本發現任務(T2)的結果,將在多個方面對提交的模型進行評估,它們是:i)根據規範化編輯距離(1-NED)的規範化指標[2] (特別是),以及ii)精度,召回率和F分數。儘管將發佈兩個指標的結果,但僅將1-NED視爲正式排名指標。
在F分數中完全匹配的條件下,真實的正文本行表示預測結果與匹配的地面事實(IoU高於0.5)之間的Levenshtein距離等於0。
對於歸一化度量,我們首先通過計算檢測結果與相應的地面真相交(IoU)來評估檢測結果。IoU值高於0.5的檢測區域將與識別基礎事實(即特定文本區域的成績單基礎事實)匹配。同時,在有多個匹配項的情況下,我們僅考慮IoU最高的檢測區域,其餘匹配項將被視爲誤報。然後,我們將使用歸一化編輯距離(NED)評估預測的轉錄,公式爲:
其中d(:)代表的Levenshtein距離,和 與 表示字符串的預測文本行,並在區域中的對應的基礎事實。注意,在所有地面真實位置上都計算了相應的地面真實,以選擇最大IoU中的 一個作爲預測對。N是“配對” GT和檢測到的區域的最大數量,其中包括單例:與任何檢測都不匹配的GT區域(與NULL /空字符串配對)和與任何GT區域不匹配的檢測(與NULL /空配對)空字符串)。
注意: 爲避免註釋含糊不清,我們在評估前進行預處理:1)英文字母不區分大小寫;2)繁體字和簡體字視爲同一個標籤;3)空格和符號將被刪除;4)所有難以辨認的圖像均不會影響評估結果。
參考文獻
[1] Karatzas,Dimosthenis等。“ ICDAR 2015強勁閱讀競賽。” 文檔分析與識別(ICDAR),2015年第13屆國際會議。IEEE,2015年。
[2]史寶光等。“ ICDAR2017野外閱讀中文比賽(RCTW-17)。”文件分析與識別(ICDAR),2017年第14屆IAPR國際會議。卷 1. IEEE,2017年。
[3] Gomez,Raul等。“ ICDAR2017對COCO-Text的強大閱讀挑戰。” 2017年第14屆IAPR國際文件分析與識別會議(ICDAR)。IEEE,2017年。
下載-ICDAR2019帶有部分標籤的大規模街景文字的強大閱讀挑戰
LSVT數據集將包含450,000張帶有文本的圖像,這些圖像可在街道上自由捕獲。其中有50,000個具有完整註釋,分爲三部分:
i)30,000張完全註釋的圖像用於訓練集,ii)20,000張測試集合,iii)400,000張弱註釋訓練集。
LSVT數據集也可以從百度鏡像中找到: LSVT-dataset
注意
參賽者可以自由使用公開可用的數據集(例如ICDAR2015,RCTW-17,MSRA-TD500,COCO-Text和MLT)或合成圖像作爲本次比賽的額外訓練數據,而不能公開訪問的私有數據則不然。允許使用。
註冊確認
1)要確認在RRC大賽2019的ICDAR-2019 LSVT挑戰賽中的註冊,請發送電子郵件至[email protected] ,標題爲“ 參加ICDAR-2019 LSVT挑戰賽 ”
2)此過程不強制您參與或提交結果,這是一種興趣表達。您可以參加挑戰的一項或多項任務。沒有必要參加所有任務。
訓練集
帶有弱註釋的訓練集包含400,000張圖像(33 GB),並分爲10個文件。
- train_weak_images_0.tar.gz(3.3G)-40,000張圖像
- train_weak_images_1.tar.gz (3.3G) -40,000 張圖像
- train_weak_images_2.tar.gz (3.3G) -40,000 張圖像
- train_weak_images_3.tar.gz (3.3G) -40,000 張圖像
- train_weak_images_4.tar.gz (3.3G) -40,000 張圖像
- train_weak_images_5.tar.gz (3.3G) -40,000 張圖像
- train_weak_images_6.tar.gz (3.3G) -40,000 張圖像
- train_weak_images_7.tar.gz (3.3G) -40,000 張圖像
- train_weak_images_8.tar.gz (3.3G) -40,000 張圖像
- train_weak_images_9.tar.gz (3.3G) -40,000 張圖像
- train_weak_labels.json- 包含40萬張圖片的真實文件
帶有完全註釋的訓練集包含30,000張圖像(8.2 GB),並分爲2個文件。
- train_full_images_0.tar.gz (4.1G)
- train_full_images_1.tar.gz (4.1G)
- train_full_labels.json -30,000張圖像的真實文件
測試集
- 測試集的第一部分: test_part1_images.tar.gz (2.7G) -10,000張圖像
更新日誌:我們對測試集的第一部分進行了一些數據清理,並於2019年4月20日對其進行了更新。
- 測試集的最後一部分: test_part2_images.tar.gz (2.7G) -10,000張圖像
注:第一部分和測試集的第二部分的結果應一併報送,以及 評價結果將提供 4月30日之後。