ICDAR 2019比賽及數據集下載
https://rrc.cvc.uab.es/?ch=12&com=tasks
任務-ICDAR 2019在招牌上閱讀中文文本的穩健閱讀挑戰
ReCTS數據集包括25,000張帶標籤的圖像,這些圖像是在不受控制的條件下通過電話攝像機野外採集的。它主要側重於餐廳招牌上的中文文本。
數據集分爲訓練集和測試集。訓練集包含20,000張圖像,測試集包含5,000張圖像。引入了四個任務:(1)字符識別,(2)文本行識別,(3)文本行檢測和(4)端到端文本發現。
數據集中的每個圖像都用文本行位置,字符位置以及文本行和字符的成績單進行註釋。用具有四個頂點的多邊形來標註位置,這些頂點從左上頂點開始按順時針順序排列。成績單是UTF-8編碼的字符串。
外部數據:允許公開免費提供外部數據。在參與方法的最終簡短描述中必須提及任何外部數據的來源。
注意,在評估時,半角字符及其對應的全角字符被視爲一個字符。在這裏,我們在文件/rrc.cvc.uab.es/files/half_width_full_width_dict.zip中給出了半角字符及其對應的全角字符的 列表。同樣,在評估task2和task4時,英文字母也不區分大小寫。
挑戰期間我們不提供任何反饋意見。每個小組最多隻能提交5個結果,我們將從5個結果中選擇最佳結果作爲最終結果。此外,每個參與者必須提供真實姓名和組織。提交團隊信息後,將無法再對其進行修改。
基本真理格式
對於每個圖像,我們使用名爲[img_name] .json的json文件以如下結構化格式存儲地面真相:
{
“字符”:[
{“點”:[x1,y1,x2,y2,x3,y3,x4,y4],“ transcription”:“ trans1”,“ ignore”:0},
{“點”:[x1,y1,x2,y2,x3,y3,x4,y4],“轉錄”:“ trans2”,“忽略”:0}],
“行”:[
{“點”:[x1,y1,x2,y2,x3,y3,x4,y4],“ transcription”:“ trans3”,“ ignore“:0}],
}
其中“點”中的x1,y1,x2,y2,x3,y3,x4,y4是多邊形邊界框的座標,“字符”表示單個字符信息,“線”表示文本行信息。設置爲“ true”時,“轉錄”表示每行文本,“忽略”表示“無關”文本區域。可以下載示例圖像及其對應的真實情況 https://rrc.cvc.uab.es/files/ReCTS_sample_gt.zip
地面真相歧義
在某些招牌中,始終存在以下情況:
很難確定是否將“砂鍋”,“炒麪”,“拌麪”,“燴肉”,“泡饃”框合併到大文本框中。因此,我們將兩種情況((a)和(b))視爲正確的事實。
如果可能,我們將爲每個測試圖像提供一個或多個基本事實。在評估時,我們將預測結果與所有基本事實進行比較,並使用最匹配的結果來計算評估指標。
任務1.招牌中的字符識別
該任務的目的是從裁剪的字符圖像中識別字符。輸入示例如圖1所示。
圖1.字符圖像
投稿格式
要求參與者提交txt文件,其中包含所有測試圖像的結果。結果格式爲:
img_name,轉錄
例如。test_000001.jpg,炸
評估指標
精度= N_ok / N,其中N_ok是正確預測的字符數,N是測試字符數。
請注意,測試圖像test_ReCTS_task1_000001.jpg在提交txt文件中應重命名爲test_000001.jpg。
任務2.招牌中的文本行識別
還給出了裁剪後的文本行圖像以及圖像中多邊形邊界框的座標。輸入示例如圖2所示。
圖2.文本行圖像
投稿格式
要求參與者提交txt文件,其中包含所有測試圖像的結果。結果格式爲:
img_name,轉錄
例如。test_000001.jpg,炸雞
評估指標
我們使用“規範化編輯距離”作爲文本行識別的評估指標,公式如下:
其中D表示Levenshtein距離,si表示預測的文本行,si-hat表示相應的地面真相。N是文本行的總數。
請注意,在提交txt文件中,應將測試圖像test_ReCTS_task2_000001.jpg重命名爲test_000001.jpg。
任務3.招牌中的文本行檢測
此任務的目的是在招牌中定位文本行。輸入的圖像是完整的招牌圖像。
投稿格式
要求參與者提交txt文件,其中包含所有測試圖像的結果。結果格式爲:
img_name
x1,y1,x2,y2,x3,y3,x4,y4
x1,y1,x2,y2,x3,y3,x4,y4
img_name
x1,y1,x2,y2,x3,y3,x4,y4
x1,y1,x2,y2,x3,y3,x4,y4
......
例如。
test_000001.jpg
457,51,699,124,697,206,452,143
test_000002.jpg
test_000003.jpg
75,202,336,249,322,315,59,270
490,311,582,311,582,345,490,345
如果未檢測到test_0002.jpg的文本框,則僅在文件中寫入test_0002.jpg。這些點應按順時針順序排列。測試圖像test_ReCTS_task3_and_task_4_000001.jpg在提交txt文件中應重命名爲test_000001.jpg。
評估指標
遵循ICDAR 2017-RCTW [2]數據集的評估協議,根據IoU閾值爲0.5和0.7的Precision,Recall和F分數評估檢測任務。
IoU = 0.5時的F分數將用作最終排名的唯一指標。
所有檢測到的或遺漏的“忽略的”事實將不會對評估結果有所幫助。
任務4.招牌中的端到端文本查找
該任務的目的是定位和識別招牌中的每個文本實例。輸入的圖像是完整的招牌圖像。
投稿格式
要求參與者提交txt文件,其中包含所有測試圖像的結果。結果格式爲:
img_name
x1,y1,x2,y2,x3,y3,x4,y4,轉錄
x1,y1,x2,y2,x3,y3,x4,y4,轉錄
img_name
x1,y1,x2,y2,x3,y3,x4,y4,轉錄
x1,y1,x2,y2,x3,y3,x4,y4,轉錄
......
例如。
test_000001.jpg
457,51,699,124,697,206,452,143,所有鍋
test_000002.jpg
test_000003.jpg
75,202,336,249,322,315,59,270,山裏人
490,311,582,311,582,345,490,345,山裏人
如果未檢測到test_0002.jpg的文本框,則僅在文件中寫入test_0002.jpg。這些點應按順時針順序排列。測試圖像test_ReCTS_task3_and_task_4_000001.jpg在提交txt文件中應重命名爲test_000001.jpg。
評估指標
首先,將每個檢測與具有最大IOU的地面真實多邊形匹配,如果IOU不大於0.5,則將其與“ None”匹配。如果多個檢測與同一地面真相匹配,則僅保留最大IOU的檢測,而其他檢測則記錄爲“無”。
然後,我們計算所有匹配對(si,si-hat)之間的編輯距離。我們將使用歸一化編輯距離(NED)評估預測的轉錄,公式爲:
其中D表示Levenshtein距離,si表示預測的文本行,si-hat表示相應的地面真相。N是文本行的總數。
參考
[1] MSRA-500:C。姚X.白,劉W.馬Y,塗Z。在自然圖像中檢測任意方向的文本。CVPR,2012年。
[2] RCTW:史波,姚春,廖明,等。ICDAR2017野外中文閱讀比賽(RCTW-17)[J]。2017。
[3] SCUT-CTW1500:俞良良,連文健,帥濤Z等。關鍵詞:野外檢測曲線文本,新數據集,新解法 2017。
[4] CTW:袁德良,朱志,徐克等。野外中文文本[J]。2018。
下載-ICDAR2019在招牌上閱讀中文文本的穩健閱讀挑戰
https://rrc.cvc.uab.es/?ch=12&com=downloads
ReCTS數據集包括25,000張圖像。它分爲20000張圖像的訓練集和5000張圖像的測試集。
Training Set
Mirror 1: https://link-pan.sankuai.com/plink/QpwtLx8A code: 1HvkY8
Mirror 2: https://drive.google.com/file/d/1orMtLhJt3rQl3pMoLm31eh-SmDG74W1K/view
Mirror 3: Hosted at the RRC
Test Set
1. The first part of the test set :
Mirror 1: https://link-pan.sankuai.com/plink/Qt5_VPhC code: R1kt5N
Mirror 2: https://drive.google.com/open?id=1mKqhPBDM-7BgUud69AYvQ7_BYmHqvFJC
Mirror 3: Hosted at the RRC
2. The second part of the test set:
Mirror 1:https://link-pan.sankuai.com/plink/QrEmyPv3 code: 28tHs0
Mirror 2: https://drive.google.com/file/d/1E8BlG5kh-JRAGOdYmCO75oi7Jy-UHHoW/view