極鏈科技目標檢測獲Open Images第一,ECCV 2020挑戰賽第二

近日,極鏈科技在Google AI推出的2020 Open Images Challenge大規模目標檢測競賽和國際頂會ECCV 2020 VIPriors挑戰賽目標檢測賽道中分別獲得第一名、第二名的佳績。

目標檢測算法是計算機視覺任務中的重要手段,廣泛應用於機器人導航、智能視頻監控、工業檢測、航空航天等諸多領域,通過計算機視覺減少對人力資本的消耗,具有非常重要的現實意義,因此各種通用目標檢測算法競賽每年也會持續召開。

Open Images是谷歌在2016年推出的大規模圖像數據集,包括大約900萬張圖片,標註了數千個圖像類別。並且從2018年開始,谷歌就基於Open Images數據集發起了系列挑戰賽。Google在本屆挑戰賽中更是開放了最新的Open Images V6,希望可以進一步刺激人們對真實場景的理解。

ECCV作爲全球三大計算機視覺頂會之一,同樣十分關注目標檢測領域。ECCV 2020 VIPriors Object Detection挑戰賽採用COCO數據集作爲訓練集以及驗證、測試各5000張用於榜單排名。與其他比賽不同的是,該比賽禁止使用任何額外數據集以及預訓練模型,即所有模型必須“train from scratch”。初衷是鼓勵探索能夠高效學習的AI神經網絡,降低神經網絡訓練過程中的人力標註成本和計算資源消耗。

在以上兩個國際賽事能夠取得好的成績,極鏈科技主要使用最新的多階段目標檢測算法,以下做詳細說明。

首先,Baseline框架選用Backbone + FPN + DCNv2 + Cascade RCNN,這套組合可以說是最近各種國內外目標檢測比賽的常客,不需要做過多解釋,這裏主要說明一下針對上述兩個比賽(以下簡稱Open Images和VIPriors)在其他模塊上的選擇。由於兩個比賽性質的不同:Open Images數據量較大且允許額外數據、VIPriors數據量較小且不允許預訓練及額外數據,對於這些特性我們在算法選擇上會有相對的側重點。

關於Open Images,在參考了前幾年獲勝隊伍的思路後,我們認爲取得好成績的關鍵在於額外數據以及強大的Backbone。舉個例子,去年前四名的隊伍都使用了Objects365做爲額外數據集,而沒有使用任何額外數據的第五名團隊最終成績與第一名團隊差了幾乎5個百分點的mAP。另一方面,由於Open Images數據量非常大(加上Objects365後更大),在選擇Backbone時不難想象越複雜的網絡最終的效果越好。基於這兩點,我們的最終提交由以下五個模型組成:

l Baseline w/ ResNet-152

l Baseline w/ Res2Net-152

l Baseline w/ ResNeSt-152

l Baseline w/ ResNeSt-152 + Libra

l Baseline w/ ResNeSt-152 + Libra + GCB

每個模型都使用了Open Images + Objects365一起訓練以及Multi-Scale Training & Testing,最終融合策略在比較了NMS, Soft-NMS, NMW, TkV,以及WBF後採用了閾值爲0.55的WBF。

關於VIPriors,由於其數據量較小(訓練集~6000,驗證集~5000),我們主要選擇以ResNet-50爲主的模型(Baseline同上)並將重心放在數據增廣上。最終提交使用基於Albumentations, AutoAugment, MixUp, GridMask, Stitchers, Mosaics等不同數據增強組合訓練的模型且增加訓練時長至72~108週期,相比於傳統的在COCO上的1x(即12週期)或2x(即24週期)訓練策略增加了4至9倍。應主辦方要求,詳細的思路已經以報告形式上傳至https://arxiv.org/abs/2007.08849

目前,多階段目標檢測算法也應用於極鏈科技的明星產品——視頻結構化數據引擎“金目系統”。該系統利用極鏈科技自研的VideoAI技術,專注於影視劇和綜藝等文娛領域的視頻理解,識別視頻中的8大數據維度:明星、物體、品牌、場景、表情、動作、地標、事件,並支持基於文本的內容識別(OCR),生成可商業化的結構化標籤數據。目前已批量支持互聯網廣告營銷、內容安全審覈、智能安防、政企服務等多個應用領域。

極鏈科技作爲一家成立於2014年,以計算機視覺技術驅動的科技公司,不僅在國際國內各大計算機視覺領域競賽中屢獲佳績,在商業化落地上的表現也是可圈可點,合作伙伴包括愛奇藝、芒果TV、鬥魚直播等一線流量平臺,明略科技、藝恩等國內領先的數據服務商,以及具備視頻識別技術需要的政企機構。

極鏈科技聚焦AI在互聯網、旅遊、安防等領域的商業化落地。未來,極鏈科技將繼續加大投入包括目標檢測、人像分割、場景識別等在內的計算機視覺技術在更多細分場景的應用落地,助力產業智能化。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章