慧科訊業獲歐洲計算機視覺大會魯棒視覺挑戰賽亞軍

近日，歐洲計算機視覺大會2020-魯棒視覺挑戰賽-目標檢測賽道正式公佈競賽結果，慧科訊業AI實驗室（Wisers AI Lab）在此次比賽中脫穎而出，憑藉先進的人工智慧技術取得了亞軍的好成績。魯棒視覺挑戰2020 （ Robust Vision Challenge，簡稱RVC）是2020年計算機視覺界頂級學術會議ECCV（ the European Conference on Computer Vision ）下屬的一個學術交流會（ECCV Workshop： Robust Vision Challenge 2020），作為業內知名學術會議，此次大會吸引了谷歌、英特爾、蘋果等知名企業的合作與參與。

此次RVC挑戰的目標檢測賽道，整合了三個各具特色且差異較大的評測集。其中Google主辦的開放影象競賽（Open Image Competition）在2020年選擇加入RVC，成為該賽道的其評測專案之一。除此之外RVC還選取了目標識別（object detection）領域常用的COCO（Common Object in Context）資料集，以及針對戶外高畫質街景的MVD（Mapillary Vista Dataset）資料集作為其餘兩項評測專案。參賽者需要在RVC官方提供的整合資料標註空間提出一個統一的目標識別AI演算法模型並提交到全部三個評測專案中獲得最後的綜合打分。對於多個評測集的適配則成為了這次比賽最大的挑戰。通常情況下，各個資料集上的標籤會因為語義重疊而發生混淆，如果直接訓練模型，那結果一定會大打折扣。同時由於各資料集普遍存在的資料不平衡性，在整合多個數據集的時候這一問題顯得更為嚴重。最後由於此次比賽選擇了差異較大的評測集，資料特性的差異性（解析度，場景）也成為了一個非常棘手的問題。

對於以上難點，慧科訊業AI Lab團隊基於多年在影象識別模型擴充套件以及通用化方面的經驗提出了標籤融合等一系列的解決方法，最終取得了滿意的評測結果。其中標籤融合（label merge）能夠將相似度較大的標籤進行合併，在後處理的時候再透過反向對映恢復原來的標籤。從而在根本上杜絕了標籤混淆對訓練的影響。

而對於解決資料不平衡性問題，團隊將自然語言處理中的TF-IDF（詞頻-逆文字頻率指數，term frequency–inverse document frequency）技術引入到影象識別，首先提出了基於TF-IDF方法的離線資料抽樣（offline data sampling）來對所有的訓練資料依據其訓練中的重要性進行篩選。在此基礎上，團隊使用了軟平衡抽樣（soft-balanced sampling）技術對訓練資料進行分類感知抽樣（class-aware sampling），並透過一個綜合型訓練規劃器（hybrid training scheduler）將不同的抽樣方法加以統一，從而保證了每個樣本類別的最佳使用率。透過使用這些方法，最終在很大程度上緩和了資料不平衡帶來的影響。

本次競賽的資料特性存在大量差異性，在三個資料集中， MVD採用了大量的來自手機或相機的高解析度街景圖。，而另外兩個資料集則大多是由網路上爬取的圖片構成的。所以在完整資料集中，圖片的解析度，識別框的大小，比例相差都非常大。為了應對這個問題，慧科訊業AI Lab 團隊採用了較深的網路架構並賦以全面的訓練影象增強手段（如random crop隨機切割， multi-scale augmentation多級增強和 test- time augmentation線上增強等），最後再加上對特殊樣本的專家模型（expert model），很好地解決了資料差異性帶來的問題。

慧科訊業人工智慧實驗室成立於2014年，經過多年的發展，憑藉紮實的資料實力和前沿的人工智慧自然語言理解技術為行業智慧資料服務和AI解決方案的拓展與開發打下了堅實的基礎。AI Lab將持續研發各種新的演算法和工具技術解決方案，以解決更多文字理解，計算機視覺，多模態資料探勘和多維相關分析等基本技術挑戰，也將繼續深入探索人工智慧和大資料的結合應用，不斷拓展AI應用的邊界，完善AI功能，力爭幫助更多行業、更多領域的企業實現智慧數字化轉型，擁抱AI時代的到來。