谷歌提出「卷積+注意力」新模型，超越ResNet最強變體！

Transformer跨界計算機視覺雖然已取得了一些不錯的成績，但大部分情況下，它還是落後於最先進的卷積網路。

現在，谷歌提出了一個叫做

CoAtNets

的模型，看名字你也發現了，這是一個

Convolution + Attention

的組合模型。

圖片

該模型實現了ImageNet資料集

86.0%

的top-1精度，而在使用JFT資料集的情況下實現了

89.77%

的精度，效能優於現有的所有卷積網路和Transformer！

圖片

卷積結合自注意，更強的泛化能力和更高的模型容量

他們是如何決定將卷積網路和Transformer結合起來造一個新模型呢？

首先，研究人員發現，卷積網路和Transformer在機器學習的兩個基本方面——泛化和模型容量上各具優勢。

由於卷積層有較強的歸納偏置（inductive bias），所以卷積網路模型具有更好的

泛化能力

和更快的收斂速度，而擁有注意機制的Transformer則有更高的

模型容量

，可以從大資料集中受益。

那將卷積層和注意層相結合起來，不就可以同時獲得更好的泛化能力和更大的模型容量嗎！

那好，關鍵問題來了：如何有效地將它們結合起來，並在準確性和效率之間實現更好的平衡？

圖片

研究人員又發現，常見的深度卷積（depthwise convolution）只需簡單的相對注意就可以合併進注意力層！

因此，他們將CoAtNets的實現分為兩步：

1、將卷積和自注意結合在一個基本計算塊中；

2、將不同型別的計算塊垂直堆疊在一起（垂直佈局設計），形成完整的網路。

具體實現

首先，由於Transformer和MBConv中的FFN模組都採用了“反向瓶頸”的設計，加上深度卷積和自我注意都可以用預定義的感受野中的加權和來表示，

CoAtNets主要採用MBConv卷積塊

。

具體來說，

卷積

依賴於一個固定核從區域性感受野收集資訊：

圖片

相比之下，

自注意

允許感受野成為整個空間位置，並基於對（xi，xj）之間的重歸一化成對相似性來計算權重：

圖片

將它們以最佳形式結合之前，研究人員比較了一下兩者各自的理想特性。

圖片

一個結合深度卷積和自注意的理想模型需要具備以上3個特性，而研究人員的實現方法很簡單：在Softmax歸一化前或後，將

全域性靜態卷積核

與

自適應注意矩陣

求和。

圖片

將卷積和注意力結合起來之後，就可以開始堆疊整個網路。

全域性上下文在空間大小（spatial size）方面具有二次複雜性，如果直接將上述公式中的相對注意應用到原始影象輸入，會因為普通尺寸影象中過多的畫素，導致

計算速度過慢

。

因此，要構建一個在實際操作中可行的模型，研究人員選擇在feature map達到可管理水平後，進行一些下采樣以減小空間大小，再使用全域性相對注意。

其中

下采樣

可以像ViT那樣用具有積極步幅（stride，例如16x16）的

convolution stem

或像

ConvNets

裡具有漸進池的多級網路來實現。

研究人員按照上面兩種方法堆疊出5個變體：C-C-C-C、C-C-C-T、C-C-T-T和C-T-T-T以及ViT，其中C和T分別表示卷積和Transformer。

為了作出選擇，他們進行了對照實驗，選出了泛化能力和模型容量最好的兩個：C-C-T-T和C-T-T-T，優中選優，最終選擇了遷移效能更好的

C-C-T-T

。

圖片

至此，完整的CoAtNets模型就實現了。

NO。1的top-1精度

其實，將卷積和自注意相結合用於計算機視覺的想法並不新鮮，但此前的一些方法通常會帶來額外的計算成本等問題。

而他們的相對注意例項化是深度卷積和基於內容的注意力的自然結合，加上優中選優的垂直佈局設計，新模型CoAtNets造成的

額外成本最小

。

下面就來看具體的實驗資料：

圖片

僅使用

ImageNet-1K

資料集的實驗結果表明：CoAtNet不僅優於ViT變體，還能匹敵最佳的僅卷積結構（EfficientNet-V2和nfnet）。

從上表和下圖還可以看出：使用

ImageNet-21K

進行預訓練，CoAtNet的優勢變得更加明顯，大大優於以前的所有模型。

且最好的CoAtNet變體實現了

88.56%的top-1精度

，而與之匹敵的ViT-H/14則需要在23倍大的JFT資料集上預先訓練2。3倍規模的ViT才能達到88。55%的成績。

這標誌著CoAtNet模型資料效率和計算效率的顯著提高。

圖片

△

ImageNet-21K ImageNet-1K 的引數精度

最後，研究人員用

JFT

進一步評估了大規模資料集下的CoAtNet，發現它達到89。77%精度，超過ResNet最強變體NFNet-F4+

排名第一

，同時在TPU訓練時間和引數計數方面提高了

2倍

效率。

圖片

作者介紹

論文的四位作者全部來自谷歌大腦。

圖片

Dai Zihang，本科清華大學工商管理專業，碩士卡內基梅隆大學計算機專業，博士卡內基梅隆大學計算機和哲學雙學位。

圖片

劉寒驍，同為清華本科，卡內基梅隆大學計算機博士，谷歌大腦高階研究科學家，曾在DeepMind研究神經架構搜尋。

圖片

Quoc Le，這位大佬應該很多人都知道，斯坦福大學計算機科學博士畢業，吳恩達的學生，谷歌大腦的創始成員和 AutoML 的締造者之一。

圖片

Tan Mingxing ，北京大學博士畢業、康奈爾大學博士後。