어제 Segment Anything Model + Adapter 논문 리뷰를하면서 처음 본 Adapter 라는것에 대해 알기 위해 하는 리뷰
Abstract
이 연구는 ViT의 dense prediction을 성능을 향상시키기 위한 어댑터에 대한 내용이다. ViT는 사전 지식의 부족으로 인해 dense prediction에서 약한 성능을 보이지만 어댑터를 적용하여 특정 task에 더욱 좋은 성능을 보일 수 있다.
Introduction
NLP에서 영감을 받아 우리는 어댑터를 적용하여 dense prediction task에서의 ViT 성능의 격차를 좁히는 데 집중할 것이다. 어댑터는 사전 훈련이 필요하지 않고 ViT의 downstream을 보조한다. 어댑터는 3가지의 모듈로 구성되어 있는데 1) 입력 이미지로부터 local semantic을 획득하기 위한 공간 모듈, 2) 공간 모듈로부터 획득한 특징을 결합하여 주입하는 주입기, 3) 다양한 크기로부터 획득한 특징을 재구성하여 추출하는 추출기 이다.
Fig1. 과 같이 우리는 다양한 모달의 이미지로부터 사전 훈련된 ViT를 백본으로 사용하고 random initial된 어댑터를 적용한다.
Vision Transformer Adapter
Fig 4. 와 같이 우리의 모델은 두갈래로 나뉜다. 하나는 일반적인 ViT의 흐름이고 다른 하나는 (b)에 해당하는 어댑터이다. ViT는 중복이 없는 16x16크기의 패치 이미지로 나눈 후 D-dim으로 변환된다. 어댑터에서는 가장먼저 공간 모듈로 이미지를 입력하여 1/8, 1/16, 1/32 의 3가지 크기로 이미지를 축소시킨다.
이 특징들은 flatten-concat 되어 ViT의 N개 블록과 상호 작용한다. 그림과 같이 주입기(Injector)를 통해 블록에 입력되어 출력된 특징들은 추출기(Extractor)로 다시 입력된다.
N번의 상호작용 이후 얻게 되는 특징맵을 다시 1/8, 1/16, 1/32 크기로 나누고 변형한 후, 1/8크기의 특징맵은 2x2 transposed convolution을 이용해 1/4크기의 특징맵으로 업샘플링 한다. 이 방법을 통해 ResNet의 feature pyramid와 비슷한 크기의 특징맵을 획득할 수 있으며 이를 이용해 downstream task를 진행할 수 있다.
Spatial Prior Module
최근의 연구들은 convolutions이 local spatial을 학습하여 ViT의 성능향상에 도움을 줄 수 있다고 한다. Fig 4.c 와 같이 우리는 ResNet의 conv stem 구조를 적용하였고 이는 3개의 conv와 max-pool로 이루어져 있다. 이후 stride-2, 3x3 conv를 쌓은 구조를 이용해 채널을 늘리고 특징맵의 크기를 줄였다. 마지막으로 1x1 conv가 적용되어 D-dim의 특징 피라미드를 획득하게 된다.
Feature Interaction
주입기와 추출기는 cross-attention에 기반하여 수행되는 모듈이다.
Spatial Feature Injector(주입기)
- ViT블록으로부터 출력된 특징을 쿼리, 공간 모듈로부터 출력된 특징을 키와 밸류로 사용한다.
식은 (1)과 같고 norm은 LayerNorm, Attention은 sparse attention을 사용하였다. \(\gamma ^i\)는 0으로 초기화 된 학습 가능한 벡터로 어텐션의 출력과 \(F^i_{vit}\)사이의 값을 조절하여 사전 훈련된 ViT의 가중치를 안정적으로 사용할 수 있게 해준다.
Multi-Scale Feature Extractor(추출기)
- cross-attention + FFN(feed-forward network)로 이루어져 다양한 크기의 특징을 추출한다. 여기서는 공간 모듈로부터 획득한 특징을 쿼리로, ViT block에서 출력된 특징을 키와 밸류로 사용한다. 주입기와 마찬가지로 sparse attention을 사용하였다.
Architecture Configurations
ViT-T, ViT-S, ViT-B, ViT-L에 해당하는 4개의 어댑터를 설계하였으며 이는 각각 2.5M, 5.8M, 14.0M, 23.7M의 파라미터를 가진다. deformable attention을 sparse attention으로 사용하였으며 sampling points는 모두 4로 고정되고 어텐션 헤드는 6, 6, 12, 16이다. 총 N=4의 interaction이 있으며 마지막에서는 다중 크기의 추출기가 있다. FFN의 reduction ratio = 0.25, size = 48, 96, 192, 256에 해당한다.
자세한 실험결과는 원문을 참고 바람