바로 이전 글에서 리뷰한 Vision Transformer Adapter와 비슷한 시기에 출간된 논문이다. 이전 논문에서는 AdaptFormer에 대한 언급이 있었는데 다른 점은 Vision Transformer Adapter은 dense prediction task를 위한 방법이고 AdaptFormer은 classification을 위한 방법이라고 한다.
Abstract
사전훈련된 ViT는 다양한 vision 분야에서 성공적인 효과를 보았지만 다양한 image, video recognition에서는 매우 큰 계산비용과 메모리의 문제 때문에 전이학습의 어려움을 겪고 있다. 우리는 AdaptFormer을 이용해 다양한 task에 효율적으로 적용할 수 있는 방법을 제안한다. 이는 2%의 추가적인 파라미터만을 통해 학습되며 사전훈련된 ViT의 파라미터는 업데이트 되지 않는다.
AdaptFormer은 non-linear activation function과 scaling factor로 이루어진 2개의 완전연결계층으로 이루어져 있다. 이는 Fig 2. b와 같이 ViT의 FFN과 병렬적으로 수행된다. 이러한 디자인은 image/video data 특징들을 효과적으로 전이시킨다.
Apporach
Fig2. b 를 보면 Vanilla ViT와 다르게 AdaptFormer은 AdaptMLP로 대체된다. 이는 추가적인 파라미터를 제한하기 위해 보틀넥 형태로 구성되며 down-up projection으로 구성된다. AdaptMLP의 연산은 scale factor \(s\)가 곱해진 후 residual connection으로 기존 MLP의 연산과 더해진다. 모델의 미세 조정시에는 원본 ViT의 파라미터는 모두 frozen되고 AdaptMLP의 가중치만 업데이트된다.
AdaptMLP는 플러그-앤-플레이 모듈로 서로 다른 MHSA방법을 사용해도 MLP 구조가 있는 모든 ViT에 적용될 수 있다.
Experimental settings
백본은 사전훈련된 가중치의 ViT이고 훈련간에 모든 가중치는 업데이트 되지 않는다. 추가되는 모듈의 가중치는 Kaiming Normal을 사용하고 biases는 zero initialization된다.
자세한 실험 내용은 원문을 참고하길 바람, 벤치마킹한 모델이 VPT밖에 없어서 아쉽다.