2023년 2월 16일 목요일

Pytorch 기반 비전 트랜스포머 ViT 에 대해

Pytorch로 비전 분류에서 SOTA를 달성하는 간단한 방법인 Vision Transformer (ViT)를 구현하는 방법을 간단히 공유한다. Vision Transformer는 ChatGPT, BERT 등과 같은 자연어 처리 분야에서 발전된 기술이다. 

트랜스포머트는 국부적인 특징을 캡쳐해 학습하는 CNN과는 다르게, 전체 데이터 영역의 특징을 학습한다. 
트랜스포머 개념 및 논문 설명

Pytorch에서 트랜스포머 인코더만으로 비전 분류에서 SOTA를 달성하는 방법은 오픈소스를 통해 이미 공유되어 있다. 
PyTorch로 구현하는 방법은 다음과 같다.

참고

댓글 없음:

댓글 쓰기