2026년 2월 24일 화요일

ViT 및 VLM 메커니즘 이해 및 코드 스크래치하기

이 글은 VLM 스크래치하는 방법을 나눔한다.

현재 시점(2026.3)에서 최상위 오픈소스 소형 VLM 중 가성비 제일 좋은 것은 gemma-4, qwen vlm 모델이다. 단 gemma-4 는 아무리 작은 모델도 파인튜닝을 위해선는 32GB 이상 VRAM이 필요하다. 
개인 로컬 GPU 에서는 SmolVLM, nanoVLM, 팔마 등이 그나마 적절한 VRAM(16GB) 에서 동작한다.


VLM 파인튜닝 레퍼런스
VLM 스크래치 레퍼런스
오픈소스 라이브러리

ViT 개념 설명 레퍼런스

댓글 없음:

댓글 쓰기