이 글은 로컬 멀티모달 LLM 기반 간단한 RAG Enhanced Visual Question Answering 에이전트 기술을 간략히 정리한다.
멀티모달 문제 예시(Phi-3)
제너레이티브 AI 분야에서 최근 많은 발전은 기존의 트랜스포머 아키텍처를 확장하여 다양한 입력과 출력을 처리하는 멀티모달 모델을 만드는 데 집중하고 있다. 예를 들어, 텍스트뿐만 아니라 이미지, 비디오, 음성 등 여러 형태의 데이터를 동시에 처리하는 능력을 갖춘 모델들이 등장하고 있다. 이러한 멀티모달 모델은 이미 오픈 소스와 클로즈드 소스 환경에서 뛰어난 성능을 입증하고 있다.
멀티모달 모델 중 하나인 VLM(Vision Language Models)은 텍스트와 이미지를 동시에 이해하고 처리하는 능력을 가진 모델이다. 이 모델들은 LLaVA, Idefics, Phi-vision과 같은 다양한 변형으로 제공되며, 이러한 작은 모델들이 오픈 소스 커뮤니티에 중요한 기여를 하고 있다. LLaVA 같은 모델을 사용하면 Vision Language Chat Assistant 같은 애플리케이션을 쉽게 구축할 수 있다.
하지만 멀티모달 모델을 위한 RAG(Retrieval-Augmented Generation) 시스템을 설계하는 것은 단순히 텍스트만을 사용하는 경우보다 훨씬 복잡하다. LLM(Large Language Models)을 위한 RAG 시스템의 설계는 이미 확립되어 있으며, 주로 정확성과 신뢰성, 그리고 확장성을 개선하는 방향으로 발전해왔다. 그러나 멀티모달 모델에서는 다양한 데이터 형식을 사용하여 정보를 검색할 수 있는 여러 방법이 존재하며, 그에 따라 여러 가지 아키텍처 옵션이 주어진다.
예를 들어, 하나의 공통된 벡터 공간을 생성하여 여러 데이터 형식을 함께 임베딩할 수도 있고, 각 형식에 대해 별도의 공간을 유지하면서 필요한 경우만 통합할 수도 있다. 이러한 선택은 성능과 처리 효율성에 영향을 미치며, 각각의 접근법이 고유한 장점과 단점을 가지고 있다.
최근 Phi 3.5, LLaMA 멀티모달 버전이 오픈소스화 되면서, 이런 기술을 쉽게 구현할 수 있게 되었다. 더불어, 멀티에이전트를 지원하는 RAG 기술 중 하나인 LangGraph 등이 공개되면서, VLM은 좀 더 쉽게 서비스 개발할 수 있게 되었다.
레퍼런스
댓글 없음:
댓글 쓰기