멀티모달 개념
소개
멀티모달(다중 모드) AI 문제는 시각적 질문 답변, 이미지 캡션 및 시각적 대화에서 구현된 AI, 가상 비서 및 소셜 미디어에서 혐오 콘텐츠 감지에 이르기까지 다양하다.
MMF ("MultiModal Framework")는 PyTorch에 구축된 모듈식 프레임워크이다. MMF는 최첨단 비전 및 사전 학습된 언어 모델, 다양한 기본 제공 표준 데이터 세트, 공통 레이어 및 모델 구성 요소, 교육, 추론 유틸리티와 함께 패키지로 제공된다. MMF는 Facebook 팀에서 다중 모달 솔류션에 사용된다.
설치
파이토치가 설치되어 있는 가정에 터미널에서 아래를 실행한다.
pip install —-pre mmf
python -c “import mmf; print(mmf.__version__)”
사용
사용 방법은 다음과 같다.
cd ~/mmf/data
mkdir -p models && cd models;
wget https://dl.fbaipublicfiles.com/pythia/pretrained_models/textvqa/lorra_best.pth
cd ../..
python tools/run.py --datasets textvqa --model lorra --config \
configs/vqa/textvqa/lorra.yaml --resume_file data/models/lorra_best.pth \
--evalai_inference 1 --run_type inference
상세 내용은 메뉴얼을 참고한다.
레퍼런스
댓글 없음:
댓글 쓰기