이 글은 ChatGPT와 같은 생성AI 챗봇 개발을 위해, 페이스북에서 개발한 LLAMA2의 간단한 설치와 사용법을 나눔합니다.
설치 방법
LLAMA2 설치를 위해서는 미리 아나콘다, NVIDIA CUDA, 텐서플로우, 파이토치가 설치되어 있어야 한다.
다음과 같이 터미널에 명령을 입력한다.
conda create -n textgen python=3.10.9
conda activate textgen
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui
pip install -r requirements.txt
정상적으로 설치되었다면, 다음 명령을 입력한다.
python server.py
그리고, http://127.0.0.1:7860/ 웹페이지를 열어본다. 다음 화면이 표시될 것이다.
모델 탭에서 다음과 같이 허깅페이스에 업로드된 파일을 다운로드 받는다. 링크는 허깅페이스 URL "TheBloke/Llama-2-70B-chat-GPTQ"을 입력한다. 단, 이 모델은 대용량 GPU 메모리를 사용하므로, 로딩에 실패할 경우, 좀 더 경량화된 모델을 사용해야 한다.
다음은 GPU RAM을 고려한 적절한 학습 모델을 보여준다.
LLAMA 소요 메모리 용량(TheBloke/Llama-2-7B-Chat-GGML · Hugging Face)
8GB이하 메모리는 TheBloke/Llama-2-7b-Chat-GPTQ · Hugging Face 를 선택해 모델을 다운로드하고, 이를 선택한다.
선택된 모델은 옵션으로 Transformer를 선택하고, Load버튼을 클릭해 실행한다. 이후, Chat탭에서 프롭프트를 입력해 실행해 본다. 그럼, 다음과 같이 ChatGPT와 유사한 화면에서 생성된 텍스트를 확인할 수 있다.
레퍼런스
- TheBloke/Llama-2-70B-chat-GPTQ at main (huggingface.co)
- How To Install LLaMA 2 Locally On Windows (lachieslifestyle.com)
- How to Install Llama 2 Locally. After the major release from Meta, you… | by Tushit Dave | Aug, 2023 | Medium
- A comprehensive guide to running Llama 2 locally - Replicate – Replicate
- facebookresearch/llama: Inference code for LLaMA models (github.com)
댓글 없음:
댓글 쓰기