Daddy Makers: ChatGPT와 같은 생성AI 서비스 개발을 위한 간단한 LLAMA-2 설치와 사용법

2023년 9월 17일 일요일

ChatGPT와 같은 생성AI 서비스 개발을 위한 간단한 LLAMA-2 설치와 사용법

이 글은 ChatGPT와 같은 생성AI 서비스 앱을 직접 개발 할 수 있는 페이스북에서 개발한 LLAMA2의 간단한 설치와 사용법을 나눔한다.

LLAMA-2 기반 자동 코딩 모습

라마 기술을 좀 더 깊게 이해하고 싶다면, 다음 링크를 참고한다.

라마-2 설치 방법

LLAMA2 설치를 위해서는 미리 아나콘다, NVIDIA CUDA, 텐서플로우, 파이토치가 설치되어 있어야 한다. 설치되지 않았다면, 다음 링크를 참고해 준비한다.

이제, 다음과 같이 터미널(명령창)을 실행한 후 명령을 입력한다.

conda create -n textgen python=3.10.9

conda activate textgen

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

git clone https://github.com/oobabooga/text-generation-webui.git

cd text-generation-webui

pip install -r requirements.txt

라마-2 실행

정상적으로 설치되었다면, 다음 명령을 입력한다.

python server.py

그리고, http://127.0.0.1:7860/ 웹페이지를 열어본다. 다음 화면이 표시될 것이다.

모델 탭에서 다음과 같이 허깅페이스에 다른 개발자들이 업로드된 학습모델파일을 다운로드 받는다. 예를 들어, 허깅페이스 모델 URL 중 "TheBloke/Llama-2-70B-chat-GPTQ"을 다음 그림가 같이 모델 경로 입력창에 설정한다(단, 이 모델은 대용량 GPU 메모리를 사용하므로, 로딩에 실패할 경우, 좀 더 경량화된 모델을 이용해 본다).

LLAMA2 모델 다운로드 모습

참고로, 다음은 GPU RAM 사용량을 함께 나타낸 학습 모델 리스트를 보여준다.

LLAMA 소요 메모리 용량(TheBloke/Llama-2-7B-Chat-GGML · Hugging Face)

제대로 학습모델이 다운로드 후 로딩되면, 다음과 같은 화면을 확인할 수 있을 것이다.

모델 다운로드 후 모습 및 파라메터 세팅 화면

선택된 모델은 옵션으로 Transformer등을 선택할 수 있다. 이제, Load버튼을 클릭해 실행한다. 이후, Chat탭에서 프롭프트를 입력해 실행해 본다. 그럼, 다음과 같이 ChatGPT와 유사한 화면에서 생성된 텍스트를 확인할 수 있다.

콜센터같이 질문 답변 생성하는 모습

프로그램 작성 모습

생성AI 기반 코딩하는 모습

마무리

이와 같이, LLAMA-2를 잘 활용하면, ChatGPT와 유사한 서비스를 자체적으로 구축할 수 있다. 다만, 이러한 생성AI를 사용하기 위해서는 앞서 설명한 개발환경 등이 미리 준비되어 있어야 하며, 목적을 고려해 생성AI 모델을 튜닝하려는 노력이 필요하다. 아울러, 상용 서비스 앱 개발을 위해서는 라이센스를 꼼꼼히 체크할 필요가 있다.

이외, LLM 기반 서비스 개발을 위해서는 OLLAMA, Langchain, LiteLLM 등 다양한 오픈소스 라이브러리가 있으니, 이를 적절히 활용해 개발하면 된다.

레퍼런스