Daddy Makers: 2024년 오픈소스 대형언어모델 소개

이 글은 2024년 오픈소스 대형언어모델을 간략히 소개한다. LLM은 자연어 처리를 위해 개발되었지만, 현재는 멀티모달리티 모델로 발전하고 있다.

다양한 LLM 모델과 자연어 처리

BERT

BERT 는 Google이 2018년에 도입한 LLM 제품군이다. BERT는 데이터 시퀀스를 다른 데이터 시퀀스로 변환할 수 있는 변환기 기반 모델이다. BERT의 아키텍처는 변압기 인코더의 스택이며 3억 4200만 개의 매개변수를 갖추고 있다. BERT는 대규모 데이터 코퍼스에 대해 사전 훈련된 후 자연어 추론 및 문장 텍스트 유사성과 함께 특정 작업을 수행하도록 미세 조정되었다. 이는 2019년 Google 검색 반복에서 쿼리 이해를 향상시키는 데 사용되었다.

Claude

Claude LLM은 AI 보조자가 유용하고 무해하며 정확하도록 돕는 일련의 원칙에 따라 AI 출력을 형성하는 헌법적 AI에 중점을 둔다. Claude는 Anthropic이라는 회사에서 만들어졌다. Claude LLM의 최신 버전은 Claude 3.5 Sonnet이다. LLM의 이전 버전보다 뉘앙스, 유머 및 복잡한 지침을 더 잘 이해하고 Claude 3 Opus의 두 배 속도로 작동하다. Claude.ai 및 Claude iOS 앱을 통해 무료로 사용할 수 있다.

Cohere

Cohere는 Command, Rerank 및 Embed를 포함한 여러 LLM을 제공하는 엔터프라이즈 AI 플랫폼이다. 이러한 LLM은 특정 회사의 사용 사례에 맞게 맞춤 학습되고 미세 조정될 수 있다 . Cohere LLM을 만든 회사는 Attention Is All You Need의 저자 중 한 명이 설립했다. Cohere의 강점 중 하나는 Microsoft Azure 에 바인딩된 OpenAI와 달리 하나의 단일 클라우드에 바인딩되지 않는다는 것이다.

Ernie

Ernie는 Ernie 4.0 챗봇을 지원하는 Baidu의 대규모 언어 모델이다. 이 봇은 2023년 8월에 출시되었으며 4,500만 명 이상의 사용자를 확보했다. 어니는 10조 개의 매개변수를 가지고 있다는 소문이 돌았다. 봇은 중국어에서 가장 잘 작동하지만 다른 언어로도 가능하다.

Falcon 40B

Falcon 40B는 Technology Innovation Institute에서 개발한 변환기 기반의 인과 디코더 전용 모델이다. 오픈 소스이며 영어 데이터로 교육되었다. 이 모델은 Falcon 1B와 Falcon 7B(10억 및 70억 매개변수)의 두 가지 작은 변형으로도 제공된다. Amazon은 Amazon SageMaker 에서 Falcon 40B를 사용할 수 있게 만들었다 . GitHub에서도 무료로 사용할 수 있다.

Gemini

Gemini는 동일한 이름의 회사 챗봇을 지원하는 Google의 LLM 제품군이다. 이 모델은 모델 전환 시 Bard에서 Gemini로 브랜드가 변경된 챗봇을 지원하는 데 Palm을 대체했다. Gemini 모델은 다중 모드이므로 이미지, 오디오, 비디오는 물론 텍스트도 처리할 수 있다. Gemini는 많은 Google 애플리케이션 및 제품에도 통합되어 있다. 울트라, 프로, 나노 세 가지 크기로 제공된다. Ultra는 가장 크고 성능이 뛰어난 모델이고 Pro는 중간 계층 모델이며 Nano는 가장 작은 모델로 기기 내 작업 효율성을 위해 설계되었다. Gemini는 대부분의 평가된 벤치마크에서 GPT-4를 능가하다.

GPT-3

GPT-3는 2020년에 출시된 1,750억 개 이상의 매개변수를 갖춘 OpenAI의 대규모 언어 모델이다. GPT-3은 디코더 전용 변환기 아키텍처를 사용하다. 2022년 9월 Microsoft는 GPT-3의 기본 모델을 독점적으로 사용한다고 발표했다. GPT-3은 이전 제품보다 10배 더 커졌다. GPT-3의 학습 데이터에는 Common Crawl, WebText2, Books1, Books2 및 Wikipedia가 포함된다.

GPT-3은 OpenAI가 매개변수 수를 공개적으로 제공한 GPT 시리즈 모델 중 마지막 모델이다. GPT 시리즈는 2018년 OpenAI의 논문 "Improving Language Understanding by Generative Pre-Training"으로 처음 소개되었다.

GPT-4

GPT-4는 2023년에 출시된 OpenAI의 GPT 시리즈 중 가장 큰 모델이다. 다른 모델과 마찬가지로 트랜스포머 기반 모델 이다 . 다른 모델과 달리 매개변수 개수는 공개되지 않았지만 해당 모델에는 170조 개가 넘는다는 소문이 있다. OpenAI는 GPT-4를 다중 모드 모델로 설명하다. 즉, 언어로만 제한되는 것이 아니라 언어와 이미지를 모두 처리하고 생성 할 수 있다는 의미이다. GPT-4에는 사용자가 음성 톤과 작업을 지정할 수 있는 시스템 메시지도 도입되었다.

GPT-4는 여러 학업 시험에서 인간 수준의 성능을 보여주었다. 모델 출시 당시 일각에서는 GPT-4가 인공지능 (AGI)에 가까워졌다는 추측이 나왔다. 이는 인간과 동등하거나 더 똑똑하다는 의미다. GPT-4는 Microsoft Bing 검색을 지원하며 ChatGPT Plus에서 사용할 수 있으며 최종적으로 Microsoft Office 제품에 통합될 예정이다.

GPT-4o

GPT-4 Omni( GPT-4o )는 OpenAI의 GPT-4 후속 제품이며 이전 모델에 비해 몇 가지 향상된 기능을 제공하다. GPT-4o는 ChatGPT를 위한 보다 자연스러운 인간 상호 작용을 생성하며 오디오, 이미지 및 텍스트를 포함한 다양한 입력을 허용하는 대규모 다중 모드 모델이다. 대화를 통해 사용자는 일반적인 인간 대화처럼 참여할 수 있으며 실시간 상호 작용을 통해 감정을 포착할 수도 있다. GPT-4o는 사진이나 화면을 보고 상호 작용 중에 질문을 할 수 있다.

GPT-4o는 인간의 응답 시간과 비슷하고 GPT-4 Turbo보다 빠른 232밀리초 내에 응답할 수 있다. GPT-4o 모델은 무료이며 개발자 및 고객 제품에 사용할 수 있다.

Lamda

대형 언어 모델 Meta AI(Llama)는 2023년에 출시된 Meta의 LLM이다. 가장 큰 버전은 매개변수 크기가 650억 개이다. Llama는 원래 승인된 연구원 및 개발자에게 출시되었지만 현재는 오픈 소스이다. Llama는 사용, 테스트 및 실험에 더 적은 컴퓨팅 성능이 필요한 더 작은 크기로 제공된다.

Llama는 변환기 아키텍처를 사용하며 CommonCrawl, GitHub, Wikipedia 및 Project Gutenberg의 웹페이지를 포함한 다양한 공개 데이터 소스에 대해 교육을 받았다. Llama는 효과적으로 유출되어 Vicuna와 Orca를 포함한 많은 후손을 낳았다.

Mistral

Mistral은 평가된 모든 벤치마크에서 비슷한 크기의 Llama의 언어 모델보다 성능이 뛰어난 70억 개의 매개변수 언어 모델이다. Mistral은 또한 지침을 따르도록 특화된 미세 조정 모델을 보유하고 있다. 크기가 작기 때문에 비즈니스 목적에 맞는 자체 호스팅 및 유능한 성능이 가능하다. Apache 2.0 라이센스로 출시되었다.

Orca

Orca는 Microsoft에서 개발했으며 130억 개의 매개변수를 가지고 있다. 즉, 노트북에서 실행할 수 있을 만큼 작다. LLM이 달성한 추론 절차를 모방하여 다른 오픈 소스 모델의 발전을 개선하는 것을 목표로 하다. Orca는 훨씬 적은 수의 매개변수로 GPT-4와 동일한 성능을 달성하며 많은 작업에서 GPT-3.5와 동등하다. Orca는 LLaMA의 130억 매개변수 버전을 기반으로 구축되었다.

Palm

Pathways 언어 모델은 AI 챗봇 Bard를 지원하는 Google의 5,400억 매개변수 변환기 기반 모델이다 . Google의 머신러닝용 맞춤 하드웨어인 여러 TPU 4 Pod 에서 학습되었다 . Palm은 코딩, 수학, 분류, 질문 답변 등의 추론 작업을 전문으로 하다. Palm은 복잡한 작업을 간단한 하위 작업으로 분해하는 데에도 탁월하다.

PaLM은 Pathways를 구축하여 궁극적으로 여러 사용 사례의 기반이 되는 단일 모델을 만드는 Google 연구 이니셔티브에서 이름을 따왔다. 생명 과학 및 의료 정보를 위한 Med-Palm 2와 위협 분석 속도를 높이기 위한 사이버 보안 배포를 위한 Sec-Palm을 포함하여 여러 가지 정밀 조정된 버전 의 Palm이 있다 .

Phi

Phi-1은 Microsoft의 변환기 기반 언어 모델이다. 단 13억 개의 매개변수로 Phi-1은 교과서 수준의 데이터 수집에 대해 4일 동안 훈련되었다. Phi-1은 더 나은 품질의 데이터와 합성 데이터에 대해 훈련된 더 작은 모델을 향한 추세의 예이다.

Phi-1은 Python 코딩을 전문으로 하며 크기가 작기 때문에 일반 기능이 적다.

StableLM

StableLM은 이미지 생성기 Stable Diffusion을 개발한 Stability AI에서 개발한 오픈 소스 언어 모델 시리즈이다. 이 글을 쓰는 시점에는 30억, 70억 개의 매개변수 모델이 사용 가능하며 150억, 300억, 650억, 1,750억 개의 매개변수 모델이 진행 중이다. StableLM은 투명하고 접근 가능하며 지원을 제공하는 것을 목표로 하다.

Vicuna

Vicuna는 Llama에서 파생된 또 다른 영향력 있는 오픈 소스 LLM이다. LMSYS에서 개발했으며 sharegpt.com의 데이터를 사용하여 미세 조정되었다. 여러 벤치마크에 따르면 GPT-4보다 작고 성능이 떨어지지만 해당 크기의 모델에는 적합하다. Vicuna에는 330억 개의 매개변수가 있는 반면 GPT-4에는 수조 개의 매개변수가 있다.

이외에, Gemma, Phi2와 같이 3B이하 매개변수를 가지는 소형 LLM도 릴리즈되었다. 이들은 노트북과 같은 온디바이스에 설치되어 사용될 수 있다. 다음은 소형 LLM 간 성능 비교를 보여준다.