Daddy Makers

인공지능 멀티 에이전트 개발 방법 정리

2025-07-08T18:24:00.000-07:00

이 글은 인공지능 멀티 에이전트 개발 방법을 정리한 것이다.

기술스택

crewai

높은 수준의 프레임워크로 포지셔닝된 CrewAI는 다양한 방식으로 협업할 수 있는 롤플레잉 에이전트로 구성된 "크루"의 생성이 용이하다.

설치는 uv를 이용한다. 참고로, 현재 시점(2025.7)에서 윈도우 버전 설치는 불안정(참고)하며, 우분투 리눅스에 uv로 설치하면 좀 더 쉽게 설치할 수 있다.

uv venv

uv tool install crewai

Installation - CrewAI

다음은 관련 예제이다.

Langchain

langgraph

엄밀히 말하면 다중 에이전트 프레임워크는 아니지만 LangGraph를 사용하면 그래프 구조를 사용하여 행위자 간의 복잡한 상호 작용을 정의한다.

Autogen

Microsoft에서 개발한 AutoGen은 대화형 접근 방식을 사용하며 다중 에이전트 시스템을 위한 초기 프레임워크 중 하나이다.

Swarm

MAS using LLM, Swarm

기타, Carmel, Agno 등이 있다.

레퍼런스

확실하게 성공하는 바이브 코딩 도구 사용 방법

2025-07-07T18:15:00.000-07:00

이 글은 확실하게 성공하는 바이브 코딩 도구 사용 방법을 보여준다. 여기서는 바이브 코딩 도구로 PRD(Product Requirement Document) 작성은 Gemini Pro, 바이브 코딩 도구는 Github Copilot, 대형언어모델 LLM은 Claude Sonet을 사용했다(LLM은 본인 입맛에 맞게 사용하면 됨).

바이브 코딩 준비하기

바이브 코딩을 하는 방법은 다음과 같이 다양하다.

ChatGPT 에 코딩 요청을 해서 생성된 파이썬 같은 코드를 복사&붙여넣기해 프로그램을 완성해 나가는 방법
Gemini CLI, Claude code CLI, codex CLI 도구를 사용해 프로젝트 파일 및 소스코드를 생성하는 방법
vscode 같은 개발 IDE와 연동되는 github copilot, cursor, windsurf와 같은 도구를 사용해 바이브 코딩하는 방법
Bubble.io나 Canva와 같은 바이브 코딩 웹서비스에서 직접 요구사항을 입력하여 제공 클라우드에 앱을 생성 빌드 실행하는 방법

여기서는 로컬PC에서 프로젝트 소스 파일들을 생성하고 직접 수정할 수 있도록 vscode에서 바이브 코딩할 수 있는 방법을 취한다. 이를 위해 다음 환경을 미리 준비한다.

Gemini Pro 가입
파이썬, node.js 설치
Github 가입
Copilot 서비스 가입
vscode 설치 및 코딩 언어 관련 확장(Extension) 애드인 설치

요구사항 작성하기

바이브 코딩 목적은 텍스트 편집기를 개발하는 것이다. 이를 위한 PRD를 작성하고, 바이브 코딩을 진행한다. PRD작성을 위해 프롬프트를 다음과 같이 입력한다.

GUI 기반 텍스트 편집기를 개발할꺼야. 파이썬과 Tkinter 라이브러리를 이용할꺼야. 메뉴는 파일 메뉴, 편집 메뉴, 테마 선택 메뉴(다크모드 하위 메뉴 포함), 찾기 메뉴로 구성됨. 이 프로그램 개발을 위한 PRD를 UI 스케치를 포함해 md 포맷으로 작성해.

사용할 라이브러리와 같은 기술 스택을 지정하는 것은 중요하다. 약간 시행착오를 하며 명확한 PRD가 작성될 수 있도록 프롬프트에 정확한 정보를 포함시킨다. md 포맷은 좀 더 명확한 문서형식작성을 위해 사용했다. md포맷은 markdown 파일형식으로 github에서 README 파일 작성할때 표준 형식이다.

다음은 이렇게 생성된 제품 요구사항 문서이다.

# **Python/Tkinter 기반 GUI 텍스트 편집기 제품 요구사항 명세서 (PRD)**

## **1. 개요**

본 문서는 파이썬(Python)과 표준 GUI 라이브러리인 티케이인터(Tkinter)를 사용하여 개발될 데스크톱 텍스트 편집기의 요구사항을 정의합니다. 이 애플리케이션은 기본적인 텍스트 편집 기능과 함께 사용자의 편의를 위한 다크 모드, 찾기 기능 등을 제공하는 것을 목표로 합니다.

## **2. 목표 사용자**

* **초보 개발자 및 학생**: 간단한 코드나 스크립트, 메모, 과제 등을 작성하고 편집하려는 사용자.

* **일반 사용자**: Windows 메모장과 같은 가볍고 빠른 텍스트 편집기가 필요한 사용자.

## **3. 핵심 기능**

### **3.1. 파일 메뉴**

| 기능 | 단축키 | 설명 |

| :--- | :--- | :--- |

| **새 파일** | `Ctrl+N` | 새로운 빈 편집 창을 엽니다. |

| **열기** | `Ctrl+O` | 기존 텍스트 파일 (`.txt` 등)을 불러옵니다. |

| **저장** | `Ctrl+S` | 현재 파일을 덮어쓰기 저장합니다. |

| **다른 이름으로 저장** | `Ctrl+Shift+S` | 새 이름이나 경로로 파일을 저장합니다. |

| **종료** | `Alt+F4` | 프로그램을 종료합니다. (저장되지 않은 내용이 있으면 경고) |

### **3.2. 편집 메뉴**

| 기능 | 단축키 | 설명 |

| :--- | :--- | :--- |

| **실행 취소 (Undo)** | `Ctrl+Z` | 마지막 작업을 되돌립니다. |

| **다시 실행 (Redo)** | `Ctrl+Y` | 되돌린 작업을 다시 실행합니다. |

| **잘라내기** | `Ctrl+X` | 선택한 텍스트를 잘라내 클립보드에 저장합니다. |

| **복사** | `Ctrl+C` | 선택한 텍스트를 클립보드에 복사합니다. |

| **붙여넣기** | `Ctrl+V` | 커서 위치에 클립보드의 내용을 붙여넣습니다. |

### **3.3. 테마 선택 메뉴**

| 기능 | 설명 |

| :--- | :--- |

| **라이트 모드** | 기본 테마 (흰 배경, 검은 글씨)를 적용합니다. |

| **다크 모드** | 어두운 테마 (회색/검은 배경, 흰 글씨)를 적용합니다. |

### **3.4. 찾기 메뉴**

| 기능 | 단축키 | 설명 |

| :--- | :--- | :--- |

| **찾기** | `Ctrl+F` | 문서 내에서 특정 문자열을 검색할 수 있는 입력창 또는 대화상자를 엽니다. |

-----

## **4. 기술 스택**

* **프로그래밍 언어**: **Python 3.x**

* **GUI 라이브러리**: **Tkinter** (파이썬 표준 라이브러리)

-----

## **5. UI 스케치**

애플리케이션의 전체적인 레이아웃 스케치입니다.

```

+----------------------------------------------------------------------+

| My Text Editor - □ X |

+----------------------------------------------------------------------+

| 파일(F) | 편집(E) | 테마(T) | 찾기(S) |

+----------------------------------------------------------------------+

| | |

| | ############################################## |

| | # # |

| | # 사용자가 텍스트를 입력하는 메인 영역 # |

| | # # |

| | ############################################## |

| | |

+----------------------------------------------------------------------+

| 줄: 1, 열: 1 UTF-8 |

+----------------------------------------------------------------------+

```

**UI 구성 요소:**

* **제목 표시줄**: 프로그램 이름과 창 조절 버튼이 표시됩니다.

* **메뉴 바**: 파일, 편집, 테마, 찾기 메뉴가 위치하며, 각 메뉴 클릭 시 하위 메뉴 항목들이 나타납니다.

* **텍스트 영역**: 스크롤 가능한 주 텍스트 편집 공간입니다.

* **상태 표시줄**: 하단에 커서의 현재 위치(줄, 열)나 인코딩 같은 간단한 상태 정보를 보여줍니다.

-----

## **6. 성공 지표**

* 명시된 모든 메뉴 기능(파일 I/O, 편집, 테마 변경, 찾기)이 정상적으로 작동합니다.

* 다크 모드와 라이트 모드 간 전환이 즉시 UI에 반영됩니다.

* 프로그램이 안정적으로 실행되며, 일반적인 사용 환경에서 오류로 인해 종료되지 않습니다.

vscode에서 바이브 코딩하기

vscode를 실행하고, 생성된 PRD파일을 copilot에 알려주고, 이대로 프로그램 작성하도록 입력한다.

혹시, 에러가 발생하면, 메시지를 다시 입력해 수정하는 과정을 반복하면 된다. 다음 영상은 바이브 코딩 과정을 보여준다.

결과적으로 큰 문제 없이 편집기가 동작되는 것을 확인할 수 있다.

결론

바이브 코딩이 최근 매우 발전해서, 요구사항도 추론해주고, 심지어 SRS(Software Requirement Specification), SAD(Software Architecture Document)도 작성해 준다. 향후에는 말만 하면, 소프트웨어 공학에서 필수로 다루는 SRS, SAD뿐 아니라, UML(Unified Modeling Language)과 같은 아키텍처 설계도도 디자인패턴에 의거해 그려줄 날이 멀지 않은 것 같다.

다만, 소프트웨어 개발 과정에서 바이브 코딩 도구에 일을 시키려면, 당연히, 인턴에 업무 지시하는 수준의 능력은 필요하다.

예를 들어, 바이브 코딩 시 적절한 용어를 사용해야 하며, 수정되지 않은 어려운 문제나 에러가 발생하면, 생성된 코드를 이해하고 개선할 수 있는 능력은 당연히 필요하다 하겠다.

부록: 웹기반 텍스트 편집기 개발 및 깃허브 푸쉬하기

추가로, Tailwind 로 웹 기반 편집기도 개발해 보았다. 다음과 같이 자동으로 프로젝트 만들어 코딩되고, 실행된다.

프로젝트 코드 작성 중

완성된 웹 텍스트 편집기

미완성된 메뉴에 대해 추가 요청

모두 완성된 메뉴 기능

Github 푸쉬 요청

다음은 이렇게 개발된 프로젝트 코드이다.

mac999/vibe_coding_web_editor

레퍼런스

How to vibe code: 11 vibe coding best practices

집단지성 플랫폼 shopify 소개

2025-07-07T01:14:00.000-07:00

이 글은 아마존의 아성을 위협하고 있는 집단지성 플랫폼 shopify를 소개한다.

레퍼런스

Shopify

바이브 코딩을 위한 구글 Gemini CLI 도구 분석 및 사용

2025-06-28T21:40:00.000-07:00

이 글은 바이브 코딩을 위한 구글 Gemini CLI 도구 분석 및 사용기를 나눔합니다. 이 도구를 사용하면 다음과 같이 터미널 명령창에서 프롬프트를 이용해 바이브 코딩을 하고, 이 과정도 자동화할 수 있습니다.

준비 사항

다음 링크를 방문해, 도구를 설치한다.

google-gemini/gemini-cli: An open-source AI agent that brings the power of Gemini directly into your terminal.

이 도구를 사용하기 위해선 Google AI API 키 등이 준비되어야 한다. 다음 링크를 참고해 가입 준비 후 진행한다.

Get API key | Google AI Studio

바이브 코딩하기

명령창에서 gemini를 실행하고, 다음과 같이 프롬프트를 입력해 본다.

> Convert all the images in this directory to png, and rename them to use dates with pillow library etc.

정상적으로 실행된다면, 제미니가 에이전트로 동작하며, 문제 해결을 위한 ReAct 전략을 단계별로 추론해, 적절한 도구를 설치하고, 코딩을 해 소스코드를 생성한 후, 실행할 것이다. 다음은 그 결과를 보여준다.

다른 프롬프트도 입력해 바이브 코딩해 본다.

> Organise my PDF invoices by month of expenditure.

> make photoshop web app using three.js, bootstrap. Menus includes layer, line, arc, circle, fill color with tranparent, border color, zoom in/out, pan, download file as JPG

결과물이 제대로 동작하지 않을 때는 다음과 같이 오류 검토 후 수정 요청을 한다.

vscode에서 다른 vibe 코드 도구의 agent 기능을 이용해 수정 요청을 하는 것도 도움이 된다.

레퍼런스

CoT(Chain-of-Thought) 학습 데이터 생성 및 모델 개발 방법

2025-06-16T03:06:00.000-07:00

이 글은 Chain-of-Thought (CoT) 학습 데이터 생성 및 모델 개발 방법을 간략히 정리한다.

Official implementation for "Automatic Chain of Thought Prompting in Large Language Models" (stay tuned & more will be updated (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)

CoT와 관련해, 논리적 추론, 계획 수립, 지시 따르기 능력을 가르치는 데 효과적인 양질의 데이터셋은 여러 가지가 있다. 이런 데이터셋으로 학습하면 유사한 유스케이스에 대한 문제 해결 능력이 향상될 수 있다.

종합 추론 및 지시 따르기 데이터셋 (가장 유사한 케이스)
- Open-Orca: GPT-4와 같은 고성능 모델의 CoT 추론 과정을 포함한 약 100만 개의 데이터셋이다. 복잡한 질문에 대한 단계별 설명, 계획 수립 등 다양한 작업이 포함되어 있어 창의적 문제 해결 능력 학습에 매우 효과적이다.
  - 링크: https://huggingface.co/datasets/Open-Orca/OpenOrca
- Dolly-15k: 질의응답, 요약, 창의적 글쓰기 등 15,000개의 고품질 프롬프트와 응답으로 구성되어 있다. 응답에 추론 과정이 명시적으로 포함된 경우가 많아 CoT 학습에 유용하다.
  - 링크: https://huggingface.co/datasets/databricks/dolly-15k
수학 및 과학 추론 데이터셋 (고전적인 CoT)
- GSM8K: 초등학교 수준의 수학 응용 문제에 대한 단계별 풀이 과정을 제공하는 대표적인 CoT 데이터셋이다. 논리적이고 순차적인 사고 능력을 가르치는 데 가장 좋은 데이터셋 중 하나이다.
  - 링크: https://huggingface.co/datasets/gsm8k
- AQuA-RAT: 다양한 선택지 형식의 수학 문제에 대해 풀이 과정(Rationale)을 함께 제공한다.
  - 링크: https://huggingface.co/datasets/aqua_rat

학습 방법과 전략

가장 중요한 점: Ollama는 모델을 실행(Inference)하고 관리하는 도구이지, 모델을 훈련(Training)하는 도구가 아니다. 따라서 모델을 파인튜닝하는 작업은 다른 도구를 사용해 진행하고, 그 결과물을 Ollama로 가져와 사용하는 흐름으로 진행되어야 한다.

1. 데이터셋 형식 변환 (Instruction Tuning Format)

CoT 데이터셋을 모델 학습에 사용하려면 '지시(Instruction) 튜닝' 형식으로 변환해야 한다. 일반적으로 다음과 같은 JSONL 형식을 사용한다.

JSON
{
  "instruction": "현재 장마철인 것을 고려해서 일본 3일 여행 일정을 짜줘.",
  "input": "", 
  "output": "[1단계: 요구사항 명확화...] [2단계: 기본 전략 수립...] ... [5단계: 최종 계획안 요약]"
}

instruction: 사용자 질문
output: 모델이 따라 배워야 할 이상적인 단계별 추론 과정 (CoT) 및 최종 답변

2. 학습 전략

LoRA (Low-Rank Adaptation) 사용: 모델의 모든 가중치를 수정하는 '풀 파인튜닝'은 막대한 컴퓨팅 자원을 필요로 한다. 대신 LoRA는 원본 모델은 그대로 두고, 소규모의 '어댑터' 레이어만 추가하여 학습하는 파라미터 효율적 파인튜닝(PEFT) 방식이다. 적은 자원으로도 매우 효과적인 튜닝이 가능하여 개인이나 소규모 팀에게 가장 현실적인 방법이다.
품질 우선: 수백만 개의 저품질 데이터보다, 잘 정제된 수천~수만 개의 고품질 CoT 데이터가 모델 학습에 훨씬 효과적이다.
베이스 모델 선택: 파인튜닝의 기반이 될 좋은 성능의 오픈소스 모델을 선택하는 것이 중요하다. (예: Llama 3, Mistral, Gemma 등)

실행 방법

다음은 LoRA를 사용해 오픈소스 LLM을 CoT 데이터셋으로 파인튜닝하고 Ollama에서 실행하는 전체 과정이다.

1단계: 개발 환경 설정

Python, PyTorch, 그리고 Hugging Face의 주요 라이브러리를 설치한다.

Bash

pip install torch transformers datasets peft bitsandbytes accelerate

2단계: 데이터셋 준비

Hugging Face datasets 라이브러리로 CoT 데이터셋을 로드하고, 위에서 설명한 Instruction 형식으로 변환하는 전처리 스크립트를 작성해야 한다.

3단계: 모델 및 토크나이저 로드

파인튜닝할 베이스 모델과 토크나이저를 로드한다. (예: meta-llama/Meta-Llama-3-8B-Instruct)

4단계: LoRA 설정 및 모델 튜닝

Hugging Face transformers의 SFTTrainer와 peft 라이브러리를 사용해 LoRA 파인튜닝을 진행한다.

Python
# (개념적인 코드 예시)
from peft import LoraConfig
from transformers import TrainingArguments, SFTTrainer

# LoRA 설정
lora_config = LoraConfig(
    r=16, # Rank
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# 훈련 인자 설정
training_args = TrainingArguments(
    output_dir="./lora-finetuned-model",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=2e-4,
    logging_steps=10,
)

# SFTTrainer로 튜닝 시작
trainer = SFTTrainer(
    model=base_model,
    tokenizer=tokenizer,
    train_dataset=formatted_dataset,
    peft_config=lora_config,
    args=training_args,
    # ... 기타 설정
)
trainer.train()

5단계: 모델 병합 및 저장

LoRA 튜닝이 끝나면, 학습된 어댑터 가중치를 원본 베이스 모델과 병합하여 새로운 독립 모델로 저장한다.

6단계: Ollama로 모델 가져오기 및 실행

Modelfile 생성: 저장된 파인튜닝 모델 폴더를 기반으로 Modelfile을 작성한다.

코드 스니펫

# 이 파일의 이름은 Modelfile이다.
FROM ./path/to/your/merged-model-folder 

TEMPLATE """
<|begin_of_text|><|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
"""
# 베이스 모델에 맞는 프롬프트 템플릿을 지정한다.

Ollama 모델 생성: 터미널에서 ollama create 명령어로 나만의 모델을 생성한다.
Bash
ollama create my-travel-planner -f ./Modelfile

Ollama 모델 실행: 생성된 커스텀 모델을 실행하여 결과를 확인한다.

Bash

ollama run my-travel-planner "현재 장마철인 것을 고려해서 일본 3일 여행 일정을 짜줘"

이 과정을 통해, 공개된 CoT 데이터셋으로 특정 문제 해결 능력이 강화된 나만의 LLM을 만들어 Ollama에서 손쉽게 활용하는 것이 가능하다.

참고: 에이전트 개발 시 ToT와 RAP 기법 비교

1. ToT(Tree of Thoughts)와 실행 시간

ToT는 이론적으로 모든 경로를 탐색하면 CoT에 비해 훨씬 더 많은 계산량과 시간이 필요하다는 단점이 있다. 나무의 가지(branch)가 깊어질수록 탐색해야 할 경우의 수가 기하급수적으로 늘어나기 때문이다. 하지만 실제 ToT 구현에서는 이 문제를 해결하기 위해 탐색을 제한하고 가지치기(Pruning)하는 여러 전략을 사용한다.

탐색 깊이 및 너비 제한: 무한정 탐색하는 것이 아니라, 최대 깊이(e.g., 5단계)와 각 단계에서 생성할 생각의 개수(너비, e.g., 3개)를 미리 정해둔다.
휴리스틱 평가 및 프루닝 (Heuristic Pruning): ToT의 핵심은 유망하지 않은 경로는 조기에 버리는 것이다. 각 생각을 생성한 후, 평가 함수를 통해 이 경로가 최종 정답으로 이어질 가능성을 점수화한다. 점수가 낮은 경로는 더 이상 탐색하지 않고 '가지치기'하여 계산 낭비를 막는다.
빔 서치 (Beam Search): 모든 유망한 경로를 유지하는 대신, 각 단계에서 가장 점수가 높은 상위 K개의 경로(생각의 빔)만 유지하고 나머지는 버린다. 이는 계산 비용을 통제하면서도 최적의 해를 찾을 확률을 높이는 효과적인 방법이다.

2. RAP(Reasoning and Acting)와 기존 기술의 융합

'기존 에이전트의 Function Calling'과 'CoT의 명시적 추론 과정'을 매우 효과적으로 융합한 형태이다.

기존 Function Calling: LLM이 사용자의 질문을 보고, 어떤 함수를 호출해야 할지 바로 결정하여 출력하는 방식이다. (입력 -> 함수 호출) 과정에서 왜(Why) 그 함수를 호출했는지에 대한 설명이 부족한 경우가 많다.
RAP의 차별점: RAP는 이 과정 사이에 CoT를 집어넣는다.
1. (입력) -> [추론(Reasoning)] -> (함수 호출)
2. 추론 단계에서 LLM은 "현재 상황이 이러하니, 목표를 달성하기 위해 다음 단계로 A 함수를 호출하는 것이 타당하다" 와 같은 **내부 독백(Internal Monologue)**을 CoT 형태로 명시적으로 생성한다.
3. 이 추론의 결과로 행동(Acting), 즉 Function Call이 결정된다.

이러한 융합이 가져오는 장점은 명확하다.

투명성 및 디버깅 용이성: 에이전트가 왜 그런 행동을 했는지 추론 과정을 통해 명확히 알 수 있다. 만약 잘못된 함수를 호출했다면, 어떤 논리적 오류 때문에 그런 결정을 했는지 파악하고 수정하기가 쉽다.
견고성 (Robustness): 함수 호출이 실패하거나 예상치 못한 결과를 반환했을 때, 에이전트는 그 실패를 '관찰(Observation)'하고, "A 함수가 실패했으니, 대안으로 B 함수를 시도해야겠다" 와 같이 다음 행동을 다시 '추론'할 수 있다. 스스로 오류를 복구하는 능력이 생긴다.

기법	핵심 아이디어	장점	단점
ToT	문제 해결을 위한 여러 경로(생각)를 동시에 탐색하고 평가하여 최적의 경로를 찾는다.	복잡하고 정답이 여러 개인 문제에 대해 더 높은 품질의 해결책을 찾을 수 있다.	CoT보다 계산 비용이 높다. 효율적인 평가 및 가지치기 전략이 필수적이다.
RAP	'추론 -> 행동(도구 사용) -> 관찰'의 순환 루프를 통해 외부 세계와 상호작용한다.	외부 도구/API를 활용할 수 있으며, 행동의 이유가 명확하고 오류에 강건하다.	외부 도구/API를 잘 설계해야 하며, 상태 관리 및 루프 제어가 복잡해질 수 있다.

2025년 인공지능 기반 컴퓨터 그래픽스 기술 최신 동향 리뷰

2025-06-16T01:49:00.000-07:00

이 글은 2025년 AI 기반 컴퓨터 그래픽스 기술 최신 동향 리뷰를 통해 핵심 내용을 정리한 것이다.

레퍼런스

nv-tlabs/GEN3C: [CVPR 2025 Highlight] GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

CAD/CAM 아버지 Patrick Hanratty의 솔류션 개발 역사와 주요 기술

2025-06-16T01:23:00.000-07:00

이 글은 CAD/CAM 아버지 Patrick Hanratty의 솔류션 개발 역사와 주요 기술에 대해 정리한 것이다.

레퍼런스

노코드 서비스 비교 분석하기

2025-06-14T02:10:00.000-07:00

코딩 지식 없이도 웹사이트나 애플리케이션을 만들 수 있는 노코드(No-code) 도구들이 점차 주목받고 있다. 이 도구들은 아이디어를 빠르게 현실화할 수 있는 강력한 대안이 되고 있다. 여기서는 주요 노코드 도구들의 특징과 장단점, 그리고 가격을 비교하여 정리한다.

노코드 도구 결과물 예시

Bubble.io

Bubble.io는 복잡한 웹 애플리케이션을 코딩 없이 개발할 수 있는 강력한 플랫폼이다. 거의 모든 종류의 웹 앱을 만들 수 있는 높은 유연성과 기능을 제공한다. 시각적인 드래그 앤 드롭 인터페이스를 통해 앱을 구축하며, 다양한 플러그인과 API 연동으로 기능을 확장할 수 있다. 활발한 사용자 커뮤니티가 존재하여 문제 해결 및 학습 자료를 얻기 용이하다.

Learn Bubble.io in 30 Minutes

그러나 강력한 기능만큼이나 학습해야 할 것이 많아 초보자에게는 높은 학습 곡선으로 작용할 수 있다. 네이티브 모바일 앱 개발에는 적합하지 않으며, 복잡한 앱의 경우 속도나 성능 저하가 발생할 수 있다. 또한, Bubble.io에서 개발된 앱의 코드를 직접 내보낼 수 없어 플랫폼에 종속된다는 단점이 있다.

가격 (2025년 기준):

Free Plan: 기본적인 기능 체험 및 프로토타입 제작용으로, 앱 배포 및 고급 기능이 제한된다.
Starter Plan: 월 $32 (연간 결제 시 $348)이다.
Growth Plan: 월 $134 (연간 결제 시 $1,428)이다.
Team Plan: 월 $399 (연간 결제 시 $4,788)이다.
Enterprise Plan: 대규모 앱 및 특정 요구사항을 위한 맞춤형 가격으로 책정된다.

앱 생성 화면(일부)

버블 프로젝트 파일 구조(일부)

Adalo

Adalo는 특히 모바일 애플리케이션 개발에 특화된 노코드 도구이다. 드래그 앤 드롭 방식으로 반응형 모바일 앱을 쉽게 만들 수 있으며, iOS 및 Android 앱 스토어 배포가 가능하다. 사용자 친화적인 인터페이스를 제공하여 빠르게 앱 개발을 시작할 수 있다. 한 번 만들면 웹, 태블릿, 모바일 등 다양한 기기에서 작동하는 크로스 플랫폼 호환성을 가진다. 다양한 앱 템플릿을 제공하여 개발 시작을 돕는다.

하지만 Bubble.io에 비해 디자인 및 기능 맞춤화 옵션이 제한적이다. 복잡한 워크플로우나 데이터베이스 처리에 한계가 있을 수 있으며, 일부 사용자는 앱 성능에 대한 문제를 보고하기도 한다.

가격 (2025년 기준):

Free Plan: 제한적인 기능으로 플랫폼을 체험할 수 있으며, 앱 레코드 200개 및 앱 에디터 1명으로 제한된다.
Starter Plan: 월 $45이며 (연간 결제 시 할인), 1개 앱 배포 및 무제한 앱 액션을 제공한다.
Professional Plan: 월 $65이며 (연간 결제 시 할인), 2개 앱 배포 및 5명 에디터를 제공한다.
Team Plan: 월 $200이며 (연간 결제 시 할인), 5개 앱 배포 및 10명 에디터를 제공한다.
그 외 데이터 저장 용량 및 앱 액션에 따라 더 높은 요금제도 존재한다.

Webflow

Webflow는 전문적인 웹사이트 디자인에 강점을 가진 노코드 도구이다. 웹 디자이너를 위한 강력한 시각적 디자인 도구로, 완벽하게 반응형이고 맞춤화된 웹사이트를 만들 수 있다. 노코드로 작업하지만, 결과물은 깨끗하고 최적화된 HTML, CSS, JavaScript 코드를 생성한다. 검색 엔진 최적화(SEO) 기능이 잘 갖춰져 있으며, 자체 CMS(콘텐츠 관리 시스템)를 통해 블로그, 포트폴리오 등 콘텐츠 기반 웹사이트를 쉽게 관리할 수 있다.

그러나 복잡한 사용자 로직이나 데이터베이스 기반의 웹 애플리케이션 개발보다는 정적인 웹사이트나 마케팅 페이지 제작에 더 적합하다. HTML/CSS의 기본 개념을 알면 유리하며, 디자인 자유도가 높은 만큼 익숙해지기까지 시간이 걸릴 수 있다. 다른 웹사이트 빌더에 비해 가격이 비쌀 수 있다는 단점도 있다.

가격 (2025년 기준):

Site Plans (웹사이트 호스팅 및 기능):
- Starter: 무료이다.
- Basic: 월 $18이다.
- CMS: 월 $29이다.
- Business: 월 $49이다.
- Enterprise: 맞춤형 가격으로 제공된다.
eCommerce Plans (온라인 쇼핑몰):
- Standard: 월 $42이다.
- Plus: 월 $84이다.
- Advanced: 월 $235이다.
Workspace Plans (협업 및 팀 관리):
- Starter: 무료이다.
- Core: 월 $28이다.
- Growth: 월 $60이다.
- Enterprise: 맞춤형 가격으로 제공된다.
- 프리랜서 및 에이전시를 위한 별도 Workspace Plan도 존재한다.

Softr

Softr는 Airtable, Google Sheets, Notion, SmartSuite 등의 기존 데이터 소스를 활용하여 웹 앱을 빠르게 구축하는 데 강점을 가진다. 사용자 로그인, 권한 관리 등 사용자 포털이나 내부 대시보드 제작에 특화되어 있다. 간단한 웹 앱을 빠르게 만들고 배포할 수 있으며, 포털, 대시보드, 마켓플레이스 등 다양한 템플릿을 제공하여 시작을 돕는다.

하지만 Bubble.io나 Webflow에 비해 디자인 커스터마이징의 자유도가 낮다. 고급 조건부 워크플로우나 복잡한 데이터 처리에 제한이 있을 수 있으며, 주로 외부 데이터베이스에 의존하여 기능이 제한될 수 있다는 점도 고려해야 한다.

가격 (2025년 기준):

Free Plan: 1개 앱, 10명 사용자, 기본적인 빌딩 블록 및 커스텀 도메인을 제공한다.
Basic Plan: 월 $49 (연간 결제 시 할인)이며, 3개 앱, 20명 사용자, 칸반, 결제 기능, 커스텀 코드 등을 제공한다.
Professional Plan: 월 $139 (연간 결제 시 할인)이다.
Business Plan: 월 $269 (연간 결제 시 할인)이다.
Enterprise Plan: 맞춤형 가격으로 제공된다.

AppGyver (SAP Build Apps)

AppGyver (현재 SAP Build Apps로 통합)는 개인 사용자 및 소규모 비즈니스를 위한 Community Edition을 무료로 제공하며, 기능 제한이 거의 없는 것이 특징이다. 웹 앱뿐만 아니라 iOS 및 Android용 네이티브 모바일 앱 개발이 가능하다. 드래그 앤 드롭 방식의 시각적 로직 편집기로 복잡한 백엔드 로직 구현이 가능하며, 다양한 API 및 SAP 솔루션과의 통합에 강점이 있다.

그러나 무료이면서 강력한 만큼, 다른 쉬운 노코드 툴에 비해 학습 곡선이 높을 수 있다. 미리 만들어진 템플릿이 부족하여 처음부터 모든 것을 구축해야 할 수 있으며, 자동 저장 기능이 없어 수동으로 저장해야 하므로 작업 손실 위험이 존재한다. SAP에 인수된 이후 엔터프라이즈 기능은 SAP Build Apps로 통합되어 SAP 생태계와의 연동에 중점을 둔다.

가격 (2025년 기준):

AppGyver Community Edition: 개인 사용자, 소규모 비즈니스, 학습 목적을 위해 무료로 제공된다.
SAP Build Apps: 엔터프라이즈 솔루션으로, SAP 에코시스템과의 통합 및 고급 기능을 제공하며 가격은 맞춤형 (예: USD 26,827.50/suite 등)이다.

Nocodefusion (노코드퓨전)

Nocodefusion은 주로 생성형 AI 기술과 노코드 플랫폼을 결합하여 AI 기반의 애플리케이션을 빠르게 구축하는 데 중점을 둔 도구이다. 이는 단순한 웹 앱 빌더를 넘어, GPT-3와 같은 대규모 언어 모델(LLM)이나 이미지 생성 AI 등을 활용하는 데 특화되어 있다. 사용자가 코딩 없이 AI 기능을 자신의 서비스에 통합하고 싶을 때 유용하다. 특정 니치(Niche) 시장, 즉 AI 기술 활용에 특화된 노코드 솔루션이라고 볼 수 있다.

장점:

AI 기능 통합 용이성: 생성형 AI 모델(예: 챗봇, 이미지 생성, 텍스트 요약 등)을 노코드 방식으로 자신의 앱에 쉽게 통합할 수 있는 강력한 기능을 제공한다.
빠른 AI 기반 서비스 프로토타이핑: AI 기반의 아이디어를 빠르게 실험하고 프로토타입을 만들기에 적합하다.
니치 시장 특화: AI 기능을 활용한 서비스 개발에 관심 있는 사용자에게 매우 강력한 도구이다.

단점:

범용성 제한: 일반적인 웹/모바일 앱 개발(예: 소셜 네트워크, 복잡한 비즈니스 로직)에는 Bubble.io나 Adalo만큼의 범용성과 유연성을 제공하지 않을 수 있다.
AI 기술에 대한 이해 필요: 노코드이긴 하나, AI 모델의 개념이나 활용 방식에 대한 기본적인 이해가 있으면 더 효율적으로 사용할 수 있다.
정보 부족 가능성: 비교적 새로운 접근 방식의 도구이므로, 다른 오래된 노코드 도구들에 비해 사용자 커뮤니티나 학습 자료가 부족할 수 있다.

가격 (2025년 기준): Nocodefusion과 같은 AI 기반 노코드 도구들은 서비스 모델이 다양하며, AI 사용량(토큰 사용량 등)에 따라 가격이 책정되는 경우가 많다. 정확한 가격은 해당 서비스의 공식 웹사이트에서 확인해야 한다. 일반적으로 다음과 같은 형태로 제공될 수 있다.

Free Tier: 기본적인 기능 체험 및 소량의 AI 사용량 제공이다.
Subscription Plans: 월별 또는 연간 구독 형태로, 제공되는 AI 사용량, 기능, 지원 수준에 따라 다양한 가격대가 존재한다.
Usage-based Pricing: AI 모델 API 사용량(예: 텍스트 생성 길이, 이미지 생성 횟수)에 따라 추가 비용이 발생할 수 있다.

FlutterFlow

FlutterFlow는 Google의 UI 툴킷인 Flutter를 기반으로 한 로코드(Low-code) 도구이다. 노코드와 코드 개발의 중간 지점에 있으며, 드래그 앤 드롭 방식으로 시각적인 앱 개발을 지원하면서도 필요시 Dart 언어로 직접 코드를 추가하거나 내보낼 수 있는 유연성을 제공한다. iOS, Android, 웹, 데스크톱 앱을 모두 개발할 수 있는 크로스 플랫폼 개발에 강점을 가진다. Firebase와 같은 백엔드 서비스와의 통합이 용이하며, 풍부한 위젯 라이브러리와 템플릿을 제공한다.

장점:

크로스 플랫폼 네이티브 앱 개발: 하나의 코드로 iOS, Android는 물론 웹, 데스크톱 앱까지 만들 수 있어 개발 효율성이 높다. 실제 네이티브 앱과 유사한 성능과 사용자 경험을 제공한다.
코드 내보내기 및 커스터마이징: 언제든지 Dart 코드를 내보내어 개발자가 직접 수정하거나 확장할 수 있어, 노코드 도구의 한계를 넘어선다. 복잡하거나 특정 요구사항이 있는 앱 개발에 유리하다.
Firebase 연동 용이성: Google의 백엔드 서비스인 Firebase와 긴밀하게 연동되어 사용자 인증, 데이터베이스, 스토리지 등을 쉽게 구축할 수 있다.
시각적 개발 환경 및 유연성: 드래그 앤 드롭 방식으로 빠르게 UI를 구성하면서도, 필요한 경우 세밀한 코드 수정이 가능하여 유연성이 높다.

단점:

학습 곡선 존재: 일반적인 노코드 도구보다는 학습 곡선이 높을 수 있다. Flutter 프레임워크와 Dart 언어에 대한 기본적인 이해가 있다면 훨씬 유리하다.
복잡성 증가: 노코드의 편리함과 코드의 유연성을 동시에 제공하지만, 프로젝트가 복잡해질수록 관리해야 할 요소들이 많아질 수 있다.
가격: 무료 플랜이 제한적이며, 모든 기능을 활용하려면 유료 플랜을 구독해야 한다.

가격 (2025년 기준): FlutterFlow의 가격은 기능 및 내보내기 옵션에 따라 달라진다.

Free Plan: 기본적인 개발 환경을 제공하나, 코드 내보내기 및 고급 기능에 제한이 있다.
Standard Plan: 월 $30 (연간 결제 시 할인)이며, 기본 기능을 제공한다.
Pro Plan: 월 $70 (연간 결제 시 할인)이며, 소스 코드 내보내기, API 연동, GitHub 연동 등 고급 개발 기능을 제공한다.
Teams Plan: 월 $70/사용자 (연간 결제 시 할인)이며, 팀 협업 기능과 Pro Plan의 모든 기능을 포함한다.

replit

Replit은 코드를 작성하고, 실행하고, 공유하는 과정을 웹 브라우저에서 편리하게 수행할 수 있도록 돕는 강력한 온라인 통합 개발 환경(IDE)이자 코드 에디터이다. 마치 마법 지팡이처럼 코딩의 복잡한 설정 과정을 싹 지워주고, 아이디어가 떠오르는 즉시 코드를 짜고 테스트할 수 있는 환경을 제공한다.

바이브코딩 결과(Prompt: create FBX 3D viewer web app using django, bootstrap, threejs. the app includes view menu such as zoom in/out, extent, rotate. the app's canvas renders grid, xyz mark defaultly)

supabase

Supabase는 개발자가 백엔드 로직을 직접 구축하고 관리하는 번거로움 없이 애플리케이션을 빠르게 개발할 수 있도록 돕는 오픈 소스 백엔드 서비스 플랫폼이다. 흔히 Google의 Firebase에 대한 강력한 오픈 소스 대안으로 불리며, 특히 관계형 데이터베이스인 PostgreSQL을 기반으로 한다는 점에서 차별점을 가진다.

다음은 이들 중 일부를 비교한 영상이다.

결론적으로, 어떤 노코드 도구를 선택할지는 개발하고자 하는 앱의 종류, 필요한 기능, 디자인 요구사항, 예산, 그리고 사용자의 기술 숙련도에 따라 달라진다. 각 도구의 장단점을 면밀히 검토하여 최적의 선택을 하는 것이 중요하다고 할 수 있다.

높은 성능의 AI 에이전트 구현을 위한 Gemma3 Function call 파인튜닝

2025-06-06T03:33:00.000-07:00

이 글은 높은 성능의 AI 에이전트 구현을 위한 Gemma3 Function call 파인튜닝 방법을 설명한다.

AI 에이전트에서 Function Call 개념

준비물

이 글은 gemma3를 이용해 function call 데이터셋을 튜닝한다. 해당 모델과 파일은 다음 링크를 참고한다.

실습 소스코드는 다음 링크를 참고한다.

AI_agent_simple_function_call/func_call_finetune_gemma3.py at main · mac999/AI_agent_simple_function_call

모델을 사용하기 전에 google로부터 다음과 같이 사용 허가(grant)를 얻는다.

google/gemma-3-4b-it · Hugging Face

터미널에서 다음처럼 패키지 설치한다. 우분투 OS 환경을 권장한다.

pip install "torch>=2.4.0" tensorboard flash-attn

pip install git+https://github.com/huggingface/transformers@v4.49.0

pip install --upgrade datasets==3.3.2 accelerate==1.4.0 evaluate==0.4.3 bitsandbytes==0.45.3 trl==0.15.2 peft==0.14.0 protobuf==3.20.3 sentencepiece

혹시 윈도우에서 다음과 같이 에러 발생하면 긴파일명 에러가 발생한 것이다.

regedit 실행해 다음 레지스트리에서 오른쪽에서 LongPathsEnabled를 더블 클릭한 후 값(Data)을 1로 변경하고 확인한다.

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem

펑션콜 데이터셋 구조

다음은 펑션콜 CoT 구조 데이터셋 예시이다.

Salesforce/xlam-function-calling-60k · Datasets at Hugging Face

모델 튜닝 코드 구현

튜닝 코드를 다음과 같이 코딩한다. 우선, 라이브러리를 임포트한다.

import torch, json, gc, os
from transformers import AutoTokenizer, Gemma3ForConditionalGeneration, BitsAndBytesConfig, set_seed
from datasets import load_dataset
from trl import SFTTrainer, SFTConfig
from peft import LoraConfig, PeftModel, PeftConfig
from enum import Enum
from huggingface_hub import login
from dotenv import load_dotenv

API키, 모델 경로 등 기본 설정한다. 단, API키는 프로젝트에 .env 파일을 추가하고 HF_API_KEY=<허깅페이스 API KEY>가 내용에 포함되어 있어야 한다. 모델은 본인의 VRAM 크기를 고려해 설정한다. 참고로, 이 코드는 가장 작은 VRAM 을 사용하는 gemma-3-4b-it를 사용한다.

load_dotenv()
hf_token = os.getenv("HF_API_KEY")
login(token=hf_token)

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

seed = 42
set_seed(seed)

torch_dtype = torch.bfloat16 if torch.cuda.get_device_capability()[0] >= 8 else torch.float16
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model_name = "google/gemma-3-4b-it"
dataset_name = "Salesforce/xlam-function-calling-60k"

모델 튜닝 파라메터를 설정한다. attn_implementation은 트랜스포머 어텐션 연산의 성능을 개선하기 위한 옵션이다. 적절히 선택하되, 환경 상 해당 알고리즘이 동작되지 않는다면 eager 옵션을 선택한다.

model_kwargs = dict(
    attn_implementation="flash_attention_2", # "eager", "sdpa", "flash_attention", "flash_attention_2"
    torch_dtype=torch_dtype,
    device_map="auto",
    quantization_config=BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type='nf4',
        bnb_4bit_compute_dtype=torch_dtype,
        bnb_4bit_quant_storage=torch_dtype,
        llm_int8_enable_fp32_cpu_offload=True
    )
)

model = Gemma3ForConditionalGeneration.from_pretrained(model_name, **model_kwargs)

함수호출을 위한 모델 튜닝에 필요한 특수 토큰을 정의한다.

class ToolCallSpacialTokens(str, Enum):
    tools = "<tools>"
    eotools = "</tools>"
    think = "<think>"
    eothink = "</think>"
    tool_call="<tool_call>"
    eotool_call="</tool_call>"
    tool_response="<tool_response>"
    eotool_response="</tool_response>"
    pad_token = "<pad>"
    eos_token = "<eos>"

    @classmethod
    def list(cls):
        return [c.value for c in cls]

tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    pad_token=ToolCallSpacialTokens.pad_token.value,
    additional_special_tokens=ToolCallSpacialTokens.list()
)

토큰 엠베딩 차원을 리사이즈한다.

tokenizer.chat_template = """{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{{ '<start_of_turn>' + message['role'] + '\n' + message['content'] | trim + '<end_of_turn><eos>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}"""

model.resize_token_embeddings(len(tokenizer))
model.to(device)

모델튜닝을 위해 학습데이터를 모델에 맞게 전처리한다.

def preprocess(sample):
    try:
        tools = json.loads(sample["tools"])
        answers = json.loads(sample["answers"])
        user_query = sample["query"]
    except Exception as e:
        print("Error decoding JSON:", sample)
        raise e

    messages = [
        {
            "role": "user",
            "content": (
                "You have access to the following tools:\n\n"
                + "\n\n".join(f"- {tool['name']}: {tool['description']}" for tool in tools)
                + "\n\nUser query:\n" + user_query
            )
        },
        {
            "role": "assistant",
            "content": "\n".join(
                f"<function_call>\n{json.dumps(answer)}\n</function_call>"
                for answer in answers
            )
        }
    ]

    return {
        "text": tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
    }

dataset = load_dataset(dataset_name)
dataset = dataset["train"].map(preprocess, remove_columns=["id", "query", "answers", "tools"])
dataset = dataset.train_test_split(0.1)
print(dataset)

print(dataset["train"][19]["text"])

파인튜닝을 위해 LoRA와 SFT 설정한다.

peft_config = LoraConfig(
    lora_alpha=16,
    lora_dropout=0.05,
    r=16,
    bias="none",
    target_modules="all-linear",
    task_type="CAUSAL_LM",
    modules_to_save=["lm_head", "embed_tokens"] # make sure to save the lm_head and embed_tokens as you train the special tokens
)

training_arguments = SFTConfig(
    output_dir="gemma-3-4b-it-thinking-function_calling-V0",
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    gradient_accumulation_steps=32,
    save_strategy="epoch",
    eval_strategy="epoch",
    logging_steps=50,
    learning_rate=3e-4,
    max_grad_norm=0.3,
    weight_decay=0.1,
    warmup_ratio=0.03,
    lr_scheduler_type="constant",
    report_to=None,
    bf16=True,
    optim="paged_adamw_8bit",
    torch_compile=False,
    push_to_hub=False,
    num_train_epochs=3,
    gradient_checkpointing=True,
    gradient_checkpointing_kwargs={"use_reentrant": False},
    packing=False,
    max_seq_length=512,
    dataset_kwargs={
        "add_special_tokens": False,
        "append_concat_token": True,
    }
)

torch.cuda.empty_cache()
torch.cuda.ipc_collect()
gc.collect()

학습하고 결과를 저장한다.

trainer = SFTTrainer(
    model=model,
    args=training_arguments,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    # tokenizer=tokenizer,
    peft_config=peft_config,
)

trainer.train()
trainer.save_model()

정상적으로 실행되면, 다음과 같이 함수 호출 데이터셋을 학습할 것이다.

HF에 파인튜닝된 모델을 업로드한다. 그리고, 다시 다운로드하여 평가모드로 모델을 오픈한다.

trainer.push_to_hub(f'mac999/gemma-3-4b-it-thinking-function_calling-V0-{seed}', commit_message="Pushing fine-tuned model with function calling capabilities")

tokenizer.eos_token = "<eos>"
tokenizer.push_to_hub(f"mac999/", token=True)

peft_model_id = f"mac999/gemma-3-4b-it-thinking-function_calling-V0-{seed}" 
device = "auto"
config = PeftConfig.from_pretrained(peft_model_id)
model = Gemma3ForConditionalGeneration.from_pretrained("google/gemma-3-4b-it",
                                             device_map="auto",
                                             )
tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
model.resize_token_embeddings(len(tokenizer))
model = PeftModel.from_pretrained(model, peft_model_id)
model.to(torch.bfloat16)
model.eval()

파인튜닝이 제대로되었는 지 function call을 테스트해본다.

prompt = """<bos><start_of_turn>user
You have access to the following tools:

- numerical_derivative: Estimate the derivative of a mathematical function

User query:
I need to estimate the derivative of the function y = sin(x) at x = π/4 and x = π. Can you help with that?<end_of_turn><eos>
<start_of_turn>assistant
"""

inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.01,
    top_p=0.95,
    repetition_penalty=1.1,
    eos_token_id=tokenizer.eos_token_id
)

response = tokenizer.decode(outputs[0], skip_special_tokens=False)
print(response)

마무리

파인튜닝 전과 후를 비교해 보면, 확실히 데이터셋에 있는 함수호출 방식이 제대로 생성되는 것을 확인할 수 있을 것이다.

레퍼런스

Gemma3 기반 Ollama 활용 AI 에이전트 개발 핵심 Function Call 구현해보기

2025-06-03T23:56:00.000-07:00

이 글은 AI 에이전트(Agent) 개발 시 필수적인 함수호출 방법을 오픈소스를 이용해 구현해 본다. 이를 위해, Gemma3(젬마) LLM(Large Language Model) 기반 Ollama 활용 Function Call(펑션콜) 실습 내용을 소개하고 실행 결과를 확인한다. 아울러, 이런 함수호출 방식의 한계점을 개선하기 위한 솔류션을 나눔한다. 이 실습의 결과는 다음과 같다.

이 글은 다음 내용을 포함한다.

AI 에이전트 구현을 위한 함수 호출 방법
Ollama 를 통한 Gemma3 사용법
채팅 형식 프롬프트 및 메모리 사용법
Gradio 기반 웹 앱 개발
Function call 의 한계와 솔류션

AI 에이전트 내부 Function call 메커니즘(Akriti, 2025)

이 글의 구현 코드는 다음 링크에서 확인할 수 있다.

mac999/AI_agent_simple_function_call

Gemma3 모델 특징

Gemma 3는 구글이 개발해 2025년 3월 10일에 출시한 LLM으로, 차세대 경량 오픈 멀티모달 AI 모델로, 텍스트와 이미지를 동시에 처리할 수 있는 기능을 갖추고 있다. 이 모델은 다양한 크기와 사양으로 제공되어 단일 GPU 또는 TPU 환경에서도 실행 가능하다.

Gemma 3는 1B, 4B, 12B, 27B의 네 가지 모델 크기로 제공되며, 각각 10억, 40억, 120억, 270억 개의 파라미터를 갖추고 있다. 1B 모델은 텍스트 전용으로 32K 토큰의 입력 컨텍스트를 지원하고, 4B, 12B, 27B 모델은 멀티모달 기능을 지원하며 128K 토큰의 입력 컨텍스트를 처리할 수 있다. 이는 이전 Gemma 모델보다 16배 확장된 크기로, 훨씬 더 많은 양의 정보를 한 번에 처리할 수 있게 해준다.

이 모델은 텍스트와 이미지 데이터를 동시에 처리하고 이해하는 멀티모달 기능을 제공한다. 이미지 해석, 객체 인식, 시각적 질의응답 등 다양한 작업을 수행할 수 있으며, 텍스트 기반 작업에 시각적 정보를 효과적으로 활용할 수 있도록 지원한다.

Welcome Gemma 3: Google's all new multimodal, multilingual, long context open LLM

Gemma 3는 140개 이상의 언어를 지원하여 전 세계 다양한 언어 사용자를 대상으로 하는 AI 애플리케이션 개발에 매우 유리하다. 사용자는 자신의 모국어로 Gemma 3와 상호작용할 수 있으며, 다국어 기반의 텍스트 분석 및 생성 작업도 효율적으로 수행할 수 있다.

이 모델은 다양한 작업 수행 능력을 갖추고 있다. 질문 답변, 텍스트 요약, 논리적 추론, 창의적인 텍스트 형식 생성(시, 스크립트, 코드, 마케팅 문구, 이메일 초안 등), 이미지 데이터 분석 및 추출 등 광범위한 자연어 처리 및 컴퓨터 비전 관련 작업을 수행할 수 있다. 또한, 함수 호출 및 구조화된 출력을 지원하여 개발자들이 특정 작업을 자동화하고 에이전트 기반의 경험을 구축하는 데 도움을 준다.

Gemma 3는 다양한 도구 및 프레임워크와 원활하게 통합된다. Hugging Face Transformers, Ollama, JAX, Keras, PyTorch, Google AI Edge, UnSloth, vLLM, Gemma.cpp 등 다양한 개발 도구 및 프레임워크와 호환되어 개발자들이 자신이 익숙한 환경에서 Gemma 3를 쉽게 활용하고 실험할 수 있다.

이 모델은 다양한 벤치마크 테스트에서 동급 모델 대비 최첨단 성능을 입증했다. 특히, Chatbot Arena Elo Score에서 1338점을 기록하며, 여러 오픈 소스 및 상용 모델보다 높은 성능을 보였다.

Gemma 3는 오픈 모델로, 개방형 가중치를 제공하여 사용자가 자유롭게 조정하고 배포할 수 있다. Kaggle과 Hugging Face에서 다운로드 가능하며, Creative Commons 및 Apache 2.0 라이선스를 따름으로써, 개발자와 연구자에게 VLM 기술에 대한 접근성을 높여준다.

개발 환경

개발 환경은 다음과 같다. 미리 설치, 가입한다.

ollama: https://ollama.com/download/windows
gemma3: https://ollama.com/search
serper 서비스: 가입. https://serper.dev/dashboard

설치되어 있다면, 다음 명령을 터미널에서 실행한다.

ollama pull gemma3:4b

gemma3:4b GPU VRAM 소모량

이제 다음과 같이 모델을 실행해 볼 수 있다.

참고로, GPU VRAM 등을 고려해 더 성능이 좋은 파라메터수 많은 대형 모델을 사용할 수도 있다.

gemma3 지원 모델들

처리 프로세스

이 실습 프로그램의 프로세스는 다음과 같다.

Gradio 앱이 시작되면, 사용자의 입력이 발생하고 이 입력은 process_message 함수에 전달된다. 이 함수는 사용자의 메시지를 chat_history에 추가하여 대화 기록을 저장한다. 이후 모델에게 전달할 대화 문맥을 구성하기 위해 messages 리스트가 생성된다.

그 다음 단계에서는 ollama.chat 함수를 통해 언어 모델에게 응답을 요청하게 되며, 이 응답 내에 함수 호출이 포함되어 있는지를 확인한다. 만약 응답에 함수 호출이 포함되어 있다면, 이를 parse_function_call 함수를 통해 파싱한다.

파싱된 함수가 google_search라면, 모델이 검색을 원한다고 판단하여 검색 쿼리를 추출하고 검색 수행 예정임을 사용자에게 안내하는 메시지를 추가한다. 이후 실제로 google_search 함수를 실행하여 외부 검색을 수행한다.

검색 결과는 다시 chat_history에 저장되며, 이 결과를 바탕으로 언어 모델에게 재질문을 하여 더 정확하고 완성된 응답을 유도한다. 모델이 생성한 최종 응답은 chat_history에 마지막으로 추가되고, 이 전체 대화 기록이 사용자에게 반환된다.

이 구조는 사용자의 질의에 따라 외부 정보까지 능동적으로 검색하고 반영할 수 있는 LLM 기반 AI 에이전트의 대표적인 흐름을 보여준다.

다음은 이 순서도를 보여준다.

구현하기

터미널에서 다음 라이브러리를 설치한다.

pip install langchain-core langchain-openai gradio ollama requests python-dotenv pydantic

새로운 파이썬 파일(코드 참고)을 생성한 후, 우선, 필요한 라이브러리를 임포트한다.

import gradio as gr
import ollama
import requests, json, os
from dotenv import load_dotenv
from pydantic import BaseModel, Field
from typing import Optional, Dict, Any, List

load_dotenv()
SERPER_API_KEY = os.getenv('SERPER_API_KEY')

그리고, 사용하는 API 키를 가져온다. 이를 위해, 미리 .env 파일을 다음과 같이 만들어 놓고, 해당 API를 입력해 놓야야 한다.

# .env
SERPER_API_KEY=<YOUR API KEY>

파라메터에서 검색 질의문, 함수호출명과 파라메터를 정의한다. 아울러, 질의 결과를 명확히 데이터항목으로 추출하기 위해서 검색 결과가 될 데이타항목(타이틀, 링크, 스닙펫) 형식을 pydantic의 basemodel을 이용해 명확히 정의한다. 그리고, LLM 호출 결과를 펑션콜이 가능한 형식으로 변환하기 위한 파싱 함수인 parse_function_call 을 정의한다.

class SearchParameters(BaseModel):
    query: str = Field(..., description="Search term to look up")

class FunctionCall(BaseModel):
    name: str
    parameters: Dict[str, Any]

class SearchResult(BaseModel):
    title: str
    link: str
    snippet: str

    def to_string(self) -> str:
        return f"Title: {self.title}\nLink: {self.link}\nSnippet: {self.snippet}"

def google_search(query: str) -> SearchResult:
    """Perform a Google search using Serper.dev API"""
    try:
        url = "https://google.serper.dev/search"
        payload = json.dumps({"q": query})
        headers = {
            'X-API-KEY': SERPER_API_KEY,
            'Content-Type': 'application/json'
        }
        
        response = requests.post(url, headers=headers, data=payload)
        response.raise_for_status()  # 잘못된 상태 코드에 대해 예외 발생
        
        results = response.json()
        
        if not results.get('organic'):
            raise ValueError("No search results found.")
            
        first_result = results['organic'][0]
        return SearchResult(
            title=first_result.get('title', 'No title'),
            link=first_result.get('link', 'No link'),
            snippet=first_result.get('snippet', 'No snippet available.')
        )
    except Exception as e:
        print(f"Search error: {str(e)}")
        raise

def parse_function_call(response: str) -> Optional[FunctionCall]:
    """Parse the model's response to extract function calls"""
    try:
        # Clean the response and find JSON structure
        response = response.strip()
        start_idx = response.find('{')
        end_idx = response.rfind('}') + 1
        
        if start_idx == -1 or end_idx == 0:
            return None
            
        json_str = response[start_idx:end_idx]
        data = json.loads(json_str)
        return FunctionCall(**data)
    except Exception as e:
        print(f"Error parsing function call: {str(e)}")
        return None

gemma에 지시할 시스템 프롬프트 명령을 정의한다. prompt_system_message는 이 챗봇이 어떻게 동작해야 하는지, 그리고 어떤 기준으로 답변을 해야 하는지에 대한 지침을 제공하는 역할을 한다. 이 메시지는 챗봇이 2024년까지의 정보를 학습한 AI 어시스턴트임을 명확히 하고, 사용자의 질문에 대해 가능한 경우에는 바로 답변을 하되, 최신 정보나 불확실한 내용, 시의성이 있는 질문에 대해서는 반드시 펑션콜을 통해 검색 기능을 활용해야 함을 명시한다. 이전 대화 내용이 함께 입력으로 주어지기 때문에, 챗봇은 이 대화 맥락을 참고하여 일관성 있고 상황에 맞는 답변을 해야 한다고 안내한다. 참고로, 준수해야 할 gemma3의 function call 형식은 다음과 같다.

gemini-samples/examples/gemma-function-calling.ipynb at main · philschmid/gemini-samples

검색이 필요한 상황과 그렇지 않은 상황을 구체적으로 구분하여, 챗봇이 임의로 정보를 추정하거나 추가하지 않고, 검색 결과에 기반한 사실만을 간결하게 전달하도록 유도한다. 검색이 필요한 경우에는 정해진 JSON 형식으로만 응답하도록 하여, 시스템이 함수 호출 방식으로 검색을 처리할 수 있게 한다.

# 프롬프트 시스템 메세지 정의
prompt_system_message = """You are an AI assistant with training data up to 2024. Answer questions directly when possible, and use search when necessary.

You will receive previous conversation messages as part of the input. Use these prior messages to maintain context and provide coherent, context-aware answers.

DECISION PROCESS:
1. For historical events before 2024:
   - Answer directly from your training data.
2. For events in 2024:
   - If you are certain, answer directly.
   - If you are unsure, use search.
3. For events after 2024 or current/recent information:
   - Always use search.
4. For timeless information (scientific facts, concepts, etc.):
   - Answer directly from your training data.

ALWAYS USE SEARCH if the question:
- Contains words like "current", "latest", "now", "present", "today", "recent"
- Asks about someone in a changing position (champion, president, CEO, etc.)
- Requests information that might have changed since 2024
- Is time-sensitive and does not specify a time period

FUNCTION CALL FORMAT:
When you need to search, respond WITH ONLY THE JSON OBJECT, no other text, no backticks:
{
    "name": "google_search",
    "parameters": {
        "query": "your search query"
    }
}

SEARCH FUNCTION:
{
    "name": "google_search",
    "description": "Search for real-time information",
    "parameters": {
        "type": "object",
        "properties": {
            "query": {
                "type": "string",
                "description": "Search term"
            }
        },
        "required": ["query"]
    }
}

WHEN ANSWERING BASED ON SEARCH RESULTS:
- Use ONLY facts found in the search results below.
- Do NOT add any dates or information not present in the search results.
- Do NOT make assumptions about timing or events.
- Quote dates exactly as they appear in the results.
- Keep your answer concise and factual.
"""

gemma에 전달할 메시지는 프롬프트 지시문, 사용자 질문을 포함한 이전 채팅 이력 메시지 등을 모두 포함한다. 이를 ollama LLM 에 전달할 수 있는 형식으로 변환하는 함수를 다음과 같이 준비한다.

# 메시지 리스트를 생성하는 함수
def filter_memory(memory):
    """assistant의 검색 안내 메시지를 memory에서 제외"""
    return [
        msg for msg in memory
        if not (
            msg["role"] == "assistant" and (
                msg["content"].startswith("Searching for:") or
                msg["content"].startswith("Searched for:")
            )
        )
    ]

def build_messages(chat_history, user_input=None, prompt_system_message=prompt_system_message, N=6, search_result=None):
    """
    최근 N개 메시지와 system 메시지를 합쳐 messages 리스트를 만듭니다.
    search_result가 있으면, user_input 대신 검색 결과 기반 프롬프트를 추가합니다.
    """
    memory = chat_history[-N:] if len(chat_history) > N else chat_history[:-1]
    filtered_memory = filter_memory(memory)
    messages = [{"role": "system", "content": prompt_system_message}] + filtered_memory
    if search_result is not None:
        messages.append({
            "role": "user",
            "content": (
                "Refer to the following search result and provide a concise, factual answer based only on this information:\n"
                f"{search_result.to_string()}"
            )
        })
    elif user_input is not None:
        messages.append({"role": "user", "content": user_input})
    return messages

이제 process_message 함수를 구현한다. 이 함수는 사용자의 입력과 기존 채팅 기록을 받아 AI 모델과의 대화 흐름을 관리하는 역할을 한다.

먼저 사용자의 메시지를 채팅 기록에 추가하고, 이전 대화 내용(메모리)을 추출하여 시스템 메시지와 함께 모델에 전달할 메시지 목록을 구성한다. 이 메시지 목록을 Ollama 모델에 전달하여 응답을 받는다. 모델의 응답이 함수 호출(JSON) 형태라면, 그 내용을 파싱하여 검색이 필요한 경우 검색 쿼리를 추출한다.

검색이 필요하다고 판단되면, 검색 중임을 알리는 메시지를 채팅 기록에 추가하고, 실제로 검색을 수행한다. 검색 결과를 다시 채팅 기록에 반영한 뒤, 이 결과를 포함한 새로운 메시지 목록을 만들어 모델에 전달하여 최종 답변을 받는다. 최종적으로 받은 답변 역시 채팅 기록에 추가한다.

검색이 필요하지 않은 경우에는 모델의 응답을 바로 채팅 기록에 추가한다. 이 과정에서 각 단계별로 최신 채팅 기록을 반환하여, 사용자 인터페이스가 실시간으로 대화 상태를 갱신할 수 있도록 한다.

함수 실행 중 오류가 발생하면, 오류 메시지를 채팅 기록에 추가하여 사용자에게 알린다.

# Model name
MODEL_NAME = "gemma3"

def process_message(user_input, chat_history):
    """Process user message and update chat history"""
    try:
        # 사용자 메시지를 기록에 추가
        chat_history.append({"role": "user", "content": user_input})
        search_info = None

        # 최근 N개 메시지만 memory에 포함 (예: 최근 6개)
        N = 6
        messages = build_messages(chat_history, user_input=user_input, N=N)

        # 모델로부터 응답 받기
        response = ollama.chat(
            model=MODEL_NAME,
            messages=messages       
        )
        
        model_response = response['message']['content']
        
        # 함수 호출로 응답을 파싱 시도
        function_call = parse_function_call(model_response)
        
        if function_call and function_call.name == "google_search":
            # 검색 파라미터 검증
            search_params = SearchParameters(**function_call.parameters)
            search_query = search_params.query
            
            # 검색 정보 기록에 추가
            search_info = f"Searching for: {search_query}"
            chat_history.append({"role": "assistant", "content": search_info})
            yield chat_history
            
            # 검색 실행
            search_result = google_search(search_query)
            
            # 검색 결과로 정보 업데이트
            search_info = f"Searched for: {search_query}\n\nResult:\n{search_result.to_string()}"
            chat_history[-1] = {"role": "assistant", "content": search_info}
            yield chat_history

            # 검색 결과 기반 메시지 생성
            messages = build_messages(chat_history, N=N, search_result=search_result)
      
            # 검색 결과를 포함해 모델로부터 최종 응답 받기
            final_response = ollama.chat(
                model=MODEL_NAME,
                messages=messages
            )
            
            assistant_response = final_response['message']['content']
        else:
            # 함수 호출이 없으면 직접 응답 반환
            assistant_response = model_response
        
        # 최종 응답을 기록에 업데이트
        if search_info:
            chat_history.append({"role": "assistant", "content": f" Response:\n{assistant_response}"})
        else:
            chat_history.append({"role": "assistant", "content": assistant_response})
        
        yield chat_history
            
    except Exception as e:
        error_msg = f"An error occurred: {str(e)}"
        chat_history.append({"role": "assistant", "content": error_msg})
        yield chat_history

이제 Gradio UI 를 정의하고, 메인 엔트리에서 이 앱을 실행한다.

# Gradio 인터페이스 생성
with gr.Blocks(css="footer {visibility: hidden}") as demo:
    gr.Markdown("""
    # Agent based on Gemma3 using Function Call
    

    """)
    
    chatbot = gr.Chatbot(
        height=500,
        show_label=False,
        avatar_images=(None, "https://api.dicebear.com/9.x/identicon/svg?seed=Mason"),
        type="messages"
    )
    
    with gr.Row():
        msg = gr.Textbox(
            scale=5,
            show_label=False,
            placeholder="Ask me anything...",
            container=False
        )
        submit_btn = gr.Button("Send", scale=1)
    
    with gr.Row():
        clear_btn = gr.Button("Clear Chat")
    

    # 이벤트 핸들러 설정
    msg.submit(
        process_message,
        [msg, chatbot],
        [chatbot],
    )
    
    submit_btn.click(
        process_message,
        [msg, chatbot],
        [chatbot],
    )
    
    clear_btn.click(
        lambda: [],
        None,
        chatbot,
        queue=False
    )
    
    # 메시지 전송 후 텍스트박스 비우기
    msg.submit(lambda: "", None, msg)
    submit_btn.click(lambda: "", None, msg)

if __name__ == "__main__":
    demo.launch(inbrowser=True, share=True) 

실행

앞에 구현된 앱을 실행한다. 그리고, 적절한 질문을 입력해 본다. 다음과 같이 실행되면 성공한 것이다.

펑션콜 문제 개선 방법

실제로 질의해보면 불명확한 프롬프트 입력 등에서 부적절한 함수 호출이 수행되는 것을 알 수 있다. 이를 개선하기 위해 다음 사항을 고려한다.

프롬프트 설계의 명확성

함수 호출이 필요한 상황, 호출 방식(JSON 포맷 등), 호출 예시를 SYSTEM_MESSAGE에 명확하게 안내해야 한다. 함수 호출이 아닌 일반 답변을 하면 안 된다는 점을 반복적으로 강조한다.
예시 프롬프트:
"질문에 답변하기 위해 함수 호출이 필요하다고 판단되면 반드시 아래 JSON 형식으로만 응답하라. 다른 텍스트나 설명은 절대 포함하지 마라."

함수 정의의 구체성

함수의 목적, 파라미터, 반환값, 사용 예시를 상세하게 기술한다. 각 파라미터의 타입, 필수 여부, 설명을 명확히 한다. 함수가 처리할 수 없는 입력(예: 빈 문자열, 잘못된 타입 등)에 대한 예외 상황도 명시한다.

예시 기반 Few-shot Prompting

SYSTEM_MESSAGE 또는 user message에 함수 호출이 필요한 질문과 그에 대한 올바른 함수 호출 예시를 여러 개 포함시킨다. 예시가 많을수록 모델이 패턴을 더 잘 학습한다.

함수 호출 실패 시 재시도 로직

모델이 함수 호출을 하지 않거나 잘못된 형식으로 응답하면, 내부적으로 "함수 호출이 필요합니다. 반드시 JSON 형식으로만 응답하세요."와 같은 추가 프롬프트로 재요청한다.

출력 파싱의 견고성

모델이 JSON 외의 텍스트를 섞어서 반환할 수 있으므로, 파싱 로직에서 JSON 부분만 추출하거나, 불완전한 JSON도 최대한 보완해서 파싱하도록 한다.

함수 호출 의도 강화 프롬프트

SYSTEM_MESSAGE에 "함수 호출이 필요한 상황에서는 반드시 함수 호출을 우선적으로 고려하라"는 문구를 추가한다. "만약 함수 호출이 필요하지 않다고 판단되면, 그 이유를 설명하지 말고 바로 답변만 하라." 등 불필요한 설명을 억제한다.

모델 버전 및 파라미터 최적화

최신 GPT-4 Turbo 등 함수 호출에 최적화된 모델을 사용한다. temperature, top_p 등 파라미터를 낮춰 일관된 응답을 유도한다.

함수 호출 실패 케이스 수집 및 개선

실제 사용자 입력 중 함수 호출이 누락된 사례를 수집하여, SYSTEM_MESSAGE나 예시 프롬프트를 지속적으로 개선한다.

이외에 잘 활용되는 함수에 대한 파인튜닝을 수행해 본다.

마무리

본 글은 ollama 를 이용한 gemma3 모델을 로딩해 Agent 개발 시 핵심이 되는 function call을 구현해 보았다. 실행해 보면 알겠지만, 펑션콜은 프롬프트 입력에 따라 민감하게 동작한다는 것을 알 수 있다. 그러므로, 함수 호출 방식은 적절히 LLM 오케스트레이션 및 튜닝되어야 한다는 것을 알 수 있다.

레퍼런스

ReAct 에이전트 프레임웍 내부 코드 구조 개발해보기

2025-05-17T22:02:00.000-07:00

ReAct(Reasoning and Acting) 에이전트 구조는 대형 언어 모델(LLM)을 기반으로 도구 호출 기능을 통합한 지능형 에이전트 시스템을 구현하는 설계 방식이다. 사용자의 지시를 추론하고 필요한 경우 외부 도구를 호출하여 목표를 달성하는 능력을 지니며, 최근 AutoGPT, BabyAGI, Manus 등 다양한 오픈소스 프로젝트에서 채택되고 있다. 이 글에서는 ReAct 에이전트 프레임웍 내부 코드 구조를 직접 개발해본다. 아울러, ReAct 에이전트의 문제점들을 살펴보고 솔류션을 생각해본다.

ReAct Agent 구조(AI Agents Crash Course—Part 10 (With Implementation)

ReAct 구조

ReAct 시퀀스 처리 구조는 LLM 기반 에이전트가 사고(Think), 행동(Act), 관찰(Observe), 결론(Final)의 단계로 사용자 질의에 응답하는 체계적 프로세스이다. 이 구조는 복잡한 문제 해결을 위해 LLM이 도구와 상호작용하면서 점진적으로 정답을 유도해내도록 설계되었다.

다음은 해당 코드에서 구현된 ReAct 시퀀스의 흐름이다.

Think
LLM은 질문에 대한 분석을 수행하며 필요한 경우 어떤 도구를 사용할지를 판단한다. 이 단계는 주로 텍스트 상의 추론 내용으로 표현되며, 도구 실행 없이 논리 전개만 이루어진다.
Act
필요하다고 판단되면 Act: ToolName[Input] 또는 Act: ToolName(Input) 형식으로 도구 호출을 지시한다. 이 지시문은 정규표현식으로 감지되어 실제 도구 실행이 트리거된다.
Observe
호출된 도구가 실행되고, 그 결과는 Observe: 접두사를 붙여 기록된다. 이 결과는 이후 컨텍스트에 포함되어 다음 LLM 호출의 입력으로 사용된다.
Final
충분한 정보가 수집되면 Final Answer: 형식으로 최종 응답을 제공한다. 이는 루프를 종료시키는 조건이기도 하며, 에이전트의 실행 결과로 사용자에게 출력된다.

이러한 시퀀스를 통해 LLM은 단순히 한 번에 답변하는 것이 아니라, 도구를 여러 번 사용하고 그 결과를 반영하며 점진적으로 정확한 응답에 도달한다.

ReAct 에이전트 내부 코드 구현해보기

앞서 언급된 개념을 고려해 ReAct 에이전트의 핵심적인 코드만 구현해 본다. 다음과 같이 관련 라이브러리를 설치한다.

pip install langchain

다음과 같이 코드를 구현한다.

import re, os
from langchain.tools import Tool
from langchain_community.tools.tavily_search import TavilySearchResults
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage
from dotenv import load_dotenv

load_dotenv()

# Calculator function
def calculator(input_str: str) -> str:
    try:
        result = eval(input_str)
        return str(result)
    except Exception as e:
        return f"Error: {e}"

def FireCrawlResults(max_results=3, search_type="web"):
    from langchain_community.tools.fire_crawl import FireCrawlResults
    return FireCrawlResults(max_results=max_results, search_type=search_type) # TBD

# Initialize tools
tools = [
    Tool(
        name="Calculator",
        func=calculator,
        description="Evaluates mathematical expressions. Input should be a valid Python expression."
    ),
    TavilySearchResults(max_results=3, search_type="web"),
    # FireCrawlResults(max_results=3, search_type="web"),
]

# Function to extract tool prototype info
def get_tools_info(tools):
    info_list = []
    for tool in tools:
        # Try to get function signature if possible
        if hasattr(tool, "func"):
            proto = f"{tool.name}(input: str)"
        else:
            proto = f"{tool.name}(input: str)"
        desc = getattr(tool, "description", "No description.")
        info_list.append(f"- {proto}: {desc}")
    return "\n".join(info_list)

# Initialize the language model
llm = ChatOpenAI(temperature=0, model="gpt-4", max_tokens=4000)
answer_validation_llm = ChatOpenAI(temperature=0, model="gpt-4-turbo", max_tokens=4000)

# Prompt template for ReAct
prompt_template = """
Instruction: {instruct}
IMPORTANT: If you do not know the answer, do not use 'Final Answer', just say 'I don't know'.

Tools you can use:
{tools}

Context:
{context}

Query:
{query}

You should follow the ReAct pattern:
- Think: Reason about the question or next step.
- Act: If needed, use a tool in the format Act: <tool>[<input>].
- Observe: Note the result of the action.
- Final: Give the final answer in the format Final Answer: <answer>.
"""

answer_validation_prompt = """
Question: {question}
Answer: {answer}
Is the answer relevant and correct for the question? Reply only with "yes" or "no" and a short reason.
"""

class ReActAgent:
    def __init__(self, llm, tools, prompt_template):
        self.llm = llm
        self.tools = {tool.name: tool for tool in tools}
        self.prompt_template = prompt_template
        self.tools_info = get_tools_info(tools)

    def validate_answer(self, question, answer):
        prompt = answer_validation_prompt.format(question=question, answer=answer)
        messages = [HumanMessage(content=prompt)]
        output = answer_validation_llm(messages)
        response = output.content.strip().lower()
        return response.startswith("yes"), response

    def run(self, input_query: str):
        history = []
        while True:
            prompt = self.prompt_template.format(
                instruct="Answer the question in detail using ReAct reasoning.",
                tools=self.tools_info,
                context="\n".join(history),
                query=input_query
            )
            messages = [HumanMessage(content=prompt)]
            output = self.llm(messages)
            response = output.content.strip()
            history.append(response)

            # Check for Final Answer
            final_match = re.search(r"Final Answer:\s*(.*)", response, re.IGNORECASE)
            if final_match:
                answer = final_match.group(1)
                # is_valid, validation_msg = self.validate_answer(input_query, answer) # TBD. 실제 react 코드 확인.
                # if is_valid:
                return answer

            # Detect action
            action_match = re.search(r"Act:\s*(\w+)[\[\(](.*)[\]\)]", response)
            if action_match:
                action_name = action_match.group(1)
                action_input = action_match.group(2)
                print(f"Action detected: {action_name} with input: {action_input}")

                tool = self.tools.get(action_name)
                if not tool:
                    history.append(f"Observe: Unknown tool: {action_name}")
                    continue
                action_input = action_input.replace("'", "").replace('"', "")   
                result = tool.run(action_input)
                history.append(f"Observe: {result}")
            else:
                # If no action and no final answer, just continue (could be Think step)
                continue

agent = ReActAgent(llm=llm, tools=tools, prompt_template=prompt_template)

def test():
    query = "What is the result of 12 * (3 + 4)?"
    result = agent.run(query)
    print(result)

    query = "What is the capital of France?"
    result = agent.run(query)
    print(result)

    query = "In web, What is Taewook kang's paper about Geo BIM using BIM and GIS?"
    result = agent.run(query)
    print(result)

def main():
    print("ReAct Agent is ready to use.")
    print("Available tools:")
    for tool in agent.tools_info.split("\n"):
        print(tool)

    # test()

    print("\nInteractive mode:")
    while True:
        query = input("Enter your query (or 'exit' to quit): ")
        if query.lower() == "exit":
            break
        result = agent.run(query)
        print(result)

if __name__ == "__main__":
    main()

이 코드는 ReAct 시퀀스를 중심으로 구성되어 있다. ReAct란 LLM이 단순한 질의응답을 넘어서서, 생각하고 도구를 사용하고 그 결과를 바탕으로 다시 추론한 뒤 최종적인 답을 내리는 일련의 추론 패턴이다. 이 흐름은 크게 네 단계로 나뉜다.

첫째, Think 단계에서는 주어진 질문에 대해 어떻게 접근할지를 LLM이 서술적으로 사고한다. 둘째, Act 단계에서는 필요하다고 판단한 도구를 지정된 형식으로 호출한다. 이때 Act: ToolName[Input] 형식을 사용한다. 셋째, Observe 단계에서는 실행된 도구의 결과를 받아 LLM의 다음 추론에 포함될 수 있도록 기록한다. 넷째, Final 단계에서는 Final Answer: 답변 형식으로 최종 결론을 도출한다.

이러한 시퀀스를 실제로 구현하기 위해 코드에서는 특정 정규표현식을 사용하여 각 단계를 감지하고 분기 처리한다. 예를 들어, Act 단계는 Act:라는 키워드를 통해 감지되고, 대응되는 도구 이름과 입력값이 추출된다. 대응되는 도구가 존재하면 해당 함수나 객체의 run 메서드를 호출하여 결과를 얻고, 이를 Observe로 기록하여 다음 프롬프트 생성 시 문맥으로 전달한다. Final Answer가 감지되면 그 값을 최종 출력으로 반환하면서 루프를 종료한다.

코드는 먼저 환경변수를 불러오고, 수학 계산용 calculator 함수와 웹 검색용 Tavily 도구를 정의하고 tools 목록에 등록한다. 각 도구는 Tool 객체로 구성되며, name, func, description 속성을 갖는다. 이 도구들의 인터페이스 정보는 get_tools_info 함수를 통해 LLM 프롬프트에 전달할 수 있는 형식으로 변환된다.

ReActAgent 클래스는 핵심 로직을 담당한다. 생성자에서는 도구를 이름으로 접근 가능하도록 딕셔너리 형태로 구성하며, 프롬프트 템플릿에 포함할 도구 설명을 자동으로 생성한다. run 메서드는 LLM과의 대화를 이끄는 루프이다. 사용자의 입력 쿼리를 바탕으로 Think부터 Final 단계까지의 응답을 순차적으로 생성하고, 도구 호출이 필요한 경우 자동으로 감지하여 실행한다.

LLM은 ChatOpenAI 클래스를 통해 초기화되며, 주 모델과 검증용 모델이 따로 구성된다. 현재 코드는 검증 부분이 주석 처리되어 있어 정답 검증은 수행되지 않지만 validate_answer 메서드는 존재한다. 해당 메서드는 question과 answer를 받아 프롬프트에 삽입하고 gpt-4-turbo 모델로부터 응답을 받아 yes 또는 no 여부와 사유를 반환한다.

main 함수는 인터랙티브한 사용자 입력을 받아 ReActAgent를 호출하는 실행 루틴이다. 사용자가 exit이라고 입력할 때까지 질의를 받고 응답을 출력하는 루프를 구성한다. 이로써 ReActAgent는 반복적인 질의응답 상황에서도 도구를 활용하여 논리적 사고 과정을 수행하고, 외부 정보에 기반한 정답을 도출할 수 있도록 설계되어 있다.

주요 문제 유형

ReAct 기반 에이전트는 구현 및 실전 적용 과정에서 여러 구조적 문제와 비효율이 발생한다. 이러한 문제 사례를 분석하고, 실제 커뮤니티에서 공유된 해결 전략과 함께 개선 방향을 확인해 본다.

추론 오류
에이전트가 잘못된 전제나 문맥에 기반하여 부적절한 도구를 선택하거나 오답을 도출하는 문제가 빈번히 발생한다. 이는 LLM의 한계와 프롬프트 설계 미비, 또는 이전 상태 정보의 왜곡에 기인한다.

반복 및 루프 문제
에이전트가 목표에 도달하지 못하고 동일한 행동을 반복 수행하는 루프에 빠지는 문제가 자주 발생한다. 이는 max_steps 제한이 없거나, 실패 판단 기준이 모호한 경우에 두드러진다.

결과 검증 실패
에이전트가 도출한 결과가 부정확하거나 무의미함에도 불구하고, 이를 최종 결과로 판단하고 종료되는 문제가 있다. 이는 정답 여부를 평가할 수 있는 검증 메커니즘의 부재 혹은 Verifier LLM의 오판 때문이다.

지연 및 비용 문제
ReAct 구조는 추론 Think, 행동 Act, 검증 Verify 단계에서 각각 LLM 호출이 필요하므로 응답 지연이 누적되며, 고성능 모델 사용 시 비용 또한 급증하게 된다.

상태 관리 실패
에이전트가 이전 문맥을 적절히 유지하지 못하거나, 기억을 잘못 참조하여 추론에 실패하는 경우가 있다. 이는 memory overflow, context 길이 초과 등으로 인해 발생한다.

해외 커뮤니티 보고 사례

Reddit, GitHub, Hacker News 등 해외 커뮤니티에서는 위 문제들이 반복적으로 보고되고 있다. 주요 사례는 다음과 같다

r/React 에서는 Langchain의 늦은 React 에이전트 성능에 대한 문제가 제기된 적이 있다. 이런 사례는 수도 없이 많다.

r/AutoGPT에서는 도구 호출 반복, final answer 오류 등 루프와 검증 문제를 다룬 글들이 다수 존재한다.

r/MachineLearning에서는 hallucination 문제, tool selection 오류에 대한 토론이 있다
GitHub Issues의 OpenDevin, Voyager 등의 리포지터리에서도 루프, 상태 관리 문제, 도구 실행 실패가 자주 보고되고 있다

이는 ReAct 구조의 본질적인 설계 한계와 관련되며, 이를 보완하기 위한 다양한 시도들이 커뮤니티에서 논의되고 있다

해결 방안

Verifier LLM의 도입
추론 결과에 대해 별도의 고성능 LLM을 사용하여 정답 여부를 판단하도록 구성하는 방식이다 예를 들어 GPT 35 기반 ReAct 에이전트를 GPT 4 기반 Verifier로 보완하는 사례가 있다

Confidence 기반 조건 실행
LLM이 응답에 대한 신뢰도 confidence score를 함께 출력하도록 하고, 일정 기준 미만일 경우에만 검증자 호출 또는 재시도를 수행하는 방식이다

행동 다양성 유도 및 페널티 적용
같은 도구를 반복 호출하지 않도록 행동 선택 시 다양성을 보장하거나 페널티 기반 scoring 방식을 적용한다

결과 품질 기반 Soft Fallback 적용
결과가 일정 기준 미달일 경우 완료 실패 메시지를 출력하거나, 대체 응답을 제공하는 방식으로 흐름을 마무리한다

도메인 기반 grounding 기법
도메인 특화 지식을 embedding하거나 retriever를 통해 grounding context를 제공함으로써 hallucination을 감소시키는 방식이다

LLM 처리 지연 보완을 위한 전략

ReAct 구조에서는 LLM을 여러 번 호출하는 구조로 인해 응답 시간이 증가하는 문제가 발생한다. 이를 해결하기 위한 보완 전략은 다음과 같다

첫째, 동일한 LLM을 사용하는 것이 아니라 추론 단계는 경량 LLM을 사용하고 검증 단계는 고성능 LLM을 사용하는 방식으로 역할 분리를 통해 효율을 높이는 방안이 있다

둘째, LLM의 confidence score를 이용하여 신뢰도가 충분히 높은 경우에는 검증 단계를 생략함으로써 전체 호출 횟수를 줄일 수 있다

셋째, 여러 행동 중 하나를 선택할 때 prefetch 또는 batch decoding 방식을 사용하여 예측을 병렬적으로 수행하면 전체 응답 지연을 줄일 수 있다

넷째, 반복되는 도구 호출에 대해서는 캐싱 메커니즘을 도입하거나 결과를 저장하여 재활용함으로써 불필요한 호출을 방지할 수 있다

다섯째, 검증자 역할을 하는 LLM을 완전한 LLM이 아니라 룰 기반 평가기 또는 소형 모델로 대체하여 빠르게 판단하게 하는 방식도 고려할 수 있다

코드 기반 구현 예시 요약

ReAct 기반 구조는 보통 다음 흐름으로 구성된다

사용자 입력 수신
LLM을 통해 행동 계획 수립 Think
해당 도구 실행 Act
결과 수신 후 Verifier를 통해 정답 여부 판단 Verify
정답 시 종료, 실패 시 재시도 또는 fallback 처리

이러한 구조는 Python 코드로 구현할 수 있으며, 각 함수는 다음과 같은 역할을 수행한다

think goal 행동 계획 생성
act action 도구 실행 및 결과 수신
verify result, goal 결과 검증
run goal 전체 흐름 통제 및 반복 로직 포함

결론

ReAct 기반 에이전트는 고도의 자율성을 지닌 시스템이나, 구조적으로 여러 한계가 존재한다. 특히 결과 검증 실패, 반복 루프, hallucination, 비용 증가 문제는 실제 운영 및 서비스화에 있어 큰 장애 요인이 된다. 이를 해결하기 위해서는 검증자 LLM 도입, confidence 기반 흐름 제어, 도구 호출의 다양성 보장, grounding 및 fallback 전략이 함께 설계될 수 있다.

부록: 보고서 형식 AI 에이전트 패턴

ReAct 에이전트는 Reasoning and Acting의 약어로, LLM이 툴과 상호작용하며 문제를 해결하는 패턴이다. 이 구조는 인간처럼 사고하고, 필요한 정보를 외부 도구에서 검색하거나 계산을 수행한 뒤, 최종적으로 응답을 생성한다. 이로 인해 복잡한 질의나 멀티스텝 추론이 필요한 경우에 적합한 패턴으로 여겨진다. 그러나 이러한 장점에도 불구하고, LLM이 여러 차례 호출되고 툴도 반복적으로 작동하므로 응답 시간이 느려지고, API 사용량 증가로 인해 비용이 상승하는 단점이 존재한다.

한편 단순히 보고서를 생성하는 용도로 LLM을 사용하는 경우라면, 복잡한 Reasoning이나 여러 번의 외부 툴 호출은 필요하지 않다. 이때는 ReAct 에이전트를 사용하는 것이 오히려 비효율적이며, 불필요한 구조적 복잡성과 지연을 유발한다. 따라서 보고서 자동 생성이라는 목적에 최적화된 에이전트 구조는 단일 호출 기반 구조가 적합하다.

이 구조는 Single-Shot LLM Invocation 패턴으로 명명된다. 이 방식은 LLM을 한 번만 호출하여 입력된 요구 사항에 맞는 보고서를 즉시 생성한다. 별도의 도구 호출이나 intermediate step 없이 하나의 잘 설계된 프롬프트를 중심으로 전체 작업이 이루어진다. 이 패턴은 속도가 빠르고, 처리 흐름이 단순하며, LLM API 호출 횟수를 최소화하므로 비용이 낮다. 특히 단일 보고서, 요약, 이메일 초안, 블로그 콘텐츠와 같은 목적에 적합하며, 사용자의 입력 내용에 따라 문서 포맷이나 톤을 조정하는 것만으로 충분한 성능을 발휘한다.

단일 호출 구조는 별도의 외부 툴이나 체인을 필요로 하지 않기 때문에 LangChain이나 ReAct 구조 없이도 Python 코드 수준에서 간단히 구현이 가능하다. 예를 들어, 사용자가 요구사항을 입력하면 그에 맞는 템플릿 기반 프롬프트를 작성하고, 이를 LLM에 전달해 한 번에 결과를 반환받는 방식이다. 이러한 프롬프트에 보고서의 형식, 어조, 길이 등을 명시하면, 결과물의 일관성과 품질도 충분히 확보할 수 있다.

이 외에도 필요에 따라 Plan-and-Write 패턴을 고려할 수 있다. 이 패턴은 먼저 전체 문서의 개요를 작성한 뒤, 각 항목에 따라 내용을 생성하는 방식이다. 좀 더 명확한 구성과 섹션 구분이 필요할 때 유용하다. 통계 수치나 외부 데이터를 포함해야 할 경우에는 Toolformer와 같이 선택적으로 툴을 호출하는 패턴을 도입할 수 있다. 마지막으로 문서가 일정한 형식을 유지해야 하거나 후처리를 자동화해야 할 때는 Structured Prompting 패턴을 사용할 수 있으며, JSON 또는 Markdown 형식으로 문서 구조를 고정하여 일관성을 높인다.

결론적으로, 보고서 자동 생성처럼 복잡한 추론이나 외부 툴 연동이 불필요한 작업에는 ReAct와 같은 다단계 에이전트 구조는 적합하지 않다. 대신 단일 LLM 호출로 작업을 완료하는 Single-Shot 방식이 가장 효율적이며, 프롬프트 최적화만으로 높은 품질의 결과를 얻을 수 있다.

부록: AI 에이전트 오케스트레이션

사용자 질문에 따라 적절한 에이전트 패턴을 선택하기 위해서는 입력의 목적과 복잡성을 빠르게 분류할 수 있는 에이전트 오케스트레이션 메커니즘이 필요하다. 다음 의사코드는 솔류션을 보여준다.

def classify_input(user_input):
    if "보고서" in user_input or "작성해" in user_input:
        return "simple_generation"
    if "json" in user_input or "표로" in user_input:
        return "structured_output"
    if "비교해" in user_input or "어떤게 더 나아" in user_input:
        return "tool_assisted"
    if "계산" in user_input or any(op in user_input for op in "+-*/"):
        return "tool_assisted"
    return "multi_step_reasoning"

def classify_input(user_input):
    result = rule_based_classifier(user_input)
    if result == "unknown":
        return llm_classifier(user_input)
    return result

여기서는 classify_input 함수가 사용되며, 이 함수는 사용자의 입력 문장을 분석하여 어떤 처리 패턴이 적합한지를 판단하는 역할을 수행한다. 하지만 이 함수 자체가 느리거나 LLM 호출을 과도하게 유발하면 전체 시스템의 응답성이 떨어지므로, 이를 빠르게 실행할 수 있는 설계가 중요하다.

classify_input을 빠르게 실행하기 위한 방법은 크게 세 가지로 구분된다. 첫 번째는 경량 LLM을 사용하는 방식이다. 이 방법은 GPT-3.5 Turbo, Claude Instant, DistilBERT 등의 속도가 빠른 경량 언어 모델을 활용하여 입력을 분류하는 방식이다. 프롬프트는 미리 정의된 범주 중에서 입력이 어떤 태스크 유형에 해당하는지를 선택하게 하며, 이에 따라 적절한 패턴으로 연결된다. 이 방식은 유연하고 적응력이 높지만, 여전히 LLM 호출이기 때문에 응답 속도에 영향을 줄 수 있다. 그럼에도 불구하고 ReAct 등 복잡한 구조보다는 훨씬 빠르고 저비용이다.

두 번째 방식은 규칙 기반 분류 방식이다. 이는 키워드 기반으로 입력 문장을 빠르게 분류하는 방법으로, 예를 들어 ‘보고서’, ‘작성해’ 등의 단어가 포함되어 있으면 단순 생성 태스크로 간주하고, ‘비교’, ‘계산’, ‘표로’ 등의 단어가 있으면 툴 기반 또는 구조화된 출력을 요구하는 태스크로 분류하는 것이다. 이 방식은 매우 빠르며, 수 마이크로초 이내에 실행이 가능하고, 비용도 발생하지 않는다. 그러나 복잡한 문장이나 여러 의미가 섞인 문장에 대해서는 정확하게 분류하지 못할 위험이 있다.

세 번째는 하이브리드 방식이다. 이 방식은 앞서 언급한 규칙 기반 분류기를 우선 사용하고, 그 결과가 불확실하거나 unknown일 경우에만 경량 LLM을 호출하여 보완 분류를 수행한다. 이 구조는 속도와 정확도 사이의 균형을 잡기 위해 매우 현실적인 대안이며, 실제로 OpenAI API 기반 에이전트나 LangChain의 라우팅 모듈에서도 유사한 방식이 채택된다. 구현은 상대적으로 복잡할 수 있으나, 전체 시스템의 응답성과 품질을 함께 유지할 수 있는 방법이다.

결론적으로 classify_input 함수를 빠르게 실행하기 위해서는 입력의 유형과 빈도에 따라 최적화 전략을 선택해야 한다. 단순한 텍스트 입력이 반복되는 시스템에서는 규칙 기반 분류기로 충분하며, 복합 입력이 자주 등장하는 환경에서는 하이브리드 분류기를 설계하는 것이 이상적이다.

OpenAI 바이브 코딩 지원 멀티 에이전트 Codex 도구 사용법

2025-04-17T00:04:00.000-07:00

이 글은 OpenAI가 개발한 바이브 코딩(vibe coding)을 지원하는 멀티 에이전트 Codex 사용법을 간략히 소개한다. 이 글은 얼마전 ChatGPT Pro 버전에 무료로 오픈된 Codex와 오픈소스 Codex 버전(CLI) 각 사용법을 모두 설명한다.

Codex | OpenAI

소개

현재 시점(4월17일)에서 14시간 전에 OpenAI o3, o4, codex 가 공개되었다. 모두 멀티 AI 에이전트 기능을 충실히 구현한 영상을 데모가 업로드되었고, 특히, 자동화 코딩을 지원하는 codex(코덱스) 가 로컬 컴퓨터에서 실행 가능한 형태로 공개된 점이 인상적이었다.

OpenAI o3, o4, codex 공개 영상

Codex는 단순한 코드 생성에 그치지 않고, 버그 수정, 테스트 실행, 코드 리뷰 제안 등 복잡한 개발 업무를 자동화한다. 각 작업은 사용자의 코드 저장소가 사전 로드된 격리된 클라우드 샌드박스 환경에서 독립적으로 실행되며, 작업의 복잡도에 따라 1분에서 30분 이내에 결과를 제공한다. 또한, Codex는 작업 수행 과정에서 생성된 터미널 로그와 테스트 출력 등의 증거를 제공하여, 사용자가 변경 사항을 추적하고 검토할 수 있도록 지원한다.

코덱스 코드 및 도구는 Github에 공개되었다.

codex: Lightweight coding agent that runs in your terminal

6월초에는 ChatGPT pro 사용자에게 codex 기능이 공개되었다. Codex는 ChatGPT의 사이드바를 통해 접근할 수 있으며, 사용자는 자연어로 코딩 작업을 지시하거나 기존 코드에 대한 질문을 할 수 있다. 또한, Codex는 사용자의 개발 환경과 유사하게 구성할 수 있어, 실제 개발 환경과의 통합이 용이하다. 보안 측면에서도 Codex는 격리된 환경에서 실행되며, 인터넷 접근은 기본적으로 비활성화되어 있다. 필요한 경우 특정 도메인에 대한 접근을 허용할 수 있으며, 이를 통해 외부 리소스를 사용하는 테스트나 패키지 설치 등이 가능하다.

Codex는 현재 ChatGPT Pro, Team, Enterprise 사용자에게 제공되며, Plus 및 Edu 사용자에게도 점차 확대되고 있다. 또한, Codex CLI를 통해 터미널 환경에서도 Codex의 기능을 활용할 수 있어, 다양한 개발 환경에서의 활용이 가능하다.(openai.com)

ChatGPT에서 코덱스 사용법

Codex를 활용한 전체 사용 과정은 단순한 코드 자동 생성 수준을 넘어, 실제 소프트웨어 개발의 전 과정을 자연어 기반으로 자동화하는 방식으로 개발되어 있다.

Codex 는 현재 github를 기본 연결해 사용하도록 되어 있어, 다음 본인의 github 프로젝트를 연결해 실습을 진행했음을 밝힌다.

https://github.com/mac999/AI_agent_simple_function_call.git

프로젝트 시작: 코드 저장소 구성 및 환경 연결

ChatGPT pro 좌측 메뉴에서 다음과 같이codex를 실행하면, 연결할 github 계정 및 저장소를 요청한다.

다음과 같이 본인의 github 계정을 연결한다.

참고로, codex는 여러 github 저장소를 다음과 같이 연결, 관리 지원하므로, 바이브 코딩하길 원하는 저장소를 선택해 프롬프트를 입력하면 된다.

codex는 기본적으로 github 저장소가 연결된 후 처음 시작할 때, 다음 같이 해당 코드 저장소를 자동으로 분석한다. 이후, 기능 개선을 위한 솔류션, 문제점 등을 진단해 제안해준다.

메뉴 중에 'ask', 'code가 채팅창에 붙어 있는 데, ask는 질문하고 답변을 얻는 데 사용하는 반면, code는 직접 github 저장소에 답변에 대한 솔류션 파일들을 생성, 수정하는 데 사용된다.

자동 제안된 작업 중에 'Find and propose tasks for typo, bug, comments and test improvements'을 선택한다. 그럼 다음과 같은 상세 작업들을 codex가 설명해 준다.

처리 요청을 하면, 코덱스는 llm_func_call_for_ai_agent.py 같은 주요 파일과 README.md, tests/ 디렉토리를 포함하는 초기 구조를 설정한다. 코덱스가 생성한 코드 수정 전/후를 확인한 후 PR(Pull Request)를 요청한다.

그럼, 다음과 같이, 해당 github 프로젝트에 PR이 요청되고, Merge Pull Request를 실행하면, 해당 저장소에 코덱스가 생성한 파일이 병합 및 추가된다.

원본 github 저장소에 보면, 해당 파일이 업데이트되었고, 추가된 tests 폴더가 있는 것을 확인할 수 있다.

자연어 명령을 통한 코드 작업 지시

Codex에 "코드베이스에서 버그를 찾아 수정해줘"와 같은 제안된 작업을 실행하면, Codex는 GitHub의 코드 구조를 분석해 변경 가능성이 있는 파일을 찾아낸다.

이 실습에서는 llm_func_call_for_ai_agent.py 파일 내부의 preprocess_code 함수에 NoneType 예외가 발생할 수 있는 위험을 식별했다.

Codex는 이 문제를 다음과 같이 자동 해결한다.

re.search()의 결과가 None일 경우를 명시적으로 처리함.
오류 메시지를 출력하고 return ""을 통해 안전하게 함수 종료.
이 변경은 GitHub의 diff 뷰 상에서도 명확히 나타난다 (빨간색 삭제 라인과 초록색 추가 라인으로 표시됨).

또한, 이러한 수정은 Pull Request 형식으로 자동 정리된다. 사용자는 Codex가 제안한 수정을 검토하고 GitHub에서 수동으로 머지할 수 있으며, 필요시 코멘트나 수정 작업도 추가로 요청할 수 있다.

테스트 코드 자동 생성 및 실행

Codex는 코드 수정 후 테스트가 없다는 것을 감지하고, tests/test_preprocess_code.py 라는 유닛 테스트 스크립트를 새로 생성한다. 이 테스트는 unittest 프레임워크를 기반으로 구성되며, 문제의 함수(preprocess_code)가 다양한 입력에 대해 안정적으로 동작하는지를 확인한다.

사용자는 명시된 명령어인

python3 -m unittest tests/test_preprocess_code.py -v

를 통해 테스트를 실행하면 된다. 테스트가 성공적으로 통과하면, 해당 Pull Request에 테스트 결과가 함께 기록된다.

또한 ChatGPT Codex 웹 환경에서는 각 작업의 테스트 상태, 문제 발생 여부, 해결 내역까지 추적되며, 모든 변경 사항이 히스토리로 남는다.

에이전트 생성 기능 활용

Codex는 기능을 자동 생성하여 관련 소스 파일들을 추가할 수 있다. 이 예에서는 "ReAct 및 OpenAI API를 사용해서 에이전트를 만들어줘"라는 지시를 주었고, 이에 따라 Codex는 react_agent.py 파일을 새로 생성하였다.

이 파일에는 다음과 같은 핵심 기능이 포함된다:

ReAct 방식의 reasoning loop를 구성해, LLM이 도구를 통해 사용자 명령을 처리할 수 있도록 함.
OpenAI의 ChatCompletion API를 통해 tool_calls 응답을 받아 동적으로 search, calculator 등 도구를 호출.
CLI 환경에서 single query 모드 또는 chatbot 모드로 작동할 수 있도록 구성.
JSON 기반의 tool 호출 구조를 자동 파싱하여 함수 매핑에 전달.

이 코드는 실제로 CLI에서 실행 가능한 상태로, 사용자 질문에 따라 LLM이 적절한 함수를 찾아 실행하고 응답을 반환하는 구조를 완성한다.

이제 터미널에서 git pull 로 해당 생성된 코드를 로컬에 다운로드 받고, 로컬에서 필요한 작업들을 하면 된다.

Codex의 작업 관리 및 통합

Codex는 모든 작업 내역을 시간 순으로 정리하여 사용자에게 제공한다. 작업 목록에는 작업 이름, 처리된 커밋 수, 변경된 라인 수, 테스트 결과, 완료 여부(Merged) 등이 정리되어 있다. 이렇게 정리된 정보는 사용자 또는 팀이 코드 리뷰와 품질 관리를 효율적으로 수행할 수 있도록 한다.

Codex가 수행한 작업은 단순한 텍스트 생성이 아니라, 다음과 같은 고급 개발 활동을 포함한다.

문제 코드의 의미론적 분석
실제 코드 수정
기능 보완
테스트 자동화
CLI 도구 설계
Pull Request 생성 및 병합

이는 단순한 코드 제안 도구를 넘어선 AI 기반의 대화형 코드 리팩토링 및 에이전트 생성 플랫폼으로 동작된다.

오픈소스 코덱스 사용법

사용환경

오픈소스 코덱스는 Codex CLI(command line interface)버전으로 알려져 있다. 우분투 등 리눅스 계열 혹은 윈도우즈 파워셀에서 실행해야 제대로 동작한다. 아울러, 오픈AI Key를 미리 터미널에서 설정해야 동작된다(ChatGPT Pro 이상 지원).

export OPENAI_API_KEY="your-api-key-here"

파워셀에서는 다음 명령으로 설정한다.

set OPENAI_API_KEY="your-api-key-here"

다만, 리눅스가 기본이라 윈도우즈에서는 코덱스 수행 중에 몇몇 에러가 발생할 수 있다.

코덱스 설치

터미널에서 다음을 실행해 설치 및 환경 설정을 한다.

git clone https://github.com/openai/codex.git

cd codex

npm install -g @openai/codex

설치 시 에러가 발생하면, super user 권한으로 설치한다.

sudo npm install -g @openai/codex

설치 시 npm error code SELF_SIGNED_CERT_IN_CHAIN 에러 발생하면 다음 명령 실행 후 패키지 재설치한다.

npm config set strict-ssl false -g

코덱스 실행

터미널에서 코덱스를 실행한다.

codex

프롬프트를 직접 입력해도 된다.

codex "explain this codebase to me"

만약 처음 코엑스를 실행하면, 다음과 같이 OpenAI platform 로그인이 요청된다.

이때는 다음과 같이 로그인(Overview - OpenAI API)하고 인증한다.

로그인에 성공하면 다음과 같이 출력된다.

앱을 개발해보자.

codex --approval-mode full-auto "create the fanciest todo-list app"

그럼 todo list app을 codex가 개발하는 것을 확인할 수 있다. 이외에 다음과 같은 프롬프트를 입력해보자.

"create the ascii rendering web viewer using webcam"

"create 3D tetris using three.js"

마무리

점차 AI 에이전트가 우리가 사용하는 개인 기기(노트북, 스마트폰 등)에 침투하고 있다. MCP는 그 시작인 것이고, Codex는 AI OS 위치로 맵핑하고자 한다. 올해 더 큰 경쟁과 발전이 있으리라 생각된다.

Codex는 사용자는 자연어로 고수준의 요구사항을 전달하면, 개발자의 코드베이스를 직접 분석하고, 문제를 찾아내며, 기능을 보완하고, 테스트 코드를 작성한 뒤, 그 결과를 Pull Request로 정리하여 통합하는 등의 전생애주기 개발 프로세스 자동화를 지향하고 있다.

바이브 코딩에 의한 Codex 프로젝트 생성

레퍼런스

부록

최근 Copilot, Cursor 등이 Agent 모드를 추가함으로써 codex를 직접사용하지 않고, vscode같은 IDE에서도 직접 이를 이용할 수 있다. 다음은 이 예시를 보여준다.

cad-web-app-vibe

Gemini 기반 MCP 서버 및 클라이언트 개발해 보기

2025-04-12T17:58:00.000-07:00

이 글은 Gemini 기반 MCP 서버 및 클라이언트를 개발하는 방법을 간략히 보여준다.

MCP 기반 멀티 AI 에이전트 아키텍처 개념도

MCP의 개념과 상세한 동작 방식은 다음 글을 참고한다.

인공지능 AI 에이전트 표준 프로토콜 MCP 개념, 사용, 개발 및 동작 구조 분석하기

개요

MCP는 클라이언트-서버 구조를 따른다. 클라이언트는 서버의 MCP 도구를 사용하는 AI 앱이나 LLM을 의미한다. 서버는 MCP 도구를 공급하고, API, 데이터소스 인터페이스를 제공한다.

MCP를 통해 LLM이 해결하지 못하는 작업은 외부 시스템과 연결해 서비스 받을 수 있다.

MCP서버는 파일 시스템 조작, 웹 검색, 데이터베이스 조작, 버전 관리 등 다양한 도구를 제공할 수 있다.

제미니 LLM 기반 MCP 구조

다음은 제미니 LLM 기반 MCP 구조 예시를 보여준다. 이 예는 비행기 예약 유스케이스를 구현한다.

구조의 각 번호는 시퀀스 시나리오를 보여준다. 이 내용은 다음과 같다.

MCP 호스트가 사용자 명령 입력. 예) 내일 인천에서 애틀란타 가는 비행편 찾기

클라이언트 스크립트가 입력을 처리(CLIENT.PY)

클라이언트가 MCP 서버 프로세스 시작(MCP-FLIGHT-SEARCH). STDIO 통신 채널 연결 및 관련 도구 검색
클라이언트가 사용자 명령에 대한 함수 호출 방법을 수신함
클라리언트가 함수 호출 방법에 대한 정확한 함수 호출 형식을 GEMINI에서 획득. 함수 호출 형식에 부합하는 적절한 MCP 도구를 서버에 호출. 서버의 도구 함수 호출 결과를 리턴
MCP 서버가 구글 항공편 검색을 위한 SerpAPI를 호출. 구글 항공편 데이터 질의.
구글 항공편 정보 리턴
서버에서 클라이언트로 해당 정보 리턴
클라이언트가 호스로 해당 정보 전달

개발 환경

개발을 위한 최소한의 환경은 파이썬 3.8+이다. 이외 다음을 준비한다.

Claude 데스크탑 설치

Google Cloud 에서 Project 생성

Google Gemini API 키 획득

SerpAPI 키 획득

다음 종속성을 터미널에서 설치한다. google-genai는 google 생성AI 라이브러리이며, mcp는 MCP 서버 통신을 위한 파이썬 SDK이다.

pip install google-genai mcp

환경변수를 설정한다.

export GEMINI_API_KEY="your-google-api-key"

export SERP_API_KEY="your-serpapi-key"

항공편 검색 MCP 서버 설치

MCP 프로토콜 공개 이후로 많은 MCP 서버가 개발되었다. 우리는 항공편 검색 MCP 서버 오픈소스인 mcp-flgiht-search 를 사용한다. 다음을 설치한다.

pip install mcp-flight-search

코딩해보기

다음과 같이 client.py를 코딩한다.

import os, sys, time, asyncio
from google import genai
from google.genai import types
from mcp import ClientSession, StdioServerParameters
from mcp.client.stdio import stdio_client
from dotenv import load_dotenv

load_dotenv()

gemini_api_key = os.getenv("GEMINI_API_KEY")
serp_api_key = os.getenv("SERP_API_KEY")

client = genai.Client(api_key=gemini_api_key)

server_params = StdioServerParameters(
    command="mcp-flight-search",
    args=["--connection_type", "stdio"],
    env={"SERP_API_KEY": serp_api_key},
)

async def run():
    async with stdio_client(server_params) as (read, write):  # 항공 예약 검색 도구 등록
        async with ClientSession(read, write) as session:
            prompt = f"Find Flights from Atlanta to Las Vegas 2025-08-15"  # 사용자 질의 명령
            await session.initialize()

            mcp_tools = await session.list_tools()  # 도구 리스트 획득
            tools = [
                types.Tool(
                    function_declarations=[
                        {
                            "name": tool.name,
                            "description": tool.description,
                            "parameters": {
                                k: v
                                for k, v in tool.inputSchema.items()
                                if k not in ["additionalProperties", "$schema"]
                            },
                        }
                    ]  # 해당 도구 함수 선언 생성
                )
                for tool in mcp_tools.tools
            ]

            response = client.models.generate_content(
                model="gemini-2.5-pro-exp-03-25",
                contents=prompt,
                config=types.GenerateContentConfig(
                    temperature=0,
                    tools=tools,
                ),  # LLM 모델에 프롬프트 전달.
            )

            if response.candidates[0].content.parts[0].function_call:
                function_call = response.candidates[0].content.parts[0].function_call # 함수호출정보

                result = await session.call_tool(
                    function_call.name, arguments=dict(function_call.args)
                )  # 도구 함수 호출

                print("--- Formatted Result ---") # Add header for clarity
                try:
                    flight_data = json.loads(result.content[0].text)
                    print(json.dumps(flight_data, indent=2))
                except json.JSONDecodeError:
                    print("MCP server returned non-JSON response:")
                    print(result.content[0].text)
                except (IndexError, AttributeError):
                     print("Unexpected result structure from MCP server:")
                     print(result)
            else:
                print("No function call was generated by the model.")
                if response.text:
                     print("Model response:")
                     print(response.text)

asyncio.run(run()) # 클라이언트 실행

실행한다. 그럼 프롬프트에 대해 LLM이 적절한 도구와 파라메터를 확인해 함수 호출 정보를 생성한다. 이를 call_tool로 호출한 결과가 표시된다

레퍼런스

Gradio HTML Javascript 렌더링 방법

2025-04-04T21:05:00.000-07:00

이 글은 Gradio HTML Javascript 렌더링 방법을 간략히 정리한다. 가끔, HTML, javascript(자바스크립트)를 Gradio 페이지에 표시하고 싶을 때가 있다. 예를 들어, Gradio 기존 컴포넌트에서 지원되지 않는 3D 그래픽을 렌더링해야 할 때가 있다.

Gradio 3차원 모델 렌더링 예시

하지만, Gradio는 HTML만 지원하고, javascript는 다양한 이유로 사용자가 직접 Gradio에서 실행하는 것을 허용하지 않는다. 이 경우, iframe 을 사용한다.

Gradio에서 three.js 코드 실행 예시

다음은 Gradio에서 3D graphic 렌더링을 위해 three.js를 사용하는 예를 보여준다.

import os, json, requests, gradio as gr

from gradio import Interface, File, Files, Button, Label, Markdown

class 3D_viewer_component:

def __init__(self, gr):

self.html_code = """

<iframe srcdoc="

<!DOCTYPE html>

<html>

<head>

<style>

body, html { margin: 0; overflow: hidden; height: 100%; }

canvas { display: block; }

</style>

</head>

<body>

const WIDTH = window.innerWidth;

const HEIGHT = window.innerHeight;

const renderer = new THREE.WebGLRenderer({ antialias: true });

renderer.setSize(WIDTH, HEIGHT);

renderer.setClearColor(0x111111, 1);

document.body.appendChild(renderer.domElement);

const scene = new THREE.Scene();

const camera = new THREE.PerspectiveCamera(70, WIDTH / HEIGHT, 0.1, 10000);

camera.position.z = 30;

camera.position.y = 10;

scene.add(camera);

const boxGeometry = new THREE.BoxGeometry(10, 10, 10);

const basicMaterial = new THREE.MeshBasicMaterial({ color: 0x0095dd });

const cube = new THREE.Mesh(boxGeometry, basicMaterial);

cube.position.x = -25;

cube.rotation.set(0.4, 0.2, 0);

scene.add(cube);

const torusGeometry = new THREE.TorusGeometry(7, 1, 16, 32);

const phongMaterial = new THREE.MeshPhongMaterial({ color: 0xff9500 });

const torus = new THREE.Mesh(torusGeometry, phongMaterial);

torus.rotation.set(0.5, 0.5, 0);

scene.add(torus);

const light = new THREE.PointLight(0xffffff);

light.position.set(-10, 15, 50);

scene.add(light);

let t = 0;

function render() {

t += 0.01;

requestAnimationFrame(render);

cube.rotation.y += 0.01;

torus.scale.y = Math.abs(Math.sin(t));

renderer.render(scene, camera);

}

render();

</script>

</body>

</html>

" width="100%" height="100%" style="border:none;"></iframe>

"""

self.component = gr.HTML(self.html_code)

with gr.Blocks(title='3D viewer') as interface:

gr.Markdown("# 3D viewer")

with gr.Row(equal_height=True):

3D_viewer_component(gr)

interface.launch(share=True)

참고로, Gradio에서 공식적으로 추천하는 방법은 다음과 같이 커스텀 컴포넌트를 개발한 것이다.

커스텀 컴포넌트 생성 명령 예시

명령 실행 순서(일부)

위 그림과 같이 컴포넌트 생성하면, 다음처럼 프로젝트 파일이 생성되고, 이를 수정해 개발하는 방식이다.

- backend/ <- The python code for your custom component
- frontend/ <- The javascript code for your custom component
- demo/ <- A sample app using your component. Modify this!
- pyproject.toml <- Used to build the package and specify package metadata.

Gradio 커스텀 컴포넌트 예시(Gradio Custom Components Gallery)

이외 3차원 모델 파일 뷰어는 Model3D 컴포넌트를 사용할 수도 있다.

Model3D 예시

레퍼런스

딥시크(deep seek) 오픈소스 코드 및 구조 분석하기

2025-03-29T20:52:00.000-07:00

앞서 AI에이전트 오픈 미노스를 분석해 보았는 데, 내친김에 그 동안 말 많았던 딥시크(deep seek)의 github 공개 코드를 분석해 보기로 한다. 사실, 개인적으로 언론의 기사를 잘 믿지는 않는다. 홍보성 퍼나른 기사가 많기도 하고, 특히 테크분야에서도 약장사분들? 많아, 어디까지 진실인지 아닌지 모르기 때문이다. 정말 대단한지, 아니면 지재권 완전 무시하고 기술 탈취?해 싼 제품 잘 만드는 중국 방식으로 개발된 것인지를 이들이 써낸 논문이 아닌 공개된 코드에 기반해 팩트 확인해 보고자 한다.

딥시크 (theconversation.com, 2025)

참고로, 마누스 오픈소스에 관심 있다면 다음 링크를 참고한다.

오픈 마누스(manus) AI 에이전트 설치, 사용 및 구조 분석하기

딥시크 분석 준비

다음 링크를 방문해 코드를 클론한다.

deepseek-ai/DeepSeek-V3

터미널에서 다음 명령을 실행한다.

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

폴더 및 파일 구조 분석

vscode를 띄워 보니 폴더 구조는 다음과 같다.

- workflows: 워크플로우 관련 폴더

- inference: 하위 폴더

- configs: 설정 파일 폴더

- convert.py: Python 파일, 4KB

- fp8_cast_b16f.py: Python 파일, 5KB

- generate.py: Python 파일, 8KB

- kernel.py: Python 파일, 9KB

- model.py: Python 파일, 8KB

- requirements.txt: 텍스트 파일, 1KB

공개된 소스 코드를 보니 굳이 실행을 위한 패키지 설치는 할 필요 없을 것 같다. 일단, 오픈소스가 아니다. 단순히, inference 추론 코드만 공개되어 있다(어그로). 오픈소스라면, 최소한, train 학습 코드와 기본 데이터셋 정도는 공개되어야 한다(언론이 왜 오픈소스라 난리였는지 사실 이해가 안되는...).

코드는 대부분 트랜스포머 구조를 그대로 사용한다. 트랜스포머스는 구글에서 이미 2017년 개발 공개된 LLM 모델 학습 메커니즘이다. 딥시크에서 사용한 상세한 기술을 알고 싶다면, 다음 링크를 참고하길 바란다.

소스 코드 분석

공개된 코드는 주로 추론을 위해 딥시크 측에서 공개한 학습된 가중치 모델 파일을 로딩해 사용하기 위한 model.py, 양자화로 성능 가속을 위한 fp8_cast_bf16.py, 질의 프롬프트에 대한 모델 출력을 생성하는 generate.py 정도가 분석할 필요가 있어 보인다.

model.py 분석

일단, 사용하는 라이브러리 대부분이 미국 빅테크 기업 혹은 연구소에서 개발된 것들을 임포트에 사용하고 있다. 이 분야에서 모르면 간첩인 pytorch, 심지어 triton은 NVIDIA GPU 가속 최적화를 위해 사용하는 라이브러리를 직접 사용한다(NVIDIA 종속적).

모델의 전체 구조는 트랜스포머를 그대로 따르며, 이미 오픈소스 공개된 코드에 나오는 키워드도 다음처럼 그대로 사용하고 있다.

model.forward를 확인해보자. 일반적인 트랜스포머스 forward 루틴으로 보여진다.

def forward(self, tokens: torch.Tensor, start_pos: int = 0):

seqlen = tokens.size(1)

h = self.embed(tokens) # 1) 입력 임베딩

freqs_cis = self.freqs_cis[start_pos:start_pos+seqlen] # 2) # 위치 인코딩

mask = None

if seqlen > 1: # 3) 마스킹

mask = torch.full((seqlen, seqlen), float("-inf"), device=tokens.device).triu_(1)

for layer in self.layers: # 4) 트랜스포머스 레이어 실행 계산

h = layer(h, start_pos, freqs_cis, mask)

h = self.norm(h)[:, -1] # 5) 출력 정규화

logits = self.head(h) # 6) 로짓 계산

if world_size > 1:

all_logits = [torch.empty_like(logits) for _ in range(world_size)]

dist.all_gather(all_logits, logits)

logits = torch.cat(all_logits, dim=-1)

return logits

이 함수는 입력 토큰을 받아 로짓(예측값)을 계산하는 역할을 한다. 예측값은 미리 준비된 사전에서 예측된 단어를 선택할 때 역할을 한다(입력 토큰에 대한 다음 토큰 예측 생성과정). 주요 동작은 다음과 같다.

embed: 입력 임베딩 처리: 입력으로 제공된 토큰 텐서를 임베딩 레이어를 통해 변환하여 초기 입력 표현을 생성한다.
freqs_cis: 로터리 임베딩 계산: 주파수 정보를 담고 있는 로터리 임베딩 텐서를 시퀀스 길이에 맞게 선택하여, 위치 정보를 모델에 제공한다. 위치임베딩이란 기법도 이미 트랜스포머스 논문(Google, 2017)에 구현된 것이다.
mask: 시퀀스 길이가 1보다 클 경우, 미래 정보가 영향을 미치지 않도록 상삼각형 형태의 마스크를 생성한다. 마스크는 모델이 언어 생성 시 현재 시점 이전의 정보만을 활용하게 한다.
Transformer 레이어 통과: 모델 내부의 여러 Transformer 레이어를 입력 데이터가 순차적으로 통과하며, 각 레이어에서 입력 표현이 갱신된다.
norm: 출력 정규화 및 최종 표현 추출. 마지막 Transformer 레이어의 출력을 정규화하고, 시퀀스의 마지막 토큰에 해당하는 표현을 추출한다.
logits: 로짓 계산. 추출된 최종 표현을 출력 레이어(헤드)에 전달하여 로짓, 즉 예측값을 계산한다. 이는 각 토큰에 대한 다음 단어 또는 출력값의 확률 분포를 나타낸다.

결과적으로, 이 메서드는 입력 토큰 시퀀스를 기반으로 각 토큰에 대한 예측값을 반환하며, 이는 주로 언어 모델링 및 자연어 처리 작업에 활용된다.

모델의 전체 구조는 다음과 같다. 대부분 파이토치 기반 트랜스포머스 코드(이미 많이 공개된 코드 조각)를 사용한다(딥시크 처음 언론 보도가 실제로 얼마나 차이가 있는 지 확인할 수 있음).

딥시크-V3 모델 구조(UML)

다만, 실행 속도 등 최적화를 위해 병렬처리, torch.einsum 함수를 이용해 GPU 연산을 직접 이용해 트랜스포머 어텐션 모델 QKV 코사인 유사도 계산하는 등의 노력을 하고 있다(이 또한 이미 알려진 것).

토큰 시퀀스 임베딩 벡터 간 유사도 스코어 계산 및 학습하는 부분(일부. 트랜스포머스 모델의 전형적인 루틴임. 여기서 bshd는 batch, source seqnce, heads, feature demension 의 약자로 입력 텐서의 모양-차원을 정의함)

kernel.py 분석

이 모듈은 주로 성능과 관련된 양자화를 다룬다. triton 라이브러리를 사용해 주어진 텐서를 양자화하여, 32비트 실수 연산을 8비트 실수 연산으로 처리할 수 있게 한다. 8비트 텐서 실수 연산을 위한 함수도 같이 구현되어 있다. 예를 들어, 다음 fp8_gemm 함수는 8비트 양자화된 a, b 텐서를 입력받아 행렬곱한 후 c를 리턴한다.

convert.py 분석

이 모듈은 모델 파일 포맷을 주어진 옵션에 맞게 단순히 체크포인트 파일로 변환하는 역할을 한다. 복잡한 내용은 별로 없어 상세 설명은 생략한다.

configs 파일 분석

이 폴더 내 모델의 구조를 정의하는 주요 변수가 정의되어 있다. 예를 들어, config_16B.json 파일은 다음과 같이 정의된다.

의미는 다음과 같다.

1. 모델 구조

- vocab_size: 어휘 크기 (102,400).

- dim: 임베딩 차원 (2048).

- inter_dim: FFN의 확장 차원 (10,944).

2. MoE 관련

- n_routed_experts: 총 Expert 수 (64).

- n_activated_experts: 활성화 Expert 수 (6).

- moe_inter_dim: MoE Expert의 내부 FFN 차원 (1,408).

3. Attention 관련

- n_layers: Transformer 레이어 수 (27).

- n_heads: Attention Head 수 (16).

- kv_lora_rank: 키/값 벡터의 LoRA 랭크 (512).

- qk_nope_head_dim: NOPE 기반 헤드 차원 (128).

- qk_rope_head_dim: RoPE 기반 헤드 차원 (64).

4. 기타

- mscale: 모델 안정성을 위한 스케일 값 (0.707).

분석해 본 결과, 사실 LLM에서 모델 구조, 추론 구현 부분 및 양자화 모듈만 대부분 공개되어 있다는 것을 알 수 있다.

최소한 데이터셋 모듈이라도 공개되어야 어떤 식으로 데이터를 학습했는지 확인할 수 있지만, 이런 중요 모듈은 공개되어 있지 않아, 딥시크-V3는 오픈소스를 공개했다고 말하기 어렵다(가중치와 모델 모듈만 오픈. 이건 reddit에서도 까이고 있는데, 그냥 오픈웨이트 open weights 모델 코드임).

더 파보기

오픈소스라기에는 좀 실망이라, 무언가 더 없는 지 공개된 자료들을 파보기로 한다. 일단, 딥시크 개발사 github에서 최근 주목받고 있는 프로젝트만 다음처럼 정렬해본다.

이 중 체크한 부분이 먼가 있는 듯 하여, 들어가 확인해 본다.

MIT 라이센스라 표시만 되어 있지, 코드가 없음

딥시크 기반 코더는 평가, 데모 코드만 있고, 파인튠은 학습 데이터셋 제공 없음

평가 코드만 있음(MIT 라이센스 표시만. 오픈소스? 무슨 의미가?)

딥시크-V3 학습모델(가중치파일) 공개된 부부(허깅페이스)

더 파보았지만, 딥시크에서 주장하는 것은 오픈소스가 아닌 오픈웨이트 모델에 더 가까워보인다. 세계적인 홍보와 언론의 관심에 비해 무늬만 MIT라이센스 오픈소스가 아닌지 의문이다.

마무리

공개된 코드에 기반해 좀 시간을 내어 분석한 후, 확인 사살한 것은 다음과 같다.

언론에서 말하는 것과는 상당한 차이가 있는 딥시크 기술 오픈소스였다. 대부분 이미 개발된 오픈소스를 가져다 쓴 것으로 보인다. 앞에 언급한 몇몇 성능 최적화 부분은 좋은 접근인 것이나, 메타(페북)의 라마(Llama)가 공개한 기술에 비하면 비교할 만한 것이 아니다.
중국은 확실히 홍보에 큰 능력이 있다. 선진국 기술을 가져다가 가성비 있게 만드는 기술은 세계 최고 수준이다.

의문점은 한국 언론에서 다음과 같이 패닉성 기사를 쓸 때, 왜 남이 말한 것 받아 만 쓰고 팩트 확인하지 않았냐는 것인데... 좀 생각해보니 국내 딥시크 기사는 관련 컨텐츠를 해외에서 퍼온 검증도 안된 글을 기사로 정리한 것으로 이해된다. 사실, 첨단 기술을 팩트 체크할 리소스가 있는 언론이 많지는 않다고 생각한다. 그럼에도 파급격있는 채널은 뉴스를 전할때 항상 팩트 확인하려는 노력이 필요하다.

패닉성 딥시크 언론 보도(연합, 2025.1.27, 뉴스튜데이, 2025.3.28)

자극적 기사들로 얼마 전 정부 국회는 패닉되고, 급하게 만든 인공지능 진흥전략이 판을 치게 된 트리거 역할을 했다. 여론은 인공지능분야도 우리가 중국에 뒤쳐졌다는 것을 확인하는 계기는 되었다. 긍정적 효과도 있었다고 생각되나, 부작용도 있다. 예를 들어,불필요한 일들이 벌어지고(갑작스런 GPU전수조사? 등), 갑작스런 대규모 GPU 센터 개발 계획이 발표되고, 이로 인해 세금이 비합리적으로 계획 투입되고, .. 이상한 방향으로 국가 첨단기술 연구개발 전략이 설정되고... 대규모 세금이 투입되지 않을 까라는 생각을 들게 만든다.

이 글에서 딥시크가 오픈소스 맞는지(거짓), 정말 중국 독자 기술로 개발했는지(거짓), 자국 GPU 사용해 개발했는 지(거짓. 기껏 추론 부분만 Google TPU같이 NPU 사용했을 가능성), 기술적 개선이 있었는지(성능 최적화 부분은 약간 인정), 정말 공개한 것은 무엇인지(모델만. 오픈웨이트) 등의 질문을 확인해 보았다.

이 상황이면, GPT 학습 데이터를 증류해(카피해) 모델을 학습했다는 것이 더 신빙성 있어 보인다(가성비있게 실리콘밸리 테크 기술을 카피해 싸게 소프트웨어를 개발했다는 쪽이 더 맞는 듯. 물론 이것도 아무나 할 수 있는 건 아니다).

딥시크 학습 방법은 오픈소스로 공유되어 있지 않아 그들만의 기술 보고서로만 확인할 수 밖에 없는데, 지금까지 분석된 내용과 Reddit에서 올라온 내용을 확인하면, 분산된 모델 학습 아키텍처로 비용을 절감할 수 있었다는 추정과 NVIDIA 기술을 사용한 것은 분명하다는 의견이 지배적이다.

만약, NVIDIA를 deepseek 개발자가 대치할 수 있었다면, 그것으로도 큰 비지니스가 되었을 것이기 때문에, 해당 학습용 병렬처리 서비스나 제품을 출시하고 홍보하지 않을 리가 없지 않을까싶다.

레퍼런스

좀 더 시간이 있으면, 허깅페이스에 공개된 내용을 분석할 계획이다.

deepseek-ai/DeepSeek-V3, huggingface

인공지능 AI 에이전트 표준 프로토콜 MCP 개념, 사용, 개발 및 동작 구조 분석하기

2025-03-28T04:30:00.000-07:00

이 글은 앤트로픽(Anthropic. 클로드 개발사)의 인공지능 AI 에이전트 표준 프로토콜 MCP(Model Context Protocol) 개념, 사용, 개발 방법 및 내부 동작 원리를 알아본다. MCP 사용 환경을 설치한 후, MCP 계산기, 날씨 조회 및 MCP 클라이언트 등을 개발하고 MCP 도구로 호출하는 과정을 직접 실습해본다.

개념

MCP는 애플리케이션이 LLM에 컨텍스트를 제공하는 방식을 표준화한 개방형 프로토콜이다. USB-C 포트처럼, 다양한 도구와 데이터를 LLM에 연결하는 통합된 인터페이스 역할을 한다. LLM 기반 에이전트와 워크플로우 구축을 지원하며, 유연한 통합, 데이터 보호, 공급업체 간 전환성을 제공한다.

애트로픽 MCP 소개

이 글은 주로 다음 문서를 참고하였다.

MCP 서버 리스트(MCP Servers, MCP Awesome Servers)

MCP 개념과 아키텍처 구조

MCP는 호스트-클라이언트-서버 구조로 구성되며, 로컬 및 원격 데이터를 안전하게 연결할 수 있는 아키텍처를 따른다. 호스트는 서버에서 제공해 주는 파일관리, 웹서칭, 계산 등의 도구를 연결해 LLM을 통해 추론, CoT, 도구 호출, 생성 등의 역할을 담당한다.

MCP 서버-클라이언트 구조

각 구성요소의 역할은 다음과 같다.

MCP 호스트는 MCP 프로토콜을 통해 서비스에 액세스할 수 있는 애플리케이션이다. Claude 데스크톱 앱, AI 에이전트/CLI, 커서 IDE 등이 이에 해당하며, LLM(로컬 또는 원격)을 활용하여 다양한 작업을 수행한다.
MCP 클라이언트는 MCP 서버와 연결하기 위해 호스트 애플리케이션과 통합된 클라이언트이다.
MCP 서버는 MCP 프로토콜을 통해 특정 기능을 노출하는 응용 프로그램 또는 프로그램이다. 서버는 Docker 컨테이너, JVM, Node.js(UV/UVX) 프로세스에서 실행될 수 있으며, MCP 커뮤니티에서 제공하는 사전 구축된 서버를 활용할 수도 있다.
로컬 데이터 소스는 로컬 시스템에 존재하는 데이터베이스 또는 파일 시스템이다.
원격 서비스는 웹 API를 통해 액세스할 수 있는 GitHub, Brave Search와 같은 외부 리소스이다.

MCP를 이용하면, 서버, 클랑이언트, 로컬에 있는 파일, 폴더, 앱에 접근해 이를 LLM(Large Language Model)으로 컨트롤할 수 있다.

MCP 구조를 구성하는 호스트와 서버는 다음과 같은 도구들을 통해 구성해 활용한다.

호스트: 클로드, 커서, ChatGPT, Github Copilot 등
서버: Model Context Protocol Servers

MCP는 전형적인 호스트-서버 프로토콜(TCP/IP와 유사)을 따른다. 서버의 실행 모드는 SSE(server sent event)와 stdio(표준입출력) 모드가 있다. SSE는 네트웍으로 연결해 도구를 호출할 수 잇도록 한다. stdio는 로컬 자체에서 도구를 호출할 수 있도록 한다.

MCP 프로토콜 명령 전송 개념

도구 호출 및 정보 교환 프로토콜은 JSON-RPC 포맷을 따르며, 예를 들어 도구 호출 시 다음과 같이 호스트-서버 간 정보를 주고 받는다.

# 호출

{

"jsonrpc": "2.0",

"id": "call-1",

"method": "callTool",

"params": {

"name": "create_record",

"arguments": {

"title": "New record",

"content": "Record content"

}

# 응답

{

"jsonrpc": "2.0",

"id": "call-1",

"result": {

"content": [

{

"type": "text",

"text": "Created New Record"

}

]

}

MCP 사용 및 개발

기본 MCP 사용 환경 준비

파이썬 MCP Claude 기반 실습을 위해 다음을 설치한다.

클로드 데스크탑: Download - Claude. 호스트 역할. 현재, 클로드 뿐 아니라 Github Copilot, Cursor, OpenAI 등 MCP지원 호스트가 점차 많아지고 있음.
Node.js — Run JavaScript Everywhere. NODE.JS 기반 서버 도구를 실행하는 역할
파이썬: 안정 버전을 설치함(예를 들어, 현재 시점 3.10 이상, 3.12 이하 버전 권장. 참고 - Python Release Python 3.12.0 | Python.org). 설치된 파이썬 경로는 기록해 둘 것(예. 윈도우의 경우 where python 명령으로 가상환경의 파이썬 설치 경로 확인 가능)
최신 파이썬 패키지 설치 UV 도구: UV. extremely fast Python package and project manager, written in Rust.

터미널에서 다음을 패키지들을 설치한다.

pip install mcp pydantic-ai fastmcp tavily-python

이제, MCP 실행 방법을 살펴본다. 일단, 다음 MCP Quickstart에 있는 파일 system 도구를 설치해 본다.

MCP Quickstart - file system
Firecrawl MCP Server - Adds powerful web scraping to Cursor, Claude and any other LLM clients. (https://www.firecrawl.dev 로그인 후 API키 값 획득 필요. 기능 참고 - Quickstart | Firecrawl)

설치는 해당 MCP 도구 설명 링크에 다음처럼 나와 있다.

파일 관리 MCP 서버 도구의 경우

Firecrawl 클롤러 MCP 서버 도구의 경우

해당 MCP 서버 설정하는 메뉴를 선택한다. 이는 클로드 데스크탑 실행 후 파일>설정>개발자>설정편집 메뉴에 있다.

클로드 데스크탑의 해당 설정 메뉴

MCP 설정 JSON 파일

다음과 같이 클로드 데스크탑의 MCP 설정 파일인 claude_desktop_config.json을 편집기로 오픈한 후, 다음과 같이 MCP 도구를 추가하고, 클로드를 다시 리부팅한다(참고 - 예시).

{

"mcpServers": {

"filesystem": {

"command": "npx",

"args": [

"-y",

"@modelcontextprotocol/server-filesystem",

"C:\\Users\\<사용자계정 폴더명>\\Desktop",

"C:\\Users\\<사용자계정 폴더명>\\Downloads"

]

}

참고로, 설치된 서버 도구의 경로는 절대 경로를 입력하고, 사용자 계정별로 정확한 폴더명을 사용한다. 경로 상 '\'는 '\\'로 입력하도록 한다.

재부팅하면, 해당 MCP 도구가 다음과 같이 활성화되어 있을 것이다.

혹시 제대로 실행되지 않으면, 클로드 데스크탑이 설치된 폴더 아래 log파일을 확인한다. 그럼, 서버 도구 별로 에러 원인을 확인할 수 있다(보통 잘못된 경로, 키, 토큰 한계 오버플로우 등 문제).

이제 다음과 같이 클로드에서 파일을 생성, 추가, 삭제하는 등의 프롬프트를 입력해 본다.

난 톰이야. 개발자야. 요즘 시티팝에 대해 흥미가 있어. 유명한 시티팝 가수를 알려줘. 그 정보를 리스트해서 REPORT.TXT 란 이름으로 내 폴더에 저장해줘.

다음과 같이 바탕화면에 REPORT.TXT 가 내용 정리되 저장된다.

firecrawl MCP 도구를 이용해 여행 뉴스를 결과는 다음과 같다.

토큰 한계로 인해 에러가 발생할 수도 있으니 이때는 이를 고려해 프롬프트를 다시 수정 입력한다.

예. 이제 여름이야. firecrawl 를 이용해서 여행 뉴스를 한개 검색해 알려줘.

파이썬 MCP Claude 기반 계산기 도구 개발

mcp-simple-calc.py란 이름으로 서버를 다음과 같이 코딩한다(참고 - Github 코드)

from mcp.server.fastmcp import FastMCP

mcp = FastMCP("simple-calc")

# Add an addition tool

@mcp.tool()

def add(a: int, b: int) -> int:

"""Calc and Add two numbers"""

return a + b

다음과 같이 Claude 서버에 설치한다.

mcp install mcp-simple-calc.py

MCP 검사기로 테스트한다.

mcp dev mcp-simple-calc.py

Claude 데스크탑을 재부팅하고, 도구 표시가 있는 지 확인한다.

다음과 같이 개발자 도구가 제대로 설치되었는지 확인한다. 없다면, 컴퓨터 재부팅한후 다시 Claude 데스크탑 실행한다.

설정 편집 버튼(파일>설정>개발자>설정편집)을 클릭하면, 다음과 같이 설치된 것을 확인할 수 있다.

설정편집

참고로, 에러가 발생한 도구는 느낌표로 표시되므로 로그를 확인해 본다. 그리고, 아래 설정파일에서 에러를 수정하면 된다.

에러로그 확인

수정 후 정상 동작되는 서버

이제 프롬프트를 입력해 제대로 실행되는 지 확인한다. MCP 도구를 검색해 계산 결과를 출력해 준다.

네이버 날씨 MCP 도구 개발

다음과 같이 코딩하고, mcp-weather.py 로 저장한다(참고 - Github 코드).

from typing import Any
import requests
from bs4 import BeautifulSoup
from mcp.server.fastmcp import FastMCP
import sys

mcp = FastMCP("weather")

# 네이버 날씨 정보 도구
@mcp.tool()
def get_naver_weather(region: str) -> str:
    """
    네이버 날씨에서 특정 지역 날씨 정보를 가져옴.

    Args:
        region: 조회할 지역명 (예: 서울, 부산)
    """
    try:
        search_url = f"https://search.naver.com/search.naver?query={region}+날씨"
        headers = {
            "User-Agent": "Mozilla/5.0"
        }
        response = requests.get(search_url, headers=headers, verify=False)
        soup = BeautifulSoup(response.text, "html.parser")

        temperature = soup.select_one(".temperature_text > strong")
        status = soup.select_one(".weather_main")

        if not temperature or not status:
            return f"[{region}]의 날씨 정보를 불러올 수 없습니다. 지역명을 확인해 주세요."

        temp_text = temperature.get_text(strip=True)
        status_text = status.get_text(strip=True)

        return f"{region}의 현재 날씨는 '{status_text}'이며, 기온은 {temp_text}입니다."

    except Exception as e:
        print(e)
        return f"[오류] 날씨 정보를 가져오는 중 문제가 발생했습니다: {str(e)}"

# get_naver_weather('서울')

if __name__ == "__main__":
    print("MCP 서버 시작", file=sys.stderr)
    mcp.run()

클로드 파일>설정>개발자>설정편집에서 다음과 같이 해당 weather도구를 추가한다. 참고로, 파이썬 경로는 where 명령을 이용해 경로 확인 후 설정한다. 소스파일도 해당 경로 확인 후 설정한다.

{

"mcpServers": {

"filesystem": {

"command": "npx",

"args": [

"-y",

"@modelcontextprotocol/server-filesystem",

"C:\\Users\\MAC\\Desktop",

"C:\\Users\\MAC\\Downloads"

]

"weather": {

"command": "C:\\Users\\MAC\\.conda\\envs\\venv_lmm\\python.exe",

"args": [

"F:\\projects\\ai\\5-1.agent\\mcp-weather.py"

]

}

클로드를 재부팅하고, 프롬프트를 입력한다.

"네이버로 서울의 날씨를 검색해"

그럼 다음과 같이 도구가 검색된다. 허용을 클릭하면 개발된 도구가 실행되어 정보를 얻고 적절히 답해준다.

결과는 다음과 같다.

별도 MCP 서버 클라이언트 개발

MCP는 오픈소스이므로, 서버 클라이언트를 별도 개발해 클로드 데스크탑 같은 호스트 프로그램 같은 것도 개발할 수 있다.

mcp-simple-calc-server.py란 이름으로 서버를 다음과 같이 코딩한다.

from mcp.server.fastmcp import FastMCP

import math

# instantiate an MCP server client

mcp = FastMCP("Hello World")

@mcp.tool()

def add(a: int, b: int) -> int:

"""Add two numbers"""

return int(a + b)

@mcp.resource("greeting://{name}")

def get_greeting(name: str) -> str:

"""Get a personalized greeting"""

return f"Hello, {name}!"

if __name__ == "__main__":

mcp.run(transport="stdio")

터미널에서 다음과 같이 MCP 서버 명령을 실행한다.

mcp dev mcp-simple-calc-server.py

만약, npm error code SELF_SIGNED_CERT_IN_CHAIN 에러가 발생한다면, 방화벽 때문이니 다른 네트웍에서 시도하거나, 해당 방화벽 옵션을 꺼야 한다. 서버가 제대로 실행되면, 다음 명령이 성공할 것이다.

curl -i http://localhost:5173/sse

서버가 실행되었다면, http://localhost:5173/#roots 링크에 접속한다. 접속에 성공했다면 MCP 기반 등록된 도구들 리스트 확인 및 도구 호출이 가능하다.

MCP 기반 등록된 도구들 리스트 확인 및 호출 모습

다음과 같이 mcp_client.py 클라이언트를 코딩한다.

from mcp import ClientSession, StdioServerParameters, types

from mcp.client.sse import sse_client

from mcp.client.stdio import stdio_client

async def run():

async with sse_client(url="http://localhost:5173/sse") as streams:

async with ClientSession(*streams) as session:

await session.initialize()

tools = await session.get_tools()

print(tools)

result = await session.run("calculate power 2, 4?")

print(result.data)

if __name__ == "__main__":

import asyncio

asyncio.run(run())

만약 stdio 방식을 사용하면, 다음과 같이 서버를 지정하고 stdio_client를 사용한다.

server_params = StdioServerParameters(

command="python", # Executable

args=["F:\\projects\\mcp_agent\\mcp-server-client\\mcp_server.py"], # Optional command line arguments

env=None, # Optional environment variables

)

...

async with stdio_client(server_params) as streams:

pydantic_ai를 이용한 클라이언트 코드는 다음과 같다.

from pydantic_ai import Agent

from pydantic_ai.mcp import MCPServerHTTP

from dotenv import load_dotenv

import os, asyncio

load_dotenv()

server = MCPServerHTTP(url='http://localhost:5173/sse') # Ensure the server URL is correct and supports SSE

agent = Agent('openai:gpt-4o', mcp_servers=[server])

result = agent.run_sync('calculate power 2, 4?')

print(result.data)

클라이언트가 정상적으로 실행된다면, 해당 프롬프트에 대한 적절한 도구를 LLM이 MCP 프로토콜을 통해 찾고 호출해 결과를 리턴할것이다.

호스트와 서버 도구 간 검색 및 호출 방법

좀 더 MCP 동작 과정을 상세히 살펴보기 위해 호스터와 서버 간 호출 방법을 확인해 본다.

MCP의 도구는 서버가 호스트에 연결된 클라이언트 요청을 받아 실행 가능한 기능을 외부에 노출하고, LLM이 작업을 수행하는 데 활용할 수 있도록 설계된 요소이다. 도구는 클라이언트를 통해 검색 가능하며(`tools/list`), 작업 수행 요청은 `tools/call` 엔드포인트를 통해 전달된다.

다음은 도구를 기술하는 메타데이터이다.

{

name: string; // Unique identifier for the tool

description: string; // Human-readable description

inputSchema: { // JSON Schema for the tool's parameters

type: "object",

properties: { ... } // Tool-specific parameters

}

도구는 단순한 계산부터 복잡한 API 연동까지 다양할 수 있고, 고유한 이름과 설명을 통해 식별되고 사용된다.

도구는 다음과 같이 정의, 호출된다.

app = Server("example-server")

@app.list_tools()

async def list_tools() -> list[types.Tool]:

return [

types.Tool(

name="calculate_sum",

description="Add two numbers together",

inputSchema={

"type": "object",

"properties": {

"a": {"type": "number"},

"b": {"type": "number"}

"required": ["a", "b"]

}

)

]

@app.call_tool()

async def call_tool(

name: str,

arguments: dict

) -> list[types.TextContent | types.ImageContent | types.EmbeddedResource]:

if name == "calculate_sum":

a = arguments["a"]

b = arguments["b"]

result = a + b

return [types.TextContent(type="text", text=str(result))]

raise ValueError(f"Tool not found: {name}")

MCP 도구를 구현할 때는 다음과 같은 권장사항을 따르는 것이 좋다.

도구는 명확한 이름과 설명을 갖추고, 매개변수는 JSON 스키마로 상세히 정의하며, 사용 예제를 포함해 모델이 이해하고 활용할 수 있도록 한다. 작업의 안정성과 신뢰성을 위해 오류 처리와 유효성 검사를 구현하고, 긴 작업은 진행 상황 보고를 포함하며, 원자성을 유지해야 한다.

반환 값 구조는 문서화하고, 적절한 시간 초과와 리소스 사용 제한을 설정하며, 디버깅 및 모니터링을 위한 로깅 기능도 포함해야 한다.

Ollama MCP-CLI 기반 실습

Ollama 도 MCP를 지원한다. Ollama, mcp-cli 도구를 이용해 MCP 서버에 등록된 도구를 호출하는 방법을 간략히 실습한다.

Bridge between Ollama and MCP servers, enabling local LLMs to use Model Context Protocol tools

터미널에서 다음 명령을 실행한다.

git clone https://github.com/chrishayuk/mcp-cli

cd mcp-cli

mcp서버 실헹에 필요한 UV(fast Python package and project manager)를 설치한다.

pip install uv

uv sync --reinstall

다음과 같이 Ollama를 실행한다.

ollama run llama3.2

새로운 터미널 창에서 다음 명령을 실행한다.

uv run mcp-cli chat --server filesystem --provider ollama --model llama3.2

vscode github copilot MCP 설정 및 사용

최근 vscode github copilot(코파일럿)에 MCP 기능이 추가되었다. 클로드 데스크탑보다 사용이 쉬워 금방 MCP 도구를 추가 사용할 수 있다. 상세 설정 메뉴얼은 다음 링크를 참고한다.

Extending Copilot Chat with the Model Context Protocol (MCP) - GitHub Docs

설정은 그렇게 어렵지 않은 데, 프로젝트 설정 폴더인 .vscode를 만든 후, mcp.json파일을 다음과 같이 설정하면 된다. 클로드 데스크탑에서 설정하는 방법과 동일하다.

{

"inputs": [

// The "inputs" section defines the inputs required for the MCP server configuration.

{

"type": "promptString"

}

"servers": {

// The "servers" section defines the MCP servers you want to use.

"fetch": {

"command": "uvx",

"args": ["mcp-server-fetch"]

"filesystem": {

"command": "npx",

"args": [

"-y",

"@modelcontextprotocol/server-filesystem",

"C:\\Users\\MAC\\Desktop",

"C:\\Users\\MAC\\Downloads"

]

"blender": {

"command": "uvx",

"args": [

"blender-mcp"

]

}

그리고, copilot 창에서 agent mode로 설정 한 후 프롬프트로 요청을 하면 다음과 같이 해당 도구가 실행된다.

filesystem mcp 도구 요청 실행 모습

vscode에서 블렌드 mcp 도구 실행 모습

결론

MCP는 경량 프로토콜이라 개발 및 사용이 편리하다. 향후, 이런 방식이 AI에이전트 개발 시 대세가 될 것이라 생각한다. 기업에서 자동화 등을 위한 최적화된 서비스 개발 분야에서는 LLM을 직접 조작해야 한다. 하지만, 대중적으로 사용되는 도구는 다음과 같이 MCP + 노코드(nocode) 형태가 될 것이다.

Powerful Workflow Automation Software & Tools - n8n

레퍼런스

부록: Figma MCP 와 Copilot 연결

Figma MCP는 다음 링크에서 제공한다.

GLips/Figma-Context-MCP: MCP server to provide Figma layout information to AI coding agents like Cursor

설치 순서는 다음과 같다.

.vscode 폴더에 mcp.json 파일 생성
mcp.json 파일에 다음과 같이 figma api key 설정 후 저장

{
    "servers": {
        "figma-mcp": {
            "command": "cmd",
            "args": [
                "/c", "npx", "-y", 
                "figma-developer-mcp",
                "--figma-api-key=figd_xxxxxxxxxx", "--stdio"
            ]
        }
    },
    "inputs": []
}

figma key는 다음 그림과 같이 settings > security 에서 생성해 복사해 놓는다.

저장하면, 다음과 같이 run, restart 메뉴가 선택된다. 클릭해 실행하면 된다.

Copilot의 Tools을 선택해, 해당 figma mcp를 선택한다.

이제 디자인한 Figma 페이지의 URL을 다음과 같이 복사한다.

작업 폴더를 만들고, Copilot의 Add Context 메뉴 선택해 해당 작업 폴더를 선택한다. 그리고, 다음과 같이 복사된 URL과 함께 프롬프트를 입력한다.

create comlete html5, css, js and images using this figma "<input your figma page URL" in this figma folder, put images in the 'images' folder.

그럼 다음과 같이 에이전트 모드에서 figma mcp가 웹 페이지를 생성할 것이다.

에이전트 모드라 다음과 같이 코드도 자동 생성된다.

생성된 웹페이지 결과는 다음과 같다.

오픈 마누스(manus) AI 에이전트 설치, 사용 및 구조 분석하기

2025-03-28T04:24:00.000-07:00

한동안 회사 일 때문에 미뤄두었던, 딥시크(DeekSeek)와 더불어 많이 많은 마누스(manus.im)에서 영감받아 개발된 오픈마누스(open manus) 오픈소스 AI 에이전트를 설치, 사용 및 분석한다. 오픈마누스는 MetaGPT란 이름으로 활동 중인 중국인 개발자가 공개한 AI에이전트이다. 개발자는 오픈마누스가 연결된 다양한 도구들을 LLM으로 조율하고, 실행할 수 있고 주장하고 있다. 깃허브 등에 설명된 오픈 마누스는 다음과 같은 기능을 지원한다.

로컬에서 AI 에이전트 실행
여러 도구 및 API 통합: 외부 API, 로컬 모델 및 자동화 도구를 연결, 호출
워크플로우 사용자 지정: AI가 복잡한 다단계 상호 작용을 효율적으로 처리
여러 LLM 지원: LLaMA, Mistral 및 Mixtral과 같은 인기 있는 개방형 모델 모델과 호환
자동화 향상: 내장 메모리 및 계획 기능을 통해 OpenManus는 코딩, 문서 처리, 연구 등을 지원

다음 그림은 이 에이전트가 지원하는 기능 중 일부이다.

prompt: Create a basic Three.js endless runner game with a cube as the player and procedurally generated obstacles. Make sure to run it only in browser. If possible also launch it in the browser automatically after creating the game.

오픈 마누스는 이전 중국에서 개발된 마누스의 관심을 오픈소소로 옮겨지는 데 성공했다. 오픈 마누스는 현재 github에서 40.6k란 매우 높은 좋아요 관심을 받고 있다.

오픈 마누스(현재 시점. 40.6k stars)

개인적으로 오픈마누스에 대한 관심도가 높았던 것은, 구현된 기술보다는 에이전트 분야에서 크게 알려진 마누스에 대한 관심, 오픈소스 버전의 AI에이전트 코드 공개가 더 크게 작용했다고 생각한다. 이제 설치 사용해 보고, 성능 품질을 확인해 보자. 그리고, 코드 실행 메커니즘을 분석해 본다.

OpenManus: No fortress, purely open ground. OpenManus is Coming.

참고로, Google의 에이전트 백서에 보면, 생성형 AI 에이전트는 목표 달성을 위해 세상을 관찰하고 스스로 행동하는 자율적인 애플리케이션으로 설명된다. 명시적인 지시가 없어도 스스로 판단하고 능동적으로 목표에 접근할 수 있다. 이러한 에이전트는 행동과 의사결정을 위한 인지 아키텍처를 갖추며, 핵심 구성 요소는 다음 그림과 같이 사용자 입력에 대한 추론 역할을 하는 모델(보통, 혰와 같은 LLM), 입력에 대해 필요한 기능들을 제공하는 도구(Tools), 그리고, 어떤 도구들을 호출할지 조율하는 오케스트레이션 이 세 가지로 이루어진다.

AI 에이전트 구성요소(Agents, Google, 2024)

이 글에서 이런 메커니즘이 어떻게 구현될 수 있는 지를 오픈마누스란 재료를 통해 고민해 보는 시간을 가져보자.

오픈마누스 설치

개발환경은 이미 컴퓨터에 NVIDIA, CUDA, PyTorch 등이 설치되어 있다고 가정한다. 이제, 다음 명령을 터미널에서 실행해 설치한다.

conda create -n open_manus python=3.12

conda activate open_manus

git clone https://github.com/mannaandpoem/OpenManus.git

cd OpenManus

pip install -r requirements.txt

playwright install

오픈마누스가 설치하는 패키지를 보면, 많은 경우, 기존에 잘 만들어진 LLM, AI Agent 라이브러리를 사용하는 것을 알 수 있다. 여기서 사용하는 주요 라이브러리는 다음과 같다.

pydantic, openai, fastapi, tiktoken, html2text, unicorn, googlesearch-python, playwright, docker

config/config.toml 설정 파일을 수정한다. api_key에 OpenAI의 API 키 등을 입력한다(만약, API 키 유출 등이 불안하다면, Ollama 오픈소스 LLM 모델로 설정한다).

# Global LLM configuration

[llm]

model = "gpt-4o"

base_url = "https://api.openai.com/v1"

api_key = "sk-..." # Replace with your actual API key

max_tokens = 4096

temperature = 0.0

# Optional configuration for specific LLM models

[llm.vision]

model = "gpt-4o"

base_url = "https://api.openai.com/v1"

api_key = "sk-..." # Replace with your actual API key

실행

일단, 예제를 간단히 실행해 본다.

python main.py

적절한 프롬프트를 입력해 본다.

create PDF file about BIM(building information modeling).

마누스는 이 프롬프트에 응답해, LLM에 입력하여, 마누스에 등록된 도구를 호출하는 정보와 스크립트를 생성한다. 그리고, 이를 통해 각 도구들을 적절히 호출해 실행한다.

다음은 각 프롬트에 대한 그 예를 보여준다.

prompt: I need a 7-day Japan itinerary for April 15-23 from Seattle, with a $2500-5000 budget for my fiancée and me. We love historical sites, hidden gems, and Japanese culture (kendo, tea ceremonies, Zen meditation). We want to see Nara's deer and explore cities on foot. I plan to propose during this trip and need a special location recommendation. Please provide a detailed itinerary and a simple HTML travel handbook with maps, attraction descriptions, essential Japanese phrases, and travel tips we can reference throughout our journey.

prompt: create PDF file about ConTech in construction

실행결과는 많이 알려진 프롬프트를 제외하고는 그다지 품질이 좋지는 않다. 그럼에도, 나름 많은 스타를 깃허브에서 얻고 있는 오픈 마누스의 에이전트의 구조를 분석하는 것은 의미가 있어 보여, 좀 더 자세히 코드를 확인해 본다.

코드 동적 구조 분석

동적 구조는 실행 흐름을 타고 가며 확인한다. 참고로, 이 구조는 다음 프롬프트일때 실행되는 구조이다.

I need a 7-day Japan itinerary for April 15-23 from Seattle, with a $2500-5000 budget for my fiancée and me. We love historical sites, hidden gems, and Japanese culture (kendo, tea ceremonies, Zen meditation). We want to see Nara's deer and explore cities on foot. I plan to propose during this trip and need a special location recommendation. Please provide a detailed itinerary and a simple HTML travel handbook with maps, attraction descriptions, essential Japanese phrases, and travel tips we can reference throughout our journey.

프롬프트는 일본 여행 기간을 명시하고 7일간 일정이 필요하다 말하고 있다.

이에 대한 마누스 에이전트의 전체 큰 실행 구조는 다음과 같다.

call main() # 메인 호출
prompt = input() # 프롬프트 입력
Manus.BaseAgent.run(prompt) # 프롬프트 입력에 따른 에이전트 도구들 실행

update_memory() # 과거 입출력 저장
max_steps 만큼 아래 루프 반복 # default max_steps = 20
step_result = ReActAgent.step() # 에이전트 도구 단계별 실행

should_act = think() # 무슨 도구를 순서대로 호출할 지 LLM통해 정보얻음

recent_messages = memory.messages[-3:]
Manus.BrowserAgent.ToolCallAgent.think() # 도구 선택 추론

extract current browser page information # 웹화면 정보 사용
response = LLM.ask_tool() # 추론 시 LLM 사용

check token limit # 토큰 한계 체크
response = ChatCompletion(params) # LLM 호출
return response[0].message # 결과 리턴

return response

act() # 에이전트 도구가 선택되었으니, 이를 실행

tool_callls 에 담긴 도구 호출 명령에 따른 도구들 실행 루프 수행

ToolCallAgent.execute_tool(command) # 도구 실행

args = json.loads(command) # 예. web_search. '7-day tour'
ToolCollection.execute(args) # 도구집합에서 해당도구실행

BrowserUseTool.execute(args) # 쿼리검색 후 link 리턴

_ensure_browser_initialized() #브라우저 초기화
links = WebSearch.execute(args.query) # 웹서치
page = get_current_page() # 페이지정보
result = page.goto(url_to_navigate)
return ToolResult(args, result) # 검색결과 수집

return observation(result)

tool_msg = 도구 실행 명령 및 함수 정보
memory.add_message(tool_msg) # 메모리 업데이트
results.append(result)

return results # 결과리턴

이를 좀 더 알기 쉽게 표현하면 다음같이 설명될 수 있다.

1. 프로그램 시작: 메인 함수 호출
2. 프롬프트 입력: 사용자로부터 프롬프트 입력
3. 에이전트 실행: BaseAgent가 입력을 기반으로 동작 시작
4. 메모리 업데이트: 과거 입력/출력 내용을 memory에 저장
5. 에이전트 루프 실행 (기본 max_steps = 20)
5.1. 단계 실행 (Step): ReActAgent가 현재 단계 처리 시작
5.2. 다음 행동 판단 (Think)
5.2.1. 최근 메시지 3개 불러오기
5.2.2. LLM을 통해 다음 행동(도구 호출 여부 등) 추론
5.3. Think: 도구 선택 판단
5.3.1. BrowserAgent가 어떤 도구를 쓸지 결정
5.3.2. 현재 브라우저 페이지 정보 추출
5.3.3. 필요 시 LLM에 도구 사용 목적 질의 (ask_tool)
5.3.4. 토큰 한계 체크
5.4. LLM 호출 및 응답
5.4.1. ChatCompletion으로 명령 생성
5.4.2. 생성된 메시지 반환
5.5. Act: 도구 실행 (Act)
5.5.1. 도구 호출 명령(command)을 파싱 (예: JSON)
반복 (모든 명령에 대한 도구 실행):
5.5.2. 도구 실행 수행
5.5.2.1. ToolCollection에서 해당 도구 실행
5.5.2.2. 브라우저 초기화 (_ensure_browser_initialized)
5.5.2.3. 웹 검색 수행 (WebSearch.execute)
5.5.2.4. 페이지 이동 및 정보 추출 (page.goto)
5.5.3. 도구 결과 처리
5.5.3.1. ToolResult로 실행 결과 정리
5.5.3.2. observation 형태로 결과 정리
5.6. 메모리 및 결과 저장
5.6.1. 도구 실행 정보 및 결과를 memory에 저장
5.6.2. 결과 리스트에 추가
6. 최종 결과 반환: 누적된 결과 또는 마지막 응답을 사용자에게 반환

이 중에 핵심 실행 단계만 확인해 보자.

5번 단계의 think는 LLM을 이용해 사용자 프롬프트를 기반으로 다음과 같이 적절한 도구를 순서대로 선택하도록 명령하고 있다. 이런 이유로, 도구에 대한 프로토타입을 LLM 호출 시 컨텐츠로 전달해 두어야 한다.

"Based on user needs, proactively select the most appropriate tool or combination of tools. For complex tasks, you can break down the problem and use different tools step by step to solve it. After using each tool, clearly explain the execution results and suggest the next steps."

think() 함수 동작 방식(일부)

현재 마누스 버전에서 프롬프트 템플릿은 다음처럼 정의되어 있다.

SYSTEM_PROMPT = (
"You are OpenManus, an all-capable AI assistant, aimed at solving any task presented by the user. You have various tools at your disposal that you can call upon to efficiently complete complex requests. Whether it's programming, information retrieval, file processing, or web browsing, you can handle it all."
"The initial directory is: {directory}"
)

NEXT_STEP_PROMPT = """
Based on user needs, proactively select the most appropriate tool or combination of tools. For complex tasks, you can break down the problem and use different tools step by step to solve it. After using each tool, clearly explain the execution results and suggest the next steps.
"""

LLM을 호출하는 부분은 위 템플릿을 이용해 시스템 프롬프트와 함께 사용자 질의를 입력하는 부분으로 구성될 것이다. 다음은 해당 정보를 보여준다.

prompt: create input.txt file and copy it to output.txt

본인의 경우, gpt-4o LLM 을 사용했다. messages의 1번에는 사용자 프롬프트가 입력되어 있고, 이 목표를 달성하기 위해 적절한 도구를 선택하라 명령하고 있다. tools에 함수 프로토타입이 저장된 것을 확인할 수 있다. 이를 근거로, LLM은 목표를 달성하기 위한 적절한 함수 호출 시퀀스를 생성한다.

브라우저 화면의 검색 정보가 직접 필요한 경우가 있다. playwright를 이용해 해당 정보를 얻는 부분이 think()에서 사용되는 경우도 있을 수 있다. 다음 그림은 사용자 프롬프트 질의에 따라 LLM 이 선택한 도구인 브라우저를 통해 정보를 얻고, 그 정보를 메모리에 업데이트하면서, 에이전트 도구를 실행해 가는 화면이다.

에이전트 검색 결과

에이전트 도구의 리턴 결과(일부)

결론적으로 핵심만 요약해 보면, 다음과 같은 방식으로 에이전트가 실행되는 것을 확인 할 수 있다.

사용자 프롬프트 입력
LLM 이 프롬프트를 통해 어떤 에이전트 도구들을 실행할 지 결정. 도구 정보 반환
도구 호출 정보에 따라, 현재 등록된 도구들을 호출. 결과 파일은 workspace에 저장
도구 호출 결과는 메모리에 저장. 이는 LLM 이 도구를 호출할 때 참고 컨텐츠로 재사용
사용자 프롬프트 요구사항(목표)을 만족할 때까지 앞의 내용 반복

다음은 각 step별로 에이전트가 호출되어 파일이 생성될 경우 저장된 workspace 폴더와 예시를 보여주다.

AI 에이전트 도구에 의해 생성된 파일(우: 게임 코드, 좌하: 일본여행일정)

분석해 보면, 사실, 대단한 메커니즘은 아니다. 이는 기존 OpenAI LLM 플랫폼 도구, LangChain과 같은 RAG, Ollama 같은 LLM Agent 도구에도 있었던 것이다. 좀 다른 것은 다음과 같은 기능이 기본으로 구현되어 있다는 정도로 보이는 데, 이도 다른 유명 LLM, 에이전트 플랫폼에서 하고 있는 것이라 큰 차이라 보기가 어렵다.

1. 웹브라우저를 통해 인터넷 컨텐츠 정보로 적극 사용한 것. 화면 자체에서 정보를 얻는 기능

2. 파일 및 폴더, MCP(Model Control Procotol), 파이썬, 터미널 조작 등 지원

오픈마누스의 가장 큰 장점은 오픈소스로 누구나 그 메커니즘을 확인하고, 분석하는 재미와 기여하며 커가는 커뮤니티 연대 정도로 생각할 수 있겠다.

코드 정적 구조 분석

코드 정적 구조 분석을 위해 폴더부터 분석해 본다. 구조는 다음과 같다.

OpenManus/

├── app/ # 애플리케이션 핵심 코드

│ ├── agent/ # 에이전트 로직 (예: BaseAgent, ReActAgent)

│ ├── flow/ # 실행 흐름 제어 (workflow, step control)

│ ├── mcp/ # Model Control Procotol

│ ├── prompt/ # 프롬프트 템플릿 관련

│ ├── sandbox/ # 실행 격리 환경 (보호된 실행 공간)

│ └── tool/ # 실행 가능한 다양한 도구 모음

│ ├── bash.py # Bash 명령 도구

│ ├── browser_use_tool.py # 브라우저 연동 도구

│ ├── create_chat_completion.py # LLM 호출 지원

│ ├── file_operators.py # 파일 입출력 도구

│ ├── file_saver.py # 파일 저장 도구

│ ├── mcp.py # 제어 관련 도구

│ ├── planning.py # 계획 생성 도구

│ ├── python_execute.py # 파이썬 코드 실행 도구

│ ├── str_replace_editor.py # 문자열 편집 도구

│ ├── terminal.py # 터미널 명령 실행 도구

│ ├── terminate.py # 실행 종료 도구

│ ├── tool_collection.py # 전체 도구 관리자

│ └── web_search.py # 웹 검색 도구

├── assets/ # 에셋, 리소스 파일

├── config/ # 설정 파일들

├── examples/ # 예시 실행 계획들

│ └── japan-travel-plan/ # 예: 여행 계획 샘플

├── logs/ # 실행 로그 저장

├── tests/ # 테스트 코드

│ └── sandbox/ # 샌드박스 테스트

└── workspace/ # 임시 실행 또는 작업 파일 저장소

설치된 폴더 구조 (일부)

각 코드를 정적 분석해, 핵심 클래스만 UML로 분석해 보겠다. 마누스의 주요 클래스 구조는 다음과 같다.

오픈 마누스 클래스 다이어그램(UML)

소프트웨어 공학적으로는 디자인패턴 중 strategy pattern (ToolCollection, BaseTool) 을 사용하고 있다. 나머진 일반적인 OOAD 구조이다.

BaseTool 클래스는 execute 메서드를 공통으로 가지며, 이를 상속한 각 도구 클래스들(Terminal, FileSaver, MCPClientTool, WebSearch, DomService, BrowserUseTool 등)은 시스템 명령 실행, 파일 저장, 브라우저 제어 등 특정 기능을 담당한다. 각 도구는 ToolCollection에 집합되어 있으며, tool_map을 통해 관리되고 execute를 통해 실행된다.

ToolCallAgent는 think 메서드를 통해 어떤 도구를 사용할지 판단하고, 판단 결과를 ToolCollection에 전달하여 해당 도구를 실행한다. ReActAgent는 step, think, act 메서드를 통해 LLM 기반 추론과 도구 실행 흐름을 단계적으로 처리하며, BaseAgent는 이를 상속받아 step 단위의 실행 흐름을 제공한다. Manus 객체는 최상위 제어자로서 전체적인 에이전트의 동작을 통제하며 think 메서드를 통해 추론을 담당한다. BrowserAgent는 BrowserUseTool과 관련된 think 역할을 수행한다.

BrowserUseTool은 WebSearch와 DomService를 포함하며 웹 페이지 탐색, 클릭, 입력 등의 브라우저 상의 조작을 담당한다. DomService는 클릭, 스크롤, 탭 전환 등 구체적인 DOM 제어 명령을 담당하며, 오른쪽 enum 박스는 이 DomService가 수행할 수 있는 구체적인 명령어 목록을 나열한 것이다.

LLM 클래스는 ask_tool, ask_with_images, ask 등의 메서드를 제공하며, 도구 선택 판단 또는 일반 자연어 추론을 위한 언어 모델 호출 기능을 수행한다. LLM이 사용하는 모델은 gpt-4-vision, gpt-4.0, claude-3 계열 등으로 구성된 멀티모달 모델 리스트에 명시되어 있다.

전체 구조는 에이전트가 사용자 입력을 받아 LLM을 통해 판단하고, 적절한 도구를 선택하여 실행하며, 이를 반복적으로 수행하는 다단계 추론 및 실행 체계를 중심으로 구성되어 있다.

마무리

이 글을 통해 오픈마누스를 분석해 보았다. 개발 시작한 지 얼마 안되는 따끈따끈한 코드라서 그런지, 아직 코드 리팩토링이 잘 안되어 있고, 구조도 멀티 에이전트라 하기에는 좀 부족하고 확장성에 문제가 있는 것들이 있다. 에이전트 선택 및 호출하는 부분은 막코딩(?) 같은 부분이 있어 구조적으로 깔끔하지 못하다. LangChain처럼 많은 개발자가 참여하면 크게 복잡해져 입력-결과를 예측하기 어려워지거나, 버전업에 되면서 빅스텝(과거와의 단절)이 될 수 있을 것 같다.

에이전트의 핵심기술은 결국 추론 능력을 가진 LLM을 어떻게 잘 활용하는 가이다. 이런 점에서 마누스(최근 해킹되어 코드 확인해 보았더니)나 오픈마누스는 기존 LLM과 프롬프트 템플릿을 복잡하게 wrapping 해 놓은 모듈이란 말이 나올 수 밖에 없다.

좀 더 깃허브를 살펴보니, 이를 주도하는 개발자는 심천에 있는 중국인이며. 이외, 지장에 있는 개발자, 학생들 6명 정도가 주축으로 개발하고 있는 것 같다(소프트웨어 공학적으로는 약간 아마추어 느낌). RL 모듈은 UIUC에 다니는 중국인 대학원생, 홍콩과기대 학생 등이 주축이되고 있다(참 열심히 개발하는 느낌).

오픈 마누스 개발 공헌자

그럼에도 불구하고, 이들이 열심히 개발 중인 오픈소스 구조를 살펴보고 여러 구현 아이디어를 보는 것은 즐거운 것이다. 스스로 본인이 개발하는 코드를 공개하고, 고민을 공유하는 것은 브랭딩 전략이란 점을 제외하더라도 오픈소스 커뮤니티에 공헌하는 의미있는 행위라 생각한다.

레퍼런스

시간이 된다면, OpenManus-RL 도 분석해볼 계획이다.

기술로 감동을 주는 사람들

2025-03-24T07:03:00.000-07:00

이 글은 기술로 감동을 주는 사람들에 대한 기록이다.

나는 개발자이며 공학 오타쿠이며, 외적으로는 공학자, 연구자이다. 내가 내적, 외적으로 나를 분리해 보는 습관은 꾀 오래 된 것이다. 한국 연구 생태계에서는 이것이 Identify와 Brand를 지키는 몇 안되는 방법인 것 같다. 개인적으로 매우 많은 외적 시도를 해 보았고, 장단점을 알게 된 상황에서는 남은 인생은 전략적으로 살기로 했다.

가끔, 내적 연구를 하다 보면, 정말 감탄하게 되는 분들을 만나게 된다. 내가 먹고 사는 분야인 BIM에서는 건축의 이스트만 교수님, VDC 마틴피셔 교수님, 토목의 밀러 교수님 같은 분들이다. 내가 공학의 내적 세계에서 우상으로 있는 분들은 이외 소프트웨어 공학, 컴퓨터 그래픽스 분야에도 우뚝 서 있다. 이 분들의 유산은 아낌없이 주는 나무처럼 기술적으로 나를 감동시킨다. 순수한 호기심과 열정으로 세상에 없던 것을 만들어 내는 것은 어느 평범한 누구와 같이 단기적 이익을 쫓는 정치하는 사람과는 비교할 수 없는 위치의 수준을 보게 된다.

어차피 사람은 언젠가는 모두 죽게 되어 있다. 과학과 공학 분야에서 어떤 사람을 메모리얼하고 그리워하는 것은 그 분의 유산이 감동적이었기 때문이라 생각한다.

Robert Abel and Associates

Design Patterns: Elements of Reusable Object-Oriented Software

레퍼런스

최근 포인트 클라우드 세그먼테이션 동향

2025-03-01T05:46:00.000-08:00

이 글은 최근 포인트 클라우드 세그먼테이션 동향에 관한 연구를 간략히 조사한것이다.

AHN4 - DTM | Viewer Actueel Hoogtebestand

Interactive 4D LiDAR Segmentation

레퍼런스

대형언어모델 Gemma2 파인튜닝하기

2025-02-15T19:49:00.000-08:00

대형 언어 모델(LLM)인 Gemma2-2B를 미세 조정하면 특정 작업에 대한 성능을 크게 향상시킬 수 있다. 이 가이드는 Google Colab을 활용하여 Gemma2-2B를 미세 조정하는 과정을 단계별로 설명한다.

사전 준비 사항
미세 조정을 진행하기 위해 다음과 같은 준비가 필요하다.
- Google Colab(https://colab.research.google.com/) 계정이 있어야 한다. 혹은, NVIDIA GPU 환경(24GB 이상)이 구축된 컴퓨터가 있어야 한다.

- Python 및 머신러닝 기초 개념을 이해하고 있어야 한다.

1단계: 환경 설정
1. Google Colab 접속
- Google Colab(https://colab.research.google.com/)에 접속하여 새 노트북을 생성한다.
2. GPU 설정
- 상단 메뉴에서 `편집(Edit) > 노트북 설정(Notebook settings)`으로 이동하여 하드웨어 가속기를 `GPU`로 변경한다.
3. 필요한 패키지 설치
- 아래 명령어를 실행하여 필수 라이브러리를 설치한다.
!pip install transformers datasets accelerate

2단계: Gemma2-2B 모델 불러오기
Hugging Face의 `transformers` 라이브러리를 사용하여 사전 학습된 Gemma2-2B 모델을 로드한다.
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "google/gemma2-2b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

3단계: 데이터셋 준비
미세 조정을 위해 작업에 맞는 데이터셋이 필요하다. Hugging Face의 `datasets` 라이브러리를 사용하여 데이터를 로드하고 토큰화할 수 있다.
from datasets import load_dataset
# 'your_dataset'을 원하는 데이터셋 이름 또는 경로로 변경해야 한다. 데이터셋 예시: lavita/ChatDoctor-HealthCareMagic-100k · Datasets at Hugging Face
dataset = load_dataset('your_dataset')
# 토큰화 함수 정의
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
# 데이터셋 토큰화 적용
tokenized_dataset = dataset.map(tokenize_function, batched=True)

4단계: 모델 미세 조정
데이터셋을 준비한 후, 아래 코드로 모델을 미세 조정할 수 있다.
from transformers import TrainingArguments, Trainer
training_args = TrainingArguments(
output_dir="./results",
evaluation_strategy="epoch",
learning_rate=2e-5,
per_device_train_batch_size=4,
per_device_eval_batch_size=4,
num_train_epochs=3,
weight_decay=0.01,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=tokenized_dataset["train"],
eval_dataset=tokenized_dataset["validation"],
)
trainer.train()

5단계: 미세 조정된 모델 저장
학습이 완료된 모델을 저장하여 향후 사용할 수 있도록 한다.
model.save_pretrained("./fine_tuned_gemma2_2b")
tokenizer.save_pretrained("./fine_tuned_gemma2_2b")

결론
이 가이드를 따르면 Google Colab에서 Gemma2-2B 모델을 미세 조정하여 특정 작업에 최적화된 모델을 만들 수 있다. 미세 조정을 통해 모델의 성능을 향상시키고 특정 도메인 문제를 해결하는 데 도움을 줄 수 있다.

참고
대형 모델의 미세 조정은 많은 GPU 리소스(최소 24GB 이상)를 필요로 한다. Google Colab Pro 또는 TPU를 활용하면 더 원활한 학습이 가능하다.

생성AI, LLM, AI Agent와 그래픽, 디자인, 미디어아트 관련 자료 소개

2025-01-26T23:33:00.000-08:00

이 글은 생성AI, LLM, AI Agent와 그래픽, 디자인, 미디어아트에 관한 자료를 정리한 것이다. 관련 도구 및 예제는 다음 링크에 자세히 설명하였으니 참고한다.

mac999/llm-media-art-demo

프롬프트에서 생성된 그래픽스 예시

Blender LLM 기반 그래픽 모델링 관련 자료

LLM, ollama, Blender python library 등을 이용하면, 프롬프트를 입력해, 3차원 모델을 자동 생성할 수 있다. 다음은 관련 예시를 보여준다.

Prompt: Create 100 cubes. The y position of each cube follows the cosine function along the x-axis with random color.

이를 이용해 다음과 같은 GPT 에이전트가 구현된다.

상세한 동작 메커니즘은 다음 링크를 참고한다.

mac999/blender-llm-addin

LLM과 컴퓨터 그래픽스

앞에서 사용한 방법과 동일하게, OpenGL, processing.org 등 3차원 가시화 도구를 이용해 실시간으로 프롬프트를 통해 컴퓨터 그래픽스 장면을 생성할 수 있다. 다음은 프롬프트를 통해 생성된 그래픽스를 보여준다.

데이터 기반 그래픽스 렌더링 예시

생성된 그래픽스 코드는 다음과 같다.

from p5 import *

import pandas as pd

# Load the dataset

data = pd.read_csv('input.csv')

def setup():

size(720, 400)

no_stroke()

def draw_cone(size_x, size_y, position):

with push_matrix():

translate(*position)

cone(size_x, size_y)

def draw():

background(20, 100, 24)

lights()

rotate_x(frame_count * 0.01)

# rotate_y(frame_count * 0.01)

blinn_phong_material()

interval = 200

for i, row in data.iterrows():

x = (i % 3) * interval - interval

y = 0

z = (i // 3) * interval - interval

draw_cone(row['energy'], row['temperature'], (x, y, z))

locX = mouse_x - width/2

locY = mouse_y - height/2

light_specular(0, 0, 255)

point_light(360, 360*1.5, 360, locX, locY, 400)

if __name__ == '__main__':

run(mode='P3D')

LLM과 사운드 엔지니어링

동일한 원리로 사운드를 개발할 수 있다. 다음은 LLM을 통해 생성된 사운드 코드를 실행한 결과이다.

사운드 생성 예

생성된 코드는 다음과 같다.

from psonic import *

import time

from threading import Thread, Condition

set_server_parameter_from_log("127.0.0.1")

def play_mozart(condition):

while True:

with condition:

condition.notifyAll() # Message to threads

beat = 0.33

melody = [

E5, E5, F5, G5, G5, F5, E5, D5, C5, C5, D5, E5, E5, D5, D5,

E5, E5, F5, G5, G5, F5, E5, D5, C5, C5, D5, E5, D5, C5, C5

]

# Drum beat pattern

def play_beat():

sample(DRUM_HEAVY_KICK, amp=1.5) # Strong kick drum

sample(ELEC_CHIME, amp=1.2) # Electric guitar sample

sample(BD_ZOME, amp=1.5)

sleep(beat / 2)

sample(DRUM_CYMBAL_CLOSED, amp=1.2) # Closed cymbal

sample(ELEC_CHIME, amp=0.6)

sample(BD_ZOME, amp=0.6)

sleep(beat / 2)

sample(DRUM_SNARE_HARD, amp=1.3) # Strong snare

sample(ELEC_CHIME, amp=1.2)

sample(BD_ZOME, amp=1.3)

sleep(beat / 2)

sample(DRUM_CYMBAL_CLOSED, amp=1.2)

sample(ELEC_CHIME, amp=0.6)

sample(BD_ZOME, amp=0.6)

sleep(beat / 2)

# Melody, Beat Channel Play

for note in melody:

play(note, amp=1.0) # , release=0.2) # Melody

play_beat() # Beat Pattern

condition = Condition()

mozart_thread = Thread(name='producer', target=play_mozart, args=(condition,))

mozart_thread.start()

input("Press Enter to continue...")

LLM과 피지컬 컴퓨팅

피지컬 컴퓨팅에 많이 사용되는 아두이노 등을 이용해, 프롬프트로 명령을 주면, 임베딩 컴퓨터가 명령을 실행할 수 있는 코드를 LLM이 생성해, 모터, 조명과 같은 액추에이터를 동작시킬 수 있다. 다음은 그 예를 보여준다.

Arduino programming with CrewAI · The Neural Maze

참고로, 아두이노의 경우, .ino 코드 파일을 실시간으로 컴파일해 아두이노보드로 전송하는 cli 도구가 설치 시 포함되어 있다. 이를 이용해, 컴파일 에이전트를 구현할 수 있다.

Arduino CLI 도구

Ollama와 오픈소스 LLM 이용한 건축 이미지 프롬프트 역공학

말이 어렵지만, 사실 멀티모달을 지원하는 llama3.2-vision과 같은 모델이 저렴하게 공개되고 있는 상황이라, 이를 이용하면 쉽게 프롬프트 키워드 역공학해서, 얻은 프롬프트로 이미지를 생성할 수 있다.

올라마(ollama) 설치 후 이미지를 준비하고, 다음을 실행한다.

ollama run llama3.2-vision

그리고, image 명령을 이용해 해당 파일 경로를 입력하고 설명하라 한다. 이후, 이 설명을 미드저니 프롬프트 키워드로 변경해 달라 하고, 텍스트-이미지 서비스에 역공학된 프롬프트를 입력하면 된다. 다음은 그 결과이다.

건축가 자하하디드 스타일 건축물 사진 역공학 후 생성한 이미지 결과(참고)

생성된 영상(KREA)

레퍼런스

이 주제와 관련된 레퍼런스는 다음과 같다.

AI 에이전트

그래픽 모델링

사운드 엔지니어링

피지컬 컴퓨팅

올라마 및 LLM

CAD 모델 생성AI 및 LLM 기술 조사

2025-01-22T18:23:00.000-08:00

이 글은 CAD 모델 생성AI 및 LLM 기술을 조사한다.

SolidGen (Autodesk)

조사를 위해 다음 키워드로 구글링, GITHUB, 논문 검색을 수행한다.

'CAD', 'Scketch', 'LLM', 'Generative AI', 'Transformers', 'github', 'huggingface'

다음은 검색된 기술 결과를 보여준다.

ABC: A Big CAD Model Dataset For Geometric Deep Learning : Faculty Digital Archive : NYU Libraries

BrepGen: A B-rep Generative Diffusion Model with Structured Latent Geometry

Text2CAD: Text to 3D CAD Generation via Technical Drawings

Don’t Mesh with Me: Generating Constructive Solid Geometry Instead of Meshes by Fine-Tuning a Code-Generation LLM

CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs

SPFN: Source code for "Supervised Fitting of Geometric Primitives to 3D Point Clouds" [CVPR 2019].

Hippogriff/parsenet-codebase: Code base of ParSeNet: ECCV 2020

From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach

Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation

HG-CAD: Hierarchical Graph Learning for Material Prediction and Recommendation in Computer-Aided Design

Cad Recode - a Hugging Face Space by filapro (Wooden House Free 3D Model - .fbx .obj .stl - Free3D)

CadQuery/cadquery: A python parametric CAD scripting framework based on OCCT

huggingface/diffusers: 🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch and FLAX.

레퍼런스

오픈소스 기반 2D Image to 3D model 소개

2025-01-13T18:37:00.001-08:00

이 글은 오픈소스 기반 2D Image to 3D model (이미지 > 모델 변환)을 확인해 간략히 정리한다. 모델은 Stable Point Aware 3D, Structured 3D Latents 이다.

Stable Point-Aware 3D - a Hugging Face Space by stabilityai

Structured 3D Latents for Scalable and Versatile 3D Generation

레퍼런스

요즘 생각. 최근 난리인 GPU 1만개면 딥시크 10개 만들 수 있다는 모 대표님 말과 이 말에 따라 패닉하는 정부 기술투자 정책에 대해

기술 분석을 위해 누가 Structured 3D Latents 기술을 개발하고 오픈소스로 공개했나 지 궁금해 살펴보다가 이 글을 쓴다.

실무하는 기술자, 개발자들은 이미 5년전부터 하던 말인데, 이미 한국 AI는 그 당시 비교하던 미국, 유럽, 일본 뿐 아니라 중국에서도 크게 뒤져 있었다는 것이 중론이었다. 사실, 우리는 지금까지 전통적으로 OS, AI 포함 소프트웨어 분야에서 세계 시장에 제대로 된 명함을 내민 적이 별로 없다(IT강국?).

요즘, 언론에서 딥시크로 패닉하는 뉴스 보내고 있다. 원인 중 하나로 인프라를 말하는데, 맥을 잘 못 짚어 보인다. 한참 잘못된 방향으로 기사를 쏟아내고 있어, 앞으로도 한참 멀었다는 생각이 드는 건 어쩔 수 없다. 우리나라 정부 보도자료는 이런 냄비성 기사들에 휘둘릴 정도로 전문성이 없는 듯 하다. 국회에서 모여 말하는 사람들조차 약장사들 밖에 없어, 주변 전문가들은 가기도 꺼려하는 상황이다. 여기에 엮이면 수많은 보도자료, 과제기획에 1년 이상이 없어지기 때문이다. 깊게 기술 개발할 시간만 없어진다. 보통 진짜 선수들은 운동장에서 연습하는 것을 좋아하지, 시끄럽기만 한 영양가 없는 곳은 싫어한다. 악화가 양화를 구축한지 오래라 이또한 어쩔 수 없어 보인다. 갑을 관계 제조업으로 성공한 나라의 숙명인지.. 더 생각해보면 문화의 한계라 느껴지기도..

딥러닝 좀 하는 개발자라면 알겠지만, AI 첨단 기술 중 하나가 잠재 공간에서 자유롭게 멀티모달 데이터를 학습, 변환하는 것이다. 이 스테이블 디퓨전 아키텍처를 3차원으로 자유자재로 가지고 놀 수 있는 곳은 사실 세계적으로 소수고, 대부분은 그냥 사용만 하고 있다. Structured 3D Latents가 나왔을 때 당연 미국 주요 빅테크 기업이 들어가 있는 것은 충분히 예상할 수 있었고, 중국인 개발자들도 참여했을꺼라는 생각도 했었다. 그런데, 이 논문의 저자들을 보고 속으로 약간 놀랐다. 아 애 대놓고 마이크로소프트 보다 1저자로 칭화대학 연구생들이 올라가 있었던 것이다.

1저자 학생은 칭화대 출신으로 5년전부터 마이크로소프트 인턴으로 공부하며, 미국 인프라를 사용하고 있고, 이 학생의 지도 교수조차 미국에서 공부하고 인텔 등에서 일한 경력직이다. 즉, 이 기술 개발의 숨은 스토리는 미국 빅테크 기업의 중국계 기술 경력 엔지니어를 교수로 네트웍 삼아, 중국 유학생을 보낸 후 5년째 되어, 이런 기술을 습득한 것으로 정리된다.

Jianfeng Xiang | Home

상황이 이쯤 되면, 앞에 언급한 정부 정책에 대해 어떤 생각이 드는가.

GPU 만개, 십만개 센터 구축한들, 우리가 이런 나라를 넘어서긴 매우 어려울 것 같다는 느낌이 들지 않나. 제일 큰 문제는 우리는 인재가 없다는 것이다. 인재란 것은 헝그리 정신으로 무장하고, 선진국에 건너가, 그들의 노하우를 밤새도록 공부하고, 체내화한 후, 귀국해 산업발전에 기여할 사람을 말한다. 이런 프로세스가 동작했던 적이 우리도 있었다. 사실, 왜 안되는 지, 이것도 조금만 리서치하고, 생각하면, 알 수 있는 것이다. 그리고, 수백 페이지 짜집기한 기술동향보고서 컨설팅 받는 것 보다 직접 실무 하는 사람들에게 물어보는 게 천 번 낫다.

하드웨어 물량 예산 퍼부어도 이를 사용할 경력있는 전문가, 개발자가 없으면 의미가 있을까? 약장사들(물건파는)만 돈 벌고 끝날 것이다. 약장사들이 돈 가져갈 수록 이들 숫자만 많아질 것이고.. 사실, 이 예상을 하기 위해 관련 자료 리처치한 노력은 30분도 안 걸렸다. 정부는 기술 전문가는 커녕, 전문가를 알아볼 사람들조차 없다는 것이 진짜 위기일 듯 하다.

예를 들어, 허깅페이스나 깃허브를 TV에서 처음 듣고, 라스베거스쇼에서 지인과 구경 다닌 후 보도자료 내는 상황이면 그 기술에 대한 정책과 투자를 결정하는 자리에 있어서는 안 될 것이다. 전문가도 없고, 리더쉽도 부재라, 정책 거버넌스는 혼돈 그 자체, 기술 투자와 발전에 대한 시장 신뢰가 없어지면, 산업은 각자도생이고, 약장사들만 판치게 된다. 그런데 사람들은 K팝 듣는 외국인들보고 선진국이라 정신승리하고 있으니... 산업이 없으면 K문화도 없다.

이 상황 AI만 이럴까? - 2025.3.3

LLM 기반 BIM 지식 모델 학습 데이터셋 자동 생성 및 LLM 파인튜닝 도구 소개

2025-01-09T23:40:00.000-08:00

이 글은 LLM(대형언어모델) 기반 BIM(Building Information Modeling) 지식 모델을 개발하기 위한 BIM 학습 데이터셋 생성 및 LLM 파인튜닝 도구를 소개한다.

ChatGPT와 같이 일반적인 지식만 학습한 LLM은 환각현상이 심할 수 있으며, 온라인으로 연결된 LLM을 사용해야해 보안문제도 있을 수 있다. 이 글은 이런 문제를 해결하기 위한 도구를 소개한다.

로컬 LLM 기반 BIM 모델 개발을 위해서는 BIM 데이터셋을 개발해야 하며, LLM(대규모 언어 모델)을 파인튜닝해야 한다. 이 글은 이를 위한 두 개의 프로그램을 소개하고, 각각의 기능과 사용 방법을 설명한다. 소스코드는 다음 github 링크를 참고한다.

BIM AutoGen Dataset와 LLM 파인튜닝도구: https://github.com/mac999/BIM_LLM

BIM 지식 LLM 모델 학습 프로세스 및 결과

본 프로그램의 동작 방식의 상세한 설명은 레퍼런스를 참고하길 바란다. 이 레퍼런스에는 LLM 파인튜닝, RAG 등의 한계점을 함께 설명하고 있다.

프로그램 소개

BIM AutoGen Dataset

BIM AutoGen Dataset은 PDF 문서로부터 LLM 파인튜닝을 위한 QA(질문-답변) 데이터셋을 자동으로 생성하는 도구이다. 이 도구는 OpenAI API를 활용해 텍스트를 분석하고, 질문과 답변을 JSON 형식으로 구조화하며, 답변의 모호성을 평가하여 데이터 품질을 높인다.

PDF 파일에서 QA 데이터셋을 자동으로 생성한다.
생성된 데이터셋은 JSON 형식으로 저장되며, LLM 파인튜닝에 적합하다.

LLM Fine-Tuning with PEFT

LLM Fine-Tuning with PEFT는 PEFT(파라미터 효율적 파인튜닝) 기술을 활용해 BIM 도메인에 특화된 LLM(SLM)을 8GB GPU에서도 효율적으로 파인튜닝할 수 있게 한다. 이 도구는 Hugging Face와 W&B(Weights & Biases)와 같은 툴과 통합되어 모델 성능 모니터링 및 결과 공유가 가능하다.

LLM(Llama-3-8B 등)을 PEFT 기술로 경량화하여 파인튜닝한다.
8GB GPU에서도 실행 가능하며, 저비용 환경에서도 모델 학습을 지원한다.
Hugging Face와 W&B 통합으로 학습 상태를 실시간으로 추적하고 공유할 수 있다.

사용방법

BIM AutoGen Dataset

1. 필수 라이브러리 설치:

pip install os json PyPDF2 argparse re camelot fitz pdfminer.six openai tqdm

2. PDF 파일 준비:

- `input` 폴더에 처리할 PDF 문서를 추가한다.

3. 다음 명령어를 사용해 스크립트를 실행한다:

python BIM_autogen_dataset.py --input ./input --output ./output

4. 결과:

- 생성된 QA 데이터셋은 `output` 폴더에 JSON 형식으로 저장된다.

LLM Fine-Tuning with PEFT

1. 필수 라이브러리 설치:

pip install pandas torch wandb transformers huggingface_hub trl datasets peft PyPDF2 camelot-py pymupdf pdfminer.six openai tqdm

2. API Key 설정:

- Hugging Face API Key: Hugging Face 계정을 통해 API 키를 발급받는다.

- Weights & Biases API Key: W&B 계정을 통해 API 키를 발급받는다.

3. 데이터셋 준비:

- BIM AutoGen Dataset으로 생성된 QA JSON 파일을 `dataset` 폴더에 저장한다.

4. 다음 명령어를 사용해 스크립트를 실행한다:

python BIM_LLM_finetuning.py

5. 결과:

- 파인튜닝된 모델은 `output_finetuning_model` 디렉토리에 저장된다.

- 학습 로그는 `finetuning.log` 파일에 저장된다.

마무리

이 글은 BIM AutoGen Dataset과 LLM Fine-Tuning with PEFT를 통해 BIM 도메인에서 머신러닝 및 LLM 활용을 간소화하고자 하는 목적을 담고 있다. 모든 코드는 MIT 라이선스 하에 제공된다. 이 도구는 일반화된 프로세스로 개발되어 있으므로, BIM 이외 다른 분야에도 사용자화하여 활용할 수 있다.

레퍼런스

이 레퍼런스에는 LLM 파인튜닝, RAG 등의 한계점을 함께 설명하고 있다. 실제 해보면 알겠지만, 모든 문제를 해결하는 만병 통치약은 없다. 특정 영역에서 효과적인 솔류션도, 다른 영역에는 효과가 없는 경우가 많다는 것을 고려하고, 이러한 기술을 활용할 필요가 있다. LLM 생성모델에 대한 좀 더 깊은 이해가 필요하다면 이 블로그의 '스테이블 디퓨전', '트랜스포머스' 관련글을 참고하길 바란다.

최근 SLM(Small Language Model) 모델 성능 테스트 사용기

2025-01-09T20:48:00.001-08:00

이 글은 최근 SLM(Small Language Model) 모델 성능 테스트 사용기를 간략히 정리한 것이다.

테스트를 위해, ollama를 설치한 후, 터미널에서 다음 명령을 입력해 각각 적합한 SLM 모델을 다운로드 받는다.

ollama run gemma2

SLM 실행 모습

정보 생성 결과 예시

사용한 SLM 모델 중 유명한 gemma-2, llama-3, phi4를 테스트해보았다.

gemma-2: 실행 속도가 매우 빠르다. 맥락에 따른 정보 생성 성능이 뛰어나다.
llama-3: 실행 속도는 중간이다. 생성 품질은 뛰어나다.
phi4: 실행 속도는 중상이다. 생성 품질도 뛰어나다.
llama-3.2:vision: 멀티모달 기능이 뛰어나다. 다른 것은 보통 수준이다.

다만, 이런 SLM은 4K 이내 프롬프트 크기 입력 등의 한계가 있다.

레퍼런스