Daddy Makers

2025년 7월 8일 화요일

인공지능 멀티 에이전트 개발 방법 정리

이 글은 인공지능 멀티 에이전트 개발 방법을 정리한 것이다.

기술스택

crewai

높은 수준의 프레임워크로 포지셔닝된 CrewAI는 다양한 방식으로 협업할 수 있는 롤플레잉 에이전트로 구성된 "크루"의 생성이 용이하다.

설치는 uv를 이용한다. 참고로, 현재 시점(2025.7)에서 윈도우 버전 설치는 불안정(참고)하며, 우분투 리눅스에 uv로 설치하면 좀 더 쉽게 설치할 수 있다.

uv venv

uv tool install crewai

Installation - CrewAI

다음은 관련 예제이다.

Langchain

langgraph

엄밀히 말하면 다중 에이전트 프레임워크는 아니지만 LangGraph를 사용하면 그래프 구조를 사용하여 행위자 간의 복잡한 상호 작용을 정의한다.

Autogen

Microsoft에서 개발한 AutoGen은 대화형 접근 방식을 사용하며 다중 에이전트 시스템을 위한 초기 프레임워크 중 하나이다.

Swarm

MAS using LLM, Swarm

기타, Carmel, Agno 등이 있다.

레퍼런스

2025년 7월 7일 월요일

확실하게 성공하는 바이브 코딩 도구 사용 방법

이 글은 확실하게 성공하는 바이브 코딩 도구 사용 방법을 보여준다. 여기서는 바이브 코딩 도구로 PRD(Product Requirement Document) 작성은 Gemini Pro, 바이브 코딩 도구는 Github Copilot, 대형언어모델 LLM은 Claude Sonet을 사용했다(LLM은 본인 입맛에 맞게 사용하면 됨).

바이브 코딩 준비하기

바이브 코딩을 하는 방법은 다음과 같이 다양하다.

ChatGPT 에 코딩 요청을 해서 생성된 파이썬 같은 코드를 복사&붙여넣기해 프로그램을 완성해 나가는 방법
Gemini CLI, Claude code CLI, codex CLI 도구를 사용해 프로젝트 파일 및 소스코드를 생성하는 방법
vscode 같은 개발 IDE와 연동되는 github copilot, cursor, windsurf와 같은 도구를 사용해 바이브 코딩하는 방법
Bubble.io나 Canva와 같은 바이브 코딩 웹서비스에서 직접 요구사항을 입력하여 제공 클라우드에 앱을 생성 빌드 실행하는 방법

여기서는 로컬PC에서 프로젝트 소스 파일들을 생성하고 직접 수정할 수 있도록 vscode에서 바이브 코딩할 수 있는 방법을 취한다. 이를 위해 다음 환경을 미리 준비한다.

Gemini Pro 가입
파이썬, node.js 설치
Github 가입
Copilot 서비스 가입
vscode 설치 및 코딩 언어 관련 확장(Extension) 애드인 설치

요구사항 작성하기

바이브 코딩 목적은 텍스트 편집기를 개발하는 것이다. 이를 위한 PRD를 작성하고, 바이브 코딩을 진행한다. PRD작성을 위해 프롬프트를 다음과 같이 입력한다.

GUI 기반 텍스트 편집기를 개발할꺼야. 파이썬과 Tkinter 라이브러리를 이용할꺼야. 메뉴는 파일 메뉴, 편집 메뉴, 테마 선택 메뉴(다크모드 하위 메뉴 포함), 찾기 메뉴로 구성됨. 이 프로그램 개발을 위한 PRD를 UI 스케치를 포함해 md 포맷으로 작성해.

사용할 라이브러리와 같은 기술 스택을 지정하는 것은 중요하다. 약간 시행착오를 하며 명확한 PRD가 작성될 수 있도록 프롬프트에 정확한 정보를 포함시킨다. md 포맷은 좀 더 명확한 문서형식작성을 위해 사용했다. md포맷은 markdown 파일형식으로 github에서 README 파일 작성할때 표준 형식이다.

다음은 이렇게 생성된 제품 요구사항 문서이다.

# **Python/Tkinter 기반 GUI 텍스트 편집기 제품 요구사항 명세서 (PRD)**

## **1. 개요**

본 문서는 파이썬(Python)과 표준 GUI 라이브러리인 티케이인터(Tkinter)를 사용하여 개발될 데스크톱 텍스트 편집기의 요구사항을 정의합니다. 이 애플리케이션은 기본적인 텍스트 편집 기능과 함께 사용자의 편의를 위한 다크 모드, 찾기 기능 등을 제공하는 것을 목표로 합니다.

## **2. 목표 사용자**

* **초보 개발자 및 학생**: 간단한 코드나 스크립트, 메모, 과제 등을 작성하고 편집하려는 사용자.

* **일반 사용자**: Windows 메모장과 같은 가볍고 빠른 텍스트 편집기가 필요한 사용자.

## **3. 핵심 기능**

### **3.1. 파일 메뉴**

| 기능 | 단축키 | 설명 |

| :--- | :--- | :--- |

| **새 파일** | `Ctrl+N` | 새로운 빈 편집 창을 엽니다. |

| **열기** | `Ctrl+O` | 기존 텍스트 파일 (`.txt` 등)을 불러옵니다. |

| **저장** | `Ctrl+S` | 현재 파일을 덮어쓰기 저장합니다. |

| **다른 이름으로 저장** | `Ctrl+Shift+S` | 새 이름이나 경로로 파일을 저장합니다. |

| **종료** | `Alt+F4` | 프로그램을 종료합니다. (저장되지 않은 내용이 있으면 경고) |

### **3.2. 편집 메뉴**

| 기능 | 단축키 | 설명 |

| :--- | :--- | :--- |

| **실행 취소 (Undo)** | `Ctrl+Z` | 마지막 작업을 되돌립니다. |

| **다시 실행 (Redo)** | `Ctrl+Y` | 되돌린 작업을 다시 실행합니다. |

| **잘라내기** | `Ctrl+X` | 선택한 텍스트를 잘라내 클립보드에 저장합니다. |

| **복사** | `Ctrl+C` | 선택한 텍스트를 클립보드에 복사합니다. |

| **붙여넣기** | `Ctrl+V` | 커서 위치에 클립보드의 내용을 붙여넣습니다. |

### **3.3. 테마 선택 메뉴**

| 기능 | 설명 |

| :--- | :--- |

| **라이트 모드** | 기본 테마 (흰 배경, 검은 글씨)를 적용합니다. |

| **다크 모드** | 어두운 테마 (회색/검은 배경, 흰 글씨)를 적용합니다. |

### **3.4. 찾기 메뉴**

| 기능 | 단축키 | 설명 |

| :--- | :--- | :--- |

| **찾기** | `Ctrl+F` | 문서 내에서 특정 문자열을 검색할 수 있는 입력창 또는 대화상자를 엽니다. |

-----

## **4. 기술 스택**

* **프로그래밍 언어**: **Python 3.x**

* **GUI 라이브러리**: **Tkinter** (파이썬 표준 라이브러리)

-----

## **5. UI 스케치**

애플리케이션의 전체적인 레이아웃 스케치입니다.

```

+----------------------------------------------------------------------+

| My Text Editor - □ X |

+----------------------------------------------------------------------+

| 파일(F) | 편집(E) | 테마(T) | 찾기(S) |

+----------------------------------------------------------------------+

| | |

| | ############################################## |

| | # # |

| | # 사용자가 텍스트를 입력하는 메인 영역 # |

| | # # |

| | ############################################## |

| | |

+----------------------------------------------------------------------+

| 줄: 1, 열: 1 UTF-8 |

+----------------------------------------------------------------------+

```

**UI 구성 요소:**

* **제목 표시줄**: 프로그램 이름과 창 조절 버튼이 표시됩니다.

* **메뉴 바**: 파일, 편집, 테마, 찾기 메뉴가 위치하며, 각 메뉴 클릭 시 하위 메뉴 항목들이 나타납니다.

* **텍스트 영역**: 스크롤 가능한 주 텍스트 편집 공간입니다.

* **상태 표시줄**: 하단에 커서의 현재 위치(줄, 열)나 인코딩 같은 간단한 상태 정보를 보여줍니다.

-----

## **6. 성공 지표**

* 명시된 모든 메뉴 기능(파일 I/O, 편집, 테마 변경, 찾기)이 정상적으로 작동합니다.

* 다크 모드와 라이트 모드 간 전환이 즉시 UI에 반영됩니다.

* 프로그램이 안정적으로 실행되며, 일반적인 사용 환경에서 오류로 인해 종료되지 않습니다.

vscode에서 바이브 코딩하기

vscode를 실행하고, 생성된 PRD파일을 copilot에 알려주고, 이대로 프로그램 작성하도록 입력한다.

혹시, 에러가 발생하면, 메시지를 다시 입력해 수정하는 과정을 반복하면 된다. 다음 영상은 바이브 코딩 과정을 보여준다.

결과적으로 큰 문제 없이 편집기가 동작되는 것을 확인할 수 있다.

결론

바이브 코딩이 최근 매우 발전해서, 요구사항도 추론해주고, 심지어 SRS(Software Requirement Specification), SAD(Software Architecture Document)도 작성해 준다. 향후에는 말만 하면, 소프트웨어 공학에서 필수로 다루는 SRS, SAD뿐 아니라, UML(Unified Modeling Language)과 같은 아키텍처 설계도도 디자인패턴에 의거해 그려줄 날이 멀지 않은 것 같다.

다만, 소프트웨어 개발 과정에서 바이브 코딩 도구에 일을 시키려면, 당연히, 인턴에 업무 지시하는 수준의 능력은 필요하다.

예를 들어, 바이브 코딩 시 적절한 용어를 사용해야 하며, 수정되지 않은 어려운 문제나 에러가 발생하면, 생성된 코드를 이해하고 개선할 수 있는 능력은 당연히 필요하다 하겠다.

부록: 웹기반 텍스트 편집기 개발 및 깃허브 푸쉬하기

추가로, Tailwind 로 웹 기반 편집기도 개발해 보았다. 다음과 같이 자동으로 프로젝트 만들어 코딩되고, 실행된다.

프로젝트 코드 작성 중

완성된 웹 텍스트 편집기

미완성된 메뉴에 대해 추가 요청

모두 완성된 메뉴 기능

Github 푸쉬 요청

다음은 이렇게 개발된 프로젝트 코드이다.

mac999/vibe_coding_web_editor

레퍼런스

How to vibe code: 11 vibe coding best practices

집단지성 플랫폼 shopify 소개

이 글은 아마존의 아성을 위협하고 있는 집단지성 플랫폼 shopify를 소개한다.

레퍼런스

Shopify

2025년 6월 28일 토요일

바이브 코딩을 위한 구글 Gemini CLI 도구 분석 및 사용

이 글은 바이브 코딩을 위한 구글 Gemini CLI 도구 분석 및 사용기를 나눔합니다. 이 도구를 사용하면 다음과 같이 터미널 명령창에서 프롬프트를 이용해 바이브 코딩을 하고, 이 과정도 자동화할 수 있습니다.

준비 사항

다음 링크를 방문해, 도구를 설치한다.

google-gemini/gemini-cli: An open-source AI agent that brings the power of Gemini directly into your terminal.

이 도구를 사용하기 위해선 Google AI API 키 등이 준비되어야 한다. 다음 링크를 참고해 가입 준비 후 진행한다.

Get API key | Google AI Studio

바이브 코딩하기

명령창에서 gemini를 실행하고, 다음과 같이 프롬프트를 입력해 본다.

> Convert all the images in this directory to png, and rename them to use dates with pillow library etc.

정상적으로 실행된다면, 제미니가 에이전트로 동작하며, 문제 해결을 위한 ReAct 전략을 단계별로 추론해, 적절한 도구를 설치하고, 코딩을 해 소스코드를 생성한 후, 실행할 것이다. 다음은 그 결과를 보여준다.

다른 프롬프트도 입력해 바이브 코딩해 본다.

> Organise my PDF invoices by month of expenditure.

> make photoshop web app using three.js, bootstrap. Menus includes layer, line, arc, circle, fill color with tranparent, border color, zoom in/out, pan, download file as JPG

결과물이 제대로 동작하지 않을 때는 다음과 같이 오류 검토 후 수정 요청을 한다.

vscode에서 다른 vibe 코드 도구의 agent 기능을 이용해 수정 요청을 하는 것도 도움이 된다.

레퍼런스

2025년 6월 16일 월요일

CoT(Chain-of-Thought) 학습 데이터 생성 및 모델 개발 방법

이 글은 Chain-of-Thought (CoT) 학습 데이터 생성 및 모델 개발 방법을 간략히 정리한다.

Official implementation for "Automatic Chain of Thought Prompting in Large Language Models" (stay tuned & more will be updated (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)

CoT와 관련해, 논리적 추론, 계획 수립, 지시 따르기 능력을 가르치는 데 효과적인 양질의 데이터셋은 여러 가지가 있다. 이런 데이터셋으로 학습하면 유사한 유스케이스에 대한 문제 해결 능력이 향상될 수 있다.

종합 추론 및 지시 따르기 데이터셋 (가장 유사한 케이스)
- Open-Orca: GPT-4와 같은 고성능 모델의 CoT 추론 과정을 포함한 약 100만 개의 데이터셋이다. 복잡한 질문에 대한 단계별 설명, 계획 수립 등 다양한 작업이 포함되어 있어 창의적 문제 해결 능력 학습에 매우 효과적이다.
  - 링크: https://huggingface.co/datasets/Open-Orca/OpenOrca
- Dolly-15k: 질의응답, 요약, 창의적 글쓰기 등 15,000개의 고품질 프롬프트와 응답으로 구성되어 있다. 응답에 추론 과정이 명시적으로 포함된 경우가 많아 CoT 학습에 유용하다.
  - 링크: https://huggingface.co/datasets/databricks/dolly-15k
수학 및 과학 추론 데이터셋 (고전적인 CoT)
- GSM8K: 초등학교 수준의 수학 응용 문제에 대한 단계별 풀이 과정을 제공하는 대표적인 CoT 데이터셋이다. 논리적이고 순차적인 사고 능력을 가르치는 데 가장 좋은 데이터셋 중 하나이다.
  - 링크: https://huggingface.co/datasets/gsm8k
- AQuA-RAT: 다양한 선택지 형식의 수학 문제에 대해 풀이 과정(Rationale)을 함께 제공한다.
  - 링크: https://huggingface.co/datasets/aqua_rat

학습 방법과 전략

가장 중요한 점: Ollama는 모델을 실행(Inference)하고 관리하는 도구이지, 모델을 훈련(Training)하는 도구가 아니다. 따라서 모델을 파인튜닝하는 작업은 다른 도구를 사용해 진행하고, 그 결과물을 Ollama로 가져와 사용하는 흐름으로 진행되어야 한다.

1. 데이터셋 형식 변환 (Instruction Tuning Format)

CoT 데이터셋을 모델 학습에 사용하려면 '지시(Instruction) 튜닝' 형식으로 변환해야 한다. 일반적으로 다음과 같은 JSONL 형식을 사용한다.

JSON
{
  "instruction": "현재 장마철인 것을 고려해서 일본 3일 여행 일정을 짜줘.",
  "input": "", 
  "output": "[1단계: 요구사항 명확화...] [2단계: 기본 전략 수립...] ... [5단계: 최종 계획안 요약]"
}

instruction: 사용자 질문
output: 모델이 따라 배워야 할 이상적인 단계별 추론 과정 (CoT) 및 최종 답변

2. 학습 전략

LoRA (Low-Rank Adaptation) 사용: 모델의 모든 가중치를 수정하는 '풀 파인튜닝'은 막대한 컴퓨팅 자원을 필요로 한다. 대신 LoRA는 원본 모델은 그대로 두고, 소규모의 '어댑터' 레이어만 추가하여 학습하는 파라미터 효율적 파인튜닝(PEFT) 방식이다. 적은 자원으로도 매우 효과적인 튜닝이 가능하여 개인이나 소규모 팀에게 가장 현실적인 방법이다.
품질 우선: 수백만 개의 저품질 데이터보다, 잘 정제된 수천~수만 개의 고품질 CoT 데이터가 모델 학습에 훨씬 효과적이다.
베이스 모델 선택: 파인튜닝의 기반이 될 좋은 성능의 오픈소스 모델을 선택하는 것이 중요하다. (예: Llama 3, Mistral, Gemma 등)

실행 방법

다음은 LoRA를 사용해 오픈소스 LLM을 CoT 데이터셋으로 파인튜닝하고 Ollama에서 실행하는 전체 과정이다.

1단계: 개발 환경 설정

Python, PyTorch, 그리고 Hugging Face의 주요 라이브러리를 설치한다.

Bash

pip install torch transformers datasets peft bitsandbytes accelerate

2단계: 데이터셋 준비

Hugging Face datasets 라이브러리로 CoT 데이터셋을 로드하고, 위에서 설명한 Instruction 형식으로 변환하는 전처리 스크립트를 작성해야 한다.

3단계: 모델 및 토크나이저 로드

파인튜닝할 베이스 모델과 토크나이저를 로드한다. (예: meta-llama/Meta-Llama-3-8B-Instruct)

4단계: LoRA 설정 및 모델 튜닝

Hugging Face transformers의 SFTTrainer와 peft 라이브러리를 사용해 LoRA 파인튜닝을 진행한다.

Python
# (개념적인 코드 예시)
from peft import LoraConfig
from transformers import TrainingArguments, SFTTrainer

# LoRA 설정
lora_config = LoraConfig(
    r=16, # Rank
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# 훈련 인자 설정
training_args = TrainingArguments(
    output_dir="./lora-finetuned-model",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=2e-4,
    logging_steps=10,
)

# SFTTrainer로 튜닝 시작
trainer = SFTTrainer(
    model=base_model,
    tokenizer=tokenizer,
    train_dataset=formatted_dataset,
    peft_config=lora_config,
    args=training_args,
    # ... 기타 설정
)
trainer.train()

5단계: 모델 병합 및 저장

LoRA 튜닝이 끝나면, 학습된 어댑터 가중치를 원본 베이스 모델과 병합하여 새로운 독립 모델로 저장한다.

6단계: Ollama로 모델 가져오기 및 실행

Modelfile 생성: 저장된 파인튜닝 모델 폴더를 기반으로 Modelfile을 작성한다.

코드 스니펫

# 이 파일의 이름은 Modelfile이다.
FROM ./path/to/your/merged-model-folder 

TEMPLATE """
<|begin_of_text|><|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
"""
# 베이스 모델에 맞는 프롬프트 템플릿을 지정한다.

Ollama 모델 생성: 터미널에서 ollama create 명령어로 나만의 모델을 생성한다.
Bash
ollama create my-travel-planner -f ./Modelfile

Ollama 모델 실행: 생성된 커스텀 모델을 실행하여 결과를 확인한다.

Bash

ollama run my-travel-planner "현재 장마철인 것을 고려해서 일본 3일 여행 일정을 짜줘"

이 과정을 통해, 공개된 CoT 데이터셋으로 특정 문제 해결 능력이 강화된 나만의 LLM을 만들어 Ollama에서 손쉽게 활용하는 것이 가능하다.

참고: 에이전트 개발 시 ToT와 RAP 기법 비교

1. ToT(Tree of Thoughts)와 실행 시간

ToT는 이론적으로 모든 경로를 탐색하면 CoT에 비해 훨씬 더 많은 계산량과 시간이 필요하다는 단점이 있다. 나무의 가지(branch)가 깊어질수록 탐색해야 할 경우의 수가 기하급수적으로 늘어나기 때문이다. 하지만 실제 ToT 구현에서는 이 문제를 해결하기 위해 탐색을 제한하고 가지치기(Pruning)하는 여러 전략을 사용한다.

탐색 깊이 및 너비 제한: 무한정 탐색하는 것이 아니라, 최대 깊이(e.g., 5단계)와 각 단계에서 생성할 생각의 개수(너비, e.g., 3개)를 미리 정해둔다.
휴리스틱 평가 및 프루닝 (Heuristic Pruning): ToT의 핵심은 유망하지 않은 경로는 조기에 버리는 것이다. 각 생각을 생성한 후, 평가 함수를 통해 이 경로가 최종 정답으로 이어질 가능성을 점수화한다. 점수가 낮은 경로는 더 이상 탐색하지 않고 '가지치기'하여 계산 낭비를 막는다.
빔 서치 (Beam Search): 모든 유망한 경로를 유지하는 대신, 각 단계에서 가장 점수가 높은 상위 K개의 경로(생각의 빔)만 유지하고 나머지는 버린다. 이는 계산 비용을 통제하면서도 최적의 해를 찾을 확률을 높이는 효과적인 방법이다.

2. RAP(Reasoning and Acting)와 기존 기술의 융합

'기존 에이전트의 Function Calling'과 'CoT의 명시적 추론 과정'을 매우 효과적으로 융합한 형태이다.

기존 Function Calling: LLM이 사용자의 질문을 보고, 어떤 함수를 호출해야 할지 바로 결정하여 출력하는 방식이다. (입력 -> 함수 호출) 과정에서 왜(Why) 그 함수를 호출했는지에 대한 설명이 부족한 경우가 많다.
RAP의 차별점: RAP는 이 과정 사이에 CoT를 집어넣는다.
1. (입력) -> [추론(Reasoning)] -> (함수 호출)
2. 추론 단계에서 LLM은 "현재 상황이 이러하니, 목표를 달성하기 위해 다음 단계로 A 함수를 호출하는 것이 타당하다" 와 같은 **내부 독백(Internal Monologue)**을 CoT 형태로 명시적으로 생성한다.
3. 이 추론의 결과로 행동(Acting), 즉 Function Call이 결정된다.

이러한 융합이 가져오는 장점은 명확하다.

투명성 및 디버깅 용이성: 에이전트가 왜 그런 행동을 했는지 추론 과정을 통해 명확히 알 수 있다. 만약 잘못된 함수를 호출했다면, 어떤 논리적 오류 때문에 그런 결정을 했는지 파악하고 수정하기가 쉽다.
견고성 (Robustness): 함수 호출이 실패하거나 예상치 못한 결과를 반환했을 때, 에이전트는 그 실패를 '관찰(Observation)'하고, "A 함수가 실패했으니, 대안으로 B 함수를 시도해야겠다" 와 같이 다음 행동을 다시 '추론'할 수 있다. 스스로 오류를 복구하는 능력이 생긴다.

기법	핵심 아이디어	장점	단점
ToT	문제 해결을 위한 여러 경로(생각)를 동시에 탐색하고 평가하여 최적의 경로를 찾는다.	복잡하고 정답이 여러 개인 문제에 대해 더 높은 품질의 해결책을 찾을 수 있다.	CoT보다 계산 비용이 높다. 효율적인 평가 및 가지치기 전략이 필수적이다.
RAP	'추론 -> 행동(도구 사용) -> 관찰'의 순환 루프를 통해 외부 세계와 상호작용한다.	외부 도구/API를 활용할 수 있으며, 행동의 이유가 명확하고 오류에 강건하다.	외부 도구/API를 잘 설계해야 하며, 상태 관리 및 루프 제어가 복잡해질 수 있다.