2026년 5월 9일 토요일

헤르메스 에이전트 개발배경, 설치 및 사용방법

이 글은 헤르메스 에이전트 개발 배경, 설치, 사용방법 등을 나눔한다.


개요
헤르메스는 서버리스로 자체 로컬 컴퓨터에 설치할 수 있는 에이전트이다. 스스로 발전할 수 있도록 구현되어 있어, 지식을 계속 축척하고 이를 재사용할 수 있다. 헤르메스 프로젝트는 중앙 집중형 AI의 한계를 극복하기 위해 NOUS RESEARCH - Open Source AI에 의해 개발되었다. 누스 리서치는 특정 기업의 이익보다 오픈소스 AI 모델의 성능 향상과 보급을 목적으로 하는 연구 커뮤니티이자 조직이다. 이들은 이미 AI 오픈소스 프로젝트를 통해 세계 AI 개발자들 사이에서 신뢰를 쌓아왔다. 특정 기업에 종속된 클라우드 기반 AI와 달리, 사용자의 로컬 환경에서 독립적으로 작동하는 주권적 AI(Sovereign AI)구현을 목표로 한다. 개발팀은 사용자가 자신의 하드웨어 자원을 활용해 보안 걱정 없이 고성능 AI 비서를 운용할 수 있는 생태계를 구축하고자 이 에이전트를 세상에 내놓았다.

헤르메스 에이전트의 공식 정보와 최신 소스 코드는 공식 깃허브(GitHub) 저장소 및 프로젝트 웹사이트를 통해 제공된다. 개발자들과의 원활한 소통 및 기술 지원은 주로 디스코드(Discord) 커뮤니티나 관련 포럼을 통해 이루어지며, 이곳에서 사용자는 최신 업데이트 소식과 문제 해결 방법을 공유받을 수 있다.

헤르메스 에이전트는 현재 매우 빠른 속도로 발전 중이다. 초기에는 단순한 텍스트 기반 응답에 집중했으나, 현재는 도구 사용(Tool Use), 웹 브라우징, 그리고 장기 기억(Long-term Memory) 기능을 통합하여 복잡한 태스크를 수행할 수 있는 수준에 도달했다. 특히 오픈소스 커뮤니티의 활발한 참여로 인해 다양한 로컬 LLM(대규모 언어 모델)과의 호환성이 강화되고 있으며, 최적화 작업을 통해 사양이 낮은 개인용 PC에서도 원활하게 구동될 수 있도록 경량화가 진행되고 있다.

설치 방법
설치는 리눅스에서 다음과 같이 실행한다.
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash


만약 이전에 Open claw 에이전트를 설치했다면, 해당 설정을 임포트할 것인지 다음과 같이 질문한다. 본인은 오픈 클로 설치할때 사용할 LLM모델 등을 미리 설정하였기 때문에, 이 설정 정보를 그대로 가져오기로 했다. 

이제 헤르메스 설정이 진행된다. 본인의 경우, 신속 설정 모드를 선택하였다. 

대부분 디폴트값으로 설정한다. 그럼, 다음과 같이 마지막에 설정 수정 명령과 함께 에이전트 실행할 지 물어본다. 엔터를 눌러 실행한다. 

그럼, 다음과 같은 화면을 볼 수 있을 것이다.

다시 Ctrl+D 를 눌러 헤르메스 에이전트를 빠져나온다. 
LLM 모델을 다시 OpenAI Codex로 변경하기 위해 다음 명령을 실행한다.
hermes setup model

화면에서 모델로 OpenAI codex 를 선택하면, 설정 단계를 안내한다. 그대로 따라해 본다. 

앞의 코덱스 로그인 때 적색 표시로 코덱스 장치 코드 인증 활성화하라는 메시지가 뜰 수 있다. 다음과 같이 오픈AI의 설정 해당 메뉴를 찾아, 그 옵션을 다음 화면과 같이 활성화한다.

이제 다시 해당 코덱스 링크를 방문하면, 다음과 같은 화면이 나타날 것이다. 헤르메스에서 알려준 코드 를 입력한다. 

이제 헤르메스 모델 설정 터미널 화면에서 다음과 같이 로긴되고 모델 설정 옵션 입력을 받을 것이다. 적절한 모델을 설정한다. 그리고 다시 헤르메스 에이전트를 실행한다.
hermes

헤르메스에 다음과 같이 입력한다.
hi

그럼, 해당 모델을 호출해 다음 화면과 같이 인시할 것이다. 

헤르메스 에이전트 사용하기
정상적으로 설정되었으니, 헤르메스가 무엇을 할 수 있는 지 다음과 같이 물어보자. 

너는 현재 이 컴퓨터에서 무엇을 할 수 있니?

그럼, 다음과 같이 답변할 것이다. 

다음 명령을 입력해 본다. 

컴퓨터 현재 상태 간단히 점검해줘.

그럼, 헤르메스가 내 컴퓨터 정보를 읽고 다음과 같이 알려줄 것이다. 

다음과 같이 현재 웹 정보도 검색 가능한지 확인해 보자. 

현재 전쟁과 주식에 관련된 소식을 웹 검색해바

그럼, 헤르메스가 다음과 같이 관련 소식을 검색하기 위한 파이썬 코드를 생성, 실행한 후, 관련 정보를 얻는다. 얻은 정보는 설정된 언어모델을 통해 질문에 대한 답변을 추론해 보여줄 것이다. 

바이브 코딩도 간단히 해보자. 

코사인 파형이 시간에 따라 흐르는 시뮬레이션을 하는 프로그램 개발해

그럼, 다음과 같이 코딩하고, 프로그램을 헤르메스가 실행된 폴더에 저장한다. 

실행하라고 명령을 줘본다.

실행을 했는데, 코사인 파형이 애니메이션되지 않는다. 제대로 파형이 안보이니 문제 원인을 수정해 달라고한다. 그럼, 다음과 같이 코드를 읽고 수정해 줄것이다.

이제 다시 실행해 본다. 그럼, 다음과 같이 프로그램이 실행될 것이다. 

이제, 오픈 클로에서 입력햇던 나의 아이덴티티 관련 질문을 해본다. 

내 이름이 머지?

다음과 같이 잘 기억하고 있는 것을 알 수 있다.

앞에서 검색했던 뉴스도 한번 더 보여달라고 해보자. 과거에 명령 조사했던 내용을 기억하고 있는 것을 알 수 있다. 

이외에 주기적으로 서버 관리용 리포트를 생성하는 등의 일들도 시켜본다. 

헤르메스는 여러 터미널에 에이전트를 실행해고, 서로 협업하게도 할 수 있다. 이런 궁금한 것은 헤르메스에게 물어보면 다음과 같이 실행 순서를 알려준다. 그래서 별도 메뉴얼을 공부할 필요가 없다. 

참고로 헤르메스가 알려준 tmux 도구는 터미널 멀티플렉서로 터미널 내에서 여러 터미널 세션을 만들어 특정 프로그램들을 실행하고 창을 닫아도 해당 프로그램 실행 세션이 살아있게 해준다. 다음과 같이 tmux를 설치해 달라고 해보자. 그럼 sudo 암호를 달라고 한 후 apt get install 명령으로 설치해준다. 이런 방식으로 헤르메스에 도움을 요청하면 여러 도구와 명령들을 일일히 기억하지 않아도 되어 참 편리하다.

해르메스 사용 중에 축척한 지식은 어디에 저장되는 지도 확인해 보자. 

넌 내가 너를 통해 알아낸 지식을 어디에 어떤 방식으로 저장하니?

다음과 같이 메모리 메커니즘을 잘 설명해 줄 것이다.

멀티 에이전트 실행하기
다양한 멀티 에이전트로 실행하기 위해서 다음 명령을 입력한다. 
hermes kanban init
hermes kanban stats

헤르메스 도구를 활성화한다. 
hermes tools

다음 명령을 입력해 본다. 
 tmux, kanban 설치 다함. 이제 특정 웹서비스를 개발하기 위한 각 에이전트 멀티로 만들수 있도록 
각 단계별 알려줘. 요구사항 조사, 설계, 개발, 테스트는 각각 영어이름으로 에이전트 만들어. 하나 
에이전트가 끝나면, 다른 에이전트가 자동으로 실행될 수 있도록도 설정해줘.

그럼, 헤르메스가 이를 고려해 명령들을 실행하는 배치파일(쉘 스크립트)를 자동으로 생성해준다. 

이외에도 헤르메스가 할 수 있는 것들은 다음과 같다.

- 개발
      - 코드 작성/수정, 버그 디버깅, 테스트 자동화, 성능 점검
    - 시스템 작업
      - 프로세스/포트/메모리/디스크 점검, 로그 분석, 서버 실행
    - 데이터 작업
      - CSV/JSON 분석, 리포트 요약, 그래프 생성
    - 웹 리서치
      - 최신 뉴스/기술 문서/가격 정보 검색 후 핵심 요약
    - 문서 업무
      - 보고서/메일/발표자료 초안 작성, 한국어/영어 다듬기
    - 자동화
      - 반복 작업 스크립트화, 정기 실행(크론) 구성
    - 이미지/음성
      - 이미지 생성, 텍스트 음성 변환(TTS)
    - 외부 도구 연동
      - GitHub, Notion, Google Workspace, 메신저 전송 등(연결된 경우)

- 기타 기능    
   - 시스템 상태 리포트 자동 생성
   - 웹 뉴스 요약 스크립트
   - 폴더 정리 자동화 스크립트

이제, ctrl+D를 눌러 헤르메스를 종료한다. 그럼 다음과 같이 이번 헤르메스 사용시 기록한 내용을 세션으로 저장해 보여주고, 사용된 시간, 호출한 도구 개수 등을 요약해 보여줄 것이다.

마무리
최근, 오픈 클로, 헤르메스 에이전트와 같은 멀티 에이전트 시스템이 크게 발전하고 있다. 다양한 모델과 스킬을 입맛에 맞게 사용할 수 있고, 컴퓨터 정리, 개발, 테스트, 서버 모니터링 등 다양한 목적으로 사용할 수 있다. 올라마 같은 로컬 모델 서빙 도구를 설치하면, 클로드나 제미니 같은 상업묭 모델 유료 토큰 사용하지 않고 무료로 로컬에서 실행되는 에이전트를 만들 수 있다. 좀 더 상세한 내용은 레퍼런스를 참고한다.

2026년 4월 23일 목요일

개발자 도구 캐시 정리 및 용량 줄이는 방법

이 글은 개발자 도구 캐시 정리 및 용량 줄이는 방법을 간략히 나눔한다. 

기본적으로 허깅페이스, PIP 등을 사용하는 개발자로 가정한다.

명령창을 띄워 다음과 같이 실행한다. 
pip cache purge
conda clean --all -y
huggingface-cli delete-cache
wandb sync --clean
npm cache clean --force
yarn cache clean
pnpm store prune
docker system prune -a --volumes
docker builder prune -a
docker image prune -a

파이썬에서 다음을 실행한다.
import torch
torch.cuda.empty_cache()

임시 폴더를 삭제한다.
C:\Windows\Temp\
C:\Windows\SoftwareDistribution\Download\

도커 이미지 모두 삭제하려면 다음 실행한다.
docker rmi -f $(docker images -q)

레퍼런스

2026년 4월 17일 금요일

오픈클로 같은 에이전틱 시스템 구조 및 동작 메커니즘 분석

이 글은 오픈클로같은 에이전틱 시스템 구조 및 동작 메커니즘 분석해 나눔한다.


레퍼런스

바이브 코딩, 연구, 그리고 아직도 계속되는 환각

이 글은 바이브 코딩, 연구, 그리고 아직도 계속되는 환각 현상에 대한 내용을 정리한다.
클로드 기반 논문 작성 결과 분석(하버드대, Matthew Schwartz 교수)

레퍼런스

추신. 최근 든 생각 정리
최근 AI를 이용하면 다 된다는 사람들이 늘어나고 있다 - 가짜 약사들은 조심
모든걸 AI에 맡겨야 결과물을 만들 수 있다면 본인 가치는 제로에 수렴한다 - 아웃소싱의 AI버전
직접 해보지 않고 말을 옮기는 사람들은 문제를 직관하고 해결할 수 없다 - 빈수레만 요란
무슨 일을 성공했을 때, 본인과 조직 타이틀 중 누가 큰 역할을 했는지 생각해 볼 필요가 있다 - 라벨링
말만 많이 하지 말고 직접 실력, 행동, 결과로 보여줘야 한다 - 성실과 신뢰

본인 역할을 분명히 하되, 스스로 혼란에 빠지진 말자. 보통 동시에 기술세일즈와 연구개발을 함께 할 수는 없다. 전문적인 기술과 경험을 손으로 꾸준히 쌓는 것은 매우 중요하다. 그건 쉽게 달성되지 않고 매우 어려운 것이다. 별것 아니라 애써 말하는 사람일수록 쉽게 대체될 수 있는 상황일 수 있다. 화려한 것에 휘둘리지 말자.

2026년 3월 12일 목요일

멀티모달 LLM (MLLM) 구조, 주요기술 및 한계점

이 글은 멀티모달 LLM (MLLM) 동작 메커니즘을 분석한 글이다. 멀티모달 LLM은 텍스트, 이밎, 오디오, 비디오 같은 여러 종류 데이터 모달리티를 처리하고 이해하도록 설계된 인공지능 모델이다. GPT, 블립-2(VQA 지원), 라바 등이 이들 중 하나이며, 최근 출시한 구글 젬마4도 MLLM이다. 현재 시점에는 구글 제미니 젬마, 알리바바 QWEN, GLM 같은 모델이 많이 활용되고 있다. 
MLLM 개념

MLLM의 구조
모델 구조는 다음과 같다.

1. 모달리티 인코더 (Modality Encoder)
모달리티 인코더는 MLLM의 '센서'에 해당하며, 이미지나 오디오와 같은 다양한 형태의 데이터를 LLM이 이해할 수 있는 표현으로 변환하는 장치이다. 이들은 방대한 양의 쌍 데이터(예: 이미지-텍스트)를 통해 사전 학습되어 모델이 서로 다른 정보를 연관시키는 데 기반이 된다. 대표적인 예인 CLIP은 대규모 학습을 통해 시각 데이터와 텍스트 설명을 정렬하는 역할을 수행하는 모델이다. 인코더를 처음부터 학습시키는 대신 사전 학습된 모델을 사용하는 것은 계산 부담을 줄여주는 효율적인 방식이다.

2. 사전 학습된 LLM (Pre-trained LLM)
LLM은 인코딩된 정보를 처리하고 판단하는 시스템의 '두뇌'이다. 웹 텍스트 등 대규모 말뭉치로 미리 학습된 LLM을 사용하는 것은 풍부한 세계 지식과 추론 능력을 즉시 활용할 수 있어 매우 경제적인 선택이다. 이러한 모델들은 복잡한 추론 작업을 수행하기에 이상적인 구조이다. 주로 GPT-3와 같은 인과 디코더 아키텍처를 따르며, LLaMA와 Vicuna 계열은 오픈 소스 기반의 대표적인 모델이다. Qwen과 같은 모델은 다국어를 지원하여 언어적 다재다능함을 갖춘 형태이다.

3. 모달리티 인터페이스 (Modality Interface)
모달리티 인터페이스는 텍스트가 아닌 데이터를 처리하는 인코더를 LLM에 연결하여 원활한 데이터 흐름을 보장하는 구성 요소이다. 이는 크게 '학습 가능한 커넥터'와 '전문가 모델'이라는 두 가지 주요 접근법으로 구분되는 영역이다.
  • 학습 가능한 커넥터: 데이터를 LLM이 처리할 수 있는 형식으로 투사하는 훈련 가능한 모듈이다. BLIP-2처럼 특징을 토큰으로 변환하여 텍스트와 연결하는 토큰 수준 융합 방식이 존재한다. 또한, Flamingo나 CogVLM처럼 교차 주의 계층이나 시각 전문가 모듈을 통해 더 깊은 상호작용을 유도하는 피처 수준 융합 방식도 중요한 기법이다.
  • 전문가 모델: 비텍스트 데이터를 텍스트로 선행 변환한 후 LLM으로 전송하는 독립적인 시스템을 활용하는 방식이다. 모달리티 간의 격차를 단순화할 수 있는 장점이 있으나, 영상이나 이미지의 공간적·시간적 관계를 텍스트로 옮기는 과정에서 정보 손실이 발생할 수 있는 구조이다.

결론적으로 인코더, 사전 학습된 LLM, 그리고 모달리티 인터페이스의 유기적인 결합은 멀티모달 모델 아키텍처의 핵심이다.  

멀티모달 기반 트랜스포머 모델 개념

모델 학습 방법
멀티모달 학습 방법은 다른 LLM과 다른 전략을 취하고 있다.

1. CLIP (대조 언어-이미지 사전 학습)
CLIP은 대조 학습(Contrastive Learning)을 통해 이미지와 관련 텍스트를 동일한 선상에 정렬하는 모델이다. 이미지 인코더와 텍스트 인코더를 각각 사용하여 입력을 512차원의 임베딩으로 변환하는 구조이다. 훈련 과정에서 일치하는 쌍의 유사도는 극대화하고, 일치하지 않는 쌍의 유사도는 최소화하여 공유 임베딩 공간을 생성하는 방식이다. 이러한 대규모 데이터 학습을 통해 특정 작업에 대한 추가 훈련 없이도 이미지 분류나 시각적 질문 답변 등에서 뛰어난 제로 샷(Zero-shot) 성능을 발휘하는 것이 특징이다.

2. 플라밍고 (Flamingo)
플라밍고는 CLIP의 비전 인코더에 사전 학습된 언어 모델인 Chinchilla를 결합하여 아키텍처를 확장한 모델이다. 시각 데이터와 텍스트 데이터를 동시에 처리하기 위해 교차 주의(Cross-attention) 계층을 새롭게 도입한 형태이다. 가변 길이의 이미지 임베딩을 언어 모델이 처리 가능한 고정 길이로 변환하는 '인지자 재샘플러(Perceiver Resampler)'가 핵심적인 구성 요소이다. 훈련 시에는 기존 시각 인코더와 언어 모델의 가중치를 고정한 채 교차 주의 계층 등의 학습에만 집중하여 이미지 캡션 및 영상 분석 작업에서 높은 효율을 보여주는 구조이다.

3. 블립-2 (BLIP-2)
BLIP-2는 비전 인코더와 언어 모델을 모두 동결시킨 상태에서 '쿼리 트랜스포머(Q-Former)'의 학습에 집중하여 효율성을 극대화한 모델이다. Q-포머는 이미지 인코더의 시각적 표현과 LLM의 텍스트 표현 사이를 정렬하여 적은 매개변수로도 강력한 이해력을 보장하는 장치이다. 훈련은 이미지-텍스트 표현을 정렬하는 단계와 이미지 기반의 텍스트 설명을 생성하는 단계의 총 2단계로 진행되는 방식이다. 이를 통해 계산 비용을 획기적으로 줄이면서도 시각적 질문 응답 및 분류 분야에서 최첨단 성능을 달성하는 아키텍처이다.

4. 훈련 방식의 의의
이러한 모델들의 훈련 과정은 기존의 거대한 자원을 효율적으로 활용하면서도 모달리티 간의 간극을 좁히는 데 초점을 맞추고 있다. 각 모델은 고유의 인터페이스나 커넥터를 통해 사전 학습된 지식을 보존하면서 새로운 멀티모달 능력을 습득하는 영리한 전략을 취하고 있는 셈이다. 

어텐션 모델 메커니즘
한계점
멀티모달 모델은 여러가지 한계점이 있다.

1. 프롬프트 및 데이터 처리의 한계
  • 프롬프트 민감성: 모델의 출력 결과가 프롬프트 디자인에 지나치게 의존하는 경향이 있다. 프롬프트가 학습 데이터의 분포를 벗어날 경우 이해 및 생성 능력이 급격히 저하되며, 이는 모델의 일반적인 이해력에 한계가 있음을 시사하는 지표이다.
  • 텍스트 밀집 이미지 처리의 어려움: 이미지 내에 복잡하고 밀도 높은 텍스트 정보가 포함된 경우 맥락을 완전히 포착하지 못하는 문제가 발생한다. 고정된 쿼리 임베딩 방식이 모델의 유연성을 제한하여 문서 분석과 같은 정밀한 작업에서 오류를 범하기 쉬운 구조이다.
  • 표현 형식의 일관성 부족: 표, 그래프 등 데이터의 형식과 프롬프트 전략에 따라 성능 수준이 가변적인 양상을 보인다. 다양한 데이터 형식 간의 일관성을 유지하는 데 어려움이 있으며, 이는 더 정교한 데이터 표현 기법이 필요함을 의미하는 부분이다.

2. 구조적 및 운용적 한계
  • 모달리티 정렬 문제: 이미지와 텍스트라는 서로 다른 양상의 데이터를 일관되게 정렬하는 것은 매우 어려운 과제이다. 두 모달리티 간의 결합이 완벽하지 않을 경우 맥락 정보가 누락되거나 왜곡되어 전체적인 이해도가 떨어지는 결과로 이어진다.
  • 계산 및 자원 집약도: 여러 모달리티를 통합하는 과정에서 모델의 크기와 복잡도가 필연적으로 증가하게 된다. 이로 인해 학습과 추론에 막대한 처리 능력이 요구되며, 결과적으로 실시간 응용이나 저사양 컴퓨팅 환경에서의 접근성을 저해하는 요소가 된다.

3. 전문성 및 신뢰성 한계
  • 영역 적응력의 제한: 일반적인 작업에서는 우수한 성능을 보이나 의학, 법률과 같은 전문 지식이 필요한 도메인에서는 깊이 있는 추론에 한계를 보인다. 특정 도메인의 데이터 구조와 전문성에 대한 학습이 부족할 경우 해당 분야에서의 활용도가 낮아지는 특성이 있다.
  • 멀티모달 환각(Hallucination) 현상: 입력 데이터에 존재하지 않는 정보를 사실인 것처럼 생성하는 오류가 발생한다. 특히 복잡한 시각 정보를 잘못 해석하여 그릇된 결론을 내리는 환각 현상은 의료나 자율 주행과 같은 고위험 분야에서 치명적인 위험 요인이 된다.
결론적으로 멀티모달 LLM은 시각과 언어의 경계를 허무는 강력한 도구임이 분명하다. 하지만 프롬프트 의존성, 자원 소모, 신뢰성 문제 등 해결해야 할 기술적 난제들이 여전히 산재해 있는 실정이다. 이러한 한계점을 극복하는 것이 향후 차세대 멀티모달 AI 모델이 나아가야 할 핵심적인 방향이다.

레퍼런스: LLM

2026년 3월 11일 수요일

오픈클로(Openclaw) 설치 및 사용기

이 글은 Openclaw 설치 및 사용 방법을 간략히 공유한다. 오픈클로는 다양한 스킬(파일 정리, 웹 검색, 코딩, 추론 등등)을 사용 및 확장할 수 있는 AI에이전트 플랫폼으로 오픈소스 프로젝트로 시작되었다. 최근 개발자가 OpenAI팀에 합류했다. 


설치 시 주의사항
윈도우에서는 오픈클로 사용해보기 위해 여러번 시도해보았으나 잘 설치 안된다(시간낭비). 그냥 우분투, 리눅스 PC 나 애플 미니, 맥북, NVIDIA DGX 스파크에서 설치하길 바란다. 
요즘 히트하고 있는 애플 맥 미니, NVIDIA DGX 스파크

설치는 다음 링크를 참고한다.
참고로, 본인은 다음 설치 명령을 사용했다. 
curl -fsSL https://openclaw.ai/install.sh | bash

본인은 우분투에서 설치했다. 메뉴얼 따라 설치하면, 스킬 설정하는 단계가 나오는 데, 미리 openai, gemini, discord(옵션) 등 외부 api 이용해야 할 스킬들은 미리 api token을 메모했다가 이때 입력하길 바란다.
오픈클로 스킬 설정화면 예시(설치할 각 스킬들 리스트를 보여준다. OpenClaw, makeuseof)

설치 후, 다음 명령을 실행하면, 오픈클로 진단 등이 가능하다. 
openclaw doctor              # check for config issues
openclaw status               # gateway status
openclaw dashboard       # open the browser UI
openclaw configure         # 오픈클로 재설정

사용하기
모두 설치 및 설정 후 다음 명령을 터미널에 입력한다. 
openclaw dashboard

그럼, 오픈클로 데쉬보드 웹사이트를 다음 링크에서 확장할 수 있다. 
데쉬보드의 메뉴 중 채팅 선택 후 채팅창에 프롬프트를 입력해 본다. 

처음에는 에이전트와 서로 소개하는 시간을 갖는다(이름, 별명, 취미 등등). 끝나면, 파일을 정리해 달라던가 하는 등의 명령을 입력하면 된다. 스킬들을 연결했으면 해당 스킬을 사용해 명령을 수행할 것이다. 다음처럼 보다시피 파일 정리, 날씨 확인, 코딩 등 다양한 명령들을 잘 처리해 준다. 

내 컴퓨터 파일 알아서 정리해줘

코딩해줘

모니터링하기
오픈클로 이용시 지출한 토큰량, 사용 정보 등을 모니터링하는 기능도 다음과 같이 제공된다. 


스킬 기능이 잘 구현되면서 에이전트가 더욱 강력해 진 느낌이다. 오픈소스라 오픈클로를 자체 서버에서 서비스할 수 있다. 코드는 공개되어 있으니, 구현이 궁금하다면 분석해 살펴보길 바란다.