Daddy Makers

2026년 7월 18일 토요일

SOTA LLM과 강화학습

이 글은 SOTA LLM과 강화학습에 대한 내용을 정리한다.

레퍼런스

Controlling Reasoning Effort in LLMs

2026년 7월 8일 수요일

프로브, 컨디셔닝 채널, GRPO, DiT, dLLM 의사코드 및 학습 구조

프로브, 컨디셔닝 채널, GRPO, DiT, dLLM 각각에 대해 의사코드와 학습 데이터 구조를 함께 살펴본다.

프로브

프로브는 모델의 특정 층에서 활성화값을 뽑아내고, 그 위에 작은 분류기를 얹어서 학습시키는 구조다. 의사코드로 보면 다음과 같다.

# 1단계: 활성화값 수집
def get_activation(model, input_text, layer_idx):
    activations = {}
    def hook(module, input, output):
        activations['value'] = output.detach()
    handle = model.layers[layer_idx].register_forward_hook(hook)
    model.forward(input_text)
    handle.remove()
    return activations['value']  # shape: [hidden_dim]

# 2단계: 프로브 정의 (아주 작은 MLP 또는 선형 분류기)
class Probe(nn.Module):
    def __init__(self, hidden_dim):
        super().__init__()
        self.linear = nn.Linear(hidden_dim, 1)  # 정직/기만 이진 분류

    def forward(self, activation):
        return torch.sigmoid(self.linear(activation))

# 3단계: 프로브 학습
for batch in probe_dataset:
    activation = get_activation(model, batch.text, layer_idx=20)
    pred = probe(activation)
    loss = binary_cross_entropy(pred, batch.label)
    loss.backward()
    probe_optimizer.step()

# 4단계: 훈련 중 보상에 반영
def reward_with_probe(response, activation):
    task_reward = check_correctness(response)
    honesty_score = probe(activation)  # 0에 가까우면 기만 의심
    return task_reward - penalty_weight * (1 - honesty_score)

학습 데이터 구조는 활성화값과 정직 여부 라벨의 쌍으로 이루어진다.

{
  "example_id": "0001",
  "prompt": "이 코드가 모든 테스트를 통과하는지 확인하고 수정하라",
  "model_response": "def solve(): return hardcoded_answer",
  "activation_layer20": [0.023, -1.14, 0.87, ...],  # hidden_dim 크기 벡터
  "label": "deceptive",   # 또는 "honest"
  "ground_truth_check": "test case hardcoded, actual logic broken"
}

라벨은 사람이 직접 코드를 검토해서 실제로 문제를 풀었는지, 아니면 테스트만 통과하도록 편법을 썼는지 판단해서 붙인다. 이 라벨과 그 순간의 활성화값을 짝지어 놓은 데이터셋으로 프로브를 학습시키면, 나중에는 라벨 없이 활성화값만 보고도 기만 여부를 예측할 수 있게 된다.

컨디셔닝 채널

컨디셔닝 채널은 여러 조건 정보를 같은 크기의 텐서로 맞춘 다음, 채널 축으로 이어 붙여서 모델에 입력하는 구조다.

# 각 조건을 동일한 공간 해상도의 텐서로 인코딩
noise_latent = get_noise_latent()          # shape: [C, H, W]
text_embed = text_encoder(prompt)           # shape: [C_text] -> 브로드캐스트하여 [C_text, H, W]
ref_image_feat = image_encoder(ref_image)   # shape: [C_img, H, W]
pose_map = pose_estimator(pose_input)       # shape: [C_pose, H, W]
audio_feat = audio_encoder(audio_clip)      # shape: [C_audio] -> [C_audio, H, W]로 확장

# 채널 축으로 이어붙이기
combined_input = concat([noise_latent, text_embed, ref_image_feat, pose_map, audio_feat], dim=channel_axis)
# shape: [C_total, H, W]

# 기존 DiT 백본의 입력 채널 수만 늘려서 그대로 학습
output = diffusion_transformer(combined_input)
loss = diffusion_loss(output, target_video)

기존 모델이 입력 채널 하나(노이즈)만 받던 것을, 여러 조건 채널을 더해서 받도록 첫 번째 레이어의 입력 차원만 넓혀주면 나머지 트랜스포머 구조는 그대로 재사용할 수 있다.

학습 데이터 구조는 여러 조건이 하나의 샘플 안에 함께 묶여 있는 형태다.

{
  "sample_id": "hoivg_00042",
  "text_prompt": "한 사람이 상자를 들어 옮긴다",
  "reference_image": "person_box_ref.png",
  "pose_sequence": "pose_00042.npy",      # 프레임별 관절 좌표
  "audio_clip": "footstep_lift.wav",
  "target_video": "target_00042.mp4"       # 학습 정답이 되는 실제 영상
}

한 샘플 안에 텍스트, 참조 이미지, 포즈, 오디오, 정답 영상이 모두 짝지어져 있어야 하고, 학습 시에는 이 모든 조건을 인코딩해서 채널로 이어 붙인 다음 정답 영상과의 차이를 손실로 계산한다.

GRPO

GRPO는 같은 질문에 대해 여러 응답을 한꺼번에 샘플링하고, 그 응답들 사이의 상대적 보상 차이로 정책을 업데이트하는 구조다.

for prompt in training_prompts:
    # 1단계: 같은 프롬프트로 여러 응답 샘플링 (그룹)
    responses = [model.generate(prompt) for _ in range(group_size)]  # 예: 8개

    # 2단계: 각 응답에 보상 부여
    rewards = [reward_function(prompt, r) for r in responses]

    # 3단계: 그룹 내 평균과 표준편차로 정규화 (상대적 우열 계산)
    mean_r = mean(rewards)
    std_r = std(rewards)
    advantages = [(r - mean_r) / (std_r + eps) for r in rewards]

    # 4단계: 정책 업데이트 (상대적으로 좋은 응답의 확률은 높이고 나쁜 응답은 낮춤)
    for response, advantage in zip(responses, advantages):
        log_prob = model.log_prob(response, prompt)
        loss = -advantage * log_prob
        loss += kl_penalty(model, reference_model, prompt, response)  # 원래 모델에서 너무 벗어나지 않도록 정칙화
        loss.backward()
    optimizer.step()

별도의 가치 신경망 없이, 그룹 안에서의 평균과 표준편차만으로 각 응답이 상대적으로 얼마나 좋은지를 계산하는 것이 핵심이다.

학습 데이터 구조는 정답이 하나로 고정되어 있지 않고, 프롬프트와 그 프롬프트에 대한 평가 기준만 있으면 된다.

{
  "prompt": "최근 알츠하이머 치료제 연구 동향을 조사해 정리하라",
  "rubric": [
    {"criterion": "최근 2년 내 임상시험 결과를 포함했는가", "weight": 0.3},
    {"criterion": "상반된 연구 결과를 균형있게 다뤘는가", "weight": 0.3},
    {"criterion": "출처를 명확히 인용했는가", "weight": 0.2},
    {"criterion": "결론이 근거에 기반해 신중하게 서술되었는가", "weight": 0.2}
  ]
}

정답 텍스트가 미리 정해져 있는 것이 아니라, 응답을 채점할 루브릭만 있으면 된다. 모델이 같은 질문에 대해 여러 답변을 만들면, 이 루브릭으로 각 답변을 채점해서 상대적 점수를 매기고, 그 점수 차이를 이용해 정책을 업데이트한다. DR Tulu는 이 루브릭 자체도 훈련이 진행되면서 점점 더 정교해지도록 함께 학습시킨다는 점이 추가된 특징이다.

DiT

DiT는 디퓨전 모델, 즉 노이즈를 조금씩 걷어내면서 이미지나 영상을 만들어내는 생성 방식에서, 노이즈를 예측하는 핵심 신경망을 U-Net 대신 트랜스포머로 바꾼 구조다. 원래 디퓨전 모델은 U-Net을 많이 썼는데, U-Net은 이미지를 점점 작게 압축했다가 다시 키우는 구조라 합성곱 연산에 의존한다. DiT는 이미지를 작은 패치로 잘게 잘라서 마치 문장의 단어처럼 하나의 토큰 시퀀스로 취급하고, 그 토큰들을 트랜스포머의 셀프 어텐션으로 처리한다. 비유하자면 그림을 그릴 때 U-Net은 전체 캔버스를 계속 확대 축소하며 다듬는 화가에 가깝고, DiT는 그림을 작은 조각으로 잘라 붙인 모자이크 타일들을 서로 비교하고 조율하며 전체 그림을 완성해가는 방식에 가깝다.

DiT가 기존 U-Net 방식보다 좋은 이유는 두 가지다. 첫째, 트랜스포머는 이미지 크기나 데이터 양이 늘어날수록 성능이 꾸준히 좋아지는 확장성이 검증된 구조라서, 모델과 데이터를 키울수록 U-Net보다 더 안정적으로 품질이 좋아진다. 둘째, 토큰 시퀀스라는 형태를 쓰기 때문에 앞서 설명한 컨디셔닝 채널처럼 텍스트, 이미지, 포즈 같은 다른 종류의 조건 정보를 같은 토큰 시퀀스 안에 자연스럽게 섞어 넣기가 쉽다.

예시

앞서 다룬 Causal Forcing과 OmniShow가 모두 이 DiT 구조를 베이스 모델로 쓴다. OmniShow의 경우 영상의 각 프레임을 패치 단위로 잘라 토큰으로 만들고, 여기에 텍스트와 참조 이미지, 포즈, 오디오에서 나온 조건 토큰들을 함께 섞어서 트랜스포머에 입력한다. 노이즈가 낀 영상 토큰과 조건 토큰들이 셀프 어텐션 안에서 서로 영향을 주고받으면서, 조건에 맞는 방향으로 노이즈를 걷어내는 법을 학습한다.

의사코드

# 1단계: 이미지 또는 영상 프레임을 패치로 분할하고 토큰화
def patchify(image, patch_size=16):
    patches = split_into_patches(image, patch_size)  # 예: 256x256 -> 16x16 패치 256개
    tokens = linear_projection(patches)  # 각 패치를 하나의 벡터 토큰으로 변환
    tokens = tokens + positional_embedding
    return tokens  # shape: [num_patches, hidden_dim]

# 2단계: 노이즈 스텝 정보를 임베딩으로 만들어 조건으로 사용
def timestep_embedding(t):
    return sinusoidal_encode(t)  # 스칼라 t를 hidden_dim 크기 벡터로 변환

# 3단계: DiT 블록 (트랜스포머 블록 + 조건 주입)
class DiTBlock(nn.Module):
    def forward(self, tokens, condition_embed):
        # 조건 임베딩으로 정규화 파라미터를 조절 (adaptive layer norm)
        scale, shift, gate = condition_to_scale_shift_gate(condition_embed)
        x = adaptive_layer_norm(tokens, scale, shift)
        x = x + gate * self.self_attention(x)
        x = adaptive_layer_norm(x, scale, shift)
        x = x + gate * self.mlp(x)
        return x

# 4단계: 전체 forward, 노이즈 예측
def dit_forward(noisy_tokens, t, text_condition):
    condition_embed = timestep_embedding(t) + text_encoder(text_condition)
    x = noisy_tokens
    for block in dit_blocks:  # 예: 28개 블록
        x = block(x, condition_embed)
    predicted_noise = unpatchify(final_linear(x))
    return predicted_noise

# 5단계: 학습 루프
for batch in dataset:
    clean_tokens = patchify(batch.image)
    t = random_timestep()
    noise = sample_gaussian_noise()
    noisy_tokens = add_noise(clean_tokens, noise, t)  # 노이즈 스케줄에 따라 섞기
    predicted_noise = dit_forward(noisy_tokens, t, batch.text_prompt)
    loss = mse_loss(predicted_noise, noise)
    loss.backward()
    optimizer.step()

핵심은 이미지를 패치 토큰으로 바꾼 다음, 노이즈 스텝 정보를 트랜스포머 블록 안의 정규화 파라미터를 조절하는 방식으로 주입한다는 점이다. 이렇게 하면 같은 트랜스포머 블록이 노이즈가 많이 낀 초기 단계와 노이즈가 거의 없는 마지막 단계 모두에서 서로 다르게 동작하도록 조절된다.

학습 데이터 구조

{
  "sample_id": "video_gen_00187",
  "text_prompt": "노을이 지는 해변을 걷는 사람",
  "clean_video_frames": "target_00187.mp4",   # 노이즈가 없는 정답 영상
  "resolution": [256, 256],
  "num_frames": 16,
  "patch_size": 16
}

학습 시에는 정답 영상을 패치로 잘라 토큰으로 만든 다음, 무작위로 고른 노이즈 스텝만큼 인위적으로 노이즈를 섞고, 모델이 그 노이즈를 예측하도록 학습시킨다. 즉 데이터셋 자체에는 노이즈가 없는 깨끗한 영상과 텍스트 프롬프트만 있으면 되고, 노이즈는 학습 과정에서 그때그때 만들어서 씌운다. 조건이 여러 개인 OmniShow 같은 경우는 여기에 참조 이미지, 포즈, 오디오 항목이 앞서 설명한 컨디셔닝 채널 구조로 함께 추가된다.

dLLM

기존 LLM은 문장을 왼쪽에서 오른쪽으로 한 단어씩 순서대로 예측하는 자기회귀 방식을 쓴다. 반면 dLLM은 이미지에 노이즈를 씌웠다가 걷어내는 디퓨전의 원리를 텍스트에 그대로 적용한다. 문장의 토큰들을 무작위로 마스킹, 즉 가려버린 다음, 모델이 가려진 토큰들이 무엇이었는지 한꺼번에 맞히도록 학습시킨다. 비유하자면 기존 LLM이 문장을 왼쪽부터 한 글자씩 순서대로 받아쓰는 방식이라면, dLLM은 빈칸 뚫기 문제지를 받아서 뚫린 빈칸들을 한 번에, 그리고 여러 번 다시 고쳐가며 채워나가는 방식이다.

구조적으로 보면 dLLM은 이미지 패치 토큰 대신 텍스트 토큰을 입력으로 쓴다는 점만 다를 뿐, 트랜스포머 블록 자체는 DiT와 거의 동일하다. 다만 이미지처럼 노이즈를 연속적인 값으로 섞는 대신, 텍스트는 이산적인 토큰이기 때문에 토큰을 마스크 토큰으로 치환하는 방식으로 노이즈를 흉내낸다. 마스킹 비율이 노이즈 스텝 역할을 한다. 마스킹 비율이 높으면 노이즈가 많이 낀 초기 단계이고, 마스킹 비율이 낮으면 노이즈가 거의 걷힌 마지막 단계다.

dLLM이 기존 자기회귀 LLM보다 나은 점은, 문장을 왼쪽부터 순서대로 만들 필요가 없어서 여러 토큰을 동시에 병렬로 생성할 수 있다는 것이다. 앞서 다룬 Any-Order GPT as Masked Diffusion Model 논문에서 언급했듯이 이 병렬 생성 덕분에 추론 속도가 최대 25배까지 빨라질 수 있다. 다만 앞서 다룬 The Flexibility Trap 논문에서 지적했듯이, 어떤 순서로든 생성할 수 있다는 유연성이 오히려 모델을 추론에 중요한 어려운 토큰을 회피하게 만드는 부작용도 있다.

예시

수학 문제를 푸는 상황을 생각해보면, 기존 자기회귀 LLM은 "2 더하기 3은" 다음에 "5" 하나를 예측하고, 그다음 토큰을 예측하는 식으로 왼쪽부터 순서대로 답을 완성해간다. dLLM은 전체 답변 자리에 마스크 토큰을 전부 채워놓은 상태에서 시작해서, 처음에는 확신이 높은 몇몇 자리, 예를 들어 숫자 "5"부터 채우고, 그다음 라운드에서 나머지 마스크된 자리들을 점점 채워나가며 여러 번에 걸쳐 문장 전체를 완성해간다.

의사코드

# 1단계: 텍스트를 토큰화하고 일부를 마스크 토큰으로 치환
def mask_tokens(token_ids, mask_ratio):
    num_to_mask = int(len(token_ids) * mask_ratio)
    mask_positions = random_sample(range(len(token_ids)), num_to_mask)
    noisy_tokens = token_ids.clone()
    for pos in mask_positions:
        noisy_tokens[pos] = MASK_TOKEN_ID
    return noisy_tokens, mask_positions

# 2단계: 마스킹 비율을 노이즈 스텝처럼 사용해 조건으로 임베딩
def mask_ratio_embedding(mask_ratio):
    return sinusoidal_encode(mask_ratio)  # DiT의 timestep_embedding과 동일한 방식

# 3단계: dLLM 블록 (DiT 블록과 구조 동일, 입력만 텍스트 토큰)
class DLLMBlock(nn.Module):
    def forward(self, tokens, condition_embed):
        scale, shift, gate = condition_to_scale_shift_gate(condition_embed)
        x = adaptive_layer_norm(tokens, scale, shift)
        x = x + gate * self.self_attention(x)  # 양방향 어텐션, 인과적 마스크 없음
        x = adaptive_layer_norm(x, scale, shift)
        x = x + gate * self.mlp(x)
        return x

# 4단계: 전체 forward, 마스크된 토큰 예측
def dllm_forward(noisy_tokens, mask_ratio):
    condition_embed = mask_ratio_embedding(mask_ratio)
    x = token_embedding(noisy_tokens)
    for block in dllm_blocks:
        x = block(x, condition_embed)
    predicted_token_logits = final_linear(x)  # 각 위치마다 vocab 크기의 분포
    return predicted_token_logits

# 5단계: 학습 루프
for batch in text_dataset:
    clean_tokens = tokenize(batch.text)
    mask_ratio = random_uniform(0, 1)  # 이미지의 random_timestep과 동일한 역할
    noisy_tokens, mask_positions = mask_tokens(clean_tokens, mask_ratio)
    predicted_logits = dllm_forward(noisy_tokens, mask_ratio)
    # 마스킹된 위치에서만 손실 계산
    loss = cross_entropy(predicted_logits[mask_positions], clean_tokens[mask_positions])
    loss.backward()
    optimizer.step()

# 6단계: 생성 시 여러 라운드에 걸쳐 마스크를 점점 채워나감
def generate(prompt_tokens, answer_length, num_rounds=8):
    tokens = concat([prompt_tokens, [MASK_TOKEN_ID] * answer_length])
    for round in range(num_rounds):
        mask_ratio = 1.0 - (round / num_rounds)
        logits = dllm_forward(tokens, mask_ratio)
        probs, predicted = softmax_and_argmax(logits)
        # 확신이 높은 자리부터 확정하고 나머지는 다음 라운드로
        confident_positions = top_k_by_confidence(probs, k=answer_length // num_rounds)
        for pos in confident_positions:
            tokens[pos] = predicted[pos]
    return tokens

DiT와 비교했을 때 가장 큰 구조적 차이는 셀프 어텐션이 인과적 마스크 없이 양방향으로 열려 있다는 점이다. 기존 자기회귀 LLM은 지금 토큰이 뒤에 나올 토큰을 미리 보지 못하도록 마스킹하지만, dLLM은 마스킹된 자리 이외의 모든 토큰을 양방향으로 참고할 수 있어야 빈칸을 제대로 채울 수 있기 때문이다.

학습 데이터 구조

{
  "sample_id": "text_00512",
  "clean_text": "2 더하기 3은 5이고, 5에 4를 더하면 9이다.",
  "token_ids": [1023, 892, 55, 1104, ...],
  "vocab_size": 32000,
  "max_seq_len": 512
}

DiT의 학습 데이터가 노이즈 없는 깨끗한 영상만 있으면 되는 것처럼, dLLM의 학습 데이터도 마스킹 없는 원본 텍스트만 있으면 된다. 마스킹은 DiT에서 노이즈를 학습 중에 그때그때 씌우는 것과 마찬가지로, 학습 루프 안에서 무작위 비율로 그때그때 만들어서 적용한다. 즉 데이터셋 준비 단계에서는 기존 자기회귀 LLM과 동일한 순수 텍스트 코퍼스를 그대로 쓸 수 있고, 학습 방식만 마스킹과 병렬 예측으로 바뀌는 것이다.

ICML 2026 주요 논문의 연구 기술 분석

이 글은 ICML(International Conference on Machine Learning) 2026 주요 논문의 연구 기술 분석 내용을 간략히 정리한다.

ICML 2026은 2026년 7월 6일부터 11일까지 서울 코엑스에서 열리는 국제머신러닝학회다. 올해는 23918건이 제출되어 6352편이 채택되었고, 채택률은 26.6퍼센트였다. 그런데 학회에서 발표되었다고 해서 모든 논문이 실제로 재현 가능한 것은 아니다. 최근 연구에 따르면 ICML, NeurIPS, ICLR 세 학회의 평균 코드 공개율은 19.5퍼센트에 불과하다. 이번 글에서는 GitHub 저장소가 실제로 공개되어 있고, 가능한 경우 별도의 프로젝트 웹사이트까지 함께 공개된 논문들만 추려서 살펴보았다. 코드와 모델을 직접 실행하거나 응용해볼 수 있는지도 함께 정리했다.

각 논문은 연구목적과 사용 알고리즘, 베이스 모델을 하나의 문단으로 서술했고, 나머지 정보인 데이터셋, 연구 기술 수준, 구현 수준, 관련 링크는 목록 형태로 정리했다.

프로젝트 페이지와 GitHub를 모두 공개한 논문

Causal Forcing, 실시간 대화형 비디오 생성

이 논문은 양방향 확산모델을 소수 스텝의 자기회귀 학생 모델로 증류할 때 발생하는 이론적 결함을 규명하는 연구다. 기존 방법들이 프레임 단위 단사성 조건을 위반한다는 점을 이론적으로 증명하고, 이를 해결하기 위해 자기회귀 교사 모델 기반의 ODE 초기화와 분포 매칭 증류를 결합한 Causal Forcing을 제안했다. 후속 연구인 Causal Forcing플러스플러스에서는 ODE 대신 인과적 일관성 증류 방식을 도입했다. 베이스 모델로는 Wan2.1과 훈위안비디오의 HY1.5-TI2V-8B 비디오 확산 모델을 사용했다.

사용 데이터셋: 대형 비디오 확산모델 사전학습 데이터 기반 자체 증류용 데이터
연구 기술 수준: 최상급이다. 생성모델 이론 증명과 대규모 비디오 디퓨전 증류가 결합되어 있다
구현 수준: 중간이다. 공개된 8B급 체크포인트로 추론 데모는 GPU 한 대로 바로 실행할 수 있지만, 증류 학습 자체를 재현하려면 대규모 인프라가 필요하다
프로젝트 페이지: thu-ml.github.io/CausalForcing.github.io
GitHub: github.com/thu-ml/Causal-Forcing

Hibiki-Zero, 정렬 데이터 없는 동시 음성통역

이 논문은 단어 단위 정렬 데이터 없이도 실시간 다국어 동시 음성통역을 가능하게 하는 모델을 다룬 연구다. 프랑스어, 스페인어, 포르투갈어, 독일어에서 영어로의 통역을 대상으로, 먼저 문장 단위로 정렬된 데이터로 지도학습을 진행한 뒤 GRPO 기반 강화학습으로 통역 지연시간을 최적화하는 방식을 사용했다. 베이스 모델은 모시와 히비키 계열의 멀티스트림 디코더이며 파라미터 수는 3B다.

사용 데이터셋: 자체 공개한 15시간 분량의 다국어 벤치마크
연구 기술 수준: 최상급이다. 음성 파운데이션 모델을 처음부터 학습해야 한다
구현 수준: 쉬움이다. 명령어 한 줄로 8기가에서 12기가 VRAM급 GPU에서 즉시 실시간 데모를 구동할 수 있다. 웹 UI로 감싸는 정도의 응용은 매우 용이하다
프로젝트 페이지: hibiki-zero-s2st.github.io
GitHub: github.com/kyutai-labs/hibiki-zero

DR Tulu, 심층 리서치 에이전트

이 논문은 정답이 명확하지 않은 장문 심층 리서치 과제, 예를 들어 과학이나 의료 분야 질의에 대해 정책 모델과 함께 진화하는 루브릭으로 강화학습을 진행하는 최초의 완전 오픈 모델을 다룬 연구다. 핵심 알고리즘은 진화하는 루브릭을 활용한 강화학습이라는 뜻의 RLER이며, 멀티 롤아웃과 도구 증강 생성을 지원하는 GRPO 변형을 사용한다. 베이스 모델은 Qwen3-8B-Base다.

사용 데이터셋: 과학, 의료, 일반 도메인의 장문 리서치 벤치마크 네 종류와 서치아레나, 오픈스칼라 데이터
연구 기술 수준: 상급이다. 다만 모델과 데이터, 학습 코드, 평가 하네스까지 전부 오픈소스로 공개되어 있다
구현 수준: 쉬움이다. 허깅페이스에서 체크포인트를 내려받은 뒤 vLLM 서버 두 대와 MCP 서버를 구동하는 것만으로 즉시 데모를 실행할 수 있다
프로젝트 및 블로그 페이지: allenai.org/blog/dr-tulu
GitHub: github.com/rlresearch/dr-tulu
모델 페이지: huggingface.co/rl-research/DR-Tulu-8B

The Obfuscation Atlas, RLVR 기만 및 정직성 탐지 연구

이 논문은 검증가능보상 강화학습, 즉 RLVR로 훈련할 때 모델이 화이트박스 거짓말 탐지기를 회피하는 현상을 실증적, 이론적으로 규명한 연구다. 리워드 해킹이 자연스럽게 발생하는 실제 코딩 환경을 구성하고, GRPO와 활성화 기반 기만 탐지 프로브를 결합해 정직한 정책과 은폐된 정책을 구분하는 분류체계를 제시했다. 베이스 모델로는 젬마3-12B-IT를 비롯한 네 개 모델을 사용했다.

사용 데이터셋: 테스트 케이스 하드코딩 시나리오가 포함된 실제 코딩 문제, 그리고 500개 이상 학습된 모델 체크포인트를 허깅페이스에 공개했다
연구 기술 수준: 상급이다. 정렬 연구와 메커니즘 해석, 강화학습 인프라가 결합되어 있다
구현 수준: 중간이다. 코드가 설정, 학습, 탐지기 모듈로 나뉘어 있어 소규모 모델로 프로브 학습과 평가 파이프라인을 재현해볼 수 있다
연구기관 페이지: far.ai/research/the-obfuscation-atlas-mapping-where-honesty-emerges-in-rlvr-with-deception-probes
GitHub: github.com/AlignmentResearch/obfuscation-atlas

GitHub 저장소가 상세히 공개된 논문

OmniAgent, 능동 비디오 지각 옴니모달 에이전트

이 논문은 긴 비디오나 여러 모달리티를 이해할 때 전체 영상을 다 보는 대신 필요한 프레임만 능동적으로 탐색하는 에이전트를 다룬다. 72B 모델보다 73퍼센트 적은 프레임으로도 더 나은 성능을 보였다. 비디오 이해 문제를 부분관측 마르코프 결정과정으로 정식화하고, 턴 단위 불확실성을 반영한 TAURA라는 강화학습 기법으로 정책을 학습한다. 베이스 모델은 Qwen2.5-Omni-7B다.

사용 데이터셋: 비디오엠엠이, LV벤치를 포함한 열 개 벤치마크
연구 기술 수준: 상급이다. 비디오 에이전트를 위한 강화학습 설계가 핵심이다
구현 수준: 중간이다. 코드와 짐 형태의 능동지각 환경, 강화학습 및 지도학습 체크포인트가 모두 공개되어 있어 7B급 모델 기준으로 로컬 파인튜닝을 시도해볼 수 있다
GitHub: github.com/HarryHsing/OmniAgent

OmniShow, 인간과 사물 상호작용을 통합한 비디오 생성

바이트댄스가 발표한 이 논문은 텍스트, 참조 이미지, 오디오, 포즈 조건을 하나의 모델로 통합한 최초의 인간과 사물 상호작용 비디오 생성 올인원 모델을 제안한다. 채널 단위로 조건들을 통합해 주입하는 방식을 사용했으며, 베이스 모델은 Wan 기반의 DiT 비디오 확산 모델이다.

사용 데이터셋: 자체 구축한 HOIVG벤치
연구 기술 수준: 최상급이다. 대규모 비디오 확산 모델 학습이 필요한 산업 연구다
구현 수준: 중간이다. 추론 코드와 체크포인트가 공개되어 데모 실행은 가능하지만 요구되는 GPU 자원이 크다
GitHub: github.com/Correr-Zhou/OmniShow

RLAnything과 AutoTool, 에이전틱 강화학습 오픈소스 레시피

젠버스 연구팀이 공개한 이 두 논문은 에이전틱 강화학습을 데이터, 알고리즘, 추론 모드라는 세 축으로 체계적으로 분석한 연구다. 실제 엔드투엔드 궤적 기반의 지도학습과 강화학습을 결합하고, 리워드 클리핑과 엔트로피 유지 기법을 적용해 소형 모델이 대형 모델을 능가하는 학습 레시피를 완성했다. 베이스 모델은 Qwen2.5-7B와 Qwen3-4B이며, 4B 규모의 DemyAgent 체크포인트를 공개했다.

사용 데이터셋: AIME 2024와 2025, GPQA다이아몬드, LiveCodeBench-v6
연구 기술 수준: 상급이다. 에이전틱 강화학습 파이프라인을 다룬다
구현 수준: 쉬움이다. DemyAgent-4B 체크포인트가 허깅페이스에 공개되어 있어 로컬 평가와 소규모 파인튜닝을 바로 시도할 수 있다
GitHub: github.com/Gen-Verse/Open-AgentRL

S2L-PO, 작은 모델이 GRPO에서 정책 다양성을 더 잘 탐색한다

이 논문은 LLM 추론용 강화학습인 GRPO에서 오히려 작은 모델이 정책 수준의 다양성 탐색에 유리하다는 점을 규명하고, 이를 활용하는 학습 기법을 제안한 연구다. Qwen3 계열 모델을 소형과 대형으로 나누어 비교 실험을 진행했다.

사용 데이터셋: 수학 추론 벤치마크
연구 기술 수준: 상급이다. RL 알고리즘에 대한 실증 연구다
구현 수준: 쉬움이다. 소형 모델 기준으로 GRPO 코드를 일부 수정하는 수준이라 재현이 비교적 간단하다
GitHub: github.com/qishisuren123/S2L-PO

NT-SSM, 그래프 협업 필터링의 대조학습 재고

이 논문은 그래프 기반 추천시스템, 즉 협업 필터링에서 대조학습의 한계를 지적하고 간단한 대안을 제시한 연구다. 기존 표준 모델인 LightGCN을 베이스 모델로 삼아 새로운 정규화 기반 대안 기법을 적용했다.

사용 데이터셋: 아마존, 옐프 등으로 추정되는 표준 추천시스템 벤치마크
연구 기술 수준: 중상급이다. 그래프 신경망 기반 추천시스템을 다룬다
구현 수준: LightGCN 기반의 비교적 경량 모델이라 로컬 실험 재현이 용이하다
GitHub: github.com/geon0325/NT-SSM

해마 내후각피질 영감 세계모델

이 논문은 뇌의 해마와 내후각피질 구조에서 영감을 받아 구조적 추상화와 일반화가 가능한 세계모델을 설계한 연구다. 계산신경과학 기반의 구조학습 알고리즘을 사용했으며, 사전학습된 파운데이션 모델을 쓰지 않고 커스텀 순환신경망 기반 인지 모델을 처음부터 구성했다.

사용 데이터셋: 인지과학 실험용 합성 환경
연구 기술 수준: 최상급이다. 계산신경과학과 세계모델이 결합되어 있다
구현 수준: 중간이다. 주피터 노트북으로 공개되어 있어 소규모 실험을 재현하고 수정해보기가 비교적 수월하다
GitHub: github.com/senngadaisuki/hpc-mec-worldmodel

CaDRe, 기후 분석을 위한 인과 구조 학습

이 논문은 은닉 동적 과정을 고려한 일반적인 인과 구조 학습 기법을 기후 데이터 분석에 적용한 연구다. 비선형 독립성분분석 기반의 인과 표현 학습과 인과 발견 알고리즘을 사용하며, 사전학습 모델 없이 커스텀 인과표현학습 신경망을 사용한다.

사용 데이터셋: 기후과학 시계열 데이터
연구 기술 수준: 상급이다. 인과추론과 시계열 분석이 결합되어 있다
구현 수준: 중간이다. 공개된 코드로 자체 시계열 데이터에 적용해볼 수 있지만 인과추론 이론에 대한 이해가 선행되어야 한다
GitHub: github.com/MinghaoFu/CaDRe

LatentTSF, 관측에서 상태로 이어지는 잠재 시계열 예측

이 논문은 원시 관측치가 아니라 잠재 상태 공간에서 시계열을 예측하는 프레임워크를 다룬다. 잠재공간 상태추정과 시계열 예측을 결합한 방식이며, 파이토치 기반의 커스텀 상태공간모델을 베이스로 사용한다.

사용 데이터셋: 표준 시계열 예측 벤치마크
연구 기술 수준: 중상급이다
구현 수준: 파이토치 공식 구현체가 공개되어 있어 자체 데이터를 적용하기가 비교적 쉽다
GitHub: github.com/Muyiiiii/LatentTSF

FiSeR, 크로스 도메인 AI 이미지 탐지를 위한 세밀한 출처 표현

이 논문은 디퓨전이나 GAN 등 서로 다른 생성모델이 만든 AI 이미지를 도메인이 달라도 탐지할 수 있는 세밀한 출처 특징 추출 기법을 다룬다. 표준 CNN과 ViT 백본을 기반으로 한 출처 특화 표현학습 방식을 사용한다.

사용 데이터셋: 다양한 생성모델 출처의 AI 이미지 벤치마크
연구 기술 수준: 상급이다. 포렌식과 탐지 모델을 다룬다
구현 수준: 이미지 분류기 수준의 모델이라 재현 난이도가 상대적으로 낮다
GitHub: github.com/heyongxin233/FiSeR

CoopEval, 협력 유지 메커니즘과 LLM 에이전트 벤치마킹

이 논문은 죄수의 딜레마류의 사회적 딜레마 상황에서 협력을 지속시키는 메커니즘과 LLM 에이전트의 협력 행동을 벤치마킹한 연구다. 게임이론 기반의 다중 에이전트 시뮬레이션을 사용하며, 별도의 파운데이션 모델 학습 없이 GPT와 클로드 계열 API 기반 LLM 에이전트를 그대로 활용한다.

사용 데이터셋: 자체 구축한 사회적 딜레마 게임 환경
연구 기술 수준: 상급이다. 게임이론과 LLM 에이전트가 결합되어 있다
구현 수준: LLM API 호출 기반의 게임 시뮬레이션이라 AI 코딩 도구로 비교적 쉽게 재현하고 확장할 수 있다
GitHub: github.com/Xiao215/CoopEval

SubspacePathPruner, 추론 시점 LLM 구조적 프루닝

이 논문은 별도의 재학습 없이 추론 시점에 프로브 기반의 표현과 파라미터 결합을 활용해 LLM을 구조적으로 경량화하는 기법을 다룬다. 라마와 Qwen 등 공개된 LLM에 바로 적용할 수 있도록 설계되었다.

사용 데이터셋: 표준 LLM 압축 벤치마크
연구 기술 수준: 상급이다. 모델 압축을 다룬다
구현 수준: 재학습이 필요 없는 방식이라 기존 오픈소스 LLM에 바로 적용해볼 수 있다
GitHub: github.com/GongZhiren/SubspacePathPruner

정리

이번에 정리한 논문들을 살펴보면 몇 가지 흐름이 보인다.

첫째, 공개 수준이다. Causal Forcing, Hibiki-Zero, DR Tulu, Obfuscation Atlas 네 편은 프로젝트 페이지와 GitHub를 모두 갖추고 있어 데모와 체크포인트까지 즉시 사용할 수 있는 최고 수준의 공개도를 보인다. 나머지 논문들은 대부분 GitHub 저장소만 공개되어 있지만 README와 체크포인트가 상세해서 실질적으로 재현이 가능한 수준이다.

둘째, 베이스 모델 관점이다. 처음부터 새로 학습한 파운데이션 모델을 다루는 연구는 Causal Forcing, Hibiki-Zero, CaDRe, 해마 내후각피질 세계모델 등이며 대체로 기술 난이도가 최상급이다. 반면 기존에 공개된 LLM이나 VLM 위에 파인튜닝, 프롬프트, 경량 어댑터를 얹는 방식의 연구, 예를 들어 DR Tulu의 Qwen3-8B, OmniAgent의 Qwen2.5-Omni-7B, RLAnything과 AutoTool의 Qwen 계열, GR-LoRA와 AREA와 HypCL의 CLIP 등은 구현 난이도가 가장 낮고 응용 확장성이 크다. 베이스 모델 없이 알고리즘이나 이론 자체가 기여인 연구, 예를 들어 린 라이브러리나 CaDRe, Learning to Emulate Chaos 같은 경우는 코드가 공개되어 있어도 이론적 배경을 먼저 이해해야 정확하게 활용할 수 있다.

셋째, 구현 수준 관점이다. 명령어 한 줄로 실행되는 Hibiki-Zero, 서버만 띄우면 되는 DR Tulu, 허깅페이스 체크포인트만 내려받으면 되는 Causal Forcing처럼 설치, 실행, 커스터마이징 흐름을 그대로 따라갈 수 있는 논문들이 실질적인 구현 후보다. LoRA 계열이나 활성화 함수 교체, 재학습이 필요 없는 프루닝 기법처럼 기존 모델에 얹는 방식의 연구도 코드 복잡도가 낮아 구현 성공률이 높다. 반대로 형식수학 증명이나 쌍곡기하학 기반 모델처럼 특수한 수학적 프레임워크를 요구하는 연구는 코드가 공개되어 있어도 정확히 재현하기가 쉽지 않다.

이 글은 2026년 7월 9일 기준으로 웹 검색을 통해 개별 확인한 GitHub 저장소와 프로젝트 페이지 링크를 바탕으로 작성했다. 저장소는 계속 업데이트되므로 실제 활용 전에 최신 링크를 다시 확인하는 것이 좋다.

레퍼런스

ICML Oral Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking
ICML Oral Monitoring Monitorability
ICML Oral Towards Sub-second Biological Foundation Model Infrastructure: A Quantized Consistency Diffusion Framework for Molecular Docking
ICML Oral dnaHNet: A Scalable and Hierarchical Foundation Model for Genomic Sequence Learning
ICML Oral Position: The Alignment Community is Unintentionally Building a Censor’s Toolkit
Position: The Alignment Community Is Unintentionally Building a Censor's Toolkit
ICML 2026 공식 사이트: icml.cc ICML 2026 전체 논문 목록
icml.cc/virtual/2026/papers.html ICML 2026 어워드 발표 blog.icml.cc/2026/07/05/announcing-the-icml-2026-awards 코드 공개율 실증 연구, Paper2Code: arxiv.org/pdf/2504.17192 GitHub 토픽 icml2026
github.com/topics/icml2026 연속학습 분야 코드 공개 논문 큐레이션
github.com/xialeiliu/Awesome-Incremental-Learning 에이전트 관련 논문 읽기 목록
github.com/jiaxianyan/icml-2026-agent-papers

3DGS 가우시안 스플리터 기반 건물 인프라 3차원 모델 생성 기술 분석

이 글은 3DGS 가우시안 스플리터 기반 건물 인프라 3차원 모델 생성 기술 분석 내용을 나눔한다.

레퍼런스

EOGS2: EOGS++: Earth Observation Gaussian Splatting with Internal Camera Refinement and Direct Panchromatic Rendering

2026년 6월 21일 일요일

산업 특화 AI LLM, VLM 모델 개발 사례 및 기술 분석

이 글은 산업 특화 AI LLM, VLM 모델 개발 사례 및 기술 분석 내용을 간략히 정리한 것이다.

산업 분야 복합추론(Complex Reasoning) 특화 모델 및 파이프라인 개발을 위해 최근 3년 내 공개된 국내외 도메인 특화 모델의 개발 사례를 정리한다. 의료, 법률, 과학 등 타 전문 도메인에서 환각(Hallucination)을 제어하고 다단계 논리 추론을 성공시킨 파이프라인의 핵심 구조와 데이터셋 예시를 정리하고, 이를 건설, 기계제조, 물류 분야에 적용한 최신 기술 트렌드를 제시한다.

타 도메인 특화 복합추론 모델 및 파이프라인 사례

Fully Open Meditron (의학 분야)

개념 및 특징: EPFL 연구진 등이 개발한 의료 특화 LLM 파이프라인으로, 학습 데이터셋 구축부터 정제, 평가까지 전 과정을 완전히 투명하게 공개한 오픈소스 프로젝트이다. Base 모델의 환각을 방지하기 위해 임상 지침(Clinical Guidelines)에 기반한 검증 루프와 전문가 검토(Clinician-vetted) 과정을 거쳐 합성 데이터를 증강하는 파이프라인을 구축하였다.
프로젝트 링크: EPFLiGHT FullyOpenMeditron GitHub / Fully Open Meditron 논문

데이터셋 예시 (Instruction Tuning Format):

{

"instruction": "임상 가이드라인에 기반하여 환자의 증상을 진단하고 치료 계획을 수립하라.",
"input": "환자(65세, 남성)는 고혈압 기왕력이 있으며, 2시간 전부터 시작된 극심한 흉통과 호흡곤란을 호소함. 혈압 160/95 mmHg, 심박수 105회/분.",
"thought": "1. 흉통과 호흡곤란은 급성 관상동맥 증후군(ACS) 또는 대동맥 박리의 가능성을 시사함. 2. 고혈압 기왕력이 있으므로 심전도(ECG) 및 트로포닌 수치 확인이 최우선임. 3. 가이드라인에 따라 산소 공급 및 아스피린 투여를 고려해야 함.",
"output": "급성 관상동맥 증후군(ACS)이 의심되므로 즉시 12유도 심전도 검사 및 심근효소(Troponin) 검사를 시행해야 한다. 가이드라인에 의거하여 금기가 없는 한 아스피린 300mg을 즉시 경구 투여하고 응급 심혈관 중재술이 가능한 시설로 이송을 준비한다."

}

PMC-LLaMA (의학·바이오 분야)

개념 및 특징: PubMed Central(PMC)의 학술 논문 480만 편 이상을 기반으로 LLaMA 모델을 지속 사전학습(Continued Pre-training, CPT)하고 의학적 인과관계를 추론할 수 있도록 미세조정한 모델이다. 의학적 텍스트 간의 복잡한 상관관계를 학습하여 전문 지식 부족으로 인한 환각을 대폭 줄였다.
프로젝트 링크: [chaoyi-wu PMC-LLaMA GitHub](https://github.com/chaoyi-wu/PMC-LLaMA)

데이터셋 예시 (Medical QA Format):

{

"instruction": "제시된 의학적 질문에 대해 논리적 근거와 함께 최적의 옵션을 선택하라.",
"input": "질문: 23세 임산부가 배뇨 시 타는 듯한 통증으로 내원함. 비용 차단이나 약물 알레르기는 없음. 늑골척추각 압통은 없음. 다음 중 가장 적절한 치료제는 무엇인가? 옵션: A. Ampicillin, B. Ceftriaxone, C. Doxycycline, D. Nitrofurantoin",
"output": "정답은 D. Nitrofurantoin이다. 임신 중 발생한 단순 방광염(Uncomplicated Cystitis)의 1차 치료제로는 Nitrofurantoin 또는 Amoxicillin-clavulanate가 권장된다. C는 임산부에게 금기이며, A와 B는 단순 방광염의 1차 선택지로 부적절하다."

}

Saul-LM (법률 분야)

개념 및 특징: 법률 도메인에 특화된 7B 규모의 모델로, 대규모 법률 코퍼스로 CPT를 수행한 후 법률 명제 생성 및 조항 검토의 formal validity(형식적 타당성)를 극대화하도록 파이프라인이 설계되었다. 계약서 해석이나 규제 준수 여부를 다단계로 추론하는 데 특화되어 있다.
프로젝트 링크: sxu3 LP-Eval GitHub (Saul-LM 평가 및 벤치마크)

데이터셋 예시 (Legal Reasoning Format):

JSON

{

"instruction": "법률 조항과 분쟁 상황을 분석하여 귀책 사유 및 계약 위반 여부를 추론하라.",
"input": "계약조항: 제12조(지체상금) 공급자가 약정된 기한 내에 목적물을 인도하지 못할 경우, 지체일수 1일당 총 계약금액의 0.1%를 지체상금으로 지급한다. 단, 불가항력적인 사유는 예외로 한다. 상황: 공급업체 A는 홍수로 인한 원자재 수급 불능으로 인해 납기를 10일 지체함.",
"thought": "1. 홍수가 계약서 상 '불가항력적 사유'에 부합하는지 민법 및 판례 기준 검토 필요. 2. 일반적인 기상 악화와 달리 재해 수준의 홍수는 불가항력으로 인정될 여지가 있음. 3. 따라서 지체상금 면제 조항이 적용될 가능성이 높음.",
"output": "공급업체 A의 납기 지체는 홍수라는 자연재해(불가항력적 사유)에 기인한 것이므로, 제12조 단서 조항에 따라 지체상금 지급 의무가 면제될 가능성이 높다. 다만, 홍수 발생 직후 지체 없이 이 사실을 통보하고 증빙했는지 여부를 추가 확인해야 한다."

}

SciGLM (과학·공학 분야)

개념 및 특징: 수식, 공학적 메커니즘, 화학식 등 다단계 논리 추론이 필수적인 과학 도메인을 위해 개발된 모델이다. 데이터 부족 문제를 해결하기 위해 '자가 반성적 지시어 주석(Self-Reflective Instruction Annotation)' 프레임워크를 도입하여, 모델 스스로 추론 단계를 비판하고 수정하는 파이프라인을 구축하였다.
프로젝트 링크: [THUDM SciGLM GitHub](https://github.com/THUDM/SciGLM)

데이터셋 예시 (Scientific Reasoning Format):

{

"instruction": "물리학적 법칙을 적용하여 주어진 공학적 문제를 해결하고 계산 과정을 기술하라.",
"input": "질량 10kg의 물체가 마찰이 없는 30도 경사면을 따라 미끄러져 내려갈 때, 물체의 가속도를 구하라. (중력가속도 g = 9.8 m/s^2)",
"thought": "1. 경사면을 따라 내려가는 힘 F = m * g * sin(theta)이다. 2. 뉴턴의 제2법칙 F = m * a를 적용하면 m * a = m * g * sin(theta)가 된다. 3. 질량 m을 소거하면 가속도 a = g * sin(theta)이다. 4. sin(30도) = 0.5이므로 9.8 * 0.5를 계산한다.",
"output": "경사면 방향으로 작용하는 성분력은 $F = mg \sin(30^\circ)$이다. 뉴턴의 제2법칙($F=ma$)에 의해 $ma = mg \sin(30^\circ)$가 성립하므로, 가속도 $a = g \sin(30^\circ)$가 된다. 따라서 가속도는 $9.8 \times 0.5 = 4.9 \text{ m/s}^2$이다."

}

산업 분야별 특화 모델 학습 및 파이프라인 개발 사례

건설(Construction) 분야

건설 표준 시방서(KDS, KCS), 설계 가이드라인, 국토교통부 고시 법령 등 방대한 건설 도메인 문서를 CPT 및 SFT로 학습시키는 파이프라인이다. 수치적 기준과 규제 조건의 환각을 방지하기 위해 LLM을 지식 그래프(Knowledge Graph) 및 BIM(빌딩정보모델링) 메타데이터와 결합한 'Agentic RAG' 구조를 주로 채택한다.

데이터셋 예시 (건설 시방서 복합추론):

JSON

{

"instruction": "국가건설기준에 의거하여 현장 시공 계획의 적합성을 판정하고 근거를 제시하라.",
"input": "현장 상황: 건축물 지하 외벽 콘크리트 타설 계획 중임. 설계 강도는 24MPa이며, 동절기 환경(일평균 기온 2도)에서 시공 예정임. 현장 감리는 일반 포틀랜드 시멘트를 사용한 표준 배합으로 타설을 승인하려 함.",
"thought": "1. 일평균 기온이 4도 이하로 떨어지는 동절기 환경이므로 '동절기 콘크리트(한중 콘크리트)' 규정이 적용되어야 함. 2. 한중 콘크리트 시공 시 초기 동해 방지를 위한 양생 및 가열 계획이 필수적임. 3. 일반 배합 그대로 타설 시 초기 동해로 인한 균열 및 강도 저하 리스크가 매우 큼.",
"output": "적합성 판단: 부적합. 일평균 기온이 4도 이하인 조건이므로 KCS 14 20 40(한중 콘크리트) 기준에 따라 특수 배합 및 보온 양생 계획이 수립되어야 한다. 일반 포틀랜드 시멘트를 사용한 표준 배합으로 동절기에 그대로 타설할 경우 초기 동해로 인한 구조물 성능 저하가 발생하므로, 가열 양생 또는 동결방지제 사용 계획을 포함한 시공 계획서로 전면 수정해야 한다."

}

기계제조(Manufacturing) 분야

설비 매뉴얼, 고장 형태 영향 분석(FMEA) 문서, 센서 알람 로그 데이터를 결합한 문제 해결형 추론 모델 파이프라인이다. 텍스트 로그가 입력되면 고장의 근본 원인을 추론하고 정비 절차(SOP) API를 호출하는 'Tool-use 파이프라인' 형태로 구동된다.

데이터셋 예시 (설비 고장 진단 복합추론):

{

"instruction": "제조 설비의 에러 로그와 정비 매뉴얼을 매칭하여 근본 원인을 분석하고 조치 절차를 생성하라.",
"input": "로그 데이터: [Error Code 0x4F2] CNC 밀링 머신 주축(Spindle) 과부하 및 온도 85도 돌파. 유압 시스템 압력 저하 발생.",
"thought": "1. 에러 코드 0x4F2는 주축 과열 관련 오류임. 2. 유압 압력 저하가 동반된 것으로 보아 냉각유 공급 펌프 오작동 또는 유압 라인 누유 가능성이 높음. 3. 조치 순서는 주축 정지 -> 유압 압력 체크 -> 냉각 시스템 점검 순이어야 함.",
"output": "근본 원인 분석: 유압 시스템 압력 저하로 인한 주축 냉각 유량 부족 및 마찰열 발생으로 추론됨. 조치 절차: 1단계 - CNC 장비를 즉시 비상 정지하여 주축 손상을 방지함. 2단계 - 유압 펌프 레벨 및 라인 누유 여부를 육안 점검함. 3단계 - 냉각기(Chiller)의 필터 막힘 상태를 확인 후 정비 매뉴얼 4-1장에 따라 유압 밸브를 리셋함."

}

물류(Logistics & SCM) 분야

공급망 지연, 기상 변화, 통관 리스크 등 비정형 돌발 변수가 발생했을 때 대안 경로와 운영 비용을 자율 계산하는 수학적 추론 모델 파이프라인이다. LLM이 상황을 파악한 뒤 직접 최적화 알고리즘 코드(Python)를 생성하여 실행하고, 에러가 발생하면 자가 교정(Self-Correction)하는 구조로 개발된다.

데이터셋 예시 (SCM 돌발 상황 의사결정 추론):

JSON

{

"instruction": "물류망 마비 상황에 대응하는 대체 운송 라우팅 계획을 수립하고 물류비용 변화를 추론하라.",
"input": "상황: A항구 파업으로 인해 예정된 부품 500톤의 하역이 불가능함. 대체 항구 B를 이용할 경우 내륙 운송 거리가 150km 증가하며, 트럭 운송 단가는 톤·km당 150원임.",
"thought": "1. 대체 경로 B 선택 시 추가 내륙 운송 비용 산출 필요. 2. 추가 비용 = 500톤 * 150km * 150원 = 11,250,000원. 3. 납기 지연으로 인한 페널티 비용과 비교하여 최종 의사결정을 내려야 함.",
"output": "대응 계획: 선박을 대체 항구 B로 회항 조치한다. 이로 인해 발생하는 추가 내륙 물류비용은 총 11,250,000원($500 \times 150 \times 150$)으로 산출된다. 이는 원래 항구 A에서 파업 종료를 대기할 때 발생하는 라인 중단 페널티 비용(일일 50,000,000원 상당)보다 경제적이므로 회항 파이프라인을 즉시 가동하는 것이 타당하다."

}

결론

Fully Open Meditron이나 SciGLM 같은 도메인 특화 모델들의 성공 요인은 단순한 텍스트 학습이 아니라, 전문가의 사고 흐름을 모방한 논리적 추론 경로(Chain-of-Thought, Thought 태그) 데이터의 대량 구축 및 정제에 있다.

따라서 현재 진행 중인 건설 AI 연구에서 환각을 제어하고 복합추론 능력을 강화하기 위해서는 아래와 같은 파이프라인 구축 전략이 요구된다.

지식 주입과 논리 분리: Base 모델에 억지로 암기시키기보다 구조화된 텍스트 코퍼스로 CPT를 수행한 뒤, RAG 파이프라인과 결합하여 데이터의 정확성을 보장해야 한다.
CoT 데이터셋 합성: 실제 엔지니어의 문제 해결 프로세스를 `<thought>` 태그 내에 단계별(Step-by-step)로 명시한 지시어 데이터셋을 최소 수만 건 이상 구축하여 SFT를 진행하는 것이 필요하다.

레퍼런스

부록: 데이터 학습 파이프라인 예시

파이프라인

[Base Model] ---> [1. CPT 단계] -----------> [2. SFT/Reasoning 단계] --> [3. RAG/Agent 단계] - 스케일: 20B~30B 토큰 - 스케일: 5만~10만 건 지시어 - 실시간 수치 검증 - 목적: 건설 용어/지식 주입 - 목적: CoT(<thought>) 추론 - 목적: 환각 완전 제어

CPT(지속 사전학습) 코퍼스 예시

{"text": "[건설기준코드: KDS 41 10 05 : 2022 건축구조기준 총칙] 3. 설계하중 (1) 건축물 및 구축물은 구조적 안전성을 확보하도록 이 기준에서 규정한 고정하중, 활하중, 적설하중, 풍하중, 지진하중 등의 설계하중에 대하여 견딜 수 있도록 구조 설계되어야 한다. (2) 특수한 환경에 위치한 구조물의 경우, 토압, 수압, 파랑하중, 온도하중 등 발생 가능한 모든 유효한 하중의 영향을 추가로 고려하여야 한다.", "metadata": {"source": "국가건설기준센터", "domain": "건설_구조공학", "doc_type": "KDS", "code_id": "KDS_41_10_05", "year": "2022"}}
{"text": "[LH 전문시방서: 31510 콘크리트공사] 2.1 재료 (1) 한중 콘크리트 시공 시 사용하는 시멘트는 고로슬래그 시멘트의 초기 강도 발현 지연을 고려하여, 특별한 지정이 없는 한 일반 포틀랜드 시멘트(KS L 5201) 사용을 원칙으로 한다. (2) 초기 동해 방지를 위해 가열 양생 시, 급격한 건조 및 온도 변화로 인한 균열 방지 대책을 시공 계획서에 명시하여야 한다.", "metadata": {"source": "LH공사", "domain": "건설_시공공학", "doc_type": "Specification", "code_id": "LH_31510", "year": "2024"}}

지도 미세조정 코퍼스 예시

{
"messages": [
{
"role": "user",
"content": "현재 동절기 환경(일평균 기온 1.5도)에서 지하 주차장 슬래브 콘크리트 타설을 준비 중이다. 시공사에서 조강 포틀랜드 시멘트를 사용하고, 타설 후 2일간 천막을 치고 갈탄을 태워 보온 양생을 하겠다는 계획서를 제출했다. 이 시공 계획의 기술적 문제점과 국가건설기준에 따른 보완 요구사항을 추론하라."
},
{
"role": "assistant",
"content": "<thought>\n1. 주어진 상황 분석: 일평균 기온 1.5도이므로 KCS 14 20 40(한중 콘크리트) 적용 대상이다.\n2. 시공사 계획 검토:\n - 자재: 조강 포틀랜드 시멘트 선택은 초기 강도 확보에 유리하므로 타당하다.\n - 양생 방법: 갈탄 보온 양생 계획 수립함.\n3. 갈탄 양생의 문제점 인출:\n - 갈탄 연소 시 발생하는 이산화탄소(CO2)가 콘크리트 표면과 반응하여 탄산화(중성화)를 유발함. 이는 표면 강도 저하 및 균열의 원인이 됨.\n - 밀폐 공간 내 일산화탄소(CO) 축적으로 인한 작업자 질식 재해 위험 존재.\n4. 국가건설기준(KCS) 부합성 체크:\n - KCS에서는 한중 콘크리트 가열 양생 시 이산화탄소에 의한 탄산화 방지 대책을 세우거나 열풍기 등 간접 가열 방식을 권장함.\n5. 결론 및 보완 지시 도출:\n - 갈탄 양생 전면 수정 또는 CO2 배출 제어 대책 요구.\n - 열풍기(전기 또는 가스) 방식으로 변경 권고.\n - 작업자 출입 통제 및 환기 시설 매뉴얼 추가 요구.\n</thought>\n제출된 시공 계획서는 국가건설기준(KCS 14 20 40 한중 콘크리트) 및 현장 안전 관리 기준에 의거하여 승인 불가하며, 아래와 같은 기술적 문제점에 대한 보완 조치가 필요하다.\n\n1. 콘크리트 품질 저하 (탄산화 위험):\n갈탄 연소 시 대량의 이산화탄소(CO2)가 발생한다. 경화되지 않은 초기 콘크리트 표면이 고농도의 이산화탄소에 노출되면 수화 생성물인 수산화칼슘과 반응하여 탄산칼슘을 형성하는 '초기 탄산화(중성화)' 현상이 발생한다. 이는 콘크리트 표면을 푸석하게 만들고 장기적인 내구성을 심각하게 저하시킨다.\n\n2. 보완 요구사항:\n- 가열 방식을 갈탄 연소 방식에서 이산화탄소 발생이 없는 전기 열풍기 또는 가스식 열풍기(간접 가열) 방식으로 변경하여 재제출해야 한다.\n- 만약 부득이하게 갈탄을 사용해야 할 경우, 콘크리트 표면에 CO2가 직접 닿지 않도록 완전 밀폐 및 외부 배기 덕트 라인 설치 계획을 수립해야 하며, 질식 사고 방지를 위한 산소 및 CO 농도 측정기 배치, 환기 팬 가동 계획을 안전 계획서에 추가해야 한다."
}
]
}

RAG 에이전트 코퍼스 포맷 예시

{
"messages": [
{
"role": "user",
"content": "강재 휨재의 국부좌굴을 검토하려고 한다. SM355 강재를 사용한 H형강 보의 플랜지 폭두께비 제한값을 확인하고 싶다. 관련 설계를 진행할 수 있도록 국가건설기준 규격을 조회하여 판단하라."
},
{
"role": "assistant",
"content": null,
"tool_calls": [
{
"id": "call_const_api_01",
"type": "function",
"function": {
"name": "search_kds_limits",
"parameters": {
"standard_code": "KDS 41 31 00",
"keyword": "플랜지 폭두께비 제한값",
"steel_grade": "SM355"
}
}
}
]
},
{
"role": "tool",
"tool_call_id": "call_const_api_01",
"name": "search_kds_limits",
"content": "{\"status\": \"success\", \"result\": \"KDS 41 31 00 건축강구조설계기준 표 4.1-1: SM355 강재의 휨재 플랜지 폭두께비(b/t) 제한값 - 조밀단면 한계: 0.38*sqrt(E/Fy) = 9.1, 비조밀단면 한계: 1.0*sqrt(E/Fy) = 24.0 (단, 탄성계수 E=210,000MPa, 항복강도 Fy=355MPa 기준 적용)\"}"
},
{
"role": "assistant",
"content": "<thought>\n1. 외부 Tool을 통해 KDS 41 31 00의 정확한 수치 정보를 수신함.\n2. SM355 강재 기준, 플랜지의 조밀단면 한계 폭두께비는 9.1이며 비조밀단면 한계는 24.0임을 확인.\n3. 수신된 데이터에 기반하여 환각 없이 사용자에게 설계 가이드라인을 제공함.\n</thought>\n조회된 국가건설기준(KDS 41 31 00 건축강구조설계기준)에 따른 SM355 강재 휨재 플랜지의 폭두께비($b/t$) 제한값 기준은 다음과 같다.\n\n1. 조밀단면(Compact Section) 한계값: 9.1\n2. 비조밀단면(Non-compact Section) 한계값: 24.0\n\n설계하시는 H형강 보 부재의 플랜지 폭두께비 산정 값이 9.1 이하일 경우 조밀단면으로 분류되어 부재의 소성 휨모멘트 성능을 온전히 발휘할 수 있으나, 9.1을 초과하고 24.0 이하일 경우 비조밀단면으로 분류되어 국부좌굴을 고려한 휨강도 감소 처리를 해야 한다."
}
]
}