본문으로 건너뛰기

"LLM" 태그 — 14개 게시물

Large Language Model 관련 글

모든 태그 보기

Attention Residuals: Transformer의 잔차 연결을 '학습 가능한 어텐션'으로 바꾸자

· 약 6분
김성연
AI Research Engineer, Brain Crew

TL;DR

Moonshot AI가 제안한 Attention Residuals(AttnRes)는 Transformer의 고정된 잔차 연결을 학습 가능한 어텐션 메커니즘으로 교체하는 기법입니다. 각 레이어가 이전 레이어들의 출력을 균등하게 더하는 대신, 소프트맥스 어텐션으로 "어떤 깊이의 표현을 얼마나 참조할지" 학습하여 깊이 방향 게이팅을 구현합니다. Kimi Linear 48B 모델에서 GPQA-Diamond가 36.9→44.4로 향상되었고, 스케일링 법칙 실험에서는 기존 대비 1.25배 컴퓨트를 투입한 것과 동등한 성능을 보였습니다. Block AttnRes 변형은 메모리 오버헤드를 O(Ld)에서 O(Nd)로 줄여 실용성을 확보했습니다.

Key Takeaways

  • 깊이 방향 어텐션: 레이어 간 정보 흐름을 고정된 덧셈에서 학습 가능한 어텐션으로 전환하여 각 레이어가 필요한 깊이의 표현을 선택적으로 참조 가능
  • 실질적 성능 개선: 다단계 추론(GPQA-Diamond +7.5점), 수학(Math +3.6점), 코드 생성(HumanEval +3.1점) 등 전 분야에서 일관된 향상
  • 컴퓨트 효율성: 기존 방식 대비 약 20% 학습 컴퓨트 절감 효과로 대규모 모델 학습 비용 감소 및 AutoML/NAS 이터레이션 가속화
  • Block AttnRes로 실용성 확보: 8개 블록으로 나누면 Full AttnRes 성능 대부분을 유지하면서 메모리 오버헤드를 획기적으로 감소
  • 상호 보완적 개선: FlashAttention 등 효율성 중심 기법과 동시 적용 가능하여 품질과 효율성을 함께 향상

상세 내용

기존 잔차 연결의 구조적 한계

2017년 "Attention Is All You Need" 이후 Transformer 아키텍처의 근간은 놀라울 정도로 바뀌지 않았습니다. 멀티헤드 어텐션, FFN, 그리고 잔차 연결이 그대로 유지되고 있죠. 특히 잔차 연결은 ResNet 시절부터 이어져 온 "이전 레이어 출력을 그냥 더한다"는 단순한 방식을 거의 그대로 사용합니다.

현대 LLM의 표준인 PreNorm Transformer에서 잔차 연결은 매우 단순하게 작동합니다. 각 레이어의 출력을 이전까지의 누적값에 가중치 1로 그냥 더하는 구조로, 수식으로 표현하면 h_l = h_{l-1} + f_l(h_{l-1})입니다.

직관적이고 구현도 간단하지만, 레이어가 깊어질수록 두 가지 치명적인 문제가 발생합니다:

  1. 은닉 상태의 무제한 증가: 레이어 수에 비례해 은닉 상태의 크기가 계속 커집니다
  2. 레이어 기여도 희석: 40번째 레이어의 출력이 아무리 중요한 정보를 담고 있어도 앞선 39개 레이어의 누적값에 묻혀버립니다

Hacker News의 한 개발자는 이 문제를 명쾌하게 정리했습니다. "표준 방식에서는 첫 번째 레이어만 원본 입력을 직접 보고, 이후 모든 레이어는 이전 레이어의 출력만 봅니다. 각 레이어가 원본 입력이나 특정 중간 표현을 선택적으로 참조할 방법이 없습니다."

이 문제는 학계에서 꽤 오래전부터 알려져 있었지만, "그래도 잘 작동하니까"라는 이유로 근본적인 해결 없이 넘어가고 있었습니다.

AttnRes의 핵심: 깊이 방향 어텐션

AttnRes의 아이디어는 개념적으로 깔끔합니다. 각 레이어가 이전 레이어들의 출력을 "균등하게 더하는" 대신, 소프트맥스 어텐션으로 "어떤 레이어의 출력을 얼마나 참고할지" 학습하게 만드는 것입니다.

구체적으로, l번째 레이어의 입력은 h_l = Σ α_{i→l} · v_i로 계산됩니다. 여기서 α는 학습된 가중치로, 이전 모든 레이어 출력에 대한 소프트맥스 어텐션 스코어입니다. 각 레이어는 d차원의 pseudo-query 벡터 w_l 하나만 추가로 학습하면 됩니다.

토큰 간 어텐션이 "어떤 토큰을 참조할까"를 학습하듯, AttnRes는 "어떤 깊이의 표현을 참조할까"를 학습합니다.

Hacker News에서 한 댓글은 이 구조가 LSTM의 입력 게이트(input gate)와 유사하다고 지적했습니다. LSTM이 이전 시간 스텝의 정보를 선택적으로 기억하고 잊는 것처럼, AttnRes는 이전 레이어의 정보를 선택적으로 조합합니다. 이전 시퀀스의 시간 축에서 하던 게이팅을 네트워크의 깊이 축으로 가져온 셈입니다.

어텐션 메커니즘 내부로의 확장

Attention Residuals는 두 가지 차원에서 작동합니다. 첫째는 위에서 설명한 레이어 간 깊이 방향 어텐션이고, 둘째는 어텐션 연산 자체 내부에 잔차 경로를 추가하는 것입니다.

기존 트랜스포머에서 잔차 연결은 어텐션 블록의 바깥에 적용됩니다. 즉, output = input + Attention(input) 형태입니다. 하지만 어텐션 연산 내부에서는 이런 잔차 경로가 없었습니다.

기존 Self-Attention: Attention(Q, K, V) = softmax(QK^T / √d_k)V

Attention Residuals는 이 구조에 잔차 경로를 추가하여, 어텐션 출력이 단순히 가중합된 Value만이 아니라 원래 입력 정보도 직접적으로 보존하도록 합니다. 이를 통해 모델이 "이 토큰은 다른 토큰들을 참조할 필요가 적다"는 판단을 더 쉽게 할 수 있습니다.

특히 긴 시퀀스를 처리할 때 어텐션 스코어의 분포가 극단적으로 치우치는 현상(어텐션 싱크 등)을 완화하는 데 도움이 됩니다.

Block AttnRes: 실용성을 위한 타협

Full AttnRes가 이론적으로 최적이지만, 실제 대규모 모델에 적용하면 O(Ld) 메모리가 필요합니다. 100개 이상의 레이어를 가진 최신 LLM에서는 무시할 수 없는 오버헤드입니다.

이를 해결하기 위해 제안된 Block AttnRes는 레이어들을 N개 블록으로 묶고, 블록 내부에서는 기존 잔차 연결을 사용하되 블록 간에만 어텐션을 적용합니다. 약 8개 블록으로 나누면 Full AttnRes 성능의 대부분을 회복하면서도 메모리 오버헤드를 O(Nd)로 줄일 수 있습니다.

연구팀은 이를 "실질적인 드롭인 대체제"로 제시합니다. Hacker News 커뮤니티에서도 이 블록 구조가 핵심이라는 반응이 많았습니다. 이론적으로 아름다운 Full AttnRes보다, 실제로 기존 모델에 바로 적용할 수 있는 Block AttnRes가 이 연구의 진짜 기여라는 것입니다.

구현 관점에서 보면, 이 기법은 기존 트랜스포머 코드에 최소한의 수정만으로 적용할 수 있다는 장점이 있습니다. 추가되는 파라미터도 적고, 연산 오버헤드도 크지 않습니다.

벤치마크: 숫자로 보는 실질적 개선

연구팀은 Kimi Linear 48B(3B activated, MoE 구조) 모델에 1.4T 토큰을 학습시켜 비교했습니다. 결과는 전 분야에서 일관된 개선을 보여줍니다:

일반 추론

  • MMLU: 73.5 → 74.6
  • BBH: 76.3 → 78.0

다단계 추론 (가장 인상적)

  • GPQA-Diamond: 36.9 → 44.4 (+7.5점)

수학 및 코드

  • Math: 53.5 → 57.1
  • HumanEval: 59.1 → 62.2
  • MBPP: 72.0 → 73.9

중국어

  • C-Eval: 79.6 → 82.5

스케일링 법칙 실험은 더 의미심장합니다. Block AttnRes를 적용한 모델이 기존 방식으로 1.25배 더 많은 컴퓨트를 투입해 학습한 모델과 동등한 손실값을 달성했습니다.

Hacker News의 한 댓글은 이를 "학습에 필요한 컴퓨트를 약 20% 절감하는 효과"로 해석하면서, 이것이 단순히 거대 모델 학습 비용을 줄이는 것 이상의 의미가 있다고 지적했습니다. 자동화된 모델 아키텍처 탐색(AutoML/NAS)의 이터레이션 속도도 그만큼 빨라지기 때문입니다.

어텐션 메커니즘 개선의 맥락

어텐션 메커니즘의 개선은 현재 AI 연구에서 가장 활발한 분야 중 하나입니다:

  • FlashAttention: 메모리 접근 패턴 최적화로 속도와 메모리 효율 개선
  • MQA/GQA: Key/Value 헤드 공유로 추론 시 KV 캐시 메모리 절약
  • Ring/Striped Attention: 시퀀스 분산 처리로 컨텍스트 길이 확장

Attention Residuals는 이들과 다른 축의 개선입니다. 위의 기법들이 주로 효율성(속도, 메모리)에 초점을 맞춘다면, Attention Residuals는 어텐션의 표현력과 학습 안정성이라는 품질 측면에 집중합니다.

중요한 것은 이 기법이 FlashAttention 등과 상호 보완적이라는 점입니다. 즉, 동시에 적용할 수 있어 효율성과 품질을 함께 개선할 수 있는 가능성이 있습니다.

한국 개발자를 위한 실무 적용 가이드

LLM을 직접 학습하거나 파인튜닝하는 팀이라면 이 기법을 실험해볼 가치가 있습니다. 특히 다음 상황에서 효과적일 수 있습니다:

  1. 긴 문서 처리: 한국어 모델에서 장문맥 처리 성능 개선
  2. RAG 파이프라인: 컨텍스트 활용도가 떨어지는 문제 완화
  3. 다단계 추론: GPQA-Diamond에서 보인 것처럼 복잡한 추론 태스크에서 특히 효과적

MoonshotAI는 중국의 AI 스타트업으로 Kimi라는 장문맥(long-context) LLM으로 알려져 있습니다. 이 팀이 어텐션 메커니즘 개선 연구를 공개한 것은, 긴 컨텍스트 처리에서 어텐션 메커니즘의 한계를 실제로 경험하고 그 해법을 모색한 결과일 가능성이 높습니다.

GitHub에 코드가 공개되어 있으므로, 기존 학습 코드에 통합하는 데 큰 어려움은 없을 것으로 보입니다. 다만 아직 초기 연구 단계이므로 다양한 태스크와 모델 규모에서의 검증이 필요합니다. 논문과 코드를 함께 살펴보며, 자신의 유스케이스에 맞는지 먼저 소규모 실험으로 확인하는 것을 권합니다.

학습 역학의 변화

AttnRes가 벤치마크 수치 너머로 흥미로운 점은 학습 역학(training dynamics)의 변화입니다. 기존 PreNorm에서 레이어가 깊어질수록 개별 레이어의 기여도가 희석되는 문제를 해결하여, 각 레이어가 실제로 필요한 정보를 선택적으로 참조할 수 있게 됩니다.

이는 깊은 네트워크에서도 그래디언트가 안정적으로 흐르고, 각 레이어가 의미 있는 변환을 학습할 수 있는 환경을 제공합니다. PreNorm의 희석 문제를 완화하면서도 학습의 안정성은 유지하는 균형점을 찾은 것입니다.

References

LLM Architecture Gallery

· 약 6분
최재훈
LEAD (AI Research Engineer), Brain Crew

TL;DR

Sebastian Raschka가 운영하는 LLM Architecture Gallery는 GPT-2부터 최신 Frontier 모델까지 주요 LLM들의 아키텍처를 시각화하여 비교할 수 있는 참고 자료입니다. 각 모델의 파라미터 규모, 컨텍스트 길이, 어텐션 메커니즘, 디코더 타입 등 핵심 사양을 한눈에 파악할 수 있으며, GPT-2의 기본 Dense 구조부터 DeepSeek V3의 MoE, xLSTM 등 다양한 아키텍처 진화를 추적할 수 있습니다. AI Research Engineer가 문제 상황에 맞는 적절한 모델 선택과 아키텍처 설계 인사이트를 얻을 수 있는 실무 레퍼런스입니다.

Key Takeaways

  • 아키텍처 진화 추적: GPT-2(1.5B, MHA)부터 최신 Frontier 모델(DeepSeek V3 671B, Llama 4 400B 등)까지 디코더 구조, 어텐션 메커니즘(MHA → GQA → MoE), 정규화 기법의 변화를 체계적으로 비교 가능
  • 스케일별 설계 패턴: 소형(1B-8B), 중형(24B-32B), 대형(120B-400B), 초대형(671B-1T) 파라미터 범위별로 서로 다른 아키텍처 선택(Dense vs MoE, Attention 전략)을 확인할 수 있어 프로젝트 요구사항에 맞는 모델 선택 기준 제공
  • 기술적 디테일 확인: 각 모델의 config.json, 라이선스, 컨텍스트 길이, 포지셔널 임베딩 방식(Absolute → RoPE), Key detail 등 실무 구현에 필요한 정보를 팩트시트로 제공
  • 다양한 혁신 사례: xLSTM(7B)처럼 Transformer 외 아키텍처, Linear Attention을 활용한 Kimi 시리즈, MoE 최적화를 보여주는 Qwen3/DeepSeek 계열 등 실험적 접근법 학습 가능
  • 지속적 업데이트: 2026년 3월까지 업데이트되며(최신 Mistral Large 3 673B, GLM-5 744B 등 포함) 물리적 포스터로도 제공되어 팀 학습 및 레퍼런스용으로 활용 가능

상세 내용

Sebastian Raschka 박사가 운영하는 LLM Architecture Gallery는 현대 대규모 언어모델들의 아키텍처를 체계적으로 정리한 시각적 참고 자료입니다. 이 갤러리는 그의 주요 아티클인 "The Big LLM Architecture Comparison", "From GPT-2 to gpt-oss", "From DeepSeek V3 to V3.2", "A Dream of Spring for Open-Weight LLMs" 등에서 다룬 아키텍처 다이어그램과 팩트시트를 한 곳에 모아놓은 것입니다.

Provider LLM(Frontier 급 모델)을 주로 사용하는 실무 환경에서도 각 모델의 내부 아키텍처를 이해하면 LLM 기반 문제에 더 유연하고 전략적으로 접근할 수 있습니다. 예를 들어 레이턴시가 중요한 상황에서는 Dense 모델을, 대규모 처리에는 MoE 구조를 선택하는 등의 의사결정이 가능해집니다.

베이스라인: GPT-2부터 시작하기

갤러리는 GPT-2 XL (1.5B) 을 Late-2019 dense baseline으로 포함하여, Transformer 디코더 스택이 GPT-2 이후 얼마나 변화했는지 비교할 수 있는 기준점을 제공합니다.

GPT-2 XL 주요 사양:

  • Scale: 1.5B 파라미터
  • Context: 1,024 토큰
  • Decoder type: Dense
  • Attention: MHA(Multi-Head Attention) with learned absolute positional embeddings
  • Key detail: Dropout, GELU, LayerNorm을 사용한 클래식 GPT-2 레시피

이 기본 구조를 이해하면 이후 모델들이 어떤 방향으로 최적화되었는지(GQA 도입, RoPE 사용, Pre-norm 전환 등) 명확히 파악할 수 있습니다.

주요 모델 아키텍처 비교

Llama 계열의 진화

**Llama 3 (8B)**는 GPT-2 대비 진화된 Reference dense stack을 보여줍니다:

  • Attention: GQA(Grouped Query Attention) with RoPE
  • Context: 8,192 토큰 (GPT-2의 8배)
  • Key detail: Pre-norm 구조로 학습 안정성 향상
  • License: Llama 3 Community License

**Llama 3.2 (1B)**는 소형 모델 카테고리에서 Qwen 등과 비교되는 벤치마크를 제공하며, **Llama 4 Maverick (400B)**는 초대규모 모델의 최신 사례를 보여줍니다.

MoE 아키텍처: DeepSeek & Qwen

DeepSeek V3 (671B)V3.2는 Mixture-of-Experts 구조를 활용한 효율적인 초대규모 모델의 대표 사례입니다:

  • 전체 671B 파라미터를 가지면서도 실제 활성화되는 파라미터는 일부만 사용
  • DeepSeek R1 (671B)는 Reasoning 능력을 강화한 변형

Qwen3 계열은 다양한 스케일에서 MoE를 적용:

  • Qwen3 (235B-A22B): 235B 총 파라미터, 22B 활성 파라미터
  • Qwen3 Next (80B-A3B): 더욱 aggressive한 sparsity
  • Qwen3 (32B), (8B), (4B): Dense 구조로 다양한 규모 지원

극소형 모델: SmolLM & Nanbeige

SmolLM3 (3B)Gemma 3 (270M) 같은 소형 모델들은 Edge 디바이스나 리소스 제약 환경에서 중요합니다. Nanbeige 4.1 (3B)Tiny Aya (3.35B) 는 특정 언어나 도메인에 특화된 경량 옵션을 제공합니다.

실험적 아키텍처: xLSTM

xLSTM (7B) 은 Transformer가 아닌 LSTM 기반 접근법으로, 장기 의존성 처리와 메모리 효율성에서 다른 관점을 제시합니다. 이는 Attention 메커니즘의 대안을 탐구하는 연구자들에게 중요한 레퍼런스가 됩니다.

초대규모 모델들

1T(1조) 파라미터급 모델들도 포함되어 있습니다:

  • Kimi K2 (1T), K2.5 (1T): Linear Attention 활용
  • Ling 2.5 (1T): 중국어 특화
  • GLM-5 (744B): 최신 초대규모 모델

이들은 주로 MoE 구조를 통해 실제 inference 비용을 관리하며, 각기 다른 최적화 전략을 보여줍니다.

핵심 기술 요소 비교

Attention 메커니즘 진화

  1. MHA (Multi-Head Attention): GPT-2 시대 표준
  2. GQA (Grouped Query Attention): Llama 3, OLMo 등에서 KV cache 효율화
  3. MoE: DeepSeek, Qwen, Mistral Large 등에서 조건부 계산
  4. Linear Attention: Kimi 시리즈에서 긴 컨텍스트 처리 최적화

포지셔널 임베딩

  • Learned Absolute: GPT-2
  • RoPE (Rotary Position Embedding): 대부분의 현대 모델 표준

정규화 전략

  • Post-norm: 초기 Transformer
  • Pre-norm: Llama, OLMo 등 현대 모델의 표준 (학습 안정성)

실무 활용 방법

  1. 모델 선택 기준 수립: 프로젝트의 레이턴시, 처리량, 메모리 제약에 따라 Dense(작은 규모, 예측 가능한 성능) vs MoE(큰 규모, 효율적 처리) 선택
  2. 아키텍처 벤치마킹: 유사 규모 모델들(예: 7B-8B Dense 그룹)의 설계 차이점 비교로 최적화 아이디어 도출
  3. 라이선스 확인: 각 팩트시트의 License 정보로 상업적 사용 가능 여부 즉시 파악
  4. 구현 레퍼런스: config.json 링크와 Tech report로 재현 가능한 구현 세부사항 확인
  5. 팀 교육 자료: Redbubble 포스터(Medium 사이즈: 26.9 x 23.4 inches 권장)를 활용한 오프라인 학습 환경 구축

지속적인 업데이트

갤러리는 2026년 3월 20일까지 업데이트되었으며, 새로운 모델이 출시될 때마다 지속적으로 추가됩니다. 부정확한 팩트시트나 링크 오류는 Architecture Gallery issue tracker를 통해 제보할 수 있습니다.

최근 추가된 모델 예시:

  • Mistral Large 3 (673B)
  • GLM-4.7 (355B)
  • Nemotron 3 Super (120B-A12B)
  • Arcee AI Trinity Large (400B)
  • Sarvam (30B, 105B)

학습 커뮤니티와 지속적 성장

Sebastian Raschka는 이 갤러리 외에도 "LLMs From Scratch" 코스, AI Newsletter, Reasoning Models 분석 등을 통해 LLM 생태계의 최신 지식을 공유하고 있습니다. LLM 아키텍처는 계속 진화하고 있으며, Frontier 모델을 사용하는 엔지니어도 내부 동작 원리를 이해함으로써 더 나은 프롬프트 엔지니어링, 파인튜닝 전략, 배포 최적화를 수행할 수 있습니다.

"다같이 평생 공부합시다"라는 원본 문서의 메시지처럼, 이 갤러리는 AI Research Engineer가 지속적으로 최신 아키텍처 트렌드를 따라가고 더 넓은 시각에서 LLM 기반 문제에 유연하게 대응할 수 있도록 돕는 살아있는 레퍼런스입니다.

References

LLM Post Training

· 약 6분
최재훈
LEAD (AI Research Engineer), Brain Crew

TL;DR

LLM Post Training은 사전학습된 언어 모델을 실제 사용 가능한 AI 어시스턴트로 변환하는 핵심 과정입니다. Supervised Fine-Tuning(SFT)으로 instruction-following 능력을 학습한 후, Reinforcement Learning from Human Feedback(RLHF)를 통해 인간의 선호도에 맞춰 모델을 정렬합니다. 최근에는 Direct Preference Optimization(DPO) 같은 방법으로 RL 없이도 효과적인 선호도 학습이 가능해졌으며, Rejection Sampling과 iterative training을 통해 지속적인 성능 개선을 달성할 수 있습니다.

Key Takeaways

  • Post Training은 3단계 프로세스: SFT → Reward Modeling → RL/DPO로 구성되며, 각 단계는 모델의 유용성(helpfulness)과 무해성(harmlessness)을 점진적으로 개선
  • DPO는 RL의 실용적 대안: Reward model과 복잡한 RL 파이프라인 없이 preference pair 데이터만으로 직접 최적화 가능하여 구현 및 안정성 측면에서 유리
  • Rejection Sampling으로 데이터 품질 향상: 모델이 생성한 여러 샘플 중 높은 reward를 받은 응답만 선별하여 SFT 데이터셋을 강화하는 self-improvement 기법
  • Iterative training이 핵심: SFT와 RL/DPO를 반복적으로 수행하며, 매 iteration마다 새로운 데이터로 학습하여 모델의 지속적인 성능 향상 달성
  • 실무 적용 시 trade-off 고려: Helpfulness와 harmlessness 간의 균형, 학습 안정성과 성능 간의 trade-off를 도메인 특성에 맞게 조정 필요

상세 내용

Post Training의 전체 구조

LLM Post Training은 사전학습(Pre-training)된 base model을 실제 사용자와 상호작용할 수 있는 대화형 AI로 변환하는 과정입니다. 사전학습 단계에서는 대규모 텍스트 코퍼스로 next-token prediction을 학습하지만, 이것만으로는 사용자의 지시를 따르거나 안전한 응답을 생성하기 어렵습니다.

Post Training은 크게 세 가지 주요 단계로 구성됩니다:

  1. Supervised Fine-Tuning (SFT): Instruction-response 쌍으로 모델을 fine-tuning
  2. Reward Modeling: 인간의 선호도를 학습하는 reward model 구축
  3. Reinforcement Learning (RL) / Direct Preference Optimization (DPO): 선호도에 맞춰 모델 정렬

Supervised Fine-Tuning (SFT)

SFT는 Post Training의 첫 번째 단계로, 고품질의 instruction-response 데이터셋을 사용하여 모델이 사용자의 요청을 이해하고 적절히 응답하는 능력을 학습합니다.

핵심 특징:

  • 기존의 일반적인 supervised learning과 동일한 방식으로 학습
  • 입력(instruction)과 출력(response) 쌍으로 구성된 데이터 필요
  • 모델이 instruction-following 능력을 획득하는 기초 단계

SFT 데이터의 품질이 최종 모델의 성능을 크게 좌우합니다. 따라서 다양한 도메인과 태스크를 포괄하면서도 높은 품질을 유지하는 데이터셋 구축이 중요합니다.

Reward Model Training

Reward Model은 인간의 선호도를 수치화하여 모델 응답의 품질을 평가하는 역할을 합니다. RLHF(Reinforcement Learning from Human Feedback)의 핵심 구성요소입니다.

학습 방식:

  • 동일한 입력에 대해 여러 응답을 생성하고, 인간 평가자가 선호도를 매깁니다
  • Preference pair 형태의 데이터: (prompt, chosen_response, rejected_response)
  • Bradley-Terry 모델을 기반으로 ranking loss를 최소화하도록 학습

Reward Model은 이후 RL 단계에서 모델의 행동을 guide하는 신호로 사용되며, 인간의 피드백을 효율적으로 스케일업할 수 있게 해줍니다.

Reinforcement Learning from Human Feedback (RLHF)

RLHF는 Reward Model을 활용하여 LLM을 인간의 선호도에 맞게 최적화하는 단계입니다. 주로 Proximal Policy Optimization (PPO) 알고리즘이 사용됩니다.

학습 프로세스:

  1. SFT 모델에서 prompt에 대한 응답 생성
  2. Reward Model이 생성된 응답의 점수를 평가
  3. PPO를 통해 높은 reward를 받는 방향으로 policy 업데이트
  4. KL divergence penalty를 추가하여 원본 SFT 모델로부터 너무 멀어지지 않도록 규제

장단점:

  • 장점: 인간의 복잡한 선호도를 효과적으로 학습 가능
  • 단점: 학습이 불안정하고, reward model, reference model, policy model 등 여러 모델을 동시에 관리해야 하는 복잡성

Direct Preference Optimization (DPO)

![](https://prod-files-secure.s3.us-west-2.amazonaws.com/bb84b169-cb88-81fc-90c3-00032f05f905/75298940-c149-426f-81e4-cf709b8b691d/image.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB4663GPPEBMS%2F20260325%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260325T065709Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEN%2F%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDZrbugPUCbzgt%2FOXDqMwyPEqw4l91MjfgrjlbZGwwVXgIhAK%2Bv%2Bowqi17EMdRgWEvO%2B3PZIK2wacd%2B484IB8H5InLSKogECKf%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEQABoMNjM3NDIzMTgzODA1IgzgVVeN9sn5VNRnpCcq3ANLPfIq5vvCnEMvmXjBH0xPG%2BdtFlb3BwYyNy9S1lWVhKBH%2FwUVnoToCFAbapCtJuzLJAVg%2Bc%2Fg48bDqjjdH6otZKAyqCSFQsIn6LXfV2OBJ2dgWUDjKQIW%2FsYQPhiGmFXfyKfPAInDlUAnjGio%2FyAUTB0YoekjhKU2pJSZfsCSv1fh7RbvrCgyye231Kdf3eet%2B7oKAUPJICqpfgTOxNHz8zXhNgwIMFnQGw1ygsWzxiPcd22vot1oa5QoOt9qdcVXhh9kvSHzlf%2ByFGoQ9fP%2Fy1csOeNVw05UHv%2FoajCTRYjUFAW86EzyGDdboqhSkK2CHWDZFfDgMjGunIffzGpkTGDl7%2BjrMbaNj1Syxsq8kafa6LQFaRxCJt8MBE47moH0mZATK%2FQiVvreFL5bQK9bshsO1jbhRT3zPyM3KUkpBfW9XfI0qCjbQj81hZ4n8spJ%2BE1MUvCV8K3dCzyaQi2h21EpuiRVBWlzxu34TRX5TBz9qrTnXnukzR8vS0M59Smv4Bhg%2BnTEujeeBEcYWFgF4sD8ITvusPpSsyGnoPStyWizCJh6kyKWHS6TvoKx%2FvDWbJajZbFlTz0nOnvTVTwwqWTnok8tzWRunkDag59Y54mfU1iVWkijj9CY%2FDC7%2FY3OBjqkAbP%2F2ef6A8887gUbu%2F80lGRhpzTHeaqoAq0Qw5F5YZCbx11ADz4cGXWG%2BbAF9tcmZG0i4eMiQU5CjnRNP1yjYUblP%2Bp2cLzcZhsYpMM%2FM08X%2F1sYR2LyanJsfczKYLpZxR%2

[EC2] GPU 인스턴스 기초 프로비저닝 가이드

· 약 6분
최재훈
LEAD (AI Research Engineer), Brain Crew

TL;DR

AWS EC2에서 GPU 인스턴스를 프로비저닝하는 실무 가이드입니다. P/G/Inf 시리즈 등 인스턴스 타입 선택부터 AMI 설정, 네트워크 구성, 스토리지 최적화까지 GPU 워크로드 배포 시 필수적으로 고려해야 할 사항들을 단계별로 다룹니다. 특히 리전별 가용성, Deep Learning AMI 활용, 캐퍼시티 블록 구매 시 주의사항, 인스턴스 스토어의 임시성 등 실제 운영에서 마주칠 수 있는 함정들을 강조합니다.

Key Takeaways

  • 인스턴스 타입 선택의 중요성: P 시리즈(학습용), G 시리즈(추론/렌더링), Inf 시리즈(추론 최적화)를 목적에 맞게 선택해야 하며, 리전별 가용성 사전 확인 필수 (예: 서울 리전에서는 H100 인스턴스 불가)
  • Deep Learning AMI 활용: NVIDIA 드라이버, CUDA, cuDNN이 사전 설치된 AMI를 사용하면 초기 설정 시간을 대폭 절약 가능
  • 캐퍼시티 블록 구매 주의: GPU 경쟁 과열 시 1시간 단위 즉시 예약이며 환불 불가이므로 신중한 검토 필요
  • 스토리지 전략: gp3/io2 EBS를 기본으로 사용하되, 인스턴스 스토어(NVMe)는 인스턴스 중지 시 데이터 손실되므로 임시 데이터(캐시, 버퍼)에만 활용
  • 자원 최소화 원칙: GPU 인스턴스는 고비용 리소스이므로 사용 전 리뷰 프로세스를 거치고, 불필요한 가동 시간 최소화 필요

상세 내용

GPU 리소스 사용 승인 프로세스

GPU 인스턴스는 높은 비용이 발생하는 리소스이므로, 사용 전 내부 리뷰 프로세스를 통해 적절한 타입과 용량을 검증받아야 합니다. 이는 불필요한 자원 낭비를 방지하고 비용 효율성을 확보하기 위한 필수 단계입니다.

GPU 인스턴스 타입 이해

AWS는 용도에 따라 구분된 GPU 인스턴스 패밀리를 제공합니다:

  • P 시리즈 (P3, P4, P5): 머신러닝 학습 및 고성능 컴퓨팅(HPC)에 최적화. 대규모 모델 학습이나 분산 학습 워크로드에 적합
  • G 시리즈 (G4dn, G5, G6): 그래픽 렌더링, 게임 스트리밍, ML 추론 등 그래픽 집약적 작업에 특화
  • Inf 시리즈: Amazon 자체 Inferentia 칩을 사용한 ML 추론 최적화 인스턴스. 비용 대비 추론 성능이 우수

리전별 가용성 사전 확인

모든 AWS 리전에서 모든 GPU 인스턴스 타입을 사용할 수 있는 것은 아닙니다. 특히 최신 GPU를 탑재한 인스턴스의 경우 제한적입니다.

중요 예시: ap-northeast-2(서울) 리전에서는 H100 1EA 인스턴스(p5.4xlarge) 사용이 불가능합니다. 프로젝트 시작 전 목표 리전에서 필요한 인스턴스 타입의 가용성을 반드시 확인해야 합니다.

AWS Instance 목록

AMI 선택 전략

GPU 워크로드를 위한 인스턴스는 적절한 NVIDIA 드라이버, CUDA 툴킷, cuDNN 등이 사전 설치된 AMI를 사용하는 것이 권장됩니다.

권장 AMI:

  • Deep Learning AMI (Ubuntu/Amazon Linux): NVIDIA 드라이버, CUDA, cuDNN이 사전 설치되어 있어 즉시 딥러닝 프레임워크 사용 가능
  • AWS Marketplace의 GPU 최적화 AMI: PyTorch, TensorFlow 등 특정 프레임워크가 미리 설정된 이미지

AMI 선택

일반 AMI를 선택하는 경우 NVIDIA 드라이버를 수동으로 설치해야 하므로 초기 설정 시간이 증가합니다.

인스턴스 생성 프로세스

1. 인스턴스 타입 및 용량 결정

GPU 리소스 검토 과정에서 승인받은 내역을 바탕으로 적절한 인스턴스 유형, VRAM 용량을 선택합니다.

인스턴스 생성 시작

인스턴스 설정 1

인스턴스 설정 2

인스턴스 설정 3

![인스턴스 설정 4](https://prod-files-secure.s3.us-west-2.amazonaws.com/bb84b169-cb88-81fc-90c3-00032f05f905/576f9463-ab24-45ae-a26b-081dc9018a46/image.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466XOL2RWTI%2F20260325%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260325T064504Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEN%2F%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJHMEUCIQDqPcWww2%2FpQ%2Be1RS0GoLH2PqRGairWhkf5VAqDzJjrDgIgDFxY3LBTm2DChRO06qiqQORa%2BTwwwAGB4Irhokw2nnkqiAQIp%2F%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FARAAGgw2Mzc0MjMxODM4MDUiDHWk54hH51hF8rmCtCrcA8SybE%2Bcehb2%2Bxjqq9d6ZrsWnzwPaWhd310kPdYge9qDhfuTquJLhuwQcydhVE3LkJeo8LjYfrE1noL6PPxX5KdYBS2OsUe822kgvtmslCvNWwl897%2Bdlw6A%2FKYpXBadSwsUbtdCmDM2CWy9UnqSPvc1MVuX26RJ7grJzCZ3FwJ%2BN0RioHjzyyQpgHNnBjzCOc5T0P639oKy%2F5%2B9vNAYW4BZqW5X5U50nf%2BhCk8%2F0It2nYhZm2fxi0jHp%2BybPeI2xY1lrcGM%2BB4M1dljm7C%2BdWI2CLLDe1%2FMwhQo5GX10j1ALiHiEBNN8aMePUlAek4CtbmJ7MxtRN1cPhkFfO7pqB1JLKI5PHvDlycWmHih%2BWftE6eJ3Es5DmY8zJ2GlrL6llNGp%2FujdYfYXfszKydwMys5s5FeurJ6IfhXC%2F24QdVJQnLjVJF6SSC29%2B1tF5Iy1gwSQr4K2bgHNkW6qBK%2FNG32gESCN9X6e2adDdyxh3Pe%2B99nKzDAZP9R72XRiOT2GYrwf9tmnGynn3cIQSn2Oc3f16V1srluXAUxx19tmZk39KFjMccQGUO37wfn5dfg6qcm%2BEHlqr3sS7aVdWgrWLKnx%2BN5tkREfAA0DRwnHAXJbwSgcbwIXb7iPkukMLv9jc4GOqUB%2BeM2AI%2BAgNC%2FLYyXnjFoaBm1dUwt%2FtgqITp8E8GcmhAxjiHbWr%2FBsOJShvWO2evdkrG8rq8Wo1o1kFTQBrkPgJGsf%2BSJSvM%2BSZvU1f9XQXFeR%2Bs%2B2oNARyVNv3RFxSbvy9pc84q8KCpgKOIL%2FidQ%2FWiTrZ7MK8ddm6oGiwh%2BheLj3BOrdd9mImjLSbeJBeG%2BcpT38ig

프롬프트 캐싱(Prompt Caching) 전략

· 약 8분
김태한
AI Research Engineer, Brain Crew

TL;DR

프롬프트 캐싱은 AI 에이전트의 비용을 최대 90% 절감하고 응답 속도를 획기적으로 개선하는 핵심 기술입니다. 접두사 매칭(Prefix Matching) 원리에 기반하여, 변하지 않는 컨텍스트는 앞에 배치하고 동적 요소는 뒤로 보내는 전략이 필수적입니다. 시스템 프롬프트에 타임스탬프를 넣거나 도구 세트를 수시로 변경하는 등 캐시를 무효화하는 안티패턴을 피하고, 캐시 히트율을 시스템 가용성만큼 중요한 지표로 모니터링해야 합니다. Claude Code 팀의 실전 경험에서 나온 5가지 골든 룰을 따르면 비용 효율성과 사용자 경험을 동시에 극대화할 수 있습니다.

Key Takeaways

  • 프롬프트 레이아웃 설계가 핵심: 전역 정적 콘텐츠 → 프로젝트 컨텍스트 → 세션 컨텍스트 → 대화 기록 순으로 계층화하여 여러 세션이 상단부 캐시를 공유하도록 설계
  • 캐시 무효화 방지 원칙: 시스템 프롬프트에 동적 정보(타임스탬프 등) 절대 삽입 금지, 모델과 도구 세트는 고정하고 서브 에이전트로 유연성 확보
  • 도구 기반 상태 관리: 프롬프트를 직접 수정하는 대신 EnterPlanMode 같은 도구 호출로 상태 전환을 구현하여 정적 프롬프트 구조 보호
  • 지연 로딩 패턴 활용: 수십 개의 도구는 스텁(Stub)으로 제공하고 ToolSearch로 필요할 때만 상세 스키마 로드하여 접두사 안정성 유지
  • 캐시 히트율을 SLA로 관리: 히트율을 시스템 가용성 수준의 KPI로 취급하고, 일정 수준 이하로 떨어지면 알람을 발생시키는 운영 체계 구축

상세 내용

왜 프롬프트 캐싱이 AI 에이전트의 생존 전략인가

현대적인 AI 에이전트는 Claude Code처럼 긴 대화 세션을 유지하고, 대규모 코드베이스를 참조하며, 반복적인 도구 호출(Tool Call)을 수행합니다. 이 과정에서 매 요청마다 수만 개의 토큰을 모델에 새로 입력하는 것은 두 가지 치명적인 문제를 야기합니다.

첫째, 비용 폭증입니다. 일반적인 입력 토큰 비용은 프로덕션 환경에서 빠르게 누적되며, 특히 장시간 세션이나 대규모 컨텍스트를 다루는 에이전트의 경우 운영 비용이 비즈니스 모델 자체를 위협할 수 있습니다.

둘째, 레이턴시 증가입니다. 모델이 입력을 처음부터 다시 처리(Prefilling)하는 시간은 사용자 경험에 직접적인 영향을 미칩니다. 특히 실시간 코딩 어시스턴트처럼 빠른 피드백이 중요한 애플리케이션에서는 몇 초의 지연도 사용 가능성을 크게 저하시킵니다.

프롬프트 캐싱(Prompt Caching)은 이전 요청에서 계산된 컨텍스트를 재사용하여 이 두 문제를 동시에 해결합니다:

  • 최대 90%의 비용 절감: 캐시된 토큰은 신규 입력 토큰 대비 대폭 할인된 가격으로 처리됩니다
  • 응답 속도 향상: Prefilling 단계를 건너뛰어 응답 시작 시간(Time to First Token)이 비약적으로 단축됩니다

접두사 매칭(Prefix Matching): 캐싱의 작동 원리

프롬프트 캐싱은 '접두사 매칭'이라는 엄격한 규칙에 따라 작동합니다. API는 요청의 시작 부분부터 특정 캐시 브레이크포인트(Breakpoint)까지의 내용이 이전 요청과 완전히 동일할 때만 캐시를 적용합니다.

여기서 "완전히 동일"이란 표현이 핵심입니다:

  • 단 하나의 문자가 다르거나
  • 공백 하나가 추가되거나
  • 도구 정의의 순서가 바뀌거나
  • JSON 키의 직렬화 순서가 달라지면

해당 지점 이후의 모든 캐시는 즉시 무효화(Invalidate)됩니다.

이러한 특성 때문에 캐싱 전략의 핵심 원칙이 도출됩니다:

"변하지 않는 것은 앞으로, 자주 변하는 것은 뒤로"

이 원칙을 지키지 않으면 캐시가 지속적으로 깨지면서 오히려 캐시 생성 비용만 발생하여 역효과가 납니다.

프롬프트 레이아웃의 4계층 구조

Claude Code 팀이 실전에서 검증한 최적의 프롬프트 구조는 변경 빈도에 따라 다음과 같이 4계층으로 구성됩니다:

1. 전역 정적 컨텐츠 (Static System Prompt & Tools)

  • 모든 사용자, 모든 세션에서 공통으로 사용되는 시스템 지침
  • 기본 도구(Tool) 정의 세트
  • 가장 변경이 적고, 가장 많은 세션이 공유하는 레이어

2. 프로젝트 컨텍스트 (Project-specific Context)

  • 특정 프로젝트의 코딩 규칙이나 아키텍처 가이드
  • CLAUDE.md 같은 프로젝트 설정 파일
  • 프로젝트 내 모든 세션이 공유

3. 세션 컨텍스트 (Session Context)

  • 현재 사용자 세션의 고유 정보
  • 작업 중인 파일 목록이나 초기 상태
  • 한 세션 내에서는 안정적으로 유지

4. 대화 기록 (Conversation Messages)

  • 실시간으로 추가되는 사용자-모델 간 메시지
  • 가장 빈번하게 변경되는 레이어

이 순서를 엄격히 지켜야 여러 사용자와 세션이 상위 레이어의 캐시를 효과적으로 공유하여 전체 시스템의 캐시 히트율(Hit Rate)을 극대화할 수 있습니다.

캐시 무효화를 방지하는 5가지 골든 룰

1. 시스템 프롬프트에 동적 정보 삽입 금지

가장 흔한 실수는 시스템 프롬프트에 타임스탬프를 포함하는 것입니다:

❌ 나쁜 예:
You are a helpful assistant. Current time: 2024-02-20 14:32:15

이렇게 하면 매분마다 캐시가 무효화되어 캐싱의 효과가 완전히 사라집니다.

✅ 좋은 예:
시스템 프롬프트: You are a helpful assistant.
최신 사용자 메시지: [현재 시각: 2024-02-20 14:32:15] 사용자 질문...

날짜, 시간, 세션 ID 같은 동적 정보는 반드시 대화의 최신 메시지나 별도의 시스템 메시지로 전달하여 상단부의 정적 접두사를 보호해야 합니다.

2. 모델 및 도구 세트 고정

모델 전환의 함정 비용을 절감하려고 대화 중간에 claude-opus-4claude-haiku-3.5로 모델을 바꾸면 캐시를 처음부터 다시 쌓아야 하므로 오히려 더 많은 비용이 발생할 수 있습니다.

해결책: 주요 에이전트는 고성능 모델로 고정하고, 비용 최적화가 필요한 서브 태스크는 별도의 서브 에이전트(Sub-agent)로 분리하여 각각 최적의 모델을 사용하게 합니다.

도구 세트의 안정성 특정 상황에만 도구를 노출하려고 도구 정의를 동적으로 추가/제거하면 캐시가 지속적으로 깨집니다.

해결책: 모든 가능한 도구를 항상 정의해두고, 시스템 지침이나 컨텍스트를 통해 "지금은 이 도구만 사용하라"고 모델을 가이드합니다. 모델은 충분히 똑똑해서 이런 지침을 잘 따릅니다.

3. 상태 전환을 도구로 구현하기 (Plan Mode 사례)

사용자가 "계획 모드"에 진입할 때 시스템 프롬프트를 수정하는 대신, 다음과 같이 도구를 활용합니다:

# ❌ 나쁜 예: 프롬프트 직접 수정
system_prompt = base_prompt + "\n\nYou are now in plan mode..."

# ✅ 좋은 예: 도구 호출로 상태 전환
tools = [
{
"name": "EnterPlanMode",
"description": "Switch to planning mode for high-level design"
}
]

# 모델이 EnterPlanMode를 호출하면
# tool_result로 상태 메시지 반환
tool_result = {
"type": "system",
"content": "Now in plan mode. Focus on architecture..."
}

모델은 도구 호출 결과로 전달된 시스템 메시지를 통해 현재 상태를 인식하고, 정적 프롬프트는 전혀 변경되지 않아 캐시가 유지됩니다.

4. 도구 검색(Tool Search)과 지연 로딩(Deferred Loading)

수십 개의 도구를 모두 정의하면 초기 컨텍스트가 너무 커져 비용이 증가합니다. 하지만 도구를 제거하면 캐시가 깨지는 딜레마가 발생합니다.

해결책: 스텁(Stub) + 지연 로딩 패턴

# 초기에는 이름과 간단한 설명만 제공
tools = [
{"name": "ToolA", "description": "Brief description"},
{"name": "ToolB", "description": "Brief description"},
# ... 수십 개
{"name": "ToolSearch", "description": "Get detailed schema for a tool"}
]

# 모델이 ToolSearch("ToolA")를 호출하면
# 그때 상세 스키마를 반환
detailed_schema = {
"name": "ToolA",
"parameters": {...}, # 상세 파라미터 정보
"examples": [...]
}

이 패턴을 사용하면 도구 목록 자체는 안정적으로 유지되어 접두사 캐시가 보존되면서도, 필요한 순간에만 상세 정보를 로드하여 초기 컨텍스트 크기를 최소화할 수 있습니다.

5. 캐시 세이프 포킹(Cache-safe Forking)

대화가 길어져 컨텍스트 윈도우가 가득 차면 요약(Compaction)이 필요합니다. 이때 새로운 빈 세션을 만들어 요약하면 기존 캐시를 전혀 활용하지 못합니다.

최적화된 요약 전략:

# ❌ 비효율적: 새 세션으로 요약
new_request = {
"system": system_prompt,
"messages": [{"role": "user", "content": "Summarize this: " + full_history}]
}

# ✅ 효율적: 기존 컨텍스트 유지 + 요약 요청 추가
fork_request = {
"system": system_prompt, # 캐시됨
"tools": tools, # 캐시됨
"messages": [
...existing_messages, # 캐시됨
{"role": "user", "content": "Summarize the conversation so far"}
]
}

기존 대화의 모든 컨텍스트를 그대로 포함한 채 마지막에 요약 요청만 추가하면, 이전 계산량을 100% 재사용하면서 요약본만 새로 생성할 수 있습니다. 이를 "캐시 세이프 포킹"이라고 부르며, Claude Code 팀이 실전에서 검증한 강력한 패턴입니다.

운영 및 모니터링: 캐시 히트율을 SLA처럼 관리하기

Claude Code 팀은 프롬프트 캐시 히트율을 시스템 가용성(Uptime)과 동등한 수준의 핵심 지표로 관리한다고 밝혔습니다.

모니터링 전략:

  • 캐시 히트율 대시보드: 실시간으로 히트율을 추적하고 시각화
  • 알람 설정: 히트율이 기준치(예: 85%) 이하로 떨어지면 즉시 경고 발생
  • 장애 대응: 히트율 급락을 서비스 장애와 동일하게 취급하여 긴급 조사

비결정성(Non-determinism) 제거: 캐시가 예상치 못하게 깨지는 가장 흔한 원인은 직렬화(Serialization) 과정의 비결정성입니다.

# ❌ 문제 있는 코드: Dictionary 순서가 랜덤
tools = {
"tool_a": {...},
"tool_b": {...}
}
json_str = json.dumps(tools) # 순서가 매번 달라질 수 있음

# ✅ 안전한 코드: 순서 명시적 보장
tools = OrderedDict([
("tool_a", {...}),
("tool_b", {...})
])
json_str = json.dumps(tools, sort_keys=True)

Python의 일반 dict, Java의 HashMap 등은 삽입 순서를 보장하지 않거나 버전에 따라 동작이 다를 수 있습니다. 캐시 안정성을 위해서는 항상 순서를 명시적으로 제어해야 합니다.

Claude Code의 실전 활용

Claude Code는 터미널, IDE(VS Code, JetBrains), 데스크톱 앱, 웹 브라우저 등 다양한 환경에서 동작하는 AI 코딩 어시스턴트입니다. 전체 코드베이스를 이해하고, 여러 파일을 동시에 편집하며, 개발 도구와 통합되어 작동합니다.

이러한 복잡한 멀티턴 상호작용에서 프롬프트 캐싱은 선택이 아닌 필수입니다. Claude Code 팀이 공유한 전략들은 실제 프로덕션 환경에서 수십만 세션을 처리하며 검증된 베스트 프랙티스입니다.

설치 및 시작:

# macOS, Linux, WSL
curl -fsSL https://claude.ai/install.sh | bash

# 프로젝트에서 실행
cd your-project
claude

Claude Code는 Native Install 방식으로 설치하면 자동 업데이트가 활성화되어 최신 기능과 보안 패치를 자동으로 받을 수 있습니다.

결론: 설계 단계부터 캐시를 고려하라

프롬프트 캐싱은 단순히 비용을 줄이는 최적화 기법이 아닙니다. 이것은 다음을 결정짓는 핵심 설계 원칙입니다:

  • 사용자 경험: 응답 속도가 빠른 에이전트는 사용자 만족도와 리텐션을 크게 향상시킵니다
  • 비즈니스 모델: 90%의 비용 절감은 수익성과 확장성을 직접적으로 개선합니다
  • 시스템 안정성: 캐시 히트율을 SLA로 관리하면 예측 가능한 운영이 가능합니다

AI 에이전트를 개발할 때 프로토타입 단계부터 프롬프트 레이아웃을 캐시 친화적으로 설계하는 것이 현대적인 AI 엔지니어링의 표준입니다. 나중에 리팩토링하려면 훨씬 큰 비용이 들기 때문입니다.

Claude Code 팀의 5가지 골든 룰을 따르고, 캐시 히트율을 핵심 지표로 모니터링하면, 비용 효율적이면서도 뛰어난 사용자 경험을 제공하는 AI 에이전트를 구축할 수 있습니다.

References

Deep learning reading list from Ilya Sutskever

· 약 5분
김성연
AI Research Engineer, Brain Crew

TL;DR

OpenAI의 공동 창립자 Ilya Sutskever가 John Carmack에게 제시한 약 30편의 딥러닝 필독 논문 목록입니다. "이것들을 제대로 학습하면 오늘날 중요한 것의 90%를 알게 될 것"이라는 말과 함께 공유된 이 리스트는 Transformer 아키텍처, RNN/LSTM, ResNet 같은 핵심 모델부터 복잡도 이론과 Kolmogorov Complexity 같은 이론적 기초까지 망라합니다. 현대 딥러닝의 필수 개념들을 체계적으로 학습할 수 있는 커리큘럼으로, AI Research Engineer라면 반드시 숙지해야 할 핵심 지식의 정수입니다.

Key Takeaways

  • 선별된 핵심 논문들: 방대한 딥러닝 연구 중에서 실제로 중요한 90%를 커버하는 약 30편으로 압축된 ��리큘럼
  • 이론과 실무의 균형: Attention 메커니즘, ResNet 같은 실용적 아키텍처부터 Kolmogorov Complexity, MDL 같은 이론적 기초까지 포괄
  • 시대를 초월한 기초: RNN/LSTM 같은 초기 시퀀스 모델부터 Transformer, Scaling Laws까지 진화 과정을 이해할 수 있는 구성
  • 실용적 구현 자료: 대부분의 논문에 코드 구현이나 주석이 달린 튜토리얼이 포함되어 있어 학습과 동시에 실습 가능
  • 압축과 복잡도 관점: MDL, Kolmogorov Complexity 등을 통해 신경망을 정보 이론적 관점에서 이해하는 깊이 있는 시각 제공

상세 내용

리딩 리스트의 배경과 의의

OpenAI의 Chief Scientist이자 공동 창립자인 Ilya Sutskever는 게임 개발의 전설 John Carmack에게 "만약 이것들을 제대로 학습한다면, 오늘날 중요한 것의 90%를 알게 될 것"이라는 말과 함께 이 리스트를 공유했습니다. 이는 단순한 논문 목록이 아니라, 현대 딥러닝의 핵심을 관통하는 체계적인 학습 경로입니다.

이 목록의 특징은 최신 논문만을 추구하지 않고, 시대를 초월한 기본 원리와 실용적인 최신 기술을 균형있게 배치했다는 점입니다. 이론적 기초(Kolmogorov Complexity, MDL)부터 실용적 아키텍처(Transformer, ResNet), 그리고 스케일링 법칙까지 딥러닝의 과거, 현재, 미래를 아우릅니다.

핵심 아키텍처 논문들

Transformer와 Attention 메커니즘

  • Attention Is All You Need (Vaswani et al.): 현대 LLM의 근간이 되는 Transformer 아키텍처의 원조 논문
  • The Annotated Transformer: Harvard NLP 팀이 제공하는 line-by-line 구현과 주석. 단순히 논문을 읽는 것을 넘어 실제로 작동하는 코드와 함께 학습 가능
  • Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau et al.): Attention 메커니즘의 초기 제안으로, Transformer 이전에 어떻게 시퀀스 모델에서 선택적 집중이 가능했는지 이해하는 데 필수

RNN과 LSTM의 이해

  • The Unreasonable Effectiveness of Recurrent Neural Networks (Andrej Karpathy): RNN의 놀라운 생성 능력을 직관적으로 보여주는 블로그 포스트. 문자 단위 언어 모델이 어떻게 의미 있는 텍스트를 생성하는지 설명
  • Understanding LSTM Networks (Christopher Olah): LSTM의 내부 구조를 시각적으로 명쾌하게 설명한 고전적 튜토리얼
  • Recurrent Neural Network Regularization (Zaremba et al.): RNN 학습의 실용적 측면을 다루며, dropout 같은 정규화 기법의 적용

Convolutional Networks와 Computer Vision

  • ImageNet Classification with Deep Convolutional Neural Networks (AlexNet): 딥러닝 부흥의 시발점이 된 역사적 논문
  • Deep Residual Learning for Image Recognition (ResNet): Skip connection을 통해 매우 깊은 네트워크 학습을 가능하게 한 혁신
  • Identity Mappings in Deep Residual Networks: ResNet의 개선 버전으로, 왜 특정 구조가 더 잘 작동하는지에 대한 이론적 이해 제공

이론적 기초와 철학

복잡도와 정보 이론

  • The First Law of Complexodynamics (Scott Aaronson): Kolmogorov complexity를 활용하여 물리 시스템의 복잡도가 시간에 따라 어떻게 변하는지 설명. 엔트로피는 단조 증가하지만 "재미있음(interestingness)"은 증가했다 감소한다는 통찰 제공

  • Keeping Neural Networks Simple by Minimizing the Description Length of the Weights (Hinton): MDL(Minimum Description Length) 원리를 신경망에 적용. 모델의 복잡도를 가중치를 설명하는 데 필요한 비트 수로 측정

  • A Tutorial Introduction to the Minimum Description Length Principle: 압축과 학습의 관계에 대한 근본적 이해. 좋은 모델은 데이터를 잘 압축하는 모델

  • Kolmogorov Complexity and Algorithmic Randomness: 객체의 본질적 복잡도를 정의하는 수학적 프레임워크. 일반화와 압축의 관계를 이해하는 이론적 토대

철학적 고려사항

  • Machine Super Intelligence (Shane Legg): DeepMind 공동 창립자의 박사 논문. AGI에 대한 수학적이고 철학적인 접근

실용적 기법과 시스템

스케일링과 병렬화

  • Scaling Laws for Neural Language Models (Kaplan et al.): 모델 크기, 데이터, 컴퓨팅의 관계를 정량화한 획기적 연구. 현대 LLM 개발의 나침반 역할

  • GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism: 거대 모델을 효율적으로 학습시키기 위한 파이프라인 병렬화 기법

특수 아키텍처와 응용

  • Pointer Networks: 출력이 가변 길이 이산 토큰인 문제(조합 최적화 등)를 다루는 혁신적 접근

  • Neural Turing Machines: 외부 메모리를 가진 신경망으로, 알고리즘 학습 가능성 탐구

  • Deep Speech 2: End-to-end 음성 인식의 실용적 구현

  • Order Matters: Sequence to sequence for sets: 순서가 없는 집합을 다루면서도 순서가 중요한 시퀀스 모델의 특성 활용

관계 추론과 구조

  • A simple neural network module for relational reasoning: 객체 간 관계를 추론하는 네트워크 모듈

  • Relational recurrent neural networks: RNN에 관계 추론 능력을 부여

  • Neural Message Passing for Quantum Chemistry: 그래프 신경망을 화학 분자 특성 예측에 적용

생성 모델과 표현 학습

  • Variational Lossy Autoencoder: VAE의 개선된 형태로, 더 나은 생성과 압축의 균형

교육 자료

  • CS231n: Convolutional Neural Networks for Visual Recognition: Stanford의 유명한 딥러닝 강의. 체계적인 기초 학습을 위한 커리큘럼

학습 순서와 전략

이 리스트를 효과적으로 학습하기 위한 제안:

  1. 기초부터 시작: CS231n으로 기본 개념 확립
  2. RNN 계열 이해: Karpathy와 Olah의 블로그로 직관 형성 → LSTM 정규화로 실용 지식 습득
  3. Attention과 Transformer: Bahdanau attention → Transformer 논문 → Annotated Transformer로 구현까지
  4. 컴퓨터 비전 기초: AlexNet → ResNet으로 발전 과정 이해
  5. 이론적 심화: MDL, Kolmogorov Complexity로 깊이 있는 이해
  6. 스케일링과 실용화: Scaling Laws, GPipe 등으로 현대적 관점 확보

대부분의 자료가 코드나 상세한 튜토리얼과 함께 제공되므로, 단순히 읽는 것을 넘어 직접 구현하고 실험하는 것이 핵심입니다. The Annotated Transformer처럼 working notebook 형태의 자료들은 학습과 실습을 동시에 가능하게 합니다.

References

Generating text with diffusion (and ROI with LLMs)

· 약 5분
김성연
AI Research Engineer, Brain Crew

TL;DR

디퓨전(diffusion) 기반 LLM은 기존 오토리그레시브 방식과 달리 여러 토큰을 병렬로 생성·정제하여 5~10배 빠른 추론 속도를 제공합니다. 이미지 생성에 혁신을 가져온 디퓨전 기술이 텍스트 생성으로 확장되고 있으며, 내장된 오류 수정 메커니즘과 메모리 대역폭 효율성이 핵심 장점입니다. 한편 엔터프라이즈 AI 도입에서는 기술보다 ROI가 우선이며, 레거시 시스템 통합과 실질적 비즈니스 가치 측정이 성공의 핵심입니다.

Key Takeaways

  • 디퓨전 LLM의 병렬 처리: 순차적 토큰 생성 대신 여러 토큰을 동시에 생성·정제하여 유사 품질 대비 5~10배 속도 향상 달성
  • 메모리 효율성이 속도의 핵심: 가중치를 한 번 로드하여 여러 토큰에 적용하므로 메모리 대역폭 병목 현상을 크게 완화
  • 내장된 오류 수정 메커니즘: 반복 정제 과정에서 자체적으로 실수를 교정할 수 있는 구조적 장점 (단, 환각 문제는 여전히 존재)
  • 엔터프라이즈 AI는 ROI First: AI 투자 1달러당 실제 가치를 추적하는 것이 기술 선택보다 우선이며, TCO 기반 ROI 계산이 필수
  • 레거시 시스템이 실제 시장: COBOL과 메인프레임 같은 레거시 코드 유지보수가 바이브코딩 도구보다 실질적 수요가 크며, 특화 LLM이 필요

상세 내용

디퓨전 LLM의 작동 원리와 차별점

기존 LLM(ChatGPT, Gemini 등)은 토큰을 왼쪽에서 오른쪽으로 하나씩 순차 생성하는 오토리그레시브(autoregressive) 방식을 사용합니다. 이는 본질적으로 순차적 연산이라 구조적 병목이 발생할 수밖에 없습니다.

반면 Inception이 개발 중인 디퓨전 LLM은 완전히 다른 접근법을 취합니다. 랜덤 토큰으로 시작해 여러 토큰을 병렬로 동시에 수정하면서 점진적으로 정제(denoising)합니다. 이는 이미지 디퓨전 모델이 노이즈 이미지에서 선명한 결과물을 만들어가는 것과 동일한 원리입니다.

학습 방식의 근본적 차이

학습 방법론도 근본적으로 다릅니다:

  • 기존 LLM: "다음 토큰 예측(next token prediction)" 목표로 학습
  • 디퓨전 LLM: 깨끗한 텍스트에 의도적으로 오류를 주입한 뒤 "실수를 교정(error correction)" 하도록 학습

추론 시에도 이 철학이 이어져, 한 번에 최대한 많은 실수를 고치면서 깨끗한 출력을 만들어갑니다.

5~10배 속도 향상의 비밀: 메모리 대역폭

디퓨전 LLM이 유사한 품질의 오토리그레시브 모델 대비 5~10배 빠른 이유는 메모리 대역폭 효율 덕분입니다.

기존 LLM은 각 토큰을 생성할 때마다 가중치를 메모리에서 로드해야 합니다. 이 과정에서 메모리 대역폭이 병목이 됩니다. 반면 디퓨전 모델은 가중치를 한 번 로드하면 여러 토큰에 동시에 적용할 수 있어 메모리 이동 횟수를 획기적으로 줄입니다.

내장된 오류 수정 메커니즘

오토리그레시브 모델의 근본적 한계는 한 번 출력한 토큰을 되돌릴 수 없다는 점입니다. 한 번 잘못된 방향으로 가면 계속 잘못된 경로를 따라갈 수밖에 없습니다.

디퓨전 모델은 반복 정제 과정에서 실수를 수정할 수 있는 메커니즘이 구조적으로 내장되어 있습니다. 다만 Stefano Ermon CEO는 솔직하게 환각(hallucination) 문제가 완전히 해결된 것은 아니라고 인정했습니다.

현재 직면한 기술적 도전들

디퓨전 LLM이 극복해야 할 과제들:

1. 반복 루프 문제 비슷한 내용을 계속 반복 생성하는 현상이 발생합니다. 이는 이미지 디퓨전의 "손가락 6개 문제"에 해당하며, Google의 Gemini Diffusion에서도 동일한 문제가 관찰되었습니다.

2. 가변 길이 처리 이미지는 고정 크기(예: 512×512)이지만 텍스트는 길이가 가변적입니다. 이를 처리하는 것이 핵심 기술적 도전입니다.

3. 이산(discrete) 데이터 처리 디퓨전 수학은 본질적으로 연속적입니다(편미분방정식, Fokker-Planck 방정식 기반). 반면 토큰은 유한하고 이산적이라, 이를 변환하는 새로운 수학적 프레임워크가 필요했습니다.

4. 설계 선택의 재검토 토크나이저를 비롯한 많은 설계 요소들이 오토리그레시브 모델에 최적화되어 있습니다. 디퓨전 모델에는 비최적적이며, 아직 개선 여지가 많습니다.

미래 방향: 추론, 새로운 아키텍처, 월드 모델

Inception은 현재 추론(reasoning) 능력을 개발 중이며, 기존 o1이나 DeepSeek 방식과는 완전히 다른 접근이라고 합니다.

또한 트랜스포머 외에 상태 기반 모델(State Space Model) 같은 대안 아키텍처와도 결합 가능합니다. 월드 모델(world model) 분야에서는 디퓨전이 이미 핵심 기술로 자리잡고 있다고 언급했습니다.

ROI First: 엔터프라이즈 AI의 실질적 접근법

업계에 "AI First", "Data First" 같은 버즈워드가 넘쳐나지만, Roomie의 Aldo Luévano 회장은 경영진이 실제로 원하는 것은 **"ROI First"**라고 강조합니다.

Roomie의 핵심 철학은 명확합니다: AI에 투자한 1달러당 얼마의 가치가 돌아오는지 추적하는 것입니다. 이를 위해 플랫폼에 ROI 추적 모듈을 내장했습니다.

프로세스는 다음과 같습니다:

  1. 컨설턴트가 GPT 기반 대화를 통해 비즈니스 요구사항 파악
  2. 수동/반자동 프로세스의 현재 TCO(Total Cost of Ownership) 계산
  3. AI 도입 후의 TCO 예측
  4. ROI 산출 및 추적

레거시 시스템: 간과된 거대 시장

Cursor, Replit, Lovable 같은 바이브코딩 도구는 새로운 소프트웨어를 만드는 데 초점이 맞춰져 있습니다. 하지만 Luévano는 실제 시장의 대부분은 메인프레임과 COBOL 같은 레거시 시스템이라고 지적합니다.

Roomie는 11년간 금융, 은행, 소비재, 유통, 공공부문 등 다양한 프로젝트 경험에서 축적한 데이터로 모델을 학습시켰습니다. 특히 자연어로 레거시 코드의 유지보수와 신규 기능 개발을 지원하는 특화 LLM/SLM을 보유하고 있습니다.

COBOL 개발자들이 고령화되고 있어 이 문제가 더욱 절실해지고 있으며, 이는 많은 기업들이 직면한 실질적 과제입니다.

피지컬 AI와 로보틱스 통합

Roomie는 원래 B2B 로보틱스 스타트업으로 시작했으며, 현재도 물리적 AI 모듈을 운영합니다.

에이전틱 AI와 물리적 디바이스(휴머노이드 로봇, 엣지 디바이스)를 통합하며, **컴퓨터 비전(CNN 기반)**으로 다음을 수행합니다:

  • 공장 피킹(picking)
  • 셀프 체크아웃
  • 이상 패턴 감지

차별점은 단순 알림이 아니라, 패턴 인식 후 에이전트가 실제 액션을 취한다는 점입니다.

AI와 일자리: 솔직한 대화

많은 회사들이 "AI가 일자리를 줄이지 않는다"고 말하지만, Luévano는 AI 도입이 인력 감축으로 이어질 수 있음을 솔직하게 인정했습니다.

다만 동시에 새로운 직종도 생겨날 것이라고 언급했습니다:

  • 로봇 원격 조작
  • 로봇 훈련 및 관리
  • AI/로보틱스 UI 관리

이것이 사회 전체의 전환 과정이며, 투명한 대화가 필요하다는 입장입니다.

References

Introducing Claude Opus 4.6

· 약 5분
김성연
AI Research Engineer, Brain Crew

TL;DR

Anthropic이 2026년 2월 5일 발표한 Claude Opus 4.6은 코딩 능력을 대폭 강화한 최상위 모델입니다. Opus급 최초로 1M 토큰 컨텍스트 윈도우를 지원하며, 컨텍스트 부패 문제를 크게 개선했습니다(MRCR v2에서 76% 달성). Terminal-Bench 2.0, Humanity's Last Exam, GDPval-AA 등 주요 벤치마크에서 업계 최고 성능을 기록했으며, GPT-5.2 대비 약 144 Elo 포인트 우위를 보입니다. Adaptive Thinking, Context Compaction, Agent Teams 등 새로운 플랫폼 기능을 제공하면서도 기존과 동일한 가격($5/$25 per million tokens)을 유지합니다.

Key Takeaways

  • 장기 에이전틱 작업에 최적화: 더 신중한 계획 수립, 대규모 코드베이스 안정 작동, 자체 코드 리뷰 및 디버깅 능력으로 실제 프로덕션 환경에서 활용 가능
  • 1M 토큰 컨텍스트 윈도우: Opus급 최초 지원으로 컨텍스트 부패 문제 해결(Sonnet 4.5 대비 4배 이상 개선), Context Compaction 베타로 무한 대화 세션 가능
  • 실무 지식 작업 압도적 우위: GDPval-AA에서 GPT-5.2보다 144 Elo 포인트 높아 금융, 법률 등 전문 도메인 작업에서 70% 승률
  • 세밀한 추론 제어: Adaptive Thinking으로 자동 사고 확장, Effort 제어(low/medium/high/max)로 지능-속도-비용 트레이드오프 조절 가능
  • 엔터프라이즈 통합 강화: Excel/PowerPoint 네이티브 통합, Agent Teams 병렬 협업, US-only 추론 옵션으로 기업 워크플로우에 즉시 적용 가능

상세 내용

모델 개요 및 핵심 개선사항

Claude Opus 4.6은 Anthropic이 2026년 2월 5일 발표한 최신 최상위 모델로, 이전 세대 대비 코딩 능력의 질적 도약이 가장 두드러진 특징입니다. 단순히 코드를 생성하는 수준을 넘어, 더욱 신중하게 계획을 수립하고, 에이전틱 작업을 장시간 유지하며, 대규모 코드베이스에서 안정적으로 작동합니다. 특히 자체 코드 리뷰와 디버깅 기능을 통해 스스로 실수를 포착하고 수정하는 능력은 실제 프로덕션 환경에서의 신뢰도를 크게 높입니다.

1M 토큰 컨텍스트 윈도우(베타)는 Opus급 모델로는 최초로 적용된 기능입니다. 긴 문맥에서 발생하는 "컨텍스트 부패(context rot)" 문제—모델이 긴 입력의 중간 부분을 제대로 처리하지 못하는 현상—가 극적으로 개선되었습니다. MRCR v2 벤치마크에서 Sonnet 4.5가 18.5%를 기록한 반면, Opus 4.6은 76%를 달성하여 약 4배 이상의 성능 향상을 보였습니다.

벤치마크 성능: 업계 최고 수준 입증

Opus 4.6은 다양한 벤치마크에서 업계 최고 성능을 입증했습니다:

Terminal-Bench 2.0 (에이전틱 코딩): 전체 모델 중 최고 점수를 기록했습니다. 이는 실제 터미널 환경에서 복잡한 코딩 작업을 자율적으로 수행하는 능력을 측정하는 평가입니다.

Humanity's Last Exam (복합 추론): 다학제적 복잡 추론을 요구하는 이 테스트에서 프론티어 모델 중 1위를 차지했습니다.

GDPval-AA (실무 지식 작업): 금융, 법률 등 전문 도메인의 경제적 가치가 있는 지식 작업을 평가하는 벤치마크에서, GPT-5.2 대비 약 144 Elo 포인트, 전작 Opus 4.5 대비 190 포인트 앞섰습니다. 이는 GPT-5.2와의 직접 대결에서 약 70% 확률로 승리한다는 의미입니다.

BrowseComp (온라인 정보 탐색): 찾기 어려운 온라인 정보를 탐색하고 활용하는 능력에서 업계 최고를 기록했습니다.

생명과학 분야: 계산 생물학, 구조 생물학, 유기화학 등에서 Opus 4.5 대비 거의 2배의 성능 향상을 보였습니다.

사이버보안: 노르웨이 중앙은행 투자관리국(NBIM) 테스트에서 40건의 조사 중 38건에서 Opus 4.5를 블라인드 비교로 이겼습니다.

개발자를 위한 새로운 API 기능

Adaptive Thinking은 모델이 문맥을 분석하여 확장 사고(extended thinking)를 사용할지 자동으로 판단하는 기능입니다. 간단한 질문에는 빠르게 응답하고, 복잡한 문제에는 깊이 사고하여 효율성과 품질을 동시에 최적화합니다.

Effort 제어는 4단계(low / medium / high(기본) / max)로 모델의 지능, 속도, 비용 간 트레이드오프를 세밀하게 조절할 수 있게 합니다. 간단한 작업에는 low를 사용해 비용을 절감하고, 중요한 작업에는 max를 설정해 최대 성능을 끌어낼 수 있습니다.

Context Compaction(베타)은 긴 대화에서 게임 체인저입니다. 오래된 컨텍스트를 자동으로 요약하여, 컨텍스트 윈도우 한계에 부딪히지 않고 장기 작업을 수행할 수 있습니다. 이는 며칠에 걸친 프로젝트나 수백 번의 대화가 필요한 복잡한 작업에서 특히 유용합니다.

128k 출력 토큰: 대규모 코드베이스나 긴 문서를 한 번에 생성할 수 있어, 여러 번에 걸쳐 출력을 이어붙이는 번거로움이 사라집니다.

US-only 추론: 미국 내 데이터 처리가 규제로 요구되는 경우, 1.1배 가격으로 미국 내에서만 추론을 실행하는 옵션을 제공합니다.

Claude Code: Agent Teams 도입

Agent Teams(리서치 프리뷰)는 여러 에이전트를 병렬로 가동하여 팀처럼 협업하게 하는 기능입니다. 대규모 코드베이스 리뷰처럼 독립적이고 읽기 중심인 작업을 여러 에이전트가 동시에 수행하면, 단일 에이전트보다 훨씬 빠르게 작업을 완료할 수 있습니다.

오피스 통합: Excel과 PowerPoint

Claude in Excel은 장기 실행 작업, 비정형 데이터 자동 구조화, 멀티 스텝 변경 한 번에 처리 등의 성능이 크게 개선되었습니다. 복잡한 데이터 분석과 변환 작업을 자연어로 지시하면 Claude가 자동으로 수행합니다.

Claude in PowerPoint(리서치 프리뷰)는 기존 레이아웃, 폰트, 슬라이드 마스터를 읽어 브랜드 가이드라인에 맞는 프레젠테이션을 생성합니다. Max, Team, Enterprise 플랜에서 사용 가능하며, 실무에서 프레젠테이션 제작 시간을 획기적으로 단축할 수 있습니다.

안전성: 업계 최고 수준 유지

Opus 4.6은 전작 Opus 4.5(발표 당시 업계 최고 수준)와 동등하거나 그 이상의 안전 프로필을 보입니다. 기만, 아첨, 사용자 착각 강화, 오용 협력 등의 비정렬 행동(misaligned behavior) 비율이 낮으며, 과잉 거부(over-refusal) 비율은 최근 Claude 모델 중 최저입니다. 이는 모델이 안전하면서도 불필요하게 요청을 거부하지 않아 실용성이 높다는 의미입니다.

사이버보안 능력이 강화됨에 따라, Anthropic은 6개의 새로운 사이버보안 프로브(probe)를 개발하여 악용 가능성을 탐지하고 있습니다. 동시에 오픈소스 취약점 발견 및 패치 같은 방어적 활용도 가속화하고 있습니다.

가격 정책

기존과 동일하게 입력 $5, 출력 $25 (백만 토큰당)를 유지합니다. 200k 토큰을 초과하는 경우 프리미엄 가격($10/$37.50)이 적용됩니다. 성능이 대폭 향상되었음에도 가격을 동결한 것은 주목할 만합니다.

얼리 액세스 파트너 반응

Notion, GitHub, Replit, Cursor, Shopify, Figma, Harvey(법률), Rakuten 등 20개 파트너가 얼리 액세스 프로그램에 참여했습니다. 이들이 공통적으로 강조한 것은:

  • 복잡한 작업의 자율 수행 능력
  • 장기 작업 지속력
  • 대규모 코드베이스 탐색 능력
  • 이전 모델이 실패했던 곳에서의 성공

특히 Harvey는 법률 도메인에서, Replit과 Cursor는 코딩 워크플로우에서 실질적인 생산성 향상을 보고했습니다.

References

The Smol Training Playbook:The Secrets to Building World-Class LLMs

· 약 5분
김성연
AI Research Engineer, Brain Crew

TL;DR

Hugging Face가 공개한 400페이지 분량의 "The Smol Training Playbook"은 SmolLM3 훈련 과정을 통해 LLM 사전학습의 A-Z를 다룬 실무 가이드입니다. 아키텍처 설계, 데이터 큐레이션, 하이퍼파라미터 튜닝부터 GPU 클러스터 인프라 구축까지 전 과정을 포괄하며, 1T 토큰 훈련 후 재시작한 경험 등 실제 실패 사례와 디버깅 노하우를 솔직하게 공유합니다. 단순한 이론서가 아닌, 프로덕션 레벨의 LLM 훈련에 필요한 실전 지식을 체계적으로 정리한 필독서입니다.

Key Takeaways

  • 실패로부터 배우기: 소규모 ablation 실험의 성공이 대규모 학습에서는 적용되지 않을 수 있으며, 1조 토큰 훈련 후에도 처음부터 재시작이 필요할 수 있다는 실전 경험 공유
  • 모델 목적 우선: "많은 훈련 프로젝트가 실패하는 이유는 잘못된 하이퍼파라미터나 버그가 아니라, 아무도 필요로 하지 않는 모델을 훈련하기로 결정했기 때문" - 사전학습 시작 전 명확한 목표 설정이 핵심
  • 작은 변경도 검증 필수: 겉보기에 무해한 라이브러리 업그레이드나 2줄짜리 코드 수정도 대규모 학습에서 예상치 못한 영향을 미칠 수 있어 철저한 테스트가 필요
  • 다목적 균형 잡기: 영어 성능, 다국어 지원, 수학, 코드 등 서로 경쟁하는 목표들 간의 trade-off를 실전에서 어떻게 조율하는지에 대한 구체적 사례 제공
  • 인프라와 알고리즘의 통합 이해: GPU 메모리 계층, NVLink, PCIe 등 하드웨어 개념과 병렬화 전략, 통신 최적화 등 소프트웨어 기법을 하나로 연결하여 이해하는 것이 대규모 학습 성공의 열쇠

상세 내용

프로젝트 개요: 실전 LLM 훈련의 종합 가이드

Hugging Face가 공개한 "The Smol Training Playbook"은 SmolLM3 모델의 실제 훈련 과정을 담은 400페이지 분량의 comprehensive 가이드입니다. 이 문서는 단순히 이론적 개념을 나열하는 것이 아니라, 실제 프로덕션 환경에서 마주친 문제들과 그 해결 과정을 솔직하게 공유한다는 점에서 큰 가치를 지닙니다.

한국어 번역본이 제공되어 국내 AI Research Engineer들이 보다 쉽게 접근할 수 있으며, 논문이나 블로그에 파편화되어 있던 지식들을 하나의 일관된 플레이북으로 통합한 것이 특징입니다.

사전학습 전략 수립: 시작하기 전 고려사항

처음부터 학습이 필요한지 판단하기

문서는 가장 근본적인 질문부터 시작합니다: "정말 처음부터 사전학습이 필요한가?" 많은 프로젝트가 실패하는 이유는 기술적 역량의 부족이 아니라 잘못된 방향 설정에 있다는 통찰을 제공합니다.

핵심은 명확한 목표 설정입니다. 기존 모델로 해결할 수 없는 specific한 요구사항이 무엇인지, 그것이 막대한 컴퓨팅 리소스 투자를 정당화할 만큼 중요한지를 먼저 검토해야 합니다.

학습 프레임워크와 평가 방법론

적절한 학습 프레임워크 선택과 신뢰할 수 있는 평가 방법 설정은 프로젝트의 기초입니다. 체크포인트 관리, 모니터링, 평가 자동화 등 프로덕션 레벨의 운영 노하우가 초기 단계부터 필요합니다.

모델 아키텍처 설계: 기술 선택의 기준

Attention 메커니즘 비교

문서는 다양한 어텐션 메커니즘을 상세히 다룹니다:

  • MHA (Multi-Head Attention): 전통적 방식
  • GQA (Grouped Query Attention): 메모리 효율성과 성능의 균형
  • MQA (Multi-Query Attention): 추론 속도 최적화
  • MLA (Multi-Latent Attention): 최신 기법

각 방식의 trade-off를 이해하고, 모델의 목표(inference speed vs. 성능)에 따라 적절히 선택하는 것이 중요합니다.

Position Encoding과 기타 기법들

  • RoPE vs. NoPE: Positional encoding 전략
  • IntraDoc Masking: 문서 내 효율적 학습
  • SWA (Sliding Window Attention): 긴 컨텍스트 처리
  • MoE 및 하이브리드 모델: 확장성과 효율성

토크나이저 선택

토크나이저는 모델 성능에 직접적인 영향을 미치지만 종종 간과되는 요소입니다. 언어별 효율성, vocab size, 코드와 수식 처리 능력 등을 종합적으로 고려해야 합니다.

옵티마이저와 하이퍼파라미터 튜닝

학습률(learning rate), 배치 크기(batch size), 옵티마이저 선택은 학습 안정성과 최종 성능을 좌우합니다. 문서는 이러한 하이퍼파라미터 선택의 구체적 기준과 SmolLM3에서 실제로 적용한 값들을 제공합니다.

작은 변경의 큰 영향: 단 두 줄의 코드 수정이나 라이브러리 버전 업그레이드도 대규모 학습에서는 예상치 못한 결과를 초래할 수 있으므로, 모든 변경사항에 대한 철저한 테스트가 필수적입니다.

데이터 전략: 큐레이션과 혼합

스케일링 법칙의 이해

데이터와 모델 크기의 관계를 규정하는 스케일링 법칙의 역사와 실전 적용 사례를 학습할 수 있습니다.

데이터셋 큐레이션

효과적인 데이터 혼합(data mixture)은 모델 성능의 핵심입니다. SmolLM3는 다음 목표들 간의 균형을 맞춰야 했습니다:

  • 강력한 영어 성능 유지
  • 다국어 지원 확대
  • 수학적 추론 능력
  • 코드 생성 및 이해

이들은 서로 경쟁 관계에 있어, 하나를 강화하면 다른 영역이 약화될 수 있습니다. 문서는 이러한 trade-off를 어떻게 조율했는지 구체적으로 보여줍니다.

대규모 학습과 디버깅: 실패로부터 배우기

1T 토큰 후 재시작 결정

가장 인상적인 부분은 1조 토큰 훈련 후 처음부터 다시 시작한 경험입니다. 소규모 ablation 실험에서는 유망했던 접근법이 대규모에서 효과적이지 않았던 이유와, 이를 조기에 발견하지 못한 원인을 분석합니다.

실무 교훈: 소규모 실험 결과를 과신하지 말고, 스케일업 과정에서 발생할 수 있는 emergent behavior를 항상 염두에 두어야 합니다.

SmolLM3 처리량 감소 문제

실제 학습 중 마주친 처리량(throughput) 감소 문제와 그 디버깅 과정을 상세히 다룹니다. 이러한 production issue 해결 경험은 논문에서는 찾아보기 어려운 귀중한 지식입니다.

Post-Training: 모델을 실용적으로 만들기

2025년의 포스트 트레이닝 전략

  • SFT (Supervised Fine-Tuning): 베이스라인 설정
  • DPO (Direct Preference Optimization): 인간 선호도 학습
  • GRPO: 수학 성능 개선에 실제 적용

RL 적용 시점과 방법

강화학습(RL)을 언제, 어떻게 적용해야 하는지에 대한 practical guideline을 제공합니다. GRPO를 활용한 SmolLM3의 수학 성능 개선 사례는 구체적인 참고 자료가 됩니다.

인프라 구축: 하드웨어와 소프트웨어의 통합

GPU 클러스터 이해

실제 GPU 클러스터가 어떻게 작동하는지, CPU/GPU/노드/스토리지 간 통신 패턴이 무엇인지를 깊이 있게 다룹니다.

하드웨어 계층 구조

  • GPU 메모리 계층: HBM, L2 cache, register
  • NVLink: GPU 간 고속 interconnect
  • PCIe: CPU-GPU 통신
  • 네트워크 토폴로지: 노드 간 통신 최적화

병렬화 전략

대규모 학습을 가능하게 하는 다양한 병렬화 기법들:

  • Data Parallelism
  • Tensor Parallelism
  • Pipeline Parallelism
  • 하이브리드 접근법

성능 병목 현상 해결

실제 인프라에서 발생하는 병목 지점을 식별하고 해결하는 방법론을 제시합니다. GPU 레이아웃, 통신 패턴 최적화 등 실무적 고민이 담겨 있습니다.

이 문서가 특별한 이유

  1. 전체적 관점: 아키텍처부터 인프라까지 사전학습의 전 과정을 하나로 연결
  2. 솔직한 실패 공유: 성공 사례뿐 아니라 실패와 재시작의 과정을 투명하게 공개
  3. 실무 중심: 논문에서 찾기 어려운 production-level 노하우와 디버깅 경험
  4. 체계적 구성: 파편화된 지식을 일관된 플레이북으로 통합

누구에게 추천하는가

  • LLM 사전학습을 체계적으로 이해하고 싶은 엔지니어
  • 대규모 훈련 프로젝트를 계획 중인 팀
  • 하이퍼파라미터 튜닝과 아키텍처 선택 기준을 찾는 연구자
  • GPU 클러스터 인프라 구축에 관심 있는 엔지니어
  • 이론과 실무 사이의 간극을 메우고 싶은 모든 AI 실무자

References

LLM-KO-Datasets

· 약 4분
김성연
AI Research Engineer, Brain Crew

TL;DR

LLM-Ko-Datasets는 한국어 LLM 개발을 위한 포괄적인 데이터셋 큐레이션 리포지토리입니다. Pre-training, SFT(Supervised Fine-Tuning), DPO(Direct Preference Optimization), RLHF(Reinforcement Learning from Human Feedback), CoT(Chain-of-Thought) 등 LLM 개발 파이프라인의 모든 단계에 필요한 한국어 데이터셋을 체계적으로 정리하여 제공합니다. 한국어 LLM 연구 및 개발 시 데이터셋 탐색 시간을 크게 단축할 수 있는 중요한 레퍼런스 자료입니다.

Key Takeaways

  • 전체 파이프라인 커버: Pre-training부터 RLHF까지 LLM 개발의 모든 단계별로 필요한 한국어 데이터셋을 한 곳에서 확인 가능
  • 최신 학습 기법 지원: DPO, CoT 등 최신 LLM 학습 방법론에 필요한 한국어 데이터셋도 포함하여 state-of-the-art 연구 가능
  • 시간 절약: 분산되어 있는 한국어 데이터셋을 찾는 시간을 줄이고, 실제 모델 개발과 실험에 집중 가능
  • 오픈소스 기여: GitHub 기반 큐레이션으로 커뮤니티의 지속적인 업데이트와 기여를 통해 최신 데이터셋 정보 유지
  • 실무 활용성: 각 학습 단계에 맞는 데이터셋을 빠르게 선택하여 프로토타이핑 및 프로덕션 모델 개발 가능

상세 내용

한국어 LLM 데이터셋 큐레이션의 필요성

한국어 Large Language Model(LLM)을 개발하거나 fine-tuning할 때 가장 먼저 직면하는 과제는 적절한 데이터셋을 찾는 것입니다. 영어와 달리 한국어 데이터셋은 상대적으로 분산되어 있고, 각 학습 단계(pre-training, fine-tuning, alignment 등)에 맞는 데이터셋을 찾기 위해서는 상당한 시간과 노력이 필요합니다.

LLM-Ko-Datasets는 이러한 문제를 해결하기 위해 만들어진 포괄적인 한국어 LLM 데이터셋 큐레이션 리포지토리입니다. LLM 개발의 전체 파이프라인을 고려하여 각 단계별로 활용 가능한 데이터셋을 체계적으로 정리하고 있습니다.

주요 데이터셋 카테고리

Pre-training Datasets

Pre-training은 LLM의 기본적인 언어 이해 능력을 학습시키는 단계입니다. 이 단계에서는 대규모의 비정제 또는 최소한으로 정제된 텍스트 데이터가 필요합니다. 한국어 위키피디아, 뉴스 아카이브, 웹 크롤링 데이터 등이 포함되며, 모델이 한국어의 문법, 어휘, 맥락을 이해하는 기초를 다집니다.

SFT (Supervised Fine-Tuning) Datasets

Supervised Fine-Tuning은 pre-trained 모델을 특정 작업이나 도메인에 맞게 조정하는 단계입니다. 질문-답변 쌍, instruction-following 데이터셋, 대화 데이터 등 구조화된 입력-출력 쌍이 필요합니다. 이 단계를 통해 모델은 사용자의 의도를 이해하고 적절한 응답을 생성하는 능력을 습득합니다.

DPO (Direct Preference Optimization) Datasets

DPO는 RLHF의 복잡성을 줄이면서도 효과적으로 모델을 인간의 선호도에 맞추는 최신 기법입니다. 같은 프롬프트에 대한 선호되는 응답과 선호되지 않는 응답의 쌍으로 구성된 데이터가 필요합니다. 복잡한 reward model 학습 없이도 직접적으로 선호도 최적화가 가능하여 최근 많은 주목을 받고 있습니다.

RLHF (Reinforcement Learning from Human Feedback) Datasets

RLHF는 인간의 피드백을 활용하여 모델의 출력을 인간의 가치관과 선호도에 정렬시키는 기법입니다. 인간 평가자가 모델의 여러 응답을 순위화한 데이터가 필요하며, 이를 통해 reward model을 학습하고 강화학습으로 정책을 최적화합니다.

CoT (Chain-of-Thought) Datasets

Chain-of-Thought는 모델이 복잡한 추론 과정을 단계적으로 표현하도록 학습시키는 방법입니다. 문제 해결 과정을 단계별로 설명하는 데이터가 포함되며, 수학 문제 풀이, 논리적 추론, 복잡한 질문 응답 등에서 모델의 성능을 크게 향상시킵니다.

실무 활용 전략

LLM-Ko-Datasets를 활용할 때는 다음과 같은 전략을 고려할 수 있습니다:

  1. 단계별 접근: 모델 개발 단계에 따라 필요한 데이터셋을 선택합니다. 처음부터 학습한다면 pre-training 데이터부터, 기존 모델을 활용한다면 SFT나 alignment 데이터부터 시작합니다.

  2. 데이터 품질 검증: 큐레이션된 데이터셋이라도 실제 사용 전에 샘플을 확인하고, 자신의 use case에 적합한지 검증하는 과정이 필요합니다.

  3. 혼합 전략: 여러 데이터셋을 조합하여 사용하면 더 robust한 모델을 만들 수 있습니다. 도메인 특화 데이터와 일반 데이터를 적절히 혼합하는 것이 효과적입니다.

  4. 지속적인 모니터링: GitHub 리포지토리를 watch하거나 star를 추가하여 새로운 데이터셋이나 업데이트를 놓치지 않도록 합니다.

커뮤니티 기여와 오픈소스 생태계

이 리포지토리는 오픈소스 프로젝트로서 커뮤니티의 기여를 통해 지속적으로 발전하고 있습니다. 새로운 한국어 데이터셋을 발견했거나, 직접 구축한 데이터셋이 있다면 Pull Request를 통해 기여할 수 있습니다. 이러한 협업적 접근은 한국어 LLM 생태계 전체의 발전에 기여하며, 연구자와 엔지니어 간의 지식 공유를 촉진합니다.

향후 전망

한국어 LLM 개발은 계속해서 발전하고 있으며, 새로운 학습 기법과 데이터셋이 지속적으로 등장하고 있습니다. Multimodal 학습, instruction tuning의 고도화, 더욱 효율적인 alignment 기법 등 다양한 연구 방향이 진행되고 있습니다. LLM-Ko-Datasets와 같은 큐레이션 리소스는 이러한 발전을 따라가고, 실무에 빠르게 적용하는 데 중요한 역할을 할 것입니다.

References