Posts
총 61개의 글
IronClaw Meetup 후기 — Harness Layer가 AI의 새 전장이 된 이유
'Attention Is All You Need' 공동 저자 Illia Polosukhin이 왜 모델 연구를 접고 AI 에이전트 하네스를 만들고 있는지, IronClaw Meetup에서 들은 하네스 레이어의 현재와 미래를 정리합니다.
Ralphthon x ULW Wrapup 컨퍼런스 후기 — AI 빌더 씬의 현주소와 방향성
3월 28일 서울-SF 동시 개최된 Ralphthon 해커톤과 UltraWorkers Wrapup 컨퍼런스에서 느낀 AI 빌더 생태계의 변화, Harness Engineering의 부상, 그리고 오프라인 네트워킹의 힘에 대한 기록입니다.
vLLM Korea Meetup 참석 후기: Production-Level LLM 서빙의 현주소
vLLM Korea Meetup에 참석하여 Production Stack, LMCache, CXL 메모리 등 LLM 서빙의 최신 기술 트렌드와 실전 인사이트를 정리했습니다.
에이전트 평가를 위한 실용적 준비 체크리스트
AI 에이전트 평가는 전통적인 소프트웨어 테스트와 다르다. 복잡한 평가 시스템을 구축하기 전에 20~50개의 실제 트레이스를 직접 읽고, end-to-end 태스크 완수를 검증하는 단순한 eval부터 시작하라. 60~80%의 시간을 에러 분석에 투자하고, capability eval(무엇을 할 수 있는가)과 regression eval(여전히 작동하는가)을
SEISMIC: Learned Sparse Retrieval을 위한 효율적 역색인 구조
SIGIR 2024 논문 리뷰 — LSR 벡터의 Concentration of Importance를 활용하여 기존 대비 100배 이상 빠른 근사 검색을 달성하는 SEISMIC 알고리즘
500줄의 C 코드로 되살린 VisiCalc, 47년간 변하지 않은 스프레드시트의 본질
1979년 Apple II를 킬러앱으로 만든 VisiCalc을 500줄의 C 코드로 재구현한 프로젝트가 스프레드시트의 본질을 보여준다. 셀, 수식, 참조, 재계산이라는 핵심 추상화는 47년간 변하지 않았지만, 원본이 16KB RAM에서 동작한 반면 현대적 구현은 171
Attention Residuals: Transformer의 잔차 연결을 '학습 가능한 어텐션'으로 바꾸자
Moonshot AI가 제안한 Attention Residuals(AttnRes)는 Transformer의 고정된 잔차 연결을 학습 가능한 어텐션 메커니즘으로 교체하는 기법입니다. 각 레이어가 이전 레이어들의 출력을 균등하게 더하는 대신, 소프트맥스 어텐션으로
Context Engineering for AI Agents: Lessons from Building Manus
AI 에이전트 개발에서 컨텍스트 엔지니어링은 모델 파인튜닝보다 빠른 반복과 확장성을 제공한다. Manus 팀은 KV-cache 히트율을 핵심 지표로 삼아 지연시간과 비용을 최적화했으며, 프롬프트 접두사 안정화, 추가 전용 컨텍스트 설계, 명시적 캐시 중단점 설정 등의
Multi Vector and Dataset Geometry
Multi-vector retrieval 알고리즘 선택은 **유사도 함수(MaxSim/SumSim/Top-K Sum)**와 **데이터 기하학(Isotropic/Anisotropic/Multi-Kernel)** 두 축에 의해 결정된다. PLAID는 moderate variance + MaxSim 조합에, MUVERA는 isotropic 데이터에 최적화되어 있
The Effect of Dynamic Date Injection Methods on LLM Temporal Reasoning across Deictic Expression Granularities
LLM은 "어제", "다음 주"와 같은 상대적 시간 표현을 해석할 때 현재 날짜를 알 수 없어 날짜 주입이 필수입니다. 320회의 실험 결과, **한국어 형식(`2025년 3월 19일`) + User Prompt 조합**이 Simple/Structured 모두에서 95
LLM Architecture Gallery
Sebastian Raschka가 운영하는 LLM Architecture Gallery는 GPT-2부터 최신 Frontier 모델까지 주요 LLM들의 아키텍처를 시각화하여 비교할 수 있는 참고 자료입니다. 각 모델의 파라미터 규모, 컨텍스트 길이, 어텐션 메커니즘, 디
I Improved 15 LLMs at Coding in One Afternoon. Only the Harness Changed.
보안 연구자 Can Boluk는 LLM의 코드 편집 인터페이스(하네스)만 개선하여 16개 모델의 성능을 극적으로 향상시켰다.
프롬프트와 컨텍스트를 넘어, AI 에이전트를 위한 하네스 엔지니어링
AI 에이전트가 복잡한 프로덕션 환경에서 안정적으로 동작하려면 프롬프트와 컨텍스트 설계만으로는 부족합니다. 하네스 엔지니어링(Harness Engineering)은 에이전트를 감싸는 전체 환경—저장소 구조, CI/CD, 린터, 외부 도구 연결, 피드백 루프—을 설계하는
rtk-ai
Claude Code 사용 시 context token을 압축하는 오픈소스 도구인 rtk-ai를 소개합니다. AI 코딩 어시스턴트를 활용할 때 불필요하게 많은 토큰이 소비되는 문제를 해결하여 비용 효율성을 높일 수 있습니다. 특히 대규모 코드베이스를 다루는 Resear
파일시스템이 주목받는 이유?
AI 에이전트 생태계에서 파일시스템이 '영속적 기억 장치'로 재조명받고 있습니다. LLM의 컨텍스트 윈도우는 일시적인 화이트보드에 불과하지만, CLAUDE.md 같은 파일 기반 접근은 에이전트에게 장기 기억과 정체성을 제공합니다. Anthropic의 Agent Skil
LLM Post Training
LLM Post Training은 사전학습된 언어 모델을 실제 사용 가능한 AI 어시스턴트로 변환하는 핵심 과정입니다. Supervised Fine-Tuning(SFT)으로 instruction-following 능력을 학습한 후, Reinforcement Learni
[EC2] GPU 인스턴스 기초 프로비저닝 가이드
AWS EC2에서 GPU 인스턴스를 프로비저닝하는 실무 가이드입니다. P/G/Inf 시리즈 등 인스턴스 타입 선택부터 AMI 설정, 네트워크 구성, 스토리지 최적화까지 GPU 워크로드 배포 시 필수적으로 고려해야 할 사항들을 단계별로 다룹니다. 특히 리전별 가용성, D
Agent Systems의 이모저모
AI Agent 시스템은 메신저 기반의 접근성(Manus Agents)부터 로컬 학습 시스템(PAI)까지 빠르게 진화 중입니다. 특히 메신저 환경에서 QR 코드 스캔만으로 동작하는 Manus Agents는 설정 복잡도를 제거하며 대중화를 노리고, PAI는 로컬 데이터
여러분은 AI Service에 대해 얼마나 알고 계신가요?
RAG에서 AI Agent로 빠르게 전환되는 시점에서, 실무자는 LLM·RAG·Agent의 본질적 개념을 정확히 이해해야 한다. Gen.AI 서비스는 기술·BM·아키텍처 관점에서 다층적으로 분류되며, 기존 서비스 대비 복잡도가 높다. 효과적인 서비스 구축을 위해서는 서
프롬프트 캐싱(Prompt Caching) 전략
프롬프트 캐싱은 AI 에이전트의 비용을 최대 90% 절감하고 응답 속도를 획기적으로 개선하는 핵심 기술입니다. 접두사 매칭(Prefix Matching) 원리에 기반하여, 변하지 않는 컨텍스트는 앞에 배치하고 동적 요소는 뒤로 보내는 전략이 필수적입니다. 시스템 프롬프
Deep learning reading list from Ilya Sutskever
OpenAI의 공동 창립자 Ilya Sutskever가 John Carmack에게 제시한 약 30편의 딥러닝 필독 논문 목록입니다.
Generating text with diffusion (and ROI with LLMs)
디퓨전(diffusion) 기반 LLM은 기존 오토리그레시브 방식과 달리 여러 토큰을 병렬로 생성·정제하여 5~10배 빠른 추론 속도를 제공합니다. 이미지 생성에 혁신을 가져온 디퓨전 기술이 텍스트 생성으로 확장되고 있으며, 내장된 오류 수정 메커니즘과 메모리 대역폭
Introducing Claude Opus 4.6
Anthropic이 2026년 2월 5일 발표한 Claude Opus 4.6은 코딩 능력을 대폭 강화한 최상위 모델입니다. Opus급 최초로 1M 토큰 컨텍스트 윈도우를 지원하며, 컨텍스트 부패 문제를 크게 개선했습니다(MRCR v2에서 76% 달성). Terminal
Claude Agent Teams를 활용한 병렬처리 사례
Anthropic의 Claude Code에 새로 추가된 Agent Teams 모드는 여러 Claude 인스턴스가 독립적인 컨텍스트 윈도우에서 병렬로 작업하며 서로 직접 소통하는 구조입니다. 기존 Subagent의
Claude Code is a Beast – Tips from 6 Months of Hardcore Use
6개월간 30만 LOC 프로젝트를 단독으로 진행하며 Claude Code를 극한까지 활용한 엔지니어가 검증된 워크플로우를 공개합니다. Skills 자동 활성화 시스템(TypeScript hooks 기반), 컨텍스트 유지를 위한 Dev Docs 패턴, PM2 통합 에러
stanford-cs146s-kr
Stanford CS146S
How we vibe code at a FAANG.
FAANG 기업의 AI 보조 코딩 사례는
LangGraph Multi-Tenant PostgreSQL 설계 가이드
LangGraph 기반 Multi-Tenant 시스템을 PostgreSQL로 구축할 때 사용할 수 있는 5가지 격리 전략을 비교 분석합니다. Thread ID + Namespace 방식은 낮은 복잡도로 빠르게 시작 가능하며, Row Level Security(RLS)는
The Smol Training Playbook:The Secrets to Building World-Class LLMs
Hugging Face가 공개한 400페이지 분량의
LLM-KO-Datasets
LLM-Ko-Datasets는 한국어 LLM 개발을 위한 포괄적인 데이터셋 큐레이션 리포지토리입니다. Pre-training, SFT(Supervised Fine-Tuning), DPO(Direct Preference Optimization), RLHF(Reinforc
Docker Log Monitor vs Sentry 비교 분석
Docker Log Monitor는 설치가 간단하고 비용이 들지 않으며 코드 수정 없이 즉시 사용 가능한 반면, Sentry는 풍부한 에러 컨텍스트와 분석 도구를 제공하지만 SDK 통합과 비용이 필요합니다. LG Electronics Agent 프로젝트의 경우, 이미
Docker Log Monitor 적용 가이드라인
EC2 환경에서 Docker 컨테이너 로그를 실시간 모니터링하고 에러 발생 시 Slack으로 알림을 보내는 경량 모니터링 시스템 구축 경험을 공유합니다. Sentry 같은 무거운 솔루션 대신, Python 기반의 간단한 스크립트로 실시간 로그 감지, 중복 알림 방지,
AI 현미경으로 들여다본 클로드의 사고 방식과 내부 구조
Anthropic이 Claude 3.5 Haiku 내부를 '현미경'처럼 들여다본 결과, LLM은 단순 통계 엔진이 아닌 복잡한 회로 구조를 가진 시스템임이 밝혀졌다. 모델은 언어 독립적 추상 공간에서 사고하고, 시를 쓸 때 라임을 미리 계획하며,
How Much GPU Memory is Needed to Serve a Large Language Model (LLM)?
LLM 서빙에 필요한 GPU 메모리는 `M = (P × 4B × Q) / 32 × 1.2` 공식으로 계산할 수 있습니다. 여기서 P는 파라미터 수, Q는 정밀도(16 or 32bit), 1.2는 추론 시 활성화 함수 등을 위한 20% 오버헤드입니다. 예를 들어 70B
Scaling PostgreSQL to power 800 million ChatGPT users
OpenAI는 ChatGPT와 API를 지원하기 위해 단일 Primary PostgreSQL 인스턴스와 50개의 Read Replica를 활용해 80만 사용자를 지원하며, 연간 10배 이상의 트래픽 증가를 처리하고 있습니다. MVCC(Multi-Version Concu
Oh-My-OpenCode 장기분석
Oh-My-OpenCode는 최근 화제가 된 오픈소스 프로젝트로, 코드 레벨에서의 심층 분석이 필요한 도구입니다. 본 문서는 해당 프로젝트의 내부 동작 원리를 상세히 파헤쳐 AI Research Engineer들이 실무에 적용할 수 있는 인사이트를 제공합니다. 코드 레
MCP 기본개념 톺아보기
MCP(Model Context Protocol)는 LLM과 외부 데이터 소스를 연결하는 표준 프로토콜입니다. 클라이언트-서버 아키텍처로 구성되며, LLM(클라이언트)이 tool calling을 결정하면 MCP 서버가 외부 API를 호출하고 결과를 정규화하여 반환합니다
CI/CD 가이드라인
Azure VM 환경에서 GitHub Actions를 활용한 Docker 기반 CI/CD 파이프라인 구축 사례입니다. SSH를 통한 원격 배포와 Docker Compose 기반 멀티 컨테이너 관리를 구현했으며, `fast`와 `clean` 두 가지 배포 모드를 제공해
DSPy를 사용한 LLM 최적화: AI 시스템 구축, 최적화 및 평가를 위한 단계별 가이드
DSPy는 프롬프트 엔지니어링을 프로그래밍으로 전환하는 Stanford NLP의 프레임워크입니다. 수동 프롬프트 작성 대신 Python 코드로 LM의 동작을 정의하고, BootstrapFewShot, MIPRO 등의 옵티마이저를 통해 프롬프트와 가중치를 자동으로 최적화
Which tabular format RAG Process understands very well?
RAG 파이프라인에서 테이블 데이터의 포맷이 검색 성능에 미치는 영향을 실험한 결과, Markdown Key-Value 형식이 가장 높은 Recall을 보였으며, TOON 포맷은 토큰 효율성 측면에서 가장 우수했습니다. AIHub의 표 정보 질의응답 데이터 50개를 7
AI 스케일링과 동질화의 경계: NeurIPS 2025 핵심 트렌드 분석
NeurIPS 2025에서 AI 연구의 패러다임 전환이 감지되었습니다. 단순 스케일링을 넘어 데이터 품질과 효율적 추론이 중요해졌고, AI 모델들의 응답이 지나치게 유사해지는 '집단의식(Hivemind)' 현상이 심각한 문제로 부상했습니다. 특히
Evaluating Deep Agents: Our Learnings (LangChain이 실제 서비스에서 얻은 핵심 인사이트)
LangChain이 4개의 Deep Agent 애플리케이션을 실제 배포하며 얻은 평가 인사이트를 공유합니다. Deep Agent는 전통적인 LLM 평가와 달리 각 테스트 케이스마다 고유한 성공 기준이 필요하며, single-step/full-turn/multi-turn
The Big LLM Architecture Comparison
DeepSeek V3는 2024년 말 등장한 이래 LLM 아키텍처의 새로운 방향을 제시했습니다. 7년 전 원조 GPT 이후 구조적으로는 크게 변하지 않았지만, Multi-Head Latent Attention(MLA)과 Mixture-of-Experts(MoE) 같은
GPU Programming 101
GPU 프로그래밍은 CPU와 근본적으로 다른 병렬 처리 아키텍처를 활용하는 기술입니다. CPU가 순차적 처리에 최적화된 반면, GPU는 수천 개의 코어로 대규모 병렬 연산을 수행합니다. AI Research Engineer라면 딥러닝 모델 학습 최적화를 위해 GPU의
메모랜덤 flow에 사용된 문서영역별 Clustering 성능평가
GS Caltex 메모랜덤-연구노트 매칭 프로젝트에서 PyMuPDF 기반 파서, Titan Embed V2 임베딩, ChromaDB 벡터 검색, Claude Sonnet 4.5 LLM 판정을 결합한 파이프라인을 구축했습니다. 137개 연구노트 중 82.5%가 메모랜덤과
LangFlow OSS 분석
Langflow는 MIT 라이선스 기반의 오픈소스 Python 프레임워크로, AI 워크플로우를 시각적으로 빠르게 구축할 수 있는 low-code 플랫폼입니다. n8n이나 Dify와 달리 컴포넌트의 완전한 커스터마이징이 가능하며, 드래그 앤 드롭 방식으로 Agent와 R
Salesforce, Agent 정확도 높이기 위해 LLM 의존도 축소
Salesforce가 AI 에이전트의 정확도와 신뢰성 확보를 위해 LLM 의존도를 줄이고 결정론적(deterministic) 접근 방식을 도입했다. LLM의 확률적 특성은 같은 입력에도 다른 결과를 내놓아 기업 운영에 부적합하며, 환각 문제와 높은 토큰 비용도 발생시켰
You don’t need Elasticsearch : BM25 is now in Postgres
Postgres의 기본 전문 검색(Full-Text Search)은 키워드 반복 남용, 문서 길이 편향, 희귀 단어 처리 실패 등의 문제로 실무에서 한계가 있었습니다. 이를 해결하기 위해 Elasticsearch를 추가하는 것이 일반적이었지만, 이제 `pg_textse
Project Github Setting Guideline
AI/ML 프로젝트에서 긴급 이슈 발생 시 VM에 직접 접속해 코드를 수정하거나, 작업 이력 추적이 미흡한 문제를 해결하기 위한 GitHub 프로젝트 설정 가이드입니다. main/dev 브랜치 이원화, branch protection rule, squash merge,
What Actually Makes you Senior
시니어 엔지니어를 정의하는 핵심은 코딩 실력이나 기술 스택이 아니라 **'모호함을 줄이는 능력(Reducing Ambiguity)'**입니다. 중간급 엔지니어가 명확한 명세를 받아 뛰어난 결과물을 만든다면, 시니어는 불분명한 요구사항을 분석하고 실행 가능한 구체적 계획
근사 최근접 탐색(ANN) 오차와 데이터 분포 밀도의 관계 고찰
RAG 시스템에서 n_results는 단순히 '반환할 결과 개수'가 아닌 '검색 반경(search radius)'을 의미합니다. ANN 알고리즘의 근사 특성으로 인해 작은 n_results 값은 진짜 근접 벡터를 놓칠 수 있으며, 특히 고밀도 데이터 분포와 추상적 쿼리
IBK캐피탈 AI 여신 승인신청서 자동화 시스템 구축기
완전폐쇄망(On-Prem) 환경에서 RAG 기반 승인신청서 자동 생성 시스템을 구축하며 겪은 기술적 도전과 해결 과정을 공유합니다.
LG Electronics 라이프로그 AI 어시스턴트 구축기: 그래프 검색으로 일상을 탐색하다
사용자의 일상 활동 데이터를 그래프 기반으로 검색하는 AI 어시스턴트를 구축하며, Context를 85% 줄이면서도 92% 정확도를 달성한 과정을 공유합니다.
MLflow 기술 검토(RAG 성능 실험 테스트베드 기능)
MLflow는 전통적인 ML과 LLM 애플리케이션의 전체 생명주기를 관리할 수 있는 오픈소스 통합 플랫폼입니다. LangGraph 기반 RAG Agent 개발 시 Tracking으로 하이퍼파라미터와 메트릭을 관리하고, Tracing으로 복잡한 LLM 호출 흐름을 추적하
GUG 6th : 온톨로지 구축 및 평가
GUG(Graph User Group) 6차 모임에서 다룬 온톨로지 구축 및 평가 방법론에 대한 내용입니다. 온톨로지는 도메인 지식을 형식화하여 표현하는 구조로, AI 시스템의 지식 표현과 추론에 핵심적인 역할을 합니다. 구축 프로세스는 도메인 정의, 개념 추출, 관계
LangSmith를 활용한 PoC Monitoring & Evaluation
LangSmith는 LLM 애플리케이션의 PoC 단계에서 필수적인 모니터링과 평가를 지원하는 도구입니다. Chat UI 기반 서비스 배포 시, 실시간으로 프롬프트 성능을 추적하고 데이터셋 기반 평가를 수행할 수 있습니다. 이 가이드라인은 AI Research Engin
Optimizing Compound Retrieval Systems
Compound Retrieval Systems는 여러 검색 방법을 결합하여 성능을 향상시키는 시스템이지만, 각 구성 요소의 최적 조합을 찾는 것은 복잡한 문제입니다. 본 논문은 compound retrieval의 성능을 체계적으로 최적화하는 방법론을 제시하며, spa
LLM이 가장 잘 이해하는 Table Format에 대한 평가실험
재무제표 데이터를 LLM에 전달할 때 데이터 포맷에 따라 성능과 비용이 크게 달라집니다. 11가지 포맷을 비교한 결과, TSV(tab-separated) 포맷이 정확도 100%, 최소 토큰 사용(7,192개), 최단 응답시간(8.24초)으로 모든 지표에서 최고 성능을
AI시대 기획서(PRD)는 죽었다. 실리콘밸리가 지금
실리콘밸리 AI 프로덕트 개발의 핵심이
Fastapi 모범사례 15선
FastAPI를 프로덕션 환경에서 안정적으로 운영하기 위한 15가지 핵심 모범 사례를 다룹니다. 블로킹 작업 시 동기 함수 사용, 비동기 라이브러리 활용, 무거운 작업의 분리, 보안을 위한 문서 노출 제한, 구조화된 로깅, 그리고 Gunicorn+Uvicorn 조합의
Is TOON really saving you tokens?
TOON(Token-Oriented Object Notation)은 LLM 프롬프트의 토큰 효율성을 높이는 포맷이지만, 만능 솔루션은 아닙니다. 평면적(flat)이고 균일한 데이터에서는 JSON 대비 30-60% 토큰을 절약하지만, 깊게 중첩된(deeply nested