Salesforce, Agent 정확도 높이기 위해 LLM 의존도 축소

2025년 12월 26일 · 약 5분

LEAD (AI Research Engineer), Brain Crew

TL;DR

Salesforce가 AI 에이전트의 정확도와 신뢰성 확보를 위해 LLM 의존도를 줄이고 결정론적(deterministic) 접근 방식을 도입했다. LLM의 확률적 특성은 같은 입력에도 다른 결과를 내놓아 기업 운영에 부적합하며, 환각 문제와 높은 토큰 비용도 발생시켰다. 이에 Salesforce는 'Agentforce Script'와 하이브리드 추론 아키텍처를 통해 LLM의 지능을 활용하되 미리 정의된 워크플로우로 제어하는 전략을 채택했다. 이는 AI 에이전트 도입의 새로운 패러다임을 제시하며, 특히 정확성이 필수적인 비즈니스 워크플로우에서 LLM과 전통적 프로그래밍의 균형이 중요함을 시사한다.

Key Takeaways

결정론적 제어의 필요성: 기업 환경에서는 같은 입력에 항상 동일한 출력이 보장되어야 하므로, LLM의 확률적 특성을 결정론적 워크플로우로 제어하는 것이 필수적
하이브리드 추론 아키텍처: LLM의 지능을 활용하되, Agent Graph와 같은 구조적 제약을 통해 출력 범위를 미리 지정하는 방식이 실무적 해법
비용 최적화: 정형화된 작업에 LLM 사용을 줄이면 불필요한 토큰 소비를 방지하고(상담 건당 $2+ 절감 가능), 정확성도 향상시킬 수 있음
AI Drift 방지: 에이전트가 목표를 잃고 방황하는 현상을 막기 위해 'deterministic trigger' 같은 명확한 제어 지점 설정이 중요
적재적소 활용: 모든 문제를 LLM으로 해결하려 하지 말고, 규칙 기반 접근과 LLM 추론을 작업 특성에 따라 선택적으로 조합하는 전략이 효과적

상세 내용

LLM의 확률적 특성과 기업 운영의 괴리

AI 에이전트 도입에 가장 적극적이었던 Salesforce가 전략 전환을 선언했다. 산즈나 파룰레카르(Sanzana Parulkar) 마케팅 담당 수석 부사장은 The Information과의 인터뷰에서 "AI 에이전트의 신뢰성을 향상하기 위해 결정론적(deterministic) 자동화 방식을 사용하고 있다"고 밝혔다.

이러한 전략 전환의 핵심은 LLM의 본질적 특성에 있다. LLM으로 작동하는 에이전트는 확률적(stochastic)으로 작동하여, 같은 질문에도 매번 조금씩 다른 답변을 생성한다. 하지만 기업 환경에서는 입력값이 같으면 결과도 항상 동일해야 한다. 재고 관리, 환불 처리, 고객 응대와 같은 핵심 비즈니스 프로세스에서 예측 가능성은 선택이 아닌 필수다.

Google Cloud의 마이클 클라크(Michael Clark) 책임자도 이 문제를 지적한 바 있다. 그는 기업이 에이전트를 도입하려면 LLM 출력을 검증하고 오류를 수정하거나, 여러 모델의 교차 검증, 그리고 인간의 모니터링과 개입이 가능한 구조가 필요하다고 강조했다.

실제 사례: Vivint의 AI Drift 문제

이론적 우려는 실제 운영에서 구체적 문제로 드러났다. 보안 카메라 전문 기업 Vivint는 Agentforce를 도입해 250만 고객 지원을 처리했지만, 예상치 못한 문제에 직면했다. 모든 고객에게 상담 후 만족도 설문조사를 보내도록 지시했으나, 알 수 없는 이유로 설문조사가 전송되지 않는 경우가 발생한 것이다.

이는 'AI Drift' 현상으로, AI가 주제와 관계없는 질문을 받으면 원래 목표를 잃고 방황하는 것을 의미한다. Vivint는 Salesforce와 협력하여 '확정적 트리거(deterministic trigger)'를 설정해 이 문제를 해결했다. 이는 LLM의 판단과 무관하게 특정 조건이 충족되면 반드시 실행되는 규칙 기반 로직이다.

비용 문제: 토큰 낭비와 운영 효율성

정확성 문제 외에도 비용이 중요한 고려사항으로 떠올랐다. Salesforce 챗봇이 불필요하게 긴 추론으로 토큰을 낭비해 상담 건당 2달러 이상이 소요된다는 불만이 접수됐다.

무라리다 크리시나파사드(Muralida Krishnaprasad) Salesforce CTO는 "반드시 정확한 답을 얻어야 하는 부분에서 LLM이 쓸데없이 긴 추론으로 토큰을 낭비하는 것은 문제"라며, "LLM에 'if this, then that'과 같은 전통적 조건문을 결합하면 비용을 절감하면서도 정확한 답을 보장할 수 있다"고 설명했다.

Salesforce의 해법: 하이브리드 추론 아키텍처

Salesforce AI 연구소의 필 무이(Phil Mui) 수석 부사장은 블로그를 통해 '하이브리드 추론을 통한 유도형 결정론(Guided Determinism through Hybrid Reasoning)'이라는 접근법을 소개했다.

이 아키텍처의 핵심은 다음과 같다:

1. Agent Graph를 통한 구조적 제어 디자인 타임에 미리 정의된 워크플로우 구조를 통해 LLM이 허용된 범위 내에서만 작동하도록 제약한다. 에이전트가 실행될 때마다 동일한 조치를 취할 수 있도록 출력 범위를 미리 지정한다.

2. Agentforce Script 시스템 현재 테스트 단계인 이 시스템은 LLM의 판단 없이도 작업을 처리할 수 있는 시점을 파악한다. Salesforce 웹사이트는 이를 "LLM의 본질적인 무작위성을 제거해 핵심 비즈니스 워크플로우가 매번 정확히 동일한 단계를 따르도록 보장"한다고 설명한다.

3. 선택적 LLM 활용 정형화된 작업에는 규칙 기반 로직을, 복잡한 맥락 이해가 필요한 작업에만 LLM을 활용하는 선택적 접근을 취한다.

논쟁: 과거로의 회귀인가, 진화인가?

이러한 접근에 대해 "LLM 도입 이전 기본 챗봇 시절로 되돌아가는 것 아니냐"는 비판이 제기됐다. 실제로 LLM 의존도를 낮추면 챗봇이 고객 질문의 맥락과 미묘한 뉘앙스를 이해하지 못하거나, 포괄적인 답변을 제공하지 못할 수 있다.

그러나 Salesforce는 이를 "기능 축소"가 아닌 "정교화"로 반박했다. 대변인은 "주제 구조를 개선하고, 가이드라인을 강화하고, 정보 검색 품질을 향상하고, 더 구체적이고 맥락에 맞으며 실제 고객 요구에 맞는 답변을 제공하도록 조정했다"고 설명했다.

파룰레카르 부사장의 "1년 전만 해도 우리는 모두 LLM을 더 많이 신뢰했었다"는 발언은 업계의 학습 곡선을 단적으로 보여준다. 이는 LLM의 가능성에 대한 초기의 과도한 기대에서, 실무적 한계를 인정하고 보완책을 마련하는 성숙한 단계로의 전환을 의미한다.

산업에 미치는 영향

세계 최대 소프트웨어 기업 중 하나인 Salesforce의 전략 전환은 AI 에이전트를 도입하는 다른 기업들에게 중요한 시사점을 제공한다. 특히 법률, 재무, 의료, 마케팅, 영업, 고객 서비스 등 정확성이 중요한 영역에서는 LLM의 환각(hallucination)과 비결정론적 특성이 치명적인 결과로 이어질 수 있다.

이는 "모든 것을 LLM으로"라는 단순한 접근에서 벗어나, 작업 특성에 따라 규칙 기반 시스템과 LLM을 전략적으로 조합하는 하이브리드 접근이 실무적 해법임을 보여준다. AI 에이전트의 성공적인 도입은 기술의 한계를 인정하고, 기업 운영의 현실적 요구사항과 균형을 맞추는 것에서 시작된다.

TL;DR​

Key Takeaways​

상세 내용​

LLM의 확률적 특성과 기업 운영의 괴리​

실제 사례: Vivint의 AI Drift 문제​

비용 문제: 토큰 낭비와 운영 효율성​

Salesforce의 해법: 하이브리드 추론 아키텍처​

논쟁: 과거로의 회귀인가, 진화인가?​

산업에 미치는 영향​

References​