포스팅 개요
본 포스팅은 Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions라는 논문을 리뷰하는 포스팅입니다. 최근 AI 에이전트(AI Agent) 기술이 빠르게 발전하면서, 단순히 하나의 LLM이 질의응답을 수행하는 것을 넘어서 여러 에이전트가 협력하여 복잡한 작업을 수행하는 Multi-Agent LLM 시스템이 주목받고 있습니다.
LangGraph, AutoGen, CrewAI와 같은 프레임워크의 등장으로 이러한 다중 에이전트 시스템의 배포가 급격히 가속화되었는데요. 이러한 시스템들은 코드 생성, 연구 종합, 기업 자동화 등 다양한 영역에서 인상적인 성능을 보여주고 있습니다. 그러나 한 가지 중요한 질문이 남아있습니다. "이 시스템들이 장기간 운영될 때도 안정적으로 작동할까?"
본 논문은 바로 이 질문에 답하기 위해 에이전트 드리프트(Agent Drift)라는 개념을 제시합니다. 에이전트 드리프트란, 명시적인 파라미터 변경이나 시스템 장애 없이도 에이전트 시스템의 의사결정 패턴이 설계 사양에서 점진적으로 이탈하는 현상을 의미합니다. 즉, 아무도 모르게 시스템이 조금씩 망가지고 있다는 것이죠.
본 논문의 공개된 arxiv 링크는 아래와 같으며 본 포스팅은 아래 링크의 논문을 참고해서 작성한 리뷰 포스팅입니다.

포스팅 본문
포스팅 개요에서도 언급하였듯, 이 논문은 Multi-Agent LLM 시스템이 장기간 운영될 때 발생하는 행동 저하 현상인 에이전트 드리프트(Agent Drift)를 체계적으로 연구한 논문입니다.
본 포스팅은 논문에 작성되어진 순서를 따라갑니다. 먼저 연구 배경과 동기부터 시작하여, 에이전트 드리프트의 세 가지 유형, 측정 방법론인 ASI(Agent Stability Index), 실험 결과, 그리고 해결 방안까지 상세히 살펴보도록 하겠습니다.
[1]. 연구 배경 및 동기 (Introduction)
저자는 먼저 전통적인 소프트웨어 시스템과 LLM 기반 에이전트 시스템의 차이점을 설명합니다. 전통적인 소프트웨어 시스템은 메모리 누수, 리소스 고갈, 구성 드리프트(configuration drift)와 같은 예측 가능한 성능 저하 패턴을 보입니다. 이러한 문제들은 이미 잘 알려져 있고, DevOps 관행을 통해 체계적으로 해결되고 있죠.
그러나 LLM 기반 에이전트 시스템은 완전히 다른 종류의 문제를 야기합니다. 저자는 이를 행동적 드리프트(behavioral drift)라고 명명하는데요. 이 현상의 핵심은 명시적인 파라미터 변경이나 시스템 장애 없이도 시스템의 의사결정 패턴이 설계 사양에서 점진적으로 이탈한다는 것입니다. 특히 다중 에이전트 시스템에서는 에이전트 간 상호작용에서 명시적으로 프로그래밍되지 않은 창발적 행동(emergent behavior)이 발생하기 때문에 이 문제가 더욱 심각해집니다.
[1-1]. 구체적인 문제 상황 예시
저자는 기업 환경에서의 구체적인 예시를 들어 설명합니다. 마스터 라우터 에이전트(Master Router Agent)가 세 개의 전문 하위 에이전트를 조율하는 상황을 가정해봅시다. 하나는 데이터베이스 쿼리 최적화, 하나는 컴플라이언스 검증, 나머지 하나는 비용 분석을 담당합니다.
이 시스템이 수백 번의 상호작용을 거치면서 다음과 같은 미묘한 변화들이 축적됩니다.
1) 라우터가 특정 에이전트를 불균형적으로 선호하기 시작합니다.
2) 쿼리 작성 패턴이 통계적으로 흔하지만 맥락적으로는 부적절한 표현 방식으로 이동합니다.
3) 에이전트 간 핸드오프에서 지연을 유발하는 중복이 발생합니다.
이러한 변화들은 개별적으로는 사소하고 격리된 평가에서는 종종 감지되지 않습니다. 그러나 집단적으로는 시스템 성능을 두 자릿수 퍼센트 저하시키는 결과를 초래하게 됩니다. 저자는 이러한 패턴을 "에이전트 드리프트(agent drift)"라고 명명한 것이죠.
[1-2]. 선행 연구와의 관계
이 연구는 세 가지 연구 영역의 교차점에 위치합니다.
1) 다중 에이전트 시스템 안정성: 고전적인 다중 에이전트 연구는 게임 이론적 환경에서의 창발적 행동을 특성화했지만, 이러한 프레임워크들은 결정론적 행동 공간과 정적인 보상 구조를 가정합니다. 그러나 LLM 에이전트의 출력은 확률적이며 암묵적 목표가 컨텍스트 축적을 통해 진화하므로 이러한 가정이 위반됩니다.
2) LLM 일관성: 최근 연구들은 프롬프트 변형과 파인튜닝 영향에 따른 단일 에이전트 행동 변화를 검토했지만, 상호작용적이고 다중 턴 시나리오에서의 시간적 드리프트나 다중 에이전트 조정 역학은 다루지 않았습니다.
3) ML 모니터링: 프로덕션 ML 문헌은 데이터 분포 드리프트와 모델 성능 저하에 초점을 맞추며, PSI(Population Stability Index)와 같은 메트릭을 제공합니다. 그러나 이러한 접근법들은 "정답"이 종종 이용 불가능하고 행동 메트릭이 다차원적인 에이전틱 시스템에는 적합하지 않습니다.
이 연구는 프로덕션 ML의 모니터링 방법론을 다중 에이전트 LLM 아키텍처에 적용하고, 확장된 상호작용 시퀀스에서 작동하는 에이전틱 시스템에 고유한 실패 모드를 특성화함으로써 이 영역들을 연결합니다.
[2]. 에이전트 드리프트의 세 가지 유형
저자는 에이전트 드리프트를 단순한 성능 저하가 아닌, 세 가지 구체적인 현상으로 분류하여 체계화했습니다. 342개의 드리프트 사례(ASI < 0.70이 100개 이상의 상호작용에서 지속된 경우)에 대한 이론적 분석을 통해 다음과 같은 분류 체계를 개발했습니다.

[2-1]. 시맨틱 드리프트 (Semantic Drift)
시맨틱 드리프트는 에이전트의 출력이 구문적으로는 유효하지만 원래의 작업 의도에서 점진적으로 벗어나는 현상을 의미합니다. 여기서 중요한 점은 출력 자체는 문법적으로 올바르고, 형식도 적절하다는 것입니다. 그러나 내용의 방향성이 조금씩 변화한다는 것이죠.
예를 들어, 금융 분석 에이전트가 처음에는 '위험 요소 분석'에 집중하도록 설계되었다고 가정해봅시다. 시간이 지남에 따라 이 에이전트는 명시적인 지시 없이 '기회 강조' 위주의 긍정적인 톤으로 보고서의 어조를 바꾸게 됩니다. 결과물의 형식은 동일하지만, 의사결정에 영향을 미치는 핵심 내용이 변질되는 것이죠.
[2-2]. 조정 드리프트 (Coordination Drift)
조정 드리프트는 다중 에이전트 간의 합의 메커니즘이 붕괴되는 현상을 의미합니다. 이로 인해 충돌 증가, 중복 작업, 조정 실패 등이 발생하게 됩니다.
예를 들어, 작업을 분배하는 라우터 에이전트가 특정 하위 에이전트에 대한 편향을 발전시키면, 병목 현상이 발생하고 다른 전문가 에이전트의 역량이 충분히 활용되지 못합니다. 또한 에이전트끼리 서로 불필요하게 작업을 떠넘기는 현상도 발생할 수 있습니다. 이는 전체 시스템의 효율성을 크게 저하시키게 됩니다.
[2-3]. 행동 드리프트 (Behavioral Drift)
행동 드리프트는 초기 상호작용에서는 존재하지 않았던 새로운 전략이나 행동 패턴이 에이전트에서 발전하는 것을 의미합니다. 쉽게 말해, 에이전트가 스스로 편법이나 의도치 않은 전략을 만들어내는 현상입니다.
예를 들어, 컴플라이언스 에이전트가 지정된 메모리 도구(예: 벡터 데이터베이스)를 사용하는 대신, 채팅 기록(chat history)에 중간 결과를 체계적으로 캐싱하기 시작하는 경우가 있습니다. 이렇게 되면 컨텍스트 윈도우(context window)가 오염되어 시스템 전체의 성능이 저하됩니다.
[3]. 연구 방법론 (Methodology)
에이전트 드리프트를 체계적으로 연구하기 위해 저자는 시뮬레이션 프레임워크를 개발하고, 새로운 측정 지표인 ASI(Agent Stability Index)를 설계했습니다.
[3-1]. 시뮬레이션 설계
저자는 세 가지 대표적인 기업 도메인에 걸쳐 다중 에이전트 시스템을 모델링하는 시뮬레이션 프레임워크를 개발했습니다.
1) 기업 자동화 (Enterprise Automation): 412개의 시뮬레이션 워크플로우를 구성했습니다. 마스터 라우터 에이전트가 데이터베이스 관리 에이전트, 파일 처리 에이전트, 알림 에이전트를 조율하여 자동화된 보고서 생성과 데이터 파이프라인 관리를 수행합니다.
2) 금융 분석 (Financial Analysis): 289개의 시뮬레이션 워크플로우를 구성했습니다. 다중 에이전트 앙상블이 조율된 연구, 계산, 종합 에이전트를 통해 주식 연구, 리스크 평가, 포트폴리오 최적화를 수행합니다.
3) 컴플라이언스 모니터링 (Compliance Monitoring): 146개의 시뮬레이션 워크플로우를 구성했습니다. 에이전트 팀이 전문화된 패턴 감지, 규칙 추출, 추론 에이전트를 통해 거래 패턴, 규제 텍스트, 감사 추적을 분석합니다.
총 847개의 워크플로우가 시뮬레이션되었으며, 각 워크플로우는 정의된 목표, 입력 데이터, 성공 기준을 가진 고유한 작업 인스턴스를 나타냅니다. 시스템은 GPT-4, Claude 3 Opus, Claude 3.5 Sonnet의 행동 특성을 통합한 LangGraph 0.2.x 아키텍처 패턴을 사용하여 모델링되었으며, 고위험 결정에 대한 human-in-the-loop 승인을 포함했습니다.
워크플로우는 5에서 1,847개의 에이전트 상호작용 범위(중앙값: 127개 상호작용)를 포함했으며, 시뮬레이션 기간은 3개월에서 18개월에 해당하는 시간대에 걸쳐 있었습니다. 각 워크플로우에서 처음 20개의 상호작용이 행동 기준선(behavioral baseline)으로 사용되어 초기 에이전트 결정 패턴, 도구 사용 분포, 에이전트 간 조정 프로토콜을 캡처했습니다.
[3-2]. Agent Stability Index (ASI) 프레임워크
저자는 12개 차원에 걸쳐 행동 드리프트를 정량화하는 복합 메트릭인 에이전트 안정성 지수(ASI)를 개발했습니다. 이 차원들은 네 가지 범주로 그룹화됩니다:
[3-2-1]. 응답 일관성 (Response Consistency) - 가중치: 0.30
이 범주는 동일한 의미의 입력에 대해 출력이 얼마나 의미적으로 유사한지를 측정합니다.
- 출력 의미적 유사도 (\(C_{sem}\)): 시간 윈도우에 걸쳐 의미적으로 동등한 입력에 대한 에이전트 출력의 임베딩 벡터 간 코사인 유사도를 측정합니다. OpenAI의 text-embedding-3-large 모델을 사용하여 계산됩니다.
- 결정 경로 안정성 (\(C_{path}\)): 추론 체인(Chain-of-Thought 시퀀스) 간의 편집 거리를 추론 길이로 정규화하여 문제 해결 접근 방식의 일관성을 측정합니다.
- 신뢰도 교정 (\(C_{conf}\)): 시간에 따른 예측 정확도와 실제 정확도 분포 간의 Jensen-Shannon 발산을 측정하여 신뢰도 드리프트를 감지합니다.
[3-2-2]. 도구 사용 패턴 (Tool Usage Patterns) - 가중치: 0.25
이 범주는 에이전트가 도구를 호출하는 빈도, 순서, 파라미터 값이 초기와 얼마나 달라졌는지를 측정합니다.
- 도구 선택 안정성 (\(T_{sel}\)): 슬라이딩 윈도우에 걸친 도구 호출 빈도 분포에 대한 카이제곱 검정 통계량입니다.
- 도구 시퀀싱 일관성 (\(T_{seq}\)): 도구 호출 시퀀스에 대한 레벤슈타인 거리를 측정하여 운영 전략의 변화를 파악합니다.
- 도구 파라미터화 드리프트 (\(T_{param}\)): 시간 기간에 걸쳐 각 도구의 파라미터 값 분포에 대한 KL 발산을 측정합니다.
[3-2-3]. 에이전트 간 조정 (Inter-Agent Coordination) - 가중치: 0.25
이 범주는 에이전트 간 합의 도달률, 역할 준수 여부 등을 측정합니다.
- 합의 동의율 (\(I_{agree}\)): 만장일치 또는 다수결 합의에 도달하는 다중 에이전트 결정의 비율로, 조정 저하를 추적합니다.
- 핸드오프 효율성 (\(I_{handoff}\)): 성공적인 에이전트 간 작업 위임에 필요한 평균 메시지 수로, 통신 프로토콜 드리프트를 감지합니다.
- 역할 준수 (\(I_{role}\)): 에이전트 ID와 처리되는 작업 유형 간의 상호 정보로, 전문화 유지를 측정합니다.
[3-2-4]. 행동 경계 (Behavioral Boundaries) - 가중치: 0.20
이 범주는 응답 길이의 변동성 및 새로운 에러 패턴의 등장 등을 측정합니다.
- 출력 길이 안정성 (\(B_{length}\)): 응답 토큰 수의 변동 계수로, 장황함 드리프트를 감지합니다.
- 오류 패턴 출현 (\(B_{error}\)): 시간에 따른 오류 유형에 대한 클러스터링 분석으로, 새로운 실패 모드를 식별합니다.
- 인간 개입률 (\(B_{human}\)): 인간의 재정의나 수정이 필요한 상호작용의 비율로, 궁극적인 드리프트 지표입니다.
위 4개를 결합한 ASI는 다음과 같이 계산됩니다.

각 구성 메트릭은 [0, 1]로 정규화되며, 1은 완벽한 안정성을 나타냅니다. ASI 값은 50개 상호작용 롤링 윈도우에 걸쳐 계산되며, ASI가 연속 세 개의 윈도우에서 임계값 \( \tau = 0.75 \) 아래로 떨어지면 드리프트가 감지됩니다.
[4]. 연구 결과 (Results)
[4-1]. 드리프트의 유병률 및 진행
시뮬레이션 프레임워크 기반 분석에서 몇 가지 핵심 발견이 있었습니다.
1) 조기 발현 (Early Onset): 감지 가능한 드리프트(ASI < 0.85)가 시뮬레이션에서 중앙값 73개 상호작용(사분위 범위: 52-114) 후에 나타났습니다. 이는 구조화된 프롬프트와 가드레일이 있는 프로덕션 시스템에서 드리프트가 예상보다 훨씬 빨리 나타날 수 있음을 시사합니다. 프롬프트 엔지니어링을 아무리 잘 해도 드리프트는 발생한다는 것이죠.
2) 복합 효과 (Compounding Effects): 드리프트는 시간이 지남에 따라 가속화됩니다. 0-100 상호작용 사이에서 ASI는 50개 상호작용당 0.08포인트 하락했지만, 300-400 상호작용 사이에서는 하락률이 50개 상호작용당 0.19포인트로 증가했습니다. 즉, 드리프트 속도가 2배 이상 빨라지는 것이죠. 이는 양성 피드백 루프(positive feedback loop)가 존재함을 시사합니다. 드리프트가 선형적이지 않고 자기 강화적(self-reinforcing)이라는 것입니다.
3) 도메인 변이 (Domain Variation): 시뮬레이션된 드리프트 발생률은 도메인에 따라 상당히 달랐습니다. 금융 분석 시스템이 가장 높은 취약성을 보였고(500개 상호작용까지 53.2%), 컴플라이언스 모니터링(39.7%)과 기업 자동화(31.8%)가 뒤를 이었습니다. 이는 작업 모호성을 반영하는 것으로 보입니다. 금융 분석은 해석의 자유도가 높고 모호한 작업이므로 에이전트가 제멋대로 해석할 여지가 많았던 것이죠. 반면, 데이터베이스 작업과 같이 구조화된 작업은 상대적으로 드리프트에 덜 취약했습니다.

또한, 단일 시점에 드리프트가 갑자기 생기는 것이 아니라, 의미적 변질(시맨틱 드리프트) → 협업 실패(조정 드리프트) → 기이한 행동 패턴(행동 드리프트) 순으로 시스템을 점진적으로 잠식하게 됩니다.
[4-2]. 시스템 성능에 대한 영향
드리프트 시스템(ASI < 0.70)과 안정적 기준선(ASI > 0.85)을 동등한 상호작용 범위에서 비교했을 때, 결과는 아래 표와 같습니다.

가장 큰 영향은 작업 성공률에 있었습니다. 42% 감소는 프로덕션 실행 가능성과 운영상 허용 불가능한 성능 사이의 차이를 나타냅니다. 이는 에이전트 드리프트를 미묘한 서비스 품질 문제가 아닌 중요한 신뢰성 관심사로 검증합니다.
상응하는 성능 향상 없이 토큰 사용량이 52% 증가한 것은 드리프트가 장황하고 우회적인 추론으로 나타남을 시사합니다. 에이전트가 전략적 초점을 잃으면서 "헛바퀴를 굴리는(spinning wheels)" 현상인 것이죠. 또한, 에이전트 간 충돌의 5배 증가는 조정 드리프트 가설을 직접적으로 검증합니다.
사람이 개입하는 비용이 3.2배 증가했다는 것은 자동화의 경제성을 무너뜨리는 결과입니다. 자동화를 위해 도입한 시스템인데, 결국 사람이 더 많이 개입해야 한다면 본말이 전도된 것이죠.
[4-3]. ASI 구성 요소 분석
네 가지 ASI 구성 요소 범주 모두 처음 300개 상호작용을 통해 대략 선형적으로 하락한 후 가속화된 저하를 보였습니다. 이는 축적된 드리프트가 자기 강화를 시작하는 임계 임계값(critical threshold)이 존재함을 시사합니다.
행동 경계(Behavioral Boundaries)가 가장 빠르게 저하되어 500개 상호작용에 걸쳐 46% 하락했습니다. 응답 일관성은 45% 하락으로 가장 큰 회복력을 보였는데, 이는 임베딩 기반 측정이 인간이 판단하는 적절성보다 미묘한 의미적 변화에 덜 민감하기 때문으로 보입니다.

주목할 만하게도, 에이전트 간 조정은 200개 상호작용까지 비교적 안정적으로 유지되다가 급격히 하락했습니다. 이는 조정 메커니즘이 초기에는 견고하지만, 에이전트 간 신뢰 모델(trust model)이 침식되면 취약해짐을 시사합니다.
[4-4]. 아키텍처가 드리프트 취약성에 미치는 영향
저자들은 또한 에이전트 아키텍처에 따른 드리프트 취약성에 대해서 검토를 했는데요.

1) 계층 깊이 (Hierarchy Depth): 2단계 계층(라우터 + 전문가)이 평면(피어 투 피어) 및 깊은(3단계 이상) 아키텍처 모두보다 유의하게 우수한 성능을 보였습니다. 평면 시스템은 조정 구조가 부족하고, 깊은 계층은 여러 위임 레이어에 걸쳐 드리프트를 층층이 축적하기 때문입니다.
2) 메모리 시스템 (Memory Systems): 명시적인 장기 메모리(벡터 데이터베이스, 구조화된 로그)를 통합한 워크플로우는 대화 기록에만 의존하는 워크플로우보다 21% 높은 ASI 유지율을 보였습니다. 이는 외부 메모리가 점진적 드리프트에 저항하는 "행동 앵커(behavioral anchor)"를 제공함을 시사합니다.
3) LLM 다양성 (LLM Diversity): 혼합 LLM 시스템(다른 에이전트에 다른 모델 사용)이 동질적 시스템보다 약간 더 나은 안정성을 보였습니다. 이는 다양성이 다양한 추론 접근 방식을 통해 암묵적인 중복성과 오류 수정을 제공하기 때문일 수 있습니다.
4) 동기 vs 비동기 (Synchronous vs. Asynchronous): 동기 에이전트 실행(요청-응답 블로킹)이 비동기 메시지 전달보다 약간 더 나은 조정을 보였지만, 차이는 통계적으로 유의하지 않았다고 합니다(p = 0.13).
[5]. 왜 드리프트가 발생하는가? (Discussion)
저자는 연구 결과를 바탕으로 드리프트 출현에 대한 세 가지 메커니즘을 안내합니다.
[5-1]. 컨텍스트 윈도우 오염 (Context Window Pollution)
에이전트 상호작용 기록이 증가함에 따라 컨텍스트 윈도우가 초기 상호작용의 관련 없는 정보로 채워집니다. 상호작용이 길어지면 초기 대화의 중요한 지침들이 뒤로 밀리고, 중간의 잡음(Noise)이나 덜 중요한 정보가 컨텍스트를 채우게 되는 것이죠. 이 "오염"은 관련 컨텍스트의 신호 대 잡음 비율(signal-to-noise ratio)을 희석하여 의사결정 품질을 저하시킵니다. 에피소딕 메모리 통합(EMC) 전략은 필수 지식을 보존하면서 오래된 정보를 정리함으로써 이를 직접적으로 해결합니다.
[5-2]. 분포적 이동 (Distributional Shift)
LLM은 방대한 말뭉치에서 훈련되지만 좁은 도메인에 배포됩니다. 시간이 지날수록 에이전트가 마주치는 입력 데이터의 분포가 훈련 데이터나 초기 설정과 괴리되면서 드리프트가 발생합니다. 이것이 금융 분석 에이전트(고도로 전문화된 도메인 언어에서 작동)가 기업 자동화 에이전트(더 일반적인 운영 어휘 사용)보다 더 빨리 드리프트하는 이유를 설명합니다.
[5-3]. 자기회귀를 통한 강화 (Reinforcement through Autoregression)
다중 턴 상호작용은 에이전트의 출력이 (공유 메모리나 대화 기록을 통해) 자신의 미래 입력이 되는 피드백 루프를 생성합니다. 에이전트가 뱉은 출력은 다시 다음 턴의 입력이 되는 것이죠. 작은 오류나 스타일적 편향이 자기회귀적으로 복합됩니다. 만약 에이전트가 한 번 불필요하게 장황하게 대답하면, 이 기록이 다음 대화의 예시가 되어 이후 답변이 망가지는 것입니다. 적응적 행동 앵커링(ABA)은 에이전트를 기준선 패턴에 지속적으로 재기반함으로써 이 루프를 끊습니다.
[이쯤에서 잠깐!]. AI 안전(AI Safety) 관점에서의 시사점
저자는 에이전트 드리프트가 강화 학습에서의 명세 게이밍(specification gaming)과 보상 해킹(reward hacking)과 우려스러운 유사점을 보인다고 지적합니다. 두 경우 모두 시스템이 근접 최적화 목표(대화 유창성, 작업 완료)를 충족하면서 진정한 의도(정확성, 적절성, 안전 제약)에서 벗어나는 행동을 발전시킵니다.
중요한 점은, 드리프트가 파라미터 업데이트 없이 발생한다는 것입니다. 에이전트가 재훈련되거나 파인튜닝되지 않았는데도 행동이 변합니다. 이는 실패 모드가 모델 가중치보다는 컨텍스트 조건화와 샘플링 프로세스에서 기원함을 시사합니다.
정적 파라미터에도 불구하고 드리프트가 지속된다면, 이는 기존의 "훈련 시점 정렬(training-time alignment)" 전략의 한계를 지적합니다. 배포 후 지속적인 행동 관리가 필수적이라는 것이 저자의 주장입니다. 드리프트의 자기 강화적 특성—축적된 행동 변화가 추가 변화를 가속화하는 피드백 루프를 생성하는—은 자신의 작동을 수정하는 AI 시스템에 대한 우려를 반영합니다.
[6]. 해결 방안: 완화 전략 (Mitigation Strategies)
저자는 세 가지 드리프트 완화 접근법을 개발하고 홀드아웃 테스트 워크플로우에 대한 제어된 시뮬레이션 실험을 통해 평가했습니다.

[6-1]. 에피소딕 메모리 통합 (Episodic Memory Consolidation, EMC)
에이전트 상호작용 기록의 주기적인 압축으로, 학습 내용을 추출하면서 중복된 컨텍스트를 정리합니다. 요약 에이전트가 매 50턴마다 과거 100개 상호작용을 검토하는 방식으로 구현됩니다. 즉, 주기적으로 압축하며 불필요한 컨텍스트를 가지치기 하여 컨텍스트 윈도우 오염 문제를 해결하는 것입니다. 이 결과 드리프트가 51.9% 감소했다고 합니다.
[6-2]. 드리프트 인식 라우팅 (Drift-Aware Routing, DAR)
위임 결정에 에이전트 안정성 점수(ASI)를 통합하는 수정된 라우터 로직입니다. 라우터 에이전트가 하위 에이전트들의 ASI 점수를 모니터링하여, 안정적인 에이전트를 선호하고 드리프트하는 에이전트에 대해서는 리셋을 트리거합니다. 특정 에이전트가 불안정해지면(드리프트 발생), 작업을 안정적인 다른 에이전트에게 할당하거나, 해당 에이전트를 초기화하여 context를 비워버리는 것입니다. 이 결과 드리프트가 63.0% 감소했다고 합니다.
[6-3]. 적응적 행동 앵커링 (Adaptive Behavioral Anchoring, ABA)
에이전트의 초기(정상 작동 시기)의 우수 사례(Example)를 지속적으로 동적으로 주입합니다. 기준선 기간의 예시로 퓨샷 프롬프트를 증강하며, 현재 드리프트 메트릭에 따라 동적으로 가중치가 조정됩니다. 드리프트가 심해질수록 예시를 더 보여주어 원래 상태로 돌아오도록 강제합니다. 이 전략이 가장 효과적인 이유는, 명시적으로 에이전트를 기준선 예시에 기반함으로써 시맨틱 드리프트에 직접적으로 대응하기 때문입니다. 이 결과 드리프트가 70.4% 감소했다고 합니다.
세 가지 전략 모두 대조군보다 유의하게 우수했으며(각각 p < 0.001), 적응적 행동 앵커링이 가장 큰 단일 전략 효과(70.4% 드리프트 감소)를 보였습니다. 세 가지 전략을 모두 결합하면 81.5% 드리프트 감소를 달성했으며, 이는 보완적인 작용 메커니즘을 시사합니다.
그러나 결합 구현은 계산 오버헤드를 23%(주로 EMC 요약 비용) 증가시키고 중앙값 완료 시간을 9% 연장했습니다. 이는 미션 크리티컬 애플리케이션에는 허용 가능한 트레이드오프이지만, 고처리량 시스템에는 고민이 필요한 지점이죠.
[7]. 프로덕션 배포에 대한 시사점
저자는 연구 결과가 즉각적인 실용적 시사점을 가진다고 말합니다.
1) 모니터링 요구사항: 전통적인 프로덕션 ML 모니터링(모델 정확도, 지연 시간, 처리량)은 에이전틱 시스템에 불충분합니다. ASI 프레임워크는 포괄적인 행동 모니터링의 청사진을 제공하지만, 구현에는 상당한 계측 투자가 필요합니다.
2) 개입 프로토콜: 드리프트 완화는 "설정하고 잊어버리는(set and forget)" 것이 될 수 없습니다. 데이터는 기본 메커니즘(컨텍스트 축적, 분포적 이동)이 지속적으로 관리되지 않으면 개입 후 드리프트가 재개됨을 보여줍니다. 프로덕션 시스템은 지속적인 거버넌스 프레임워크를 필요로 합니다. 아마도 주기적인 재인덱싱과 통계 업데이트가 일상적인 작업인 데이터베이스 유지 관리와 유사할 것입니다.
3) Human-in-the-Loop 경제학: 드리프트 시스템에 대한 인간 개입 요구사항의 3.2배 증가는 자동화의 비용-편익 계산을 근본적으로 변경합니다. 사람이 개입하는 비용이 드리프트에 따라 증가한다면, 장기 실행 에이전틱 시스템은 드리프트가 제어되지 않는 한 경제적 실행 가능성을 잃을 수 있습니다.
4) 테스트 불충분성: 전통적인 배포 전 테스트는 짧은 상호작용 시퀀스(일반적으로 < 50턴)에 걸쳐 에이전트를 평가합니다. 데이터는 이것이 최종 드리프트 사례의 25%만 캡처함을 보여줍니다. 프로덕션 준비 평가에는 수백 개의 상호작용을 시뮬레이션하는 확장된 스트레스 테스트가 필요합니다.
마무리
이번 포스팅은 Multi-Agent LLM 시스템의 장기적 행동 안정성 문제를 다룬 Agent Drift 논문을 리뷰하였습니다. 이 논문은 에이전트 드리프트라는 새로운 개념을 학술적으로 정립하고, 이를 정량적으로 측정할 수 있는 ASI 프레임워크를 제시했으며, 실용적인 완화 전략까지 검증했다는 점에서 중요한 기여를 합니다.
특히 드리프트가 파라미터 업데이트 없이 발생한다는 발견은, 기존의 훈련 시점 정렬(training-time alignment) 전략만으로는 불충분하며 배포 후 지속적인 행동 관리가 필수적이라는 점을 시사합니다. 이는 AI 안전 연구에도 중요한 함의를 가집니다.
AI 에이전트 시스템을 개발하거나 운영하시는 분들에게 이 논문이 유용한 인사이트를 제공하길 바랍니다.
긴 글 읽어주셔서 감사합니다.
'인공지능(AI) > AI Agent' 카테고리의 다른 글
| 바이브 코딩(Vibe Coding)은 안전한가? AI 코딩 에이전트의 보안 취약점 연구(Is Vibe Coding Safe? 논문) (0) | 2025.12.13 |
|---|---|
| 랭그래프(LangGraph) Agent에 대화 기억(Memory) 저장 및 관리 구현(Feat. PostgreSQL) (3) | 2025.09.27 |
| 랭그래프(LangGraph) 도구(tools), 조건부 엣지, Human-in-the-Loop 사용법과 예제 (2) | 2025.08.04 |
| 랭그래프(LangGraph)란? LangGraph의 개념과 사용 방법 예제(example) (3) | 2025.07.27 |