Claude Managed Agents: 앤스로픽 에이전트 디커플링 아키텍처 분석

2026.04.10 / 동준상.넥스트플랫폼
(AWS SAA, AWS AIF, GCP GenAI Leader)

이번 포스트는 앤스로픽의 최신 AI 에이전트 운영 전략의 리뷰 포스트입니다.

Scaling Managed Agents: Decoupling the brain from the hands
https://www.anthropic.com/engineering/managed-agents

핵심 요약 (Executive Summary)

Claude Managed Agents Architecture -infographic by NextPlatform

Anthropic의 ‘Managed Agents’는 장기적인 에이전트 작업을 수행하기 위한 호스팅 서비스로, 인공지능 모델의 발전에 따라 기존의 가정들이 무용지물이 되는 문제를 해결하기 위해 설계되었습니다. 이 시스템의 핵심 전략은 **”두뇌(모델 및 하네스)”와 “손(샌드박스 및 도구)”을 분리(Decoupling)**하는 것입니다.

과거에는 에이전트의 구성 요소(세션, 하네스, 샌드박스)가 하나의 컨테이너에 결합되어 관리 효율성과 보안, 확장성 면에서 한계를 보였습니다. Anthropic은 이를 운영체제가 하드웨어를 가상화하는 방식과 유사하게 추상화하여, 구현 방식이 바뀌더라도 안정적으로 유지되는 인터페이스를 구축했습니다. 이를 통해 시스템은 다음과 같은 주요 성과를 달성했습니다.

성능 최적화: 첫 토큰 생성 시간(TTFT)을 중앙값(p50) 기준 약 60%, 상위 95%(p95) 기준 90% 이상 단축했습니다.
신뢰성 향상: 하네스와 컨테이너를 ‘교체 가능한 자원(Cattle)’으로 취급하여 장애 발생 시 즉각적인 복구와 재개가 가능해졌습니다.
보안 강화: 실행 환경(샌드박스)과 자격 증명(Credentials)을 물리적으로 분리하여 프롬프트 주입 공격 위험을 원천 차단했습니다.
미래 지향적 설계: 모델의 지능이 높아짐에 따라 변화하는 컨텍스트 관리 및 도구 활용 방식을 유연하게 수용할 수 있는 ‘메타 하네스’ 구조를 확립했습니다.

Claude Managed Agents Architecture -mindmap by NextPlatform

1. 하네스 설계의 도전 과제와 가상화의 필요성

Claude Managed Agents Architecture – Decouple Brain, Hands and Session by NextPlatform

하네스의 유효기간 문제

에이전트 하네스(Harness)는 모델이 스스로 하지 못하는 작업을 보완하기 위한 가정을 내포하고 있습니다. 그러나 모델(Claude)이 개선됨에 따라 이러한 가정은 곧 낡은 것이 됩니다.

사례: Claude Sonnet 4.5에서 발생하던 ‘컨텍스트 불안(context anxiety)’을 해결하기 위해 하네스에 컨텍스트 리셋 기능을 추가했으나, 성능이 향상된 Claude Opus 4.5에서는 해당 문제가 사라져 리셋 기능이 불필요한 고정 비용(dead weight)이 되었습니다.

가상화 및 추상화 전략

Anthropic은 수십 년 전 운영체제가 하드웨어를 ‘프로세스’와 ‘파일’로 가상화하여 미래의 프로그램에 대비한 것과 동일한 패턴을 적용했습니다.

세션(Session): 모든 발생 사건의 추가 전용(append-only) 로그.
하네스(Harness): Claude를 호출하고 도구 호출을 인프라로 라우팅하는 루프.
샌드박스(Sandbox): 코드 실행 및 파일 편집 환경.

이러한 구성 요소들을 가상화함으로써, 서로의 구현 방식에 영향을 주지 않고 개별 구성 요소를 자유롭게 교체할 수 있는 구조를 마련했습니다.

2. 결합된 구조의 한계: ‘애완동물(Pets)’ 문제

초기 설계에서는 모든 에이전트 구성 요소를 단일 컨테이너에 배치했습니다. 이는 직접적인 시스템 호출이 가능하다는 장점이 있었으나, 인프라 측면에서 심각한 문제를 야기했습니다.

관리의 어려움: 컨테이너가 실패하면 세션이 손실되었습니다. 이는 각 서버를 이름이 있고 정성껏 돌봐야 하는 ‘애완동물(Pet)’처럼 취급하게 만들어, 장애 발생 시 디버깅이 어렵고 복구가 불가능한 상황을 만들었습니다.
디버깅 가시성 부족: 웹소켓 이벤트 스트림만으로는 하네스 버그, 네트워크 패킷 손실, 컨테이너 오프라인 여부를 구분할 수 없었습니다.
확장성 제한: 하네스가 컨테이너 내부에 고정되어 있어, 고객의 VPC(가상 사설 클라우드) 연결 요청 시 네트워크 피어링이나 고객 환경에서의 하네스 실행이 강제되는 등 인프라 유연성이 떨어졌습니다.

3. 두뇌와 손의 분리 (Decoupling)

Claude Managed Agents Architecture – Decoupled Managing by NextPlatform

Anthropic은 ‘두뇌(Claude와 하네스)’, ‘손(샌드박스와 도구)’, ‘세션(이벤트 로그)’을 각각 독립적인 인터페이스로 분리했습니다.

하네스와 컨테이너의 독립

하네스는 컨테이너 외부로 이동했으며, 컨테이너를 execute(name, input) → string 형태의 도구로 호출합니다.
컨테이너가 사망할 경우, 하네스는 이를 도구 호출 오류로 처리하고 새로운 컨테이너를 즉시 프로비저닝하여 작업을 재개할 수 있습니다.

장애 복구 메커니즘

세션 로그가 하네스 외부에 존재하므로, 하네스 자체가 충돌하더라도 새로운 하네스를 부팅하여 wake(sessionId)와 getSession(id)을 통해 마지막 이벤트부터 작업을 재개할 수 있습니다.

보안 경계 확립

자격 증명 분리: Claude가 생성한 신뢰할 수 없는 코드가 실행되는 샌드박스 내부에 자격 증명(Tokens)을 두지 않습니다.
패턴 적용: Git 작업 시 샌드박스 초기화 단계에서 토큰을 사용해 클론하고, 샌드박스 내부에서는 토큰 없이 push/pull이 가능하도록 구성했습니다. MCP 도구의 경우 보안 금고(Vault)에 저장된 OAuth 토큰을 전용 프록시를 통해 호출함으로써 하네스조차 자격 증명을 알 수 없게 설계했습니다.

4. 컨텍스트 관리 및 세션 인터페이스

Managed Agents에서 세션은 Claude의 컨텍스트 윈도우와는 별개의 객체로 취급됩니다.

비가역적 결정 방지: 요약(Compaction)이나 트리밍(Trimming)과 같은 기존 기법은 미래에 필요할지도 모를 정보를 영구적으로 삭제할 위험이 있습니다.
세션 로그 활용: getEvents() 인터페이스를 통해 두뇌(Claude)가 이벤트 스트림의 특정 부분을 선택적으로 읽어오거나 다시 읽을 수 있게 합니다.
유연한 변환: 하네스는 세션에서 가져온 이벤트를 Claude의 컨텍스트 윈도우에 넣기 전, 프롬프트 캐시 적중률을 높이거나 컨텍스트 엔지니어링을 위해 자유롭게 변환할 수 있습니다.

5. 다중 두뇌 및 다중 손(Many Brains, Many Hands) 체제

Claude Managed Agents Architecture – Decrease Dead Time by NextPlatform

아키텍처 분리는 성능과 확장성 측면에서 획기적인 개선을 가져왔습니다.

성능 및 지연 시간 개선

과거에는 추론 시작 전 컨테이너 프로비저닝이 완료되어야 했으나, 이제는 필요할 때만 도구 호출을 통해 컨테이너를 생성합니다.

지표	개선 결과
p50 TTFT (첫 토큰 지연 시간)	약 60% 감소
p95 TTFT (상위 95% 지연 시간)	90% 이상 감소

확장성 및 유연성

다중 두뇌: 상태가 없는(Stateless) 하네스를 다수 가동하여 세션 로그에 연결함으로써 손쉽게 확장할 수 있습니다.
다중 손: 하나의 두뇌가 여러 실행 환경(샌드박스, 휴대폰, 에뮬레이터 등)을 도구처럼 다룰 수 있습니다. 모든 ‘손’은 execute(name, input) → string 인터페이스를 따르므로, 두뇌 간에 손을 주고받는 것도 가능해졌습니다.

결론: 메타 하네스로서의 Managed Agents

Anthropic의 Managed Agents는 특정 하네스 구현에 국한되지 않는 **’메타 하네스(Meta-harness)’**를 지향합니다. Claude Code와 같은 범용 하네스부터 특정 도메인 전용 하네스까지 모두 수용할 수 있는 범용 인터페이스를 제공함으로써, 미래의 더 똑똑해질 Claude 모델과 아직 고안되지 않은 새로운 프로그램들을 안정적이고 보안이 유지되는 환경에서 실행할 수 있는 토대를 마련했습니다.