Claude Opus 4.6 출시: 코딩·에이전트·1M context 업그레이드
Claude Opus 4.6
TL;DR Highlight
Anthropic이 최상위 모델 Claude Opus 4.6을 출시했다. 에이전트 코딩 성능, 1M 토큰 컨텍스트 윈도우, 멀티 에이전트 팀 기능이 핵심이며, 여러 벤치마크에서 GPT-5.2를 앞선다.
Who Should Read
Claude Code나 API로 코딩 에이전트를 활용 중인 개발자, 또는 LLM 기반 워크플로우에서 긴 컨텍스트와 멀티 에이전트 협업이 필요한 팀.
Core Mechanics
- Opus 4.6은 전작 대비 에이전트 코딩 능력이 크게 향상됐다. 더 신중하게 계획을 세우고, 긴 작업을 더 오래 유지하며, 큰 코드베이스에서도 안정적으로 동작하고, 자기 실수를 스스로 잡아내는 코드 리뷰·디버깅 능력이 좋아졌다.
- Opus 급 모델 최초로 1M 토큰 컨텍스트 윈도우를 베타로 제공한다. 해리포터 전권(~1.75M 토큰)은 아직 안 되지만, 4권까지(~733K 토큰)를 넣고 50개 주문 중 49개를 찾아낼 정도로 긴 컨텍스트 처리 능력이 검증됐다.
- Terminal-Bench 2.0(에이전트 코딩 벤치마크)에서 업계 최고 점수를 기록했다. 다만 OpenAI가 같은 날 GPT-5.3 Codex를 발표하면서 77.3%로 35분 만에 1위를 빼앗겼다.
- 지식 노동 평가인 GDPval-AA에서 GPT-5.2 대비 144 Elo, 전작 Opus 4.5 대비 190 Elo 앞선다. 금융·법률 등 전문 도메인 작업에서의 우위를 보여준다.
- Claude Code에 에이전트 팀(agent teams) 기능이 추가됐다. 여러 에이전트가 서브태스크를 나눠 병렬로 작업하는 멀티 에이전트 협업 기능으로, 환경변수 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1로 활성화한다.
- API에서 compaction(컨텍스트 자동 요약) 기능이 추가돼 긴 작업 중 컨텍스트 한도에 걸리지 않게 됐다. adaptive thinking도 도입돼 모델이 문맥에 따라 사고 깊이를 자동 조절하고, effort 파라미터로 개발자가 직접 제어할 수도 있다.
- 가격은 기존과 동일하게 입력 $5/출력 $25 per million tokens. 다만 200K 토큰 초과 시 입력 2배, 출력 1.5배 할증이 적용된다.
- 모델이 어려운 문제에서 더 깊이 사고하는 경향이 있어 간단한 작업에서는 비용과 지연이 늘 수 있다. 이 경우 /effort 파라미터를 medium으로 낮추는 것을 Anthropic이 공식 권장한다.
Evidence
- Pro 플랜 사용자들이 Opus 모델의 사용량 제한이 너무 빡빡하다고 불만을 표했다. '아침에 Opus로 질문 몇 개 하면 하루 종일 Claude를 못 쓴다'는 경험이 공유됐고, ChatGPT의 GPT-5.2는 2시간 연속 작업해도 제한에 안 걸렸다는 비교가 나왔다.
- Opus 4.6이 지시를 무시하고 '폭주'하는 현상에 대한 보고가 여럿 있었다. '먼저 이해한 걸 설명하고 멈춰라'고 했는데 분석은 잘 하면서도 멈추지 않고 바로 구현에 들어갔다는 사례가 공유됐다. auto accept edits 사용 시 특히 주의가 필요하다는 경고도 있었다.
- 에이전트 팀 기능에 대해, 세션 종료 시 사라지는 한계가 지적됐다. 낮에 Claude Code로 작업하고 밤에 Codex로 넘기는 등 런타임 간 메시지 전달이 안 되므로, 크로스 툴 협업은 여전히 커뮤니티 도구(mcp_agent_mail 등)가 필요하다는 분석이 있었다.
- 1M 컨텍스트에 대해 '데모에서는 잘 되는데 실제로는 어떤지'를 묻는 회의적 반응과, 해리포터 전권 주문 찾기 테스트에서 50개 중 49개를 찾은 인상적 결과가 함께 공유됐다.
- 일반 용도(리서치, 일상 질문)에서는 ChatGPT·Gemini가 더 낫다는 의견이 있었다. Claude의 강점은 코딩이 명확한데 마케팅은 범용 AI를 지향하고 있어 괴리가 있다는 전략적 비판도 나왔다.
How to Apply
- Claude Code에서 큰 코드베이스를 다루는 경우, Opus 4.6의 1M 컨텍스트를 활용해 여러 파일을 한꺼번에 넣고 리팩토링이나 크로스파일 버그 수색을 시도해볼 수 있다. 200K 초과 시 비용 할증을 감안해 꼭 필요한 파일만 선별해서 넣는 게 좋다.
- 간단한 작업에서 Opus 4.6이 과도하게 생각하며 느려지는 경우, /effort medium으로 설정하면 비용과 지연을 줄일 수 있다. 복잡한 디버깅이나 설계 작업에만 기본값(high)을 유지하는 식으로 분리 운영하면 효과적이다.
- 멀티 에이전트 협업이 필요한 대규모 작업(예: 여러 모듈 동시 수정)에서는 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1을 설정하고 에이전트 팀 기능을 실험해볼 수 있다. 다만 토큰 소비가 크고 세션 종료 시 상태가 사라지므로, 짧은 집중 세션에 적합하다.
- Opus 4.6이 지시를 무시하고 바로 구현에 들어가는 '폭주' 경향이 있으므로, auto accept edits 모드 사용 시 주의가 필요하다. 중요한 변경은 plan 모드로 먼저 확인하고 진행하는 것이 안전하다.
Code Example
snippet
# Claude Code에서 에이전트 팀 활성화
export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
# effort 파라미터로 사고 깊이 조절
# Claude Code 내에서: /effort medium
# API 호출 시 모델 ID
# model: "claude-opus-4-6"Terminology
Terminal-BenchAI 모델이 터미널에서 실제 코딩 작업(파일 수정, 빌드, 디버깅 등)을 얼마나 잘 수행하는지 측정하는 에이전트 코딩 벤치마크
compaction긴 대화 중 컨텍스트가 한도에 가까워지면 모델이 스스로 이전 내용을 요약해서 압축하는 기능. 긴 작업을 끊김 없이 이어갈 수 있게 해준다
adaptive thinking모델이 문맥의 난이도를 스스로 판단해서 쉬운 질문엔 빠르게, 어려운 문제엔 깊이 생각하도록 사고량을 자동 조절하는 기능
Elo체스에서 유래한 상대적 실력 점수 체계. 두 모델 간 Elo 차이가 클수록 이길 확률 차이가 크다. 144 Elo 차이면 약 70% 확률로 이기는 수준
에이전트 팀하나의 작업을 여러 AI 에이전트가 서브태스크로 나눠서 병렬로 처리하는 구조. 사람 팀처럼 역할을 분담한다고 보면 된다