Claude: Elevated errors across many models [resolved]

TL;DR Highlight

2026년 6월 16일 약 2시간 동안 Claude의 Sonnet, Opus, Haiku 모델 전반에 걸쳐 10% 수준의 오류율이 발생한 인시던트 보고서. Claude API에 의존하는 서비스 운영자에게 장애 대응 방식과 신뢰성 문제를 다시 생각하게 만드는 사건.

Who Should Read

Claude API나 Claude Code를 프로덕션에서 사용 중인 개발자 또는 팀. 특히 장기 실행 세션이나 자동화 파이프라인에 Claude를 연동하고 있어 외부 API 장애에 취약한 백엔드/AI 엔지니어.

Core Mechanics

이번 인시던트는 두 단계로 나뉜다. 첫 번째 단계는 한국 시간으로 2026년 6월 17일 02:23~03:00(PT 기준 10:23~11:00)으로, Sonnet 계열과 Opus 계열 전체 모델이 영향을 받았고 오류율이 약 10%에 달했다.
두 번째 단계는 03:00~04:20(PT 기준 11:00~12:20)으로, Opus 4.8 모델 한정으로 평균 10%의 오류율이 지속됐다. 총 장애 시간은 약 2시간이다.
영향을 받은 서비스는 claude.ai, Claude API(api.anthropic.com), Claude Code, Claude Cowork 등 Anthropic의 주요 서비스 전반이었다.
인시던트 초기에는 Opus 4.8과 Haiku 4.5 두 모델이 동시에 문제가 있다고 공지됐다가, 이후 Opus 4.8 중심으로 좁혀졌다. 원인에 대한 구체적인 기술 설명은 공식 보고서에서 제공되지 않았다.
Anthropic의 공식 상태 페이지(status.claude.com)가 '해당 날짜에 다운타임 없음'으로 표기된 반면, 실제로는 2시간 동안 요청이 전혀 통과되지 않았다는 사용자 보고가 있어 모니터링 메트릭 정확성에 의문이 제기됐다.

Evidence

장기 실행 세션을 돌리던 사용자가 서브에이전트 스폰 실험 중 500 에러를 맞았는데, 메인 에이전트가 상태 불확실성에 패닉해서 git checkout으로 롤백을 시도하는 예상치 못한 동작이 발생했다는 경험이 공유됐다. 에러 하나가 전체 자동화 플로우를 망가뜨릴 수 있다는 점을 보여주는 사례다.
Auto Mode의 safety classifier에서만 에러가 터지고, Accept Edits 모드로 전환하니 동일한 bash 작업이 문제없이 실행됐다는 구체적인 트러블슈팅 경험도 공유됐다. 모드 전환이 임시 우회책이 될 수 있다는 실용적인 팁이다.
여러 사용자들이 Anthropic의 신뢰성 문제를 지적하며 OpenAI Codex(GPT 기반)로 갈아탔다는 후기를 남겼다. 한 사용자는 '2025년 12월부터 계속 엉망이었고 2026년에는 더 나빠졌다'며 구독을 취소했다고 했고, 'Codex가 체감상 더 낫다'는 의견도 있었다.
Claude Code의 Windows 터미널 렌더링이 느리고 끊기며 화면이 깨지는 버그가 있다는 불만이 나왔고, 'antigravity CLI'와 비교해 품질 차이가 크다는 의견이 있었다. API 오류뿐만 아니라 클라이언트 소프트웨어 자체의 안정성 문제도 함께 지적됐다.
공식 상태 페이지가 실제 장애를 제대로 반영하지 못했다는 비판이 나왔다. '2시간 동안 요청이 하나도 안 됐는데 상태 페이지엔 해당 날짜 다운타임 없음으로 표시됐다'는 댓글이 달렸고, IPO 전에 메트릭을 개선해야 한다는 꼬집는 말도 나왔다.

How to Apply

Claude API를 프로덕션에서 사용 중이라면 Anthropic 공식 상태 페이지(status.claude.com)의 알림을 이메일/SMS로 구독해 두는 게 좋다. 이번처럼 공식 페이지 메트릭이 실제 장애를 반영하지 못하는 경우를 대비해, API 응답 성공률을 직접 모니터링하는 헬스체크 로직도 별도로 구현해두면 더 안정적이다.
장기 실행 에이전트나 서브에이전트 파이프라인을 운영 중이라면, 개별 서브에이전트의 500 에러가 전체 세션을 망가뜨리지 않도록 에러 핸들링과 재시도(retry) 로직을 반드시 구현해야 한다. 이번 사고처럼 에이전트가 상태 불확실성에 패닉하는 경우를 방지하기 위해 에러 발생 시 graceful degradation 전략도 함께 설계하는 게 좋다.
Claude API에 대한 단일 의존성이 부담스럽다면, OpenAI Codex나 다른 LLM API를 fallback으로 두는 멀티-프로바이더 구조를 고려할 수 있다. 이번처럼 특정 모델(Opus 4.8)에만 문제가 생기는 경우, 오류율이 높아지면 자동으로 다른 모델이나 프로바이더로 라우팅하는 방식이 가용성을 높이는 데 효과적이다.
Claude Code를 Windows 환경에서 사용 중인데 렌더링 지연이나 화면 깨짐 문제가 있다면, 댓글에서 언급된 antigravity CLI 같은 서드파티 도구를 대안으로 검토해볼 수 있다. 공식 클라이언트 버그가 해결될 때까지의 임시 대체 수단으로 유용할 수 있다.

Terminology

인시던트(Incident)서비스 장애나 성능 저하 등 사용자에게 영향을 주는 비정상적인 상황. 보통 온콜 엔지니어가 대응하고 사후 보고서를 작성한다.

오류율(Error Rate)전체 API 요청 중 실패한 요청의 비율. 10%면 요청 10개 중 1개가 실패한다는 뜻.

500 에러서버 내부 오류를 나타내는 HTTP 상태 코드. 클라이언트 잘못이 아니라 서버 쪽 문제라는 의미.

서브에이전트(Subagent)메인 AI 에이전트가 작업을 분담하기 위해 생성하는 하위 에이전트. 병렬 처리나 역할 분리에 사용된다.

SRE(Site Reliability Engineer)서비스 안정성과 가용성을 책임지는 엔지니어. 장애 대응, 모니터링, 자동화 등을 담당한다.

Graceful Degradation일부 컴포넌트가 실패해도 전체 시스템이 완전히 멈추지 않고 제한된 기능이라도 계속 제공하는 설계 방식.