Claude: Elevated errors across many models [resolved]
TL;DR Highlight
2026년 6월 16일 약 2시간 동안 Claude의 Sonnet, Opus, Haiku 모델 전반에 걸쳐 10% 수준의 오류율이 발생한 인시던트 보고서. Claude API에 의존하는 서비스 운영자에게 장애 대응 방식과 신뢰성 문제를 다시 생각하게 만드는 사건.
Who Should Read
Claude API나 Claude Code를 프로덕션에서 사용 중인 개발자 또는 팀. 특히 장기 실행 세션이나 자동화 파이프라인에 Claude를 연동하고 있어 외부 API 장애에 취약한 백엔드/AI 엔지니어.
Core Mechanics
- 이번 인시던트는 두 단계로 나뉜다. 첫 번째 단계는 한국 시간으로 2026년 6월 17일 02:23~03:00(PT 기준 10:23~11:00)으로, Sonnet 계열과 Opus 계열 전체 모델이 영향을 받았고 오류율이 약 10%에 달했다.
- 두 번째 단계는 03:00~04:20(PT 기준 11:00~12:20)으로, Opus 4.8 모델 한정으로 평균 10%의 오류율이 지속됐다. 총 장애 시간은 약 2시간이다.
- 영향을 받은 서비스는 claude.ai, Claude API(api.anthropic.com), Claude Code, Claude Cowork 등 Anthropic의 주요 서비스 전반이었다.
- 인시던트 초기에는 Opus 4.8과 Haiku 4.5 두 모델이 동시에 문제가 있다고 공지됐다가, 이후 Opus 4.8 중심으로 좁혀졌다. 원인에 대한 구체적인 기술 설명은 공식 보고서에서 제공되지 않았다.
- Anthropic의 공식 상태 페이지(status.claude.com)가 '해당 날짜에 다운타임 없음'으로 표기된 반면, 실제로는 2시간 동안 요청이 전혀 통과되지 않았다는 사용자 보고가 있어 모니터링 메트릭 정확성에 의문이 제기됐다.
Evidence
- 장기 실행 세션을 돌리던 사용자가 서브에이전트 스폰 실험 중 500 에러를 맞았는데, 메인 에이전트가 상태 불확실성에 패닉해서 git checkout으로 롤백을 시도하는 예상치 못한 동작이 발생했다는 경험이 공유됐다. 에러 하나가 전체 자동화 플로우를 망가뜨릴 수 있다는 점을 보여주는 사례다.
- Auto Mode의 safety classifier에서만 에러가 터지고, Accept Edits 모드로 전환하니 동일한 bash 작업이 문제없이 실행됐다는 구체적인 트러블슈팅 경험도 공유됐다. 모드 전환이 임시 우회책이 될 수 있다는 실용적인 팁이다.
- 여러 사용자들이 Anthropic의 신뢰성 문제를 지적하며 OpenAI Codex(GPT 기반)로 갈아탔다는 후기를 남겼다. 한 사용자는 '2025년 12월부터 계속 엉망이었고 2026년에는 더 나빠졌다'며 구독을 취소했다고 했고, 'Codex가 체감상 더 낫다'는 의견도 있었다.
- Claude Code의 Windows 터미널 렌더링이 느리고 끊기며 화면이 깨지는 버그가 있다는 불만이 나왔고, 'antigravity CLI'와 비교해 품질 차이가 크다는 의견이 있었다. API 오류뿐만 아니라 클라이언트 소프트웨어 자체의 안정성 문제도 함께 지적됐다.
- 공식 상태 페이지가 실제 장애를 제대로 반영하지 못했다는 비판이 나왔다. '2시간 동안 요청이 하나도 안 됐는데 상태 페이지엔 해당 날짜 다운타임 없음으로 표시됐다'는 댓글이 달렸고, IPO 전에 메트릭을 개선해야 한다는 꼬집는 말도 나왔다.
How to Apply
- Claude API를 프로덕션에서 사용 중이라면 Anthropic 공식 상태 페이지(status.claude.com)의 알림을 이메일/SMS로 구독해 두는 게 좋다. 이번처럼 공식 페이지 메트릭이 실제 장애를 반영하지 못하는 경우를 대비해, API 응답 성공률을 직접 모니터링하는 헬스체크 로직도 별도로 구현해두면 더 안정적이다.
- 장기 실행 에이전트나 서브에이전트 파이프라인을 운영 중이라면, 개별 서브에이전트의 500 에러가 전체 세션을 망가뜨리지 않도록 에러 핸들링과 재시도(retry) 로직을 반드시 구현해야 한다. 이번 사고처럼 에이전트가 상태 불확실성에 패닉하는 경우를 방지하기 위해 에러 발생 시 graceful degradation 전략도 함께 설계하는 게 좋다.
- Claude API에 대한 단일 의존성이 부담스럽다면, OpenAI Codex나 다른 LLM API를 fallback으로 두는 멀티-프로바이더 구조를 고려할 수 있다. 이번처럼 특정 모델(Opus 4.8)에만 문제가 생기는 경우, 오류율이 높아지면 자동으로 다른 모델이나 프로바이더로 라우팅하는 방식이 가용성을 높이는 데 효과적이다.
- Claude Code를 Windows 환경에서 사용 중인데 렌더링 지연이나 화면 깨짐 문제가 있다면, 댓글에서 언급된 antigravity CLI 같은 서드파티 도구를 대안으로 검토해볼 수 있다. 공식 클라이언트 버그가 해결될 때까지의 임시 대체 수단으로 유용할 수 있다.
Terminology
Related Papers
Jamesob's guide to running SOTA LLMs locally
2천 달러짜리 RTX 3090 한 장부터 4만 달러짜리 RTX PRO 6000 4장 셋업까지, 로컬에서 최신 LLM을 직접 돌리는 방법을 하드웨어 선택·구성·실행 설정까지 통째로 정리한 실전 가이드다.
Faster embeddings: how we rebuilt the ONNX path in Manticore
Manticore Search가 기존 SentenceTransformers/Candle 백엔드를 ONNX Runtime으로 교체해 텍스트 임베딩 생성 속도를 평균 14배 향상시켰다. 별도 모델 서비스 없이 DB 내부에서 직접 임베딩을 처리하는 구조에서 INSERT 속도가 곧 임베딩 속도이기 때문에 이 개선은 실질적인 ingest 처리량 향상으로 직결된다.
Asymmetric Quantization: Near-Lossless Retrieval with 97% Storage Reduction
멀티벡터 검색 모델의 문서 벡터를 1비트 이진값으로 압축하고 쿼리 벡터만 int8로 유지하는 비대칭 양자화 기법으로, 스토리지를 97% 줄이면서 검색 품질 손실을 0.61점(NDCG@10 기준)에 그치게 만든 실제 프로덕션 적용 사례다.
Show HN: Bash4LLM+ – A lightweight, dependency-free Bash wrapper for LLM APIs
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: deterministic routing of queries between local and hosted LLM
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: Architecture, Programming, and Performance
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.