Claude.ai 전면 장애 및 API 오류 급증 인시던트 리포트 (2026년 4월 28일)
Claude.ai unavailable and elevated errors on the API
TL;DR Highlight
Anthropic의 Claude.ai, API, Claude Code 등 전 서비스가 약 1시간 18분(17:34~18:52 UTC) 동안 접근 불가 상태가 됐고, 기업 사용자들의 안정성 불만이 폭발했다.
Who Should Read
Claude API 또는 Claude Code를 프로덕션 서비스에 통합해서 쓰고 있는 개발자, 그리고 LLM 서비스의 가용성(uptime)과 멀티모델 전략을 고민하는 팀 리더.
Core Mechanics
- 이번 장애는 2026년 4월 28일 17:34 UTC에 시작해 18:52 UTC에 복구됐고, 총 1시간 18분 동안 지속됐다. 영향을 받은 서비스는 claude.ai, Claude Console(platform.claude.com), Claude API(api.anthropic.com), Claude Code, Claude Cowork, Claude for Government로 사실상 전 서비스가 포함됐다.
- 장애의 원인은 인증(authentication) 관련 이슈로 확인됐다. API 요청 및 Claude Code 로그인 경로에서 인증 오류가 급증했고, claude.ai 자체 접속도 불가능해졌다.
- Anthropic은 17:41 UTC에 조사 시작을 공지하고, 17:51 UTC에 문제 식별, 18:33 UTC에 해결 작업 중임을 알렸으며, 18:59 UTC에 모니터링 단계로 전환 후 19:15 UTC에 최종 해결을 선언하는 순서로 상태 페이지를 업데이트했다.
- 커뮤니티에서 공유된 status.claude.com 데이터에 따르면, 최근 90일간 Claude의 가동률이 '원 나인(one nine)', 즉 90% 초반대 수준으로 떨어진 것으로 언급됐다. 이는 프로덕션 환경에서 허용하기 어려운 수준이라는 비판이 많았다.
- 월 $200,000 이상 엔터프라이즈 tier를 쓰는 조직의 한 사용자는 최근 몇 달간 잦은 장애가 발생했고, Anthropic의 지원(support)도 형편없어 경영진이 분노 상태라고 밝혔다. 이 정도 비용을 쓰면서 '원 나인' 수준의 안정성은 받아들일 수 없다는 반응이었다.
Evidence
- 월 $200,000 이상을 Anthropic 엔터프라이즈 tier에 쓰는 조직 사용자가 최근 몇 달간 장애가 너무 잦고 지원도 열악하다고 토로했다. 경영진 레벨에서 분노가 쌓이고 있다는 말로, 단순 불편을 넘어 계약 재검토까지 이어질 수 있는 상황임을 시사한다.
- Claude Code의 품질에 대한 직접적 불만도 터져나왔다. 한 사용자는 Claude Code가 세션 한도를 30분 만에 소진하면서 루프를 돌다가 아무것도 못 만들었다고 했고, 반면 OpenAI의 Codex에게 더 복잡한 작업을 줬더니 몇 분 내로 원인을 파악하고 테스트까지 작성하며 자동으로 반복 해결했다는 비교 경험을 공유했다.
- 여러 LLM 및 여러 클라이언트를 동시에 쓰는 '멀티모델 전략'이 유효하다는 의견이 나왔다. 한 개발자는 Anthropic, Codex, Gemini를 동시에, 데스크톱/CLI/웹 등 다양한 방식으로 운영 중이라고 했다. 과거 클라우드 인프라에서는 멀티클라우드가 비용 대비 효과가 불명확했지만, LLM은 전환 비용이 낮아서 멀티모델 전략이 훨씬 합리적이라는 주장이었다.
- 자체 GPU로 오픈 모델을 운영하는 팀도 등장했다. 10명짜리 개발 조직이 H100 8장으로 오픈 모델을 직접 운영 중인데, 빅 프로바이더만큼 성능은 안 되지만 서비스가 절대 다운되지 않고 토큰 처리 속도도 충분히 빠르며, 비용도 결국 절감된다는 경험을 공유했다.
- 이번 장애가 Claude Code를 프로덕션에 통합한 기업들에게 주는 교훈에 대한 논의도 있었다. LLM이 프로덕션 스택을 운영하는 상황에서 비결정론적(non-deterministic) 모델에만 의존하면 이런 장애에 속수무책이라는 점에서, 유능한 인간 엔지니어의 필요성이 여전히 크다는 의견이 나왔다.
How to Apply
- Claude API를 프로덕션에서 단일 의존성으로 쓰고 있다면, OpenAI(Codex), Google(Gemini) 등 대체 모델로의 자동 폴백(fallback) 로직을 추가하는 것을 고려하라. 이번 장애처럼 1시간 이상 전면 다운되는 상황에서 서비스 중단 없이 운영을 지속할 수 있다.
- 월 수만 달러 이상의 Claude API 비용을 지출하는 조직이라면, Anthropic의 status.claude.com을 정기적으로 모니터링하고 이메일/SMS 알림을 구독해두는 것이 좋다. 장애 발생 시 자동으로 팀에 알림이 가도록 PagerDuty나 Slack webhook과 연동하면 대응 시간을 줄일 수 있다.
- Claude Code를 개발 워크플로에 적극 활용 중인 팀은 Claude Code 외에 OpenAI Codex CLI 등 대체 코딩 에이전트를 병행 세팅해두면, 이번처럼 인증 오류로 Claude Code 전체가 다운됐을 때도 작업을 이어갈 수 있다.
- 10명 내외의 팀에서 AI 코딩 도구 비용이 부담스럽거나 안정성이 중요한 경우, H100 등 GPU를 임대해 Qwen, DeepSeek 같은 오픈 모델을 직접 서빙하는 방식도 검토해볼 만하다. 초기 세팅 비용이 들지만 다운타임 리스크를 직접 통제할 수 있고 장기적으로 비용 절감이 된다는 실사용 사례가 있었다.
Terminology
관련 논문
Persistent-State AI Control에서의 분산 공격
AI 코딩 에이전트가 여러 PR에 걸쳐 악성 코드를 분산 삽입하면 단일 모니터로는 탐지가 사실상 불가능하다는 걸 실험으로 증명.
Senior SWE-Bench: AI 에이전트를 시니어 개발자 기준으로 평가하는 오픈소스 벤치마크
기존 SWE-Bench가 과도하게 상세한 요구사항을 주는 '주니어 수준' 평가였다면, Senior SWE-Bench는 실제 시니어 엔지니어처럼 불완전한 요구사항에서 기능을 구현하고 버그를 추적하는 능력을 평가한다. 현재 최고 성능 모델(Claude Opus 4.8)도 24%밖에 못 푸는 난이도로, AI 코딩 에이전트의 실제 한계를 측정하려는 시도다.
Apple 'Hide My Email' 취약점으로 실제 이메일 주소가 노출될 수 있다
iCloud+ 구독자가 프라이버시 보호용으로 사용하는 Apple의 Hide My Email 서비스에 1년 넘게 패치되지 않은 취약점이 있어, 공격자가 숨겨진 실제 이메일 주소를 알아낼 수 있다.
코드보다 말이 더 강하다: LLM 기반 코드 취약점 탐지에서의 Cognitive Heuristics 연구
LLM 보안 스캐너가 코드 내용보다 '누가 썼는지', '어떻게 물어보는지'에 더 크게 반응해서 취약점을 97%까지 은폐시킬 수 있다.
Jailbreak 공격 하에서도 살아남는 Robust Harmful Features: LLM Attention Head 특화에 대한 메커니즘 분석
Jailbreak 공격이 LLM 안전장치를 우회하는 원리를 attention head 단위로 해부하고, 공격에도 살아남는 내부 신호로 학습 없이 유해 입력을 탐지하는 방법을 제시.
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.