Claude Code 사용자들, 예상보다 훨씬 빠른 사용량 한도 소진 문제 겪는 중
Claude Code users hitting usage limits 'way faster than expected'
TL;DR Highlight
Claude Code의 prompt cache 버그가 토큰을 10~20배 과소비하여 사용자들의 월 $100~$200 플랜을 몇 시간 만에 소진하게 한다.
Who Should Read
Claude Code나 Claude Pro/Max 플랜을 구독하며 일상적인 개발 작업이나 자동화 워크플로우에 활용하고 있는 개발자. 특히 Claude Code를 CI/CD 파이프라인이나 반복 작업에 연동해서 쓰는 경우 반드시 읽어야 한다.
Core Mechanics
- Anthropic이 공식적으로 문제를 인정했다. 'Claude Code에서 사용자들이 예상보다 훨씬 빠르게 사용량 한도에 도달하고 있으며, 현재 팀의 최우선 과제로 조사 중'이라고 밝혔다.
- 한 사용자가 Claude Code 바이너리를 리버스 엔지니어링해서 핵심 원인을 찾아냈다. 대화 내용에 '청구(billing)'나 '토큰(tokens)' 관련 키워드가 등장하면 Claude Code가 내부적으로 텍스트를 교체하는데, 이 과정에서 prompt cache(반복 요청 시 이전 처리 결과를 재사용해 비용을 줄이는 기능)가 무효화된다. 결과적으로 매 요청마다 캐시를 처음부터 다시 빌드해서 비용이 10~20배까지 부풀어 오른다.
- 구버전으로 다운그레이드하면 차이가 확연하다는 사용자 보고가 있었다. '2.1.34 버전으로 다운그레이드했더니 눈에 띄게 달라졌다'는 구체적인 사례가 공유됐고, 일부 사용자들이 이를 확인했다.
- 버그 외에도 quota 정책 변경이 겹쳤다. Anthropic은 3월 28일에 피크 시간대 할당량 축소를 적용했고, 같은 날 피크 외 시간대 사용량을 2배로 늘려주던 프로모션도 종료됐다. 이 두 가지 변경이 버그와 맞물리면서 체감 소진 속도가 더 극적으로 느껴진 것으로 보인다.
- Prompt cache의 기본 유지 시간이 5분에 불과하다는 것도 숨겨진 비용 요인이다. 잠깐 자리를 비우거나 5분 이상 작업을 멈추면 캐시가 만료되어 재시작 시 비용이 급증한다. 1시간짜리 캐시 업그레이드 옵션도 있지만, 쓰기 비용이 기본 입력 토큰의 2배라서 트레이드오프가 있다.
- 자동화 워크플로우에서 특히 위험하다는 경고가 나왔다. Rate limit 오류가 일반 실패처럼 보여서 자동으로 재시도가 발생하고, 루프 안에서 세션 하나가 일일 예산을 수 분 만에 소진할 수 있다는 사용자 경험이 공유됐다.
- Anthropic의 요금제 한도 정보가 불투명하다는 점이 문제를 더 심각하게 만든다. Pro 플랜은 '무료 대비 최소 5배 사용량'이라고만 명시하고, Standard Team은 'Pro보다 1.25배'라고만 한다. 실제 토큰 수나 요청 수를 사전에 알 수 없어 사용자들이 대시보드를 실시간으로 확인하는 것 외에는 방법이 없다.
Evidence
- 버그가 공식 확인됐음에도 환불이나 보상에 대한 언급이 없다는 불만이 나왔다. '버그로 검증됐으니 환불이나 할인이 있어야 마땅한데, 적극적으로 항의하지 않으면 아무것도 없을 것'이라는 의견이 공유됐고 많은 공감을 받았다.
- 의도적 A/B 테스트 의혹도 제기됐지만 버그로 결론났다. 일부 사용자는 '이것이 한도 축소에 대한 사용자 내성을 테스트하는 의도적 실험 아니냐'고 의심했으나, 리버스 엔지니어링을 통해 cache 무효화 버그로 확인됐다. 다만 Anthropic의 불투명한 소통 방식에 대한 불신은 계속됐다.
- Claude에 대한 맹목적 충성심을 비판하는 의견도 눈에 띄었다. 'Sonnet과 Opus를 바꿔도 사용자가 구분 못 할 것이고, 이는 $10짜리 와인과 $100짜리 와인을 구분 못하면서 비싼 걸 선호하는 심리와 같다'는 댓글이 있었다. 실제로 대안 모델(kimi, qwen3-coder-next 등)을 시도해보겠다는 반응도 있었다.
- 구독을 취소했다는 사용자들의 경험담이 잇따랐다. 한 사용자는 'Pro 플랜과 API 플랜을 합쳐 월 $40을 쓰다가 지난달 취소했다. 작년 12월부터 점점 세션이 짧아져서 이제는 프롬프트 몇 번에 한도가 찬다'고 했다. 또 다른 사용자는 '하루에 딱 두 번 질문했는데 한도가 다 찼다'는 황당한 경험을 공유했다.
- 컨텍스트 관리가 토큰 효율성에 중요하다는 실용적 팁도 공유됐다. '논문에서는 context rot(긴 대화에서 품질이 저하되는 현상)이 문제없다고 하지만, 실제로는 컨텍스트를 직접 관리하면 품질과 비용 모두 나아진다'는 경험담이 있었다. Claude Code보다 Web UI에서 수동으로 컨텍스트를 조절하는 방식이 더 효율적이었다는 사례도 있었다.
How to Apply
- Claude Code를 CI/CD나 자동화 스크립트에 연동해서 쓰고 있다면, rate limit 오류를 반드시 별도로 잡아야 한다. 현재 rate limit 오류가 일반 실패와 동일하게 보여서 무한 재시도가 발생할 수 있으므로, 에러 응답의 타입을 명시적으로 체크하고 재시도 로직에 backoff와 일일 예산 초과 시 중단 조건을 추가해야 한다.
- Claude Code 버전 2.1.34로 다운그레이드하면 당장의 과소비 문제를 줄일 수 있다. 버그가 수정된 버전이 배포되기 전까지 임시 조치로 활용할 수 있으며, 실제 사용자들이 다운그레이드 후 체감 차이가 컸다고 보고하고 있다.
- 대화 중에 'billing', 'token', '비용', '사용량' 관련 키워드가 등장하지 않도록 주의해야 한다. 버그의 원인이 이 키워드 등장 시 내부 텍스트 교체로 인한 cache 무효화이므로, 특히 긴 자동화 대화에서 이런 단어가 시스템 프롬프트나 대화 히스토리에 포함되지 않도록 관리해야 한다.
- Claude 대안 모델을 지금 병행 테스트해두는 것이 리스크 분산에 도움이 된다. 댓글에서 언급된 kimi, qwen3-coder-next(로컬 실행 가능) 등을 소규모 작업에 적용해보고 품질과 비용을 직접 비교해두면, Anthropic 정책 변경에 덜 종속된 개발 환경을 만들 수 있다.
Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.