Claude Code 사용자들, 예상보다 훨씬 빠른 사용량 한도 소진 문제 겪는 중

TL;DR Highlight

Claude Code의 prompt cache 버그가 토큰을 10~20배 과소비하여 사용자들의 월 $100~$200 플랜을 몇 시간 만에 소진하게 한다.

Who Should Read

Claude Code나 Claude Pro/Max 플랜을 구독하며 일상적인 개발 작업이나 자동화 워크플로우에 활용하고 있는 개발자. 특히 Claude Code를 CI/CD 파이프라인이나 반복 작업에 연동해서 쓰는 경우 반드시 읽어야 한다.

Core Mechanics

Anthropic이 공식적으로 문제를 인정했다. 'Claude Code에서 사용자들이 예상보다 훨씬 빠르게 사용량 한도에 도달하고 있으며, 현재 팀의 최우선 과제로 조사 중'이라고 밝혔다.
한 사용자가 Claude Code 바이너리를 리버스 엔지니어링해서 핵심 원인을 찾아냈다. 대화 내용에 '청구(billing)'나 '토큰(tokens)' 관련 키워드가 등장하면 Claude Code가 내부적으로 텍스트를 교체하는데, 이 과정에서 prompt cache(반복 요청 시 이전 처리 결과를 재사용해 비용을 줄이는 기능)가 무효화된다. 결과적으로 매 요청마다 캐시를 처음부터 다시 빌드해서 비용이 10~20배까지 부풀어 오른다.
구버전으로 다운그레이드하면 차이가 확연하다는 사용자 보고가 있었다. '2.1.34 버전으로 다운그레이드했더니 눈에 띄게 달라졌다'는 구체적인 사례가 공유됐고, 일부 사용자들이 이를 확인했다.
버그 외에도 quota 정책 변경이 겹쳤다. Anthropic은 3월 28일에 피크 시간대 할당량 축소를 적용했고, 같은 날 피크 외 시간대 사용량을 2배로 늘려주던 프로모션도 종료됐다. 이 두 가지 변경이 버그와 맞물리면서 체감 소진 속도가 더 극적으로 느껴진 것으로 보인다.
Prompt cache의 기본 유지 시간이 5분에 불과하다는 것도 숨겨진 비용 요인이다. 잠깐 자리를 비우거나 5분 이상 작업을 멈추면 캐시가 만료되어 재시작 시 비용이 급증한다. 1시간짜리 캐시 업그레이드 옵션도 있지만, 쓰기 비용이 기본 입력 토큰의 2배라서 트레이드오프가 있다.
자동화 워크플로우에서 특히 위험하다는 경고가 나왔다. Rate limit 오류가 일반 실패처럼 보여서 자동으로 재시도가 발생하고, 루프 안에서 세션 하나가 일일 예산을 수 분 만에 소진할 수 있다는 사용자 경험이 공유됐다.
Anthropic의 요금제 한도 정보가 불투명하다는 점이 문제를 더 심각하게 만든다. Pro 플랜은 '무료 대비 최소 5배 사용량'이라고만 명시하고, Standard Team은 'Pro보다 1.25배'라고만 한다. 실제 토큰 수나 요청 수를 사전에 알 수 없어 사용자들이 대시보드를 실시간으로 확인하는 것 외에는 방법이 없다.

Evidence

버그가 공식 확인됐음에도 환불이나 보상에 대한 언급이 없다는 불만이 나왔다. '버그로 검증됐으니 환불이나 할인이 있어야 마땅한데, 적극적으로 항의하지 않으면 아무것도 없을 것'이라는 의견이 공유됐고 많은 공감을 받았다.
의도적 A/B 테스트 의혹도 제기됐지만 버그로 결론났다. 일부 사용자는 '이것이 한도 축소에 대한 사용자 내성을 테스트하는 의도적 실험 아니냐'고 의심했으나, 리버스 엔지니어링을 통해 cache 무효화 버그로 확인됐다. 다만 Anthropic의 불투명한 소통 방식에 대한 불신은 계속됐다.
Claude에 대한 맹목적 충성심을 비판하는 의견도 눈에 띄었다. 'Sonnet과 Opus를 바꿔도 사용자가 구분 못 할 것이고, 이는 $10짜리 와인과 $100짜리 와인을 구분 못하면서 비싼 걸 선호하는 심리와 같다'는 댓글이 있었다. 실제로 대안 모델(kimi, qwen3-coder-next 등)을 시도해보겠다는 반응도 있었다.
구독을 취소했다는 사용자들의 경험담이 잇따랐다. 한 사용자는 'Pro 플랜과 API 플랜을 합쳐 월 $40을 쓰다가 지난달 취소했다. 작년 12월부터 점점 세션이 짧아져서 이제는 프롬프트 몇 번에 한도가 찬다'고 했다. 또 다른 사용자는 '하루에 딱 두 번 질문했는데 한도가 다 찼다'는 황당한 경험을 공유했다.
컨텍스트 관리가 토큰 효율성에 중요하다는 실용적 팁도 공유됐다. '논문에서는 context rot(긴 대화에서 품질이 저하되는 현상)이 문제없다고 하지만, 실제로는 컨텍스트를 직접 관리하면 품질과 비용 모두 나아진다'는 경험담이 있었다. Claude Code보다 Web UI에서 수동으로 컨텍스트를 조절하는 방식이 더 효율적이었다는 사례도 있었다.

How to Apply

Claude Code를 CI/CD나 자동화 스크립트에 연동해서 쓰고 있다면, rate limit 오류를 반드시 별도로 잡아야 한다. 현재 rate limit 오류가 일반 실패와 동일하게 보여서 무한 재시도가 발생할 수 있으므로, 에러 응답의 타입을 명시적으로 체크하고 재시도 로직에 backoff와 일일 예산 초과 시 중단 조건을 추가해야 한다.
Claude Code 버전 2.1.34로 다운그레이드하면 당장의 과소비 문제를 줄일 수 있다. 버그가 수정된 버전이 배포되기 전까지 임시 조치로 활용할 수 있으며, 실제 사용자들이 다운그레이드 후 체감 차이가 컸다고 보고하고 있다.
대화 중에 'billing', 'token', '비용', '사용량' 관련 키워드가 등장하지 않도록 주의해야 한다. 버그의 원인이 이 키워드 등장 시 내부 텍스트 교체로 인한 cache 무효화이므로, 특히 긴 자동화 대화에서 이런 단어가 시스템 프롬프트나 대화 히스토리에 포함되지 않도록 관리해야 한다.
Claude 대안 모델을 지금 병행 테스트해두는 것이 리스크 분산에 도움이 된다. 댓글에서 언급된 kimi, qwen3-coder-next(로컬 실행 가능) 등을 소규모 작업에 적용해보고 품질과 비용을 직접 비교해두면, Anthropic 정책 변경에 덜 종속된 개발 환경을 만들 수 있다.

Terminology

Prompt Cache같은 내용의 입력을 반복 처리할 때 이전 결과를 저장해뒀다가 재사용하는 기능. 쉽게 말해 'DB 쿼리 결과 캐싱'처럼, 동일한 시스템 프롬프트나 긴 컨텍스트를 매번 새로 계산하지 않아 비용과 속도를 절약한다.

Cache Invalidation저장된 캐시가 유효하지 않다고 판단되어 무효화되는 것. 이번 버그에서는 특정 키워드가 등장하면 의도치 않게 캐시가 날아가서 처음부터 다시 계산하게 된다.

Context RotAI와 긴 대화를 이어갈수록 초반 맥락이 희석되거나 품질이 저하되는 현상. 마치 전화 게임처럼 대화가 길어질수록 원래 의도에서 벗어나는 응답이 나오기 시작한다.

Rate Limit일정 시간 동안 사용할 수 있는 API 요청이나 토큰 수의 상한선. 초과하면 서비스가 응답을 거부하는데, 이번 경우에는 오류 형태가 일반 실패와 구분이 안 돼서 자동 재시도를 유발했다.

TokenAI 모델이 텍스트를 처리하는 기본 단위. 한국어는 대략 1~2글자, 영어는 단어의 3/4 정도에 해당하며, 입력과 출력 모두 토큰 수에 따라 비용이 계산된다.

Quota구독 플랜별로 정해진 사용 한도. Anthropic은 정확한 수치를 공개하지 않고 '무료 대비 몇 배' 식으로만 표시해서, 사용자가 얼마나 남았는지 직접 계산하기 어렵다.