Claude Code의 캐시 버그로 API 비용이 조용히 10~20배 폭증할 수 있다
Claude Code bug can silently 10-20x API costs
TL;DR Highlight
Claude Code의 캐시 관련 버그 2개가 API 비용을 최대 10~20배까지 증가시켜 $200/월 플랜 사용자들의 한도 소진을 가속화하고 있다.
Who Should Read
Claude Code(Anthropic의 AI 코딩 도구)를 API 비용 기반으로 사용 중인 개발자, 특히 Max 플랜이나 API 직접 연동으로 자동화 파이프라인을 돌리고 있는 분들.
Core Mechanics
- Claude Code에 캐시 관련 버그가 두 개 있는데, 이로 인해 프롬프트 캐싱(이전에 처리한 토큰을 재사용해 비용을 줄이는 기능)이 제대로 동작하지 않아 API 비용이 최대 10~20배까지 폭증할 수 있다.
- 문제는 '조용히' 발생한다는 점이다. 사용자는 평소와 같은 작업을 하고 있다고 생각하지만, 실제로는 캐시가 무효화되어 매번 전체 컨텍스트를 새로 처리하고 있어 토큰 비용이 기하급수적으로 늘어난다.
- 한 댓글 작성자는 $200/월짜리 Max 5x 플랜을 사용 중인데, 수천 개 파일을 동시에 20개 세션으로 분석하는 무거운 작업을 2일 동안 해도 50% 소진에 그쳤지만, 이후 단순 리팩토링과 버그 수정 작업 몇 시간 만에 나머지 50%가 모두 소진됐다고 보고했다.
- 해당 사용자는 작은 버그 수정 세션(약 20분짜리 세션 4개, 총 45분 작업)만으로도 한도를 100% 소진했으며, 롤오버까지 이틀을 기다려야 하는 상황이 됐다. 이 정도 작업량이면 정상적으로는 몇 퍼센트 수준이어야 한다.
- 별도 댓글에서는 Claude Opus 4가 존재하지 않는 API를 hallucination(환각)으로 만들어낸 뒤, 테스트를 통과시키려고 루프를 계속 돌면서 30분 만에 약 $12의 비용을 소모한 사례도 언급됐다. 주로 thinking token(추론 과정을 출력하는 토큰)이 원인으로 추정된다.
- 같은 루프 문제가 Gemini에서도 발생했다는 사례가 공유됐는데, 이는 AI 코딩 도구 전반에서 무한 루프로 인한 비용 폭발이 구조적 위험임을 보여준다.
- 커뮤니티에서는 이 버용 청구가 '검증 불가능한 작업'에 대한 것이냐는 질문도 나왔는데, 현재로서는 캐시 히트 여부나 실제 토큰 사용량을 사용자가 독립적으로 감사(audit)할 방법이 사실상 없다는 점이 지적됐다.
Evidence
- Max 5x 플랜($200/월) 사용자가 직접 수치를 공유했다. 수천 개 파일을 동시 20세션으로 처리하는 헤비 작업 2일(50% 소진) vs. 가벼운 리팩토링 몇 시간(나머지 50% 소진)이라는 극단적인 불균형이 실제로 발생했다. 이 사용자는 '버그인지 조용히 한도를 낮춘 건지 모르겠지만, $200/월에 이건 받아들일 수 없다'고 강하게 비판했다.
- Opus 4 hallucination + 루프 문제 경험담도 주목할 만하다. 존재하지 않는 API를 모델이 만들어내고 테스트를 통과시키려 루프를 돌면서 30분에 $12를 소모했다는 사례인데, 주로 thinking token이 원인으로 보인다는 추정이 함께 공유됐다.
- '이건 버그가 아니라 기능이다(This is a feature)'라는 냉소적인 댓글과 함께, '어떤 PM이 1000% 매출 증가 KPI를 달성했겠다'는 풍자 댓글이 달렸다. 이는 커뮤니티가 이 상황을 단순 버그가 아닌 비즈니스적 인센티브 문제로도 바라보고 있음을 시사한다.
- 현재로서는 캐시 히트 여부나 실제 토큰 소모량을 사용자가 독립적으로 검증할 방법이 없다는 점이 지적됐다. 즉, 청구된 비용이 실제로 정당한지 확인하려면 사실상 리버스 엔지니어링을 해야 하는 상황이다.
- 같은 루프 문제가 Gemini에서도 발생했다는 경험이 공유되면서, 이 문제가 Claude만의 문제가 아니라 AI 코딩 도구 전반의 구조적 위험임을 보여줬다. 특히 자율적으로 실행되는 에이전트 기반 작업에서 무한 루프는 비용 폭발로 직결된다.
How to Apply
- Claude Code를 자동화 파이프라인이나 장시간 에이전트 작업에 사용하는 경우, 반드시 Anthropic 콘솔의 사용량 대시보드를 작업 전후로 확인해 비정상적인 토큰 소모가 없는지 모니터링하라. 특히 짧은 작업 후 사용량이 갑자기 크게 뛰었다면 캐시 버그 피해를 의심해볼 수 있다.
- 에이전트가 루프를 돌 가능성이 있는 작업(테스트 자동 수정, 코드 생성 후 검증 반복 등)에는 반드시 최대 반복 횟수(max iterations)나 총 비용 한도를 설정하라. 현재 Claude Code는 루프 감지 및 자동 중단 기능이 불완전하므로, 수동으로 세션을 모니터링하거나 짧은 세션 단위로 나눠 실행하는 것이 안전하다.
- thinking token을 활성화한 Opus 4 계열 모델을 사용할 때는 특히 주의가 필요하다. Thinking token은 일반 토큰보다 훨씬 비싸고, hallucination 발생 시 루프와 결합해 비용이 기하급수적으로 늘어날 수 있다. 비용이 민감한 작업에는 thinking 기능을 끄거나 더 저렴한 모델(Haiku, Sonnet 계열)로 먼저 테스트하라.
- 캐시 버그가 수정될 때까지는 동일한 컨텍스트를 재사용하는 긴 세션보다, 짧은 독립 세션으로 작업을 분리하는 것이 예측 가능한 비용 관리에 유리하다. 세션이 길어질수록 캐시 무효화로 인한 비용 폭증 위험도 함께 커진다.
Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.