Claude Code 사용량 한도가 줄어든 게 아니라, 1M Context Window가 토큰을 잡아먹고 있는 거다
Your Claude Code Limits Didn't Shrink — I Think the 1M Context Window Is Eating Them Alive
TL;DR Highlight
Opus 4.6의 1M 컨텍스트 창 도입 이후 Claude Code의 rate limit이 빨리 차는 현상을, context compression 문제로 분석한 사용자 이론 — 1M 모델을 끄면 실제로 안정성이 개선됐다는 경험담 포함.
Who Should Read
Claude Code를 일상적으로 사용하는 개발자 중 최근 rate limit 초과나 응답 불안정을 겪고 있는 사람. 특히 긴 작업 세션을 자주 돌리는 경우.
Core Mechanics
- Anthropic이 Opus 4.6에 1M 토큰 컨텍스트 창을 전체 사용자에게 롤아웃한 이후, rate limit 소진이 빨라지고 서버 불안정이 심해졌다는 보고가 급증했다.
- Claude Code에는 오래된 대화 히스토리를 요약해서 토큰을 아끼는 context compression 시스템이 있는데, 이게 1M 컨텍스트 창에 맞게 충분히 공격적으로 작동하지 않는 것으로 보인다.
- 결과적으로 각 Claude Code 세션이 실제로 필요한 것보다 훨씬 많은 토큰을 요청에 포함시키게 되고, 전체 사용자가 모여서 Anthropic 서버를 의도치 않게 과부하시키는 형태가 됐다.
- 작성자의 가설에 따르면, Anthropic은 이 과부하에 대한 임시방편으로 사용자별 사용량 한도를 낮춘 것으로 보인다 — 실제로 한도가 줄어든 게 아니라, 작업당 소모되는 토큰이 늘어난 것.
- Anthropic이 조용히 기존 non-1M 컨텍스트 모델을 다시 옵션으로 복구했고, 해당 모델로 전환하자 안정성이 눈에 띄게 개선되고 한도 소진 속도도 줄었다.
Evidence
- 작성자 직접 검증: non-1M 모델로 전환하자 rate limit 소진 속도가 줄어들었고 세션이 더 안정적이었다고 보고
- 댓글 다수 공감: 1M 윈도우 출시 이후 긴 세션에서 컨텍스트 소모가 체감상 훨씬 빨라졌다는 경험 공유 — /compact 명령이 그나마 도움된다는 팁도
- claude-lens(github.com/Astro-Han/claude-lens) 도구로 컨텍스트 % 추적한 유저: 1M 모델에서 동일 작업 대비 burn rate가 더 높음을 실측으로 확인
- 반론: Pro 플랜은 1M 한도 없는데도 동일한 rate limit 현상이 발생 — 이론이 완전히 맞지 않을 수 있다는 지적 / off-peak 시간대에 사용량 카운팅이 안 된다는 프로모션 관련 변수도 언급됨
How to Apply
- Claude Code 설정에서 모델을 1M 컨텍스트 버전이 아닌 기존 모델로 전환해보고, rate limit 소진 속도와 응답 안정성이 개선되는지 확인한다.
- 긴 세션을 사용하는 경우, 주기적으로 `/clear` 또는 `/compact`로 컨텍스트를 직접 정리해서 누적 토큰을 줄인다.
- rate limit이 자주 걸린다면 실제 한도가 줄었는지보다, 작업당 소모 토큰이 늘었는지 먼저 의심해보고 컨텍스트 크기를 모니터링한다.
Terminology
context compressionClaude Code가 긴 대화 히스토리를 자동으로 요약해서 토큰 사용량을 줄이는 내부 메커니즘. 압축이 충분하지 않으면 요청마다 불필요하게 많은 토큰이 소모된다.
context window모델이 한 번의 요청에서 처리할 수 있는 최대 텍스트 길이. 1M 토큰이면 약 75만 단어를 한 번에 볼 수 있다.
rate limitAPI나 서비스에서 일정 시간 내 사용할 수 있는 요청 수나 토큰 양의 상한선. 초과하면 일정 시간 사용이 차단된다.