Claude Code 사용량 한도가 줄어든 게 아니라, 1M Context Window가 토큰을 잡아먹고 있는 거다

Your Claude Code Limits Didn't Shrink — I Think the 1M Context Window Is Eating Them Alive

Mar 25, 2026•mattate•View Original

Opus 4.6의 1M 컨텍스트 창 도입 이후 Claude Code의 rate limit이 빨리 차는 현상을, context compression 문제로 분석한 사용자 이론 — 1M 모델을 끄면 실제로 안정성이 개선됐다는 경험담 포함.

Claude Code를 일상적으로 사용하는 개발자 중 최근 rate limit 초과나 응답 불안정을 겪고 있는 사람. 특히 긴 작업 세션을 자주 돌리는 경우.

Anthropic이 Opus 4.6에 1M 토큰 컨텍스트 창을 전체 사용자에게 롤아웃한 이후, rate limit 소진이 빨라지고 서버 불안정이 심해졌다는 보고가 급증했다.
Claude Code에는 오래된 대화 히스토리를 요약해서 토큰을 아끼는 context compression 시스템이 있는데, 이게 1M 컨텍스트 창에 맞게 충분히 공격적으로 작동하지 않는 것으로 보인다.
결과적으로 각 Claude Code 세션이 실제로 필요한 것보다 훨씬 많은 토큰을 요청에 포함시키게 되고, 전체 사용자가 모여서 Anthropic 서버를 의도치 않게 과부하시키는 형태가 됐다.
작성자의 가설에 따르면, Anthropic은 이 과부하에 대한 임시방편으로 사용자별 사용량 한도를 낮춘 것으로 보인다 — 실제로 한도가 줄어든 게 아니라, 작업당 소모되는 토큰이 늘어난 것.
Anthropic이 조용히 기존 non-1M 컨텍스트 모델을 다시 옵션으로 복구했고, 해당 모델로 전환하자 안정성이 눈에 띄게 개선되고 한도 소진 속도도 줄었다.

작성자 직접 검증: non-1M 모델로 전환하자 rate limit 소진 속도가 줄어들었고 세션이 더 안정적이었다고 보고
댓글 다수 공감: 1M 윈도우 출시 이후 긴 세션에서 컨텍스트 소모가 체감상 훨씬 빨라졌다는 경험 공유 — /compact 명령이 그나마 도움된다는 팁도
claude-lens(github.com/Astro-Han/claude-lens) 도구로 컨텍스트 % 추적한 유저: 1M 모델에서 동일 작업 대비 burn rate가 더 높음을 실측으로 확인
반론: Pro 플랜은 1M 한도 없는데도 동일한 rate limit 현상이 발생 — 이론이 완전히 맞지 않을 수 있다는 지적 / off-peak 시간대에 사용량 카운팅이 안 된다는 프로모션 관련 변수도 언급됨

Claude Code 설정에서 모델을 1M 컨텍스트 버전이 아닌 기존 모델로 전환해보고, rate limit 소진 속도와 응답 안정성이 개선되는지 확인한다.
긴 세션을 사용하는 경우, 주기적으로 `/clear` 또는 `/compact`로 컨텍스트를 직접 정리해서 누적 토큰을 줄인다.
rate limit이 자주 걸린다면 실제 한도가 줄었는지보다, 작업당 소모 토큰이 늘었는지 먼저 의심해보고 컨텍스트 크기를 모니터링한다.

context compressionClaude Code가 긴 대화 히스토리를 자동으로 요약해서 토큰 사용량을 줄이는 내부 메커니즘. 압축이 충분하지 않으면 요청마다 불필요하게 많은 토큰이 소모된다.

context window모델이 한 번의 요청에서 처리할 수 있는 최대 텍스트 길이. 1M 토큰이면 약 75만 단어를 한 번에 볼 수 있다.

rate limitAPI나 서비스에서 일정 시간 내 사용할 수 있는 요청 수나 토큰 양의 상한선. 초과하면 일정 시간 사용이 차단된다.