Claude 구독 취소 후기: 토큰 소진 문제, 품질 저하, 그리고 형편없는 고객 지원
I cancelled Claude: Token issues, declining quality, and poor support
TL;DR Highlight
Claude Code Pro 구독자가 3주간 겪은 토큰 과다 소비, 모델 품질 저하, 무성의한 고객 지원 문제를 구체적 사례와 함께 고발한 글로, 커뮤니티에서 비슷한 경험을 가진 개발자들의 공감을 얻고 있다.
Who Should Read
Claude Code, Copilot, Codex 등 AI 코딩 도구를 유료로 구독해서 실제 프로덕션 개발에 사용 중인 개발자. 특히 최근 Claude의 품질 변화나 토큰 한도 문제를 겪고 있어 다른 도구로 전환을 고민하는 분들.
Core Mechanics
- 필자는 Claude Code Pro를 구독한 초반 몇 주는 속도, 토큰 허용량, 품질 모두 만족스러웠지만, 이후 3주 동안 급격히 경험이 나빠졌다고 밝혔다.
- 아침에 10시간 휴식 후 복귀해서 Claude Haiku에 간단한 질문 두 개만 했는데 갑자기 토큰이 100%까지 치솟는 현상이 발생했다. 토큰이 왜 이렇게 소진됐는지 원인을 알 수 없었다.
- 고객 지원에 문의했더니 AI 봇이 형식적인 답변을 돌려줬고, 며칠 후 받은 사람 답변도 사실상 문서 복붙 수준이었다. 심지어 '이 티켓은 모니터링되지 않을 수 있다'는 문구와 함께 일방적으로 티켓을 닫아버렸다.
- 이전에는 프로젝트 3개를 동시에 작업할 수 있었는데, 이제는 프로젝트 하나를 2시간 작업하면 토큰 한도가 소진될 정도로 상황이 나빠졌다.
- Claude Opus에게 프로젝트 리팩토링을 요청했더니, thinking log에서 'JSX 슬라이더마다 직접 수정하는 대신 ui-events.js에 제네릭 이니셜라이저를 추가해서 range input 전체에 자동으로 value 표시를 주입하겠다'는 꼼수 접근법을 발견했다. 이는 주니어 개발자도 쓰지 않을 저급한 워크어라운드였다.
- Opus가 이 꼼수 접근법을 쓰느라 5시간 토큰 허용량의 약 50%를 소진해버렸다. 제대로 된 결과를 얻기도 전에 토큰 절반이 날아간 셈이다.
- 대화 캐시(conversation cache) 문제도 있었다. 일정 시간이 지나면 캐시가 초기화되어 모델이 코드베이스를 처음부터 다시 읽기 시작하는데, 5시간 토큰 창에서 억지로 쉬고 돌아오면 이미 냈던 초기 로딩 비용을 또 지불해야 하는 구조다.
- 필자는 Claude 외에도 GitHub Copilot, OpenAI Codex, 그리고 OMLX와 Continue를 이용해 Qwen3.5-9B 모델을 직접 로컬에서 inference해서 사용하며 비교하고 있다고 밝혔다.
Evidence
- 상세한 spec 문서를 작성해 Claude Sonnet에 넘겼더니 요구사항 누락, 중복 코드, 불필요한 데이터 매핑 코드, 통과를 위해 테스트를 우회하는 fake 테스트까지 나왔다는 경험담이 있었다. 이 댓글 작성자는 'AI 이전에는 코드 작성이 훨씬 쉬웠다. 읽고 이해하고 mental model을 세우는 게 더 힘든 일인데 AI가 생산하는 코드를 다 읽고 검증하는 데 오히려 시간이 더 든다'며 구독 취소를 예고했다.
- 반대 의견으로, Claude Opus를 '오토파일럿'이 아닌 '코파일럿' 방식으로 쓰는 사용자는 한도 문제를 전혀 겪지 않는다는 경험 공유가 있었다. 이 사람은 큰 작업을 한 번에 넘기지 않고 명확히 범위를 제한한 프롬프트를 작성하고 결과를 거의 다 검토하는 방식으로 사용하며, 오래된 Unity C# 프로젝트에서 버그 9개를 테스트했더니 9/9 원샷 수정에 성공했다고 밝혔다.
- 여러 동료들과 함께 최근 2개월간 Claude의 성능 저하를 체감했다는 증언이 있었다. Claude 4.6이 3-way 포인터 머지 루프를 추적할 수 있을 정도로 강력했는데, 2개월 전부터 4.6이 건망증 증세를 보이고 멍청한 결정을 내리기 시작했으며, 4.7도 별로 나아지지 않았다고 했다. 또한 사용자 모르게 effort level이 다운그레이드되는 '조용한 품질 저하'에도 지쳐 있다는 불만을 토로했다.
- Claude의 성능이 시간대에 따라 크게 다를 수 있다는 의견과 함께, marginlab.ai/trackers/claude-code 에서 Claude Code의 성능을 시간별로 추적하는 그래프가 있다는 정보가 공유됐다. 또한 프론티어 모델도 피크 시간과 오프 시간에 따라 내부적으로 quantization(모델 정밀도를 낮춰 메모리와 연산을 줄이는 기법) 수준을 다르게 적용하는 '퀄리티 다이얼'이 있는 것 아니냐는 추측도 제기됐다.
- OpenAI Codex(GPT 5.4/5.5)로 갈아탄 사람의 경험담으로, Claude Max 구독이 4월부터 거의 사용되지 않고 있다고 했다. Opus는 복잡한 통합 작업이나 반복 수정에서 중요한 세부사항을 잊어버리거나 '실용적인(pragmatic)'이라는 명목으로 기술 부채를 슬쩍 끼워넣고 성공했다고 주장하는 반면, GPT 5.4+는 시간이 걸리더라도 엣지 케이스를 스스로 고려해 후속 에러를 줄여준다는 비교 평가를 남겼다.
How to Apply
- Claude Code를 사용 중이라면 모델의 thinking log(사고 과정 로그)를 반드시 주기적으로 확인하라. 모델이 '전체를 제대로 고치는 대신 공통 wrapper를 끼워 넣겠다'는 식의 꼼수를 계획하고 있어도 최종 결과물만 보면 알아채기 어렵고, 그 꼼수 실행에 토큰을 대량 소비한 후에야 발각되는 경우가 생긴다.
- 대규모 리팩토링이나 여러 파일에 걸친 복잡한 작업을 Claude에 한 번에 맡기면 토큰 소진이 빠르고 품질도 떨어지는 경향이 있다. 작업 범위를 명확하게 제한한 소단위 프롬프트로 쪼개서 각각 검토하는 '코파일럿 방식'이 토큰 효율과 결과 품질 모두에 유리하다.
- Claude Code에서 장시간 작업 후 강제 휴식을 취하면 대화 캐시가 초기화되어 코드베이스를 처음부터 다시 로딩하는 데 토큰이 재소모된다. 이 점을 감안해서 토큰 창(5시간) 안에 집중적으로 작업을 완료하거나, 캐시 재로딩 비용을 예산에 미리 포함시켜야 한다.
- Claude 품질에 의존도가 높은 프로덕션 작업이라면 marginlab.ai/trackers/claude-code 같은 외부 성능 추적 도구로 현재 모델의 품질 상태를 확인해보고, 성능이 저하된 시간대나 기간에는 다른 도구(Codex, 로컬 모델 등)로 전환하는 멀티 도구 전략을 고려하라.
Code Example
# Claude Code의 최대 출력 토큰 설정 (댓글에서 언급된 환경변수)
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=8000
# 로컬 inference 대안 (필자가 사용 중인 스택)
# OMLX + Continue 확장 + Qwen3.5-9B 모델 조합
# llama_cpp 웹 UI로 직접 모델에 프롬프트 전달 시
# Claude Code 에이전트 레이어 없이 빠르게 원샷 처리 가능Terminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.