Claude Token Counter 업그레이드: 모델 간 토크나이저 비교 기능 추가
Claude Token Counter, now with model comparisons
TL;DR Highlight
Claude Opus 4.7이 새 토크나이저를 도입하면서 같은 입력에 대해 최대 1.46배 더 많은 토큰을 소비한다는 사실이 확인됐고, 이는 사실상 40% 이상의 비용 인상 효과다.
Who Should Read
Claude API를 사용해 서비스를 운영 중인 개발자, 특히 Opus 4.7로 업그레이드를 고려하거나 이미 사용 중인데 비용 변화를 정확히 파악하고 싶은 백엔드/AI 개발자.
Core Mechanics
- Simon Willison이 만든 Claude Token Counter 툴에 모델 간 토큰 수 비교 기능이 추가됐다. Opus 4.7, Opus 4.6, Sonnet 4.6, Haiku 4.5 등 주요 모델 4개를 동시에 비교할 수 있다.
- Claude Opus 4.7은 Anthropic이 처음으로 토크나이저를 변경한 모델이다. Anthropic 공식 발표에 따르면 같은 입력이 1.0~1.35배 더 많은 토큰으로 변환될 수 있다고 했다.
- 실제 테스트에서 Opus 4.7 시스템 프롬프트를 넣어봤더니 Opus 4.6 대비 1.46배 더 많은 토큰이 나왔다. 공식 발표 범위(1.35배)를 초과하는 수치다.
- 가격은 Opus 4.6과 동일하게 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $25이지만, 토큰 수 자체가 약 46% 늘기 때문에 실질 비용은 약 40% 이상 더 나온다.
- 고해상도 이미지(3456x2234 픽셀, 3.7MB PNG)를 테스트했을 때는 Opus 4.6 대비 3.01배나 되는 토큰이 나왔다. 이는 Opus 4.7이 최대 2,576픽셀(약 3.75메가픽셀)까지 고해상도 이미지를 처리할 수 있도록 Vision 기능이 강화됐기 때문이다.
- 반면 682x318처럼 작은 이미지는 Opus 4.7이 314토큰, 4.6이 310토큰으로 거의 차이가 없었다. 이미지 토큰 증가는 고해상도 처리 지원 때문이지 토크나이저 자체 변화가 아니다.
- 15MB, 30페이지짜리 텍스트 중심 PDF를 테스트했을 때는 Opus 4.7이 60,934토큰, 4.6이 56,482토큰으로 1.08배 차이였다. 순수 텍스트보다 PDF는 토큰 증가폭이 훨씬 작다.
- 토큰 카운팅 API는 Claude API 키가 있어야 사용 가능하며, 모델 ID를 지정해 각 모델별 예상 토큰 수를 미리 확인할 수 있다.
Evidence
- 토크나이저 변경이 '돈 빼가기'라는 비판이 있었다. Anthropic이 변경 이유나 방식을 공식적으로 전혀 설명하지 않았다는 점에서, 실제로 모델 품질이 올랐는지 아니면 단순히 수익을 높이기 위한 것인지 외부에서는 확인할 방법이 없다는 의견이 제기됐다.
- 토크나이저 변경이 모델 성능 향상을 위한 의도적 설계일 수 있다는 기술적 반론도 있었다. 기존 BPE 방식은 대소문자, 공백, 어미 변화마다 별도 토큰을 써서 모델이 관계를 암기해야 하는데, 더 의미 단위에 맞게 쪼개면 토큰 수는 늘지만 추론 품질이 오를 수 있다는 설명이다. 또는 Byte Latent Transformer처럼 토크나이저 자체를 작은 학습 모델로 대체했을 가능성도 있다는 추측도 나왔다.
- tokens.billchambers.me/leaderboard에서 4.6과 4.7의 대규모 비교 데이터를 공개하고 있다는 정보가 공유됐다. 한 사용자는 자신의 프롬프트에서 40% 더 많은 토큰이 나왔다고 직접 측정 결과를 공유했다.
- 에이전트(자동화된 AI 작업 실행 시스템)를 운영하는 환경에서는 토큰 비용이 더 크게 불어난다는 실무 경험이 공유됐다. 액션 하나가 타임아웃되어 재시도할 때 전체 컨텍스트(이전 도구 호출 결과 포함)를 다시 전송하므로, 실패한 API 호출 하나가 성공 케이스의 3배 토큰을 소비하는 경우도 있다는 것이다.
- 비용 증가에 대한 대응으로 Claude CLI에서 기본 모델을 4.6으로 유지하고 필요할 때만 `--model claude-opus-4-7` 플래그를 붙여 쓰는 방식을 택하겠다는 실용적인 대응 방법이 공유됐다. 또한 고해상도 이미지를 업로드 전에 다운샘플링해서 토큰을 줄이자는 팁도 언급됐다.
How to Apply
- Opus 4.7로 마이그레이션을 고려 중이라면, 먼저 Simon Willison의 Claude Token Counter 툴(https://tools.simonwillison.net/claude-token-counter)에 실제 운영 중인 시스템 프롬프트와 대표 입력값을 넣어서 4.6 대비 토큰 비용이 얼마나 증가하는지 사전에 측정해보면 좋다.
- 이미지 처리 파이프라인을 Opus 4.7로 올린다면, 고해상도 이미지가 필수가 아닌 경우에는 업로드 전에 이미지를 682x318 수준으로 리사이즈하는 전처리를 추가하면 토큰 비용을 Opus 4.6 수준으로 유지할 수 있다.
- Claude CLI나 API를 사용하는 경우, 모든 요청에 Opus 4.7을 쓰는 대신 태스크 복잡도에 따라 모델을 분리하면 비용을 관리할 수 있다. 간단한 작업은 Sonnet 4.6이나 Haiku 4.5를 기본으로 쓰고 `--model claude-opus-4-7`은 꼭 필요한 복잡한 작업에만 지정하는 방식이다.
- 에이전트 시스템을 운영 중이라면 토큰 레벨 모니터링뿐 아니라 액션 레벨 관찰도 필요하다. 도구 호출 실패 시 컨텍스트 전체가 재전송되므로, 사이드 이펙트가 실제로 실행됐는지 여부를 추적해 불필요한 재시도를 줄이면 토큰 낭비를 크게 줄일 수 있다.
Terminology
관련 논문
로컬에서 SOTA LLM 실행하기 완전 가이드 (하드웨어부터 설정까지)
2천 달러짜리 RTX 3090 한 장부터 4만 달러짜리 RTX PRO 6000 4장 셋업까지, 로컬에서 최신 LLM을 직접 돌리는 방법을 하드웨어 선택·구성·실행 설정까지 통째로 정리한 실전 가이드다.
Manticore Search에서 ONNX 경로를 재설계해 임베딩 속도를 14배 높인 방법
Manticore Search가 기존 SentenceTransformers/Candle 백엔드를 ONNX Runtime으로 교체해 텍스트 임베딩 생성 속도를 평균 14배 향상시켰다. 별도 모델 서비스 없이 DB 내부에서 직접 임베딩을 처리하는 구조에서 INSERT 속도가 곧 임베딩 속도이기 때문에 이 개선은 실질적인 ingest 처리량 향상으로 직결된다.
Asymmetric Quantization: 97% 스토리지 절감으로 Late Interaction 검색 품질 유지하기
멀티벡터 검색 모델의 문서 벡터를 1비트 이진값으로 압축하고 쿼리 벡터만 int8로 유지하는 비대칭 양자화 기법으로, 스토리지를 97% 줄이면서 검색 품질 손실을 0.61점(NDCG@10 기준)에 그치게 만든 실제 프로덕션 적용 사례다.
Bash4LLM+ – 의존성 없는 경량 Bash LLM API 래퍼
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: 로컬과 hosted LLM 간 deterministic 쿼리 라우팅 도구
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: 아키텍처, 프로그래밍, 성능 (리버스 엔지니어링 가이드)
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.