Claude Token Counter 업그레이드: 모델 간 토크나이저 비교 기능 추가
Claude Token Counter, now with model comparisons
TL;DR Highlight
Claude Opus 4.7이 새 토크나이저를 도입하면서 같은 입력에 대해 최대 1.46배 더 많은 토큰을 소비한다는 사실이 확인됐고, 이는 사실상 40% 이상의 비용 인상 효과다.
Who Should Read
Claude API를 사용해 서비스를 운영 중인 개발자, 특히 Opus 4.7로 업그레이드를 고려하거나 이미 사용 중인데 비용 변화를 정확히 파악하고 싶은 백엔드/AI 개발자.
Core Mechanics
- Simon Willison이 만든 Claude Token Counter 툴에 모델 간 토큰 수 비교 기능이 추가됐다. Opus 4.7, Opus 4.6, Sonnet 4.6, Haiku 4.5 등 주요 모델 4개를 동시에 비교할 수 있다.
- Claude Opus 4.7은 Anthropic이 처음으로 토크나이저를 변경한 모델이다. Anthropic 공식 발표에 따르면 같은 입력이 1.0~1.35배 더 많은 토큰으로 변환될 수 있다고 했다.
- 실제 테스트에서 Opus 4.7 시스템 프롬프트를 넣어봤더니 Opus 4.6 대비 1.46배 더 많은 토큰이 나왔다. 공식 발표 범위(1.35배)를 초과하는 수치다.
- 가격은 Opus 4.6과 동일하게 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $25이지만, 토큰 수 자체가 약 46% 늘기 때문에 실질 비용은 약 40% 이상 더 나온다.
- 고해상도 이미지(3456x2234 픽셀, 3.7MB PNG)를 테스트했을 때는 Opus 4.6 대비 3.01배나 되는 토큰이 나왔다. 이는 Opus 4.7이 최대 2,576픽셀(약 3.75메가픽셀)까지 고해상도 이미지를 처리할 수 있도록 Vision 기능이 강화됐기 때문이다.
- 반면 682x318처럼 작은 이미지는 Opus 4.7이 314토큰, 4.6이 310토큰으로 거의 차이가 없었다. 이미지 토큰 증가는 고해상도 처리 지원 때문이지 토크나이저 자체 변화가 아니다.
- 15MB, 30페이지짜리 텍스트 중심 PDF를 테스트했을 때는 Opus 4.7이 60,934토큰, 4.6이 56,482토큰으로 1.08배 차이였다. 순수 텍스트보다 PDF는 토큰 증가폭이 훨씬 작다.
- 토큰 카운팅 API는 Claude API 키가 있어야 사용 가능하며, 모델 ID를 지정해 각 모델별 예상 토큰 수를 미리 확인할 수 있다.
Evidence
- 토크나이저 변경이 '돈 빼가기'라는 비판이 있었다. Anthropic이 변경 이유나 방식을 공식적으로 전혀 설명하지 않았다는 점에서, 실제로 모델 품질이 올랐는지 아니면 단순히 수익을 높이기 위한 것인지 외부에서는 확인할 방법이 없다는 의견이 제기됐다.
- 토크나이저 변경이 모델 성능 향상을 위한 의도적 설계일 수 있다는 기술적 반론도 있었다. 기존 BPE 방식은 대소문자, 공백, 어미 변화마다 별도 토큰을 써서 모델이 관계를 암기해야 하는데, 더 의미 단위에 맞게 쪼개면 토큰 수는 늘지만 추론 품질이 오를 수 있다는 설명이다. 또는 Byte Latent Transformer처럼 토크나이저 자체를 작은 학습 모델로 대체했을 가능성도 있다는 추측도 나왔다.
- tokens.billchambers.me/leaderboard에서 4.6과 4.7의 대규모 비교 데이터를 공개하고 있다는 정보가 공유됐다. 한 사용자는 자신의 프롬프트에서 40% 더 많은 토큰이 나왔다고 직접 측정 결과를 공유했다.
- 에이전트(자동화된 AI 작업 실행 시스템)를 운영하는 환경에서는 토큰 비용이 더 크게 불어난다는 실무 경험이 공유됐다. 액션 하나가 타임아웃되어 재시도할 때 전체 컨텍스트(이전 도구 호출 결과 포함)를 다시 전송하므로, 실패한 API 호출 하나가 성공 케이스의 3배 토큰을 소비하는 경우도 있다는 것이다.
- 비용 증가에 대한 대응으로 Claude CLI에서 기본 모델을 4.6으로 유지하고 필요할 때만 `--model claude-opus-4-7` 플래그를 붙여 쓰는 방식을 택하겠다는 실용적인 대응 방법이 공유됐다. 또한 고해상도 이미지를 업로드 전에 다운샘플링해서 토큰을 줄이자는 팁도 언급됐다.
How to Apply
- Opus 4.7로 마이그레이션을 고려 중이라면, 먼저 Simon Willison의 Claude Token Counter 툴(https://tools.simonwillison.net/claude-token-counter)에 실제 운영 중인 시스템 프롬프트와 대표 입력값을 넣어서 4.6 대비 토큰 비용이 얼마나 증가하는지 사전에 측정해보면 좋다.
- 이미지 처리 파이프라인을 Opus 4.7로 올린다면, 고해상도 이미지가 필수가 아닌 경우에는 업로드 전에 이미지를 682x318 수준으로 리사이즈하는 전처리를 추가하면 토큰 비용을 Opus 4.6 수준으로 유지할 수 있다.
- Claude CLI나 API를 사용하는 경우, 모든 요청에 Opus 4.7을 쓰는 대신 태스크 복잡도에 따라 모델을 분리하면 비용을 관리할 수 있다. 간단한 작업은 Sonnet 4.6이나 Haiku 4.5를 기본으로 쓰고 `--model claude-opus-4-7`은 꼭 필요한 복잡한 작업에만 지정하는 방식이다.
- 에이전트 시스템을 운영 중이라면 토큰 레벨 모니터링뿐 아니라 액션 레벨 관찰도 필요하다. 도구 호출 실패 시 컨텍스트 전체가 재전송되므로, 사이드 이펙트가 실제로 실행됐는지 여부를 추적해 불필요한 재시도를 줄이면 토큰 낭비를 크게 줄일 수 있다.
Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.