Claude에게 원시인 말투를 가르쳐 output 토큰 75% 절약하기
Taught Claude to talk like a caveman to use 75% less tokens.
TL;DR Highlight
짧은 문장 강제 프롬프트는 output 토큰을 75% 감소시키지만 실제 비용 절감은 3~4% 수준에 그친다.
Who Should Read
Claude API를 직접 호출하는 개발자 중 output 토큰 비용이 신경 쓰이거나, 응답 길이를 줄이고 싶은 사람. 특히 로컬 LLM(Ollama 등)을 쓰면서 VRAM을 아끼고 싶은 개발자.
Core Mechanics
- 시스템 프롬프트에 '3~6 단어 짧은 문장만', '불필요한 서론 금지', '도구 결과부터 출력' 같은 제약을 걸면 output 토큰이 최대 75%까지 줄어든다.
- 하지만 전체 API 비용에서 output 토큰 비중은 약 5%에 불과하다. 진짜 비용은 input(컨텍스트 윈도우, 도구 결과, 파일 읽기)에서 나온다.
- 결과적으로 총 비용 절감은 3~4% 수준 — output을 75% 줄여봤자 전체에서는 미미하다.
- 단, API 요금 구조상 output 토큰이 input보다 5배 비싼 경우가 많아, output 절감의 실질 효과는 단순 비율보다 더 클 수 있다.
- 원시인 말투(out of distribution 텍스트)가 모델의 추론 품질(thinking)을 저하시킬 수 있다는 우려가 있다. 응답 스타일을 바꾸면 내부 reasoning도 영향받을 수 있음.
- 로컬 LLM 환경에서는 output 길이가 줄면 생성 시간과 VRAM 사용량이 직접 줄어들어 효과가 더 뚜렷하다.
Evidence
- caveman 스타일 프롬프트 적용 시 output 토큰 75% 감소 확인.
- 전체 비용 기준 절감폭은 3~4% 수준 — output이 전체 토큰에서 약 5% 비중을 차지하기 때문.
- API 과금 구조에서 output 토큰은 input 대비 최대 5배 비싸므로, output 절감 효과가 실제 절감액으로는 더 크게 반영될 수 있음.
How to Apply
- Claude API 시스템 프롬프트에 아래 규칙을 추가하면 바로 적용된다: 'Short sentences only (3-6 words). No filler/preamble. Tool first, result first, no explain.' 비용보다 응답 속도나 VRAM이 더 중요한 환경(로컬 LLM, 빠른 프로토타이핑)에 유리하다.
- 비용 최적화가 목적이라면 output보다 input 쪽을 먼저 줄여야 한다. 컨텍스트 윈도우에 불필요한 파일/도구 결과를 넣지 않거나, 캐싱(prompt caching)을 활용하는 게 더 효과적이다.
- 추론 품질이 중요한 작업(코드 디버깅, 복잡한 분석)에는 적용하지 않는 것이 안전하다. 스타일 제약이 모델의 내부 thinking에 영향을 줄 수 있으므로, 단순 CRUD 응답이나 요약처럼 reasoning이 덜 필요한 작업에만 제한적으로 사용하라.
Code Example
SYSTEM_PROMPT = """
You are a concise assistant. Rules:
- Short sentences only (3-6 words max)
- No filler, no preamble, no 'Certainly!'
- Tool result first, explain never
- Cut all adjectives unless critical
- Answer = action + result, nothing else
"""Terminology
관련 논문
Claude Code에서 HTML을 출력 포맷으로 쓰는 이유: Markdown보다 나은 점들
Claude Code 팀이 Markdown 대신 HTML을 LLM 출력 포맷으로 선호하기 시작한 이유와 그 실용적 장점을 정리한 글로, AI와 함께 문서/스펙/대시보드를 만드는 워크플로우에 직접적인 영향을 준다.
언제 투표하고 언제 다시 쓸까: Disagreement 기반 Test-Time Scaling 전략 라우팅
모델 출력이 얼마나 일치하는지 보고 쉬운 문제엔 majority voting, 어려운 문제엔 문제 rewriting을 자동으로 선택해 정확도 3~7% 올리고 샘플링 비용도 줄이는 학습 불필요 프레임워크.
Less Is More: Android 앱에 On-Device Small Language Model 통합할 때 실제로 겪는 엔지니어링 문제들
Wordle 게임에 온디바이스 SLM(Gemma 4 E2B, Qwen3 0.6B)을 5일간 붙여보면서 발견한 5가지 실패 유형과 8가지 실용 해결책 정리
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
Karpathy 워크플로우에서 영감받아 사전 컴파일된 Wiki로 세션당 토큰 90%+ 절감
사전에 정리된 코드베이스 Wiki를 활용하면 Claude 세션당 토큰 사용량을 90% 이상 줄인다.
3개월치 AI 생성 코드를 전부 삭제했다. 그리고 배운 것들.
AI로 작성된 코드베이스를 70% 삭제 후 2주 만에 재작성하니 절반 크기로 줄어들면서 완전한 이해 가능성을 확보했다.