Claude에게 원시인 말투를 가르쳐 output 토큰 75% 절약하기
Taught Claude to talk like a caveman to use 75% less tokens.
TL;DR Highlight
짧은 문장 강제 프롬프트는 output 토큰을 75% 감소시키지만 실제 비용 절감은 3~4% 수준에 그친다.
Who Should Read
Claude API를 직접 호출하는 개발자 중 output 토큰 비용이 신경 쓰이거나, 응답 길이를 줄이고 싶은 사람. 특히 로컬 LLM(Ollama 등)을 쓰면서 VRAM을 아끼고 싶은 개발자.
Core Mechanics
- 시스템 프롬프트에 '3~6 단어 짧은 문장만', '불필요한 서론 금지', '도구 결과부터 출력' 같은 제약을 걸면 output 토큰이 최대 75%까지 줄어든다.
- 하지만 전체 API 비용에서 output 토큰 비중은 약 5%에 불과하다. 진짜 비용은 input(컨텍스트 윈도우, 도구 결과, 파일 읽기)에서 나온다.
- 결과적으로 총 비용 절감은 3~4% 수준 — output을 75% 줄여봤자 전체에서는 미미하다.
- 단, API 요금 구조상 output 토큰이 input보다 5배 비싼 경우가 많아, output 절감의 실질 효과는 단순 비율보다 더 클 수 있다.
- 원시인 말투(out of distribution 텍스트)가 모델의 추론 품질(thinking)을 저하시킬 수 있다는 우려가 있다. 응답 스타일을 바꾸면 내부 reasoning도 영향받을 수 있음.
- 로컬 LLM 환경에서는 output 길이가 줄면 생성 시간과 VRAM 사용량이 직접 줄어들어 효과가 더 뚜렷하다.
Evidence
- caveman 스타일 프롬프트 적용 시 output 토큰 75% 감소 확인.
- 전체 비용 기준 절감폭은 3~4% 수준 — output이 전체 토큰에서 약 5% 비중을 차지하기 때문.
- API 과금 구조에서 output 토큰은 input 대비 최대 5배 비싸므로, output 절감 효과가 실제 절감액으로는 더 크게 반영될 수 있음.
How to Apply
- Claude API 시스템 프롬프트에 아래 규칙을 추가하면 바로 적용된다: 'Short sentences only (3-6 words). No filler/preamble. Tool first, result first, no explain.' 비용보다 응답 속도나 VRAM이 더 중요한 환경(로컬 LLM, 빠른 프로토타이핑)에 유리하다.
- 비용 최적화가 목적이라면 output보다 input 쪽을 먼저 줄여야 한다. 컨텍스트 윈도우에 불필요한 파일/도구 결과를 넣지 않거나, 캐싱(prompt caching)을 활용하는 게 더 효과적이다.
- 추론 품질이 중요한 작업(코드 디버깅, 복잡한 분석)에는 적용하지 않는 것이 안전하다. 스타일 제약이 모델의 내부 thinking에 영향을 줄 수 있으므로, 단순 CRUD 응답이나 요약처럼 reasoning이 덜 필요한 작업에만 제한적으로 사용하라.
Code Example
SYSTEM_PROMPT = """
You are a concise assistant. Rules:
- Short sentences only (3-6 words max)
- No filler, no preamble, no 'Certainly!'
- Tool result first, explain never
- Cut all adjectives unless critical
- Answer = action + result, nothing else
"""Terminology
관련 논문
claude-real-video: 어떤 LLM이든 영상을 실제로 '볼 수' 있게 해주는 도구
YouTube URL이나 로컬 영상 파일에서 장면 변화 기반으로 핵심 프레임만 추출하고 음성 전사까지 해서 LLM에게 넘겨주는 오픈소스 도구. Claude는 영상 파일을 못 받고, ChatGPT는 자막만 읽고, Gemini는 고정 1fps 샘플링이라는 한계를 모두 우회한다.
ReContext: 재귀적 Evidence Replay로 LLM의 Long-Context 추론 개선
128K 토큰 컨텍스트에서 모델 내부 attention 신호로 핵심 증거만 추출해 재주입하면 추론 정확도가 24.6% 오른다.
LLM을 활용한 Single/Multi Truth Data Fusion
여러 소스의 충돌하는 데이터를 GPT-4o-mini 프롬프트로 병합하면 기존 비지도 방법보다 일관되게 F1 점수가 높다.
다국어 Reasoning Cascade는 더 많은 Context가 필요하다
번역 cascade 파이프라인에서 원본 질문을 마지막까지 유지하면 추가 학습 없이 다국어 성능이 크게 오른다.
Back-and-Forth를 줄여라: Structured Prompting 비교 연구
체크리스트 형식으로 프롬프트를 구조화하면 LLM 답변 품질도 높아지고 토큰도 적게 쓴다.
Training-Free Cultural Alignment: Persona 불일치를 활용한 LLM 문화적 정렬
재학습 없이 각 나라의 도덕적 가치관에 맞게 LLM 출력을 조정하는 추론 시점 기법 DISCA 제안
Claude Code에서 HTML을 출력 포맷으로 쓰는 이유: Markdown보다 나은 점들
Claude Code 팀이 Markdown 대신 HTML을 LLM 출력 포맷으로 선호하기 시작한 이유와 그 실용적 장점을 정리한 글로, AI와 함께 문서/스펙/대시보드를 만드는 워크플로우에 직접적인 영향을 준다.