원시인 말투로 토큰 60% 절약하는 압축 프롬프트 기법
This new technique saves 60% of my token expenses
TL;DR Highlight
관사·접속사·조동사를 제거한 전보체 스타일은 LLM 응답 토큰을 60% 감소시킨다.
Who Should Read
API 비용이 부담스러워 토큰 최적화를 고민하는 백엔드 개발자. 특히 요약, 분류, 데이터 추출 등 간단한 작업에 GPT-4급 모델을 쓰고 있는 경우.
Core Mechanics
- 일반 응답이 수백 토큰일 때, '원시인(caveman)' 말투로 강제하면 40토큰 수준으로 압축된다. 같은 의미를 훨씬 적은 토큰으로 전달 가능.
- 핵심 프롬프트 패턴: 'Drop articles, conjunctions, filler words, copulas. Keep nouns, verbs, key modifiers only.' — 관사(a, the), 접속사(and, but), 불필요한 동사(is, are)를 제거하라고 명시 지시.
- 이 방식은 미국 수어(ASL)나 전보(telegram) 언어 구조와 유사하다. 의미 밀도를 높이고 패딩 단어를 제거하는 전략.
- 단, 이 기법은 '읽기 편한 응답'이 필요 없는 파이프라인에만 유효하다. 최종 사용자에게 노출되는 응답에는 맞지 않음.
- 80%의 프롬프트는 비싼 모델(GPT-4, Claude Opus) 없이도 처리 가능하다는 지적도 있음. 압축 스타일보다 모델 다운그레이드(라우팅)가 더 근본적인 비용 절감일 수 있음.
- 작은 모델(GPT-4o mini, Haiku 등)로 라우팅하는 전략과 압축 스타일을 함께 쓰면 시너지가 생긴다.
Evidence
- 일반 응답 대비 토큰 수 60% 감소 보고. 수백 토큰 응답이 약 40토큰 수준으로 압축되는 사례 제시.
- 비용은 입력+출력 토큰 합산이므로, 출력 토큰을 60% 줄이면 API 비용도 그에 비례해 감소. 출력 비중이 클수록 효과 큼.
How to Apply
- 내부 파이프라인(분류, 추출, 요약 등)에서 응답을 사람이 직접 읽지 않는 경우, 시스템 프롬프트에 전보체 지시를 추가하면 된다. 예: 'Respond in compressed telegraphic style. Drop articles, conjunctions, filler words, copulas. Keep nouns, verbs, key modifiers only.'
- 작업 복잡도를 먼저 판단하는 라우터를 만들어, 단순 분류/요약은 GPT-4o mini나 Claude Haiku로 보내고, 복잡한 추론만 비싼 모델로 보낸다. 여기에 압축 스타일까지 더하면 이중 절감 가능.
- 응답 파싱이 필요한 경우엔 JSON 모드나 structured output을 함께 써서 전보체 응답을 구조화하면, 파싱 오류 없이 토큰도 줄일 수 있다.
Code Example
system_prompt = """
Respond in compressed telegraphic style.
Drop articles, conjunctions, filler words, copulas.
Keep nouns, verbs, key modifiers only.
Meaning density over readability.
Write like a telegram costs per word.
"""
# 예시 입력
user_message = "What are the main causes of climate change?"
# 일반 응답 예시 (~80 tokens)
# "Climate change is primarily caused by the burning of fossil fuels, which releases greenhouse gases..."
# 전보체 응답 예시 (~20 tokens)
# "Fossil fuel burning → CO2 rise → heat trap. Also: deforestation, agriculture, industry emissions."Terminology
관련 논문
Claude Code에서 HTML을 출력 포맷으로 쓰는 이유: Markdown보다 나은 점들
Claude Code 팀이 Markdown 대신 HTML을 LLM 출력 포맷으로 선호하기 시작한 이유와 그 실용적 장점을 정리한 글로, AI와 함께 문서/스펙/대시보드를 만드는 워크플로우에 직접적인 영향을 준다.
언제 투표하고 언제 다시 쓸까: Disagreement 기반 Test-Time Scaling 전략 라우팅
모델 출력이 얼마나 일치하는지 보고 쉬운 문제엔 majority voting, 어려운 문제엔 문제 rewriting을 자동으로 선택해 정확도 3~7% 올리고 샘플링 비용도 줄이는 학습 불필요 프레임워크.
Less Is More: Android 앱에 On-Device Small Language Model 통합할 때 실제로 겪는 엔지니어링 문제들
Wordle 게임에 온디바이스 SLM(Gemma 4 E2B, Qwen3 0.6B)을 5일간 붙여보면서 발견한 5가지 실패 유형과 8가지 실용 해결책 정리
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
Karpathy 워크플로우에서 영감받아 사전 컴파일된 Wiki로 세션당 토큰 90%+ 절감
사전에 정리된 코드베이스 Wiki를 활용하면 Claude 세션당 토큰 사용량을 90% 이상 줄인다.
3개월치 AI 생성 코드를 전부 삭제했다. 그리고 배운 것들.
AI로 작성된 코드베이스를 70% 삭제 후 2주 만에 재작성하니 절반 크기로 줄어들면서 완전한 이해 가능성을 확보했다.