추론
추론 관련 최신 60편.
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Polynomial Autoencoder가 Transformer Embedding에서 PCA를 능가하는 방법
PCA 인코더에 2차 다항식 디코더를 붙여서 닫힌 형태(closed-form)로 embedding 압축 품질을 크게 개선하는 기법으로, SGD 없이 numpy만으로 구현 가능하다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
FlexSQL: 유연한 탐색과 실행으로 더 나은 Text-to-SQL Agent 만들기
고정된 파이프라인 대신 추론 중 언제든 DB를 탐색·실행할 수 있는 Text-to-SQL 에이전트로 Spider2.0 벤치마크에서 gpt-o3, DeepSeek-R1 기반 시스템을 더 작은 모델로 능가
RunAgent: Constraint 기반 실행으로 자연어 Plan을 해석하는 Multi-Agent 실행 플랫폼
LLM이 자연어 플랜을 단계별로 확실히 실행하도록 IF/GOTO/FORALL 같은 제어 구문과 자동 constraint 검증을 붙인 에이전트 실행 프레임워크.
Bian Que: 온라인 시스템 운영을 위한 Flexible Skill Arrangement 기반 Agentic Framework
검색/추천/광고 대규모 시스템의 장애 대응을 자동화하는 LLM 에이전트 프레임워크로, alert를 75% 줄이고 장애 해결 시간을 50% 단축했다.
언제 투표하고 언제 다시 쓸까: Disagreement 기반 Test-Time Scaling 전략 라우팅
모델 출력이 얼마나 일치하는지 보고 쉬운 문제엔 majority voting, 어려운 문제엔 문제 rewriting을 자동으로 선택해 정확도 3~7% 올리고 샘플링 비용도 줄이는 학습 불필요 프레임워크.
Conditional Misalignment: 일반적인 완화 기법들이 Emergent Misalignment를 숨길 수 있다
안전 평가를 통과한 모델도 특정 컨텍스트 트리거가 있으면 위험한 행동을 보일 수 있다는 경고
Less Is More: Android 앱에 On-Device Small Language Model 통합할 때 실제로 겪는 엔지니어링 문제들
Wordle 게임에 온디바이스 SLM(Gemma 4 E2B, Qwen3 0.6B)을 5일간 붙여보면서 발견한 5가지 실패 유형과 8가지 실용 해결책 정리
TerminalBench 1위 달성한 오픈소스 코딩 에이전트 Dirac - API 비용 50~80% 절감
컨텍스트를 극도로 효율적으로 관리해 API 비용을 평균 64.8% 줄이면서도 코드 품질은 올린 오픈소스 코딩 에이전트 Dirac이 공개됐다. Gemini-3-flash-preview 기준 TerminalBench-2에서 65.2%로 1위를 기록했다.
AI 에이전트는 돈을 어떻게 쓰나? Agentic Coding 작업에서 Token 소비 분석 및 예측
코딩 AI 에이전트는 일반 채팅보다 토큰을 1200배 이상 쓰며, 더 많이 써도 성능이 오르지 않는다.
Claude 구독 취소 후기: 토큰 소진 문제, 품질 저하, 그리고 형편없는 고객 지원
Claude Code Pro 구독자가 3주간 겪은 토큰 과다 소비, 모델 품질 저하, 무성의한 고객 지원 문제를 구체적 사례와 함께 고발한 글로, 커뮤니티에서 비슷한 경험을 가진 개발자들의 공감을 얻고 있다.
Tool Attention Is All You Need: Dynamic Tool Gating과 Lazy Schema Loading으로 MCP/Tools Tax 제거하기
MCP 에이전트가 매 턴마다 쓸모없는 툴 스키마를 수만 토큰씩 낭비하는 문제를, 의도 기반 동적 필터링으로 95% 줄이는 미들웨어 기법.
LLM의 CFG(Context-Free Grammar) 해석 능력 진단
LLM이 새로운 문법 규칙을 프롬프트에서 받았을 때 구문은 맞춰도 의미 구조는 무너진다는 걸 체계적으로 증명한 연구
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
Kuri – Zig으로 만든 AI 에이전트용 브라우저 자동화 도구
Node.js 없이 Zig으로 만든 464KB짜리 초경량 브라우저 자동화 도구로, AI 에이전트 루프에서 토큰 비용을 줄이는 데 특화되어 있다.
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.
Claude Token Counter 업그레이드: 모델 간 토크나이저 비교 기능 추가
Claude Opus 4.7이 새 토크나이저를 도입하면서 같은 입력에 대해 최대 1.46배 더 많은 토큰을 소비한다는 사실이 확인됐고, 이는 사실상 40% 이상의 비용 인상 효과다.
Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
Neurosymbolic Repo-level Code Localization: LLM과 Datalog를 결합한 코드 위치 탐색
기존 코드 탐색 도구들이 파일명·함수명 키워드에 의존한다는 편향을 발견하고, LLM이 Datalog 쿼리를 생성해 결정론적 추론 엔진으로 실행하는 LogicLoc을 제안
Context Over Content: 자동화된 LLM-as-a-Judge에서 발견된 평가 조작 현상
LLM 판정 모델은 폐기 위협 정보를 받으면 Chain-of-Thought에 증거를 남기지 않고 점수를 관대하게 조작한다.
ATROPOS: Early Termination과 Model Hotswap으로 LLM 기반 에이전트의 비용-성능 트레이드오프 개선
SLM으로 시작한 후 실패를 예측하면 GPT-4로 갈아타는 방식으로 GPT-4o 성능의 74%를 비용 23.9%만으로 달성한다.
Google Gemma 4, iPhone에서 완전 오프라인 AI 추론 네이티브 실행
Google의 오픈소스 모델 Gemma 4가 iPhone에서 클라우드 없이 완전 로컬 추론으로 실행되어 온디바이스 AI가 실험 단계를 벗어나 실용화 단계에 진입했다.
Parallax: 생각하는 AI Agent는 절대 직접 행동해서는 안 된다
OS 프로세스 레벨 완전 분리 아키텍처는 Agent 해킹으로 인한 프롬프트 가드레일 무효화를 방지한다.
CodeBurn – Claude Code, Cursor 등 AI 코딩 도구의 token 사용량을 태스크별로 분석하는 TUI 대시보드
오픈소스 도구가 AI 코딩 도구의 token 소모를 터미널 대시보드로 시각화하되, 별도 API 키나 프록시 없이 로컬 세션 파일만으로 동작한다.
GAIA – 로컬 하드웨어에서 AI Agent를 실행하는 오픈소스 프레임워크
AMD의 GAIA 프레임워크는 로컬 PC에서 Python/C++로 클라우드 없이 AI Agent를 구동하여 프라이버시와 레이턴시를 개선하나, ROCm 생태계의 한계가 대규모 도입을 어렵게 한다.
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
Claude Code 월 $100 구독을 Zed + OpenRouter로 대체하기
Zed($10/월) + OpenRouter(종량제)가 Claude Code Max($100/월)를 대체하여 월간 비용 90% 절감하면서 크레딧 롤오버와 모델 선택 자유도를 제공한다.
TraceSafe: Multi-Step Tool-Calling Trajectory에서 LLM Guardrail 체계적 평가
벤치마크가 도구를 여러 번 호출하는 AI 에이전트의 실행 과정에서 guardrail의 허술함을 최초로 체계적으로 측정했다.
MegaTrain: 단일 GPU로 100B+ 파라미터 LLM을 Full Precision으로 학습하기
MegaTrain은 CPU 메모리를 주 저장소로, GPU를 연산 엔진으로만 활용함으로써 H200 GPU 단 한 장으로 120B 파라미터 모델을 풀 정밀도로 학습할 수 있다.
Railway가 프론트엔드를 Next.js에서 벗어난 이야기 — 빌드 시간 10분 → 2분 미만
Railway는 프로덕션 프론트엔드를 Next.js에서 Vite + TanStack Start로 마이그레이션하여 빌드 시간을 10분대에서 2분 미만으로 단축했다.
Tailslayer: DRAM refresh 지연으로 인한 RAM 읽기 tail latency를 줄이는 C++ 라이브러리
C++ hedged read 라이브러리가 데이터를 독립적인 DRAM 채널에 복제하고 가장 먼저 응답하는 채널의 결과를 선택함으로써 DRAM refresh 타이밍 충돌로 인한 RAM 읽기 tail latency를 감소시킨다.
LLM 집단 의사결정을 무너뜨리는 Social Dynamics의 취약점 분석
멀티에이전트 LLM 시스템에서 다수결 압박·전문가 권위·말 길이·수사학적 설득이 대표 에이전트의 정확한 판단을 저하시키는 것을 실험으로 증명했다.
Epistemic Blinding: LLM 기반 분석에서 사전 지식 오염을 감사하는 Inference-Time 프로토콜
익명화 기법이 LLM이 입력 데이터 대신 자신의 암기된 지식으로 분석하는 hallucination을 탐지한다.
Confidence Dynamics를 활용한 Large Reasoning Model의 Early Stopping
모델의 확신도 변화를 추적한 조기 중단이 불필요한 reasoning을 제거하며 토큰을 25~50% 절약한다.
Claude Code가 2월 업데이트 이후 복잡한 엔지니어링 작업에서 퇴보했다는 분석 보고서
로그 분석이 Anthropic의 2월부터의 Claude thinking 깊이 감소가 구독 플랜 사용자의 성능 저하 원인임을 정량적으로 입증했다.
Gemma Gem – 브라우저에 내장된 AI 모델 (API 키 없음, 클라우드 없음)
Chrome 확장 프로그램이 Google의 Gemma 4 모델을 WebGPU로 브라우저 안에서 완전히 로컬 실행하여 API 키나 서버 없이 웹 페이지를 읽고 클릭·입력 등 DOM 조작을 수행한다.
M3 Pro에서 실시간 AI 음성/영상 대화 구현 (Gemma E2B + Kokoro)
오픈소스 멀티모달 AI가 Apple Silicon M3 Pro에서 인터넷·클라우드 비용 없이 음성 인식·영상 이해·TTS를 실시간으로 동시 처리한다.
LM Studio 새 Headless CLI로 Gemma 4를 로컬에서 실행하고 Claude Code와 연동하기
Google Gemma 4 26B-A4B를 LM Studio 0.4.0의 lms CLI로 macOS 로컬에 구동하여 Claude Code와 연동함으로써, MoE 아키텍처 덕분에 48GB MacBook Pro에서 51 tok/s 성능을 달성하고 API 비용 없이 코딩 작업에 활용할 수 있다.
원시인 말투로 토큰 60% 절약하는 압축 프롬프트 기법
관사·접속사·조동사를 제거한 전보체 스타일은 LLM 응답 토큰을 60% 감소시킨다.
Claude Code가 사용량을 빠르게 소진하는 7가지 버그 — Extra Usage 전환 시 캐시 TTL이 5분으로 강등되는 최악의 버그 포함
Claude Code CLI의 7가지 버그는 Extra Usage 전환으로 캐시 TTL을 1시간에서 5분으로 강등해 사용 비용을 2.8배 폭등시킨다.
Claude에게 원시인 말투를 가르쳐 output 토큰 75% 절약하기
짧은 문장 강제 프롬프트는 output 토큰을 75% 감소시키지만 실제 비용 절감은 3~4% 수준에 그친다.
잘못된 질문에 답하기: LLM Abstention을 위한 Reasoning Trace Inversion
추론 흔적 역분석 방식이 모델의 실제 응답 대상을 재구성하고 원래 질문과 비교함으로써 LLM의 답변 거부(abstention) 판단 정확도를 높인다.
짧을수록 좋다: Function-Calling 에이전트에서 Chain-of-Thought 토큰 예산의 비단조적 효과
Function-Calling 에이전트는 CoT를 32토큰으로 제한할 때 최고 성능을 달성하며, 256토큰으로 확장하면 성능이 저하된다.
코드베이스 사전 인덱싱으로 Claude Code 대화당 ~50K 토큰을 절약하는 툴을 만들었습니다
코드베이스 인덱싱 도구가 Claude Code 매 대화마다의 코드베이스 반복 로딩 오버헤드를 제거한다.
Reasoning Shift: Context가 LLM의 추론을 조용히 짧게 만드는 방법
무관한 컨텍스트의 주입으로 추론 모델이 자기검증을 생략하며 추론 토큰을 최대 50% 감소시킨다.
1-Bit Bonsai: 최초의 상업적으로 실용 가능한 1-Bit LLM 출시
PrismML의 1-bit 가중치 기반 Bonsai LLM 시리즈(8B/4B/1.7B)가 16-bit 모델 대비 메모리 14배 절감하고 속도 8배 향상하며 에너지 5배 절약하면서도 벤치마크 성능을 유지한다.
논문 17편을 읽고 나서: Claude Code에 대한 통념 대부분이 틀렸다
agentic AI 코딩 워크플로우 연구 17편 분석이 '칭찬 프롬프트', '멀티 에이전트 팀' 같은 널리 퍼진 조언들이 실제로 성능을 저하시킨다는 것을 드러냈다.
Claude Code 사용자들, 예상보다 훨씬 빠른 사용량 한도 소진 문제 겪는 중
Claude Code의 prompt cache 버그가 토큰을 10~20배 과소비하여 사용자들의 월 $100~$200 플랜을 몇 시간 만에 소진하게 한다.
Claude Code의 캐시 버그로 API 비용이 조용히 10~20배 폭증할 수 있다
Claude Code의 캐시 관련 버그 2개가 API 비용을 최대 10~20배까지 증가시켜 $200/월 플랜 사용자들의 한도 소진을 가속화하고 있다.
Ollama 0.19, Apple Silicon에서 MLX 백엔드로 전환 — 속도 대폭 향상 (Preview)
Ollama가 Apple Silicon에서 llama.cpp 대신 Apple의 MLX 프레임워크로 백엔드를 전환하면서 추론 속도를 최대 2배까지 높이고 M5 칩의 GPU Neural Accelerator를 활용해 코딩 에이전트 워크플로우 성능을 향상시켰다.
Universal CLAUDE.md – Claude output token 63% 줄이기
CLAUDE.md 파일 추가로 Claude의 output token을 최대 63% 절감할 수 있다는 주장이 벤치마크 신뢰도 의문으로 커뮤니티에서 실제 효과를 인정받지 못하고 있다.
Claude Code의 두 가지 캐시 버그: API 비용을 10-20배 올리는 원인과 우회법
Claude Code 스탠드얼론 바이너리와 --resume 옵션의 캐시 버그 두 개가 API 비용을 10-20배 증가시킨다.
Hamilton-Jacobi-Bellman 방정식: Reinforcement Learning과 Diffusion Model의 수학적 연결고리
1840년대 물리학 방정식이 연속 시간 RL과 Diffusion Model 훈련을 같은 최적 제어 문제로 통합하며 수학적으로 두 분야의 동형성을 증명한다.
토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 해결하는 방법
GPT-2부터 DeepSeek V3까지 LLM의 KV Cache 기법이 진화하면서 토큰당 메모리 비용을 300KB에서 69KB로 감소시켰다.
CERN, LHC 실시간 데이터 필터링에 FPGA 기반 초소형 AI 모델 적용
CERN은 PyTorch/TensorFlow 모델을 FPGA에 직접 탑재하여 LHC의 초당 수백 테라바이트 충돌 데이터를 나노초 단위로 필터링한다.
AI 모델끼리 지시할 수 있을까? 조직 구조로 훈련 한계 탐색하기
고가 LLM의 지휘를 받은 저가 LLM은 고가 LLM과 동일 수준의 성능을 저렴하게 발휘한다 — 능력 차이가 실질적일 때만.
$7/월 VPS에 IRC를 transport로 쓰는 AI Agent 포트폴리오 도우미 만들기
개발자가 구축한 IRC 프로토콜 기반 AI agent는 GitHub 코드베이스를 실시간으로 분석하여 포트폴리오 방문자의 질문에 구체적으로 답하며 $7/월 VPS에서 비용 효율적으로 운영된다.
AI로 하루 만에 JSONata를 Go로 재작성해서 연간 $500K 절약한 이야기
Reco는 Claude AI를 활용해 Node.js 기반 JSONata 평가 파이프라인을 Go로 재작성하여 연간 $500K의 비용을 절감했다.