DiffusionGemma: 기존 대비 4배 빠른 텍스트 생성 모델
DiffusionGemma: 4x Faster Text Generation
TL;DR Highlight
Google이 토큰을 순차적으로 생성하는 기존 LLM 방식 대신 256토큰 블록을 한 번에 생성하는 diffusion 방식으로 최대 4배 빠른 추론 속도를 달성한 오픈 실험 모델 DiffusionGemma를 공개했다. Apache 2.0 라이선스로 배포되며 소비자용 GPU에서도 실행 가능해 엣지 디바이스와 실시간 인터랙티브 워크플로우에 새로운 가능성을 열어준다.
Who Should Read
빠른 응답 속도가 중요한 AI 기반 앱(코딩 보조, 실시간 채팅 등)을 개발하거나, 온디바이스/엣지 환경에서 LLM을 운영하고 싶은 ML 엔지니어나 개발자.
Core Mechanics
- DiffusionGemma는 기존 LLM처럼 토큰을 하나씩 순차 생성하는 autoregressive 방식이 아니라, 256토큰짜리 블록 전체를 동시에 생성하는 text diffusion 방식을 쓴다. 이게 핵심 차별점이다.
- 벤치마크 기준 전용 GPU(H100)에서 동급 Gemma 모델 대비 최대 4배 빠른 추론 속도를 낸다. 순차 처리에서 '인쇄기'처럼 블록 단위 병렬 처리로 전환한 덕분이다.
- 모델 구조는 26B 파라미터 규모의 Mixture of Experts(MoE, 전체 파라미터 중 일부만 활성화하는 희소 모델 구조)이며, 추론 시 실제로 활성화되는 파라미터는 3.8B에 불과하다. Gemma 4 패밀리의 설계를 기반으로 한다.
- 양자화(quantization, 모델 가중치를 낮은 정밀도로 압축하는 기법) 적용 시 VRAM 18GB 이하로도 실행 가능해서, 24GB VRAM을 가진 소비자용 고급 GPU(예: RTX 3090)에서도 돌아간다.
- Apache 2.0 라이선스로 공개된 오픈 실험 모델이며, Gemini Diffusion 연구에서 도출한 novel diffusion head 구조를 새로 추가했다.
- 엣지 디바이스(스마트폰, PC GPU)에서의 효과가 특히 크다. 기존 autoregressive LLM은 토큰마다 수 GB의 가중치를 RAM에서 불러와야 해서 메모리 대역폭이 병목인데, diffusion 방식은 토큰을 병렬 처리하므로 이 병목을 크게 완화한다.
- NVIDIA가 build.nvidia.com에서 무료 API 엔드포인트를 제공하고 있으며, llama.cpp의 패치 버전을 통해 Q4 양자화 모델을 로컬에서도 실행 가능하다.
- 현재 autoregressive 대비 약간 성능이 낮다는 점이 단점으로 언급되며, tool call(도구 호출) 지원 여부나 RLHF/GRPO 같은 강화학습 기법과의 호환성 등 아직 검증이 필요한 부분이 남아 있다.
Evidence
- Mercury(또 다른 diffusion 텍스트 모델)를 OpenCode에서 써본 사용자가 '스마트하진 않지만 엄청나게 빠르다'며, 프롬프트 입력 후 결과를 기다리는 슬롯머신 경험이 아니라 페어 프로그래밍처럼 느껴졌다는 경험을 공유했다. 이 때문에 Gemini Flash Lite, GPT Mini 같은 소형 빠른 모델들도 더 자주 쓰게 됐다고 한다.
- 엣지 디바이스에서의 장점에 대한 기술적 설명이 댓글로 올라왔다. 서버에서는 여러 요청을 배치(batch)로 묶어 처리하면 기존 LLM도 효율적이지만, 엣지에서는 요청이 직렬이라 배치가 안 되고 LPDDR/GDDR 메모리의 낮은 대역폭이 병목이 된다. Diffusion은 병렬 토큰 처리로 이 문제를 해결한다는 설명이다.
- 한 댓글에서 '몇 달 전 Google I/O에서 시연 후 비용이 너무 비싸서 출시 못 했다는 루머가 있었는데, 이번에 같은 H100 하드웨어 기준으로 기존 Gemma보다 빠르다는 차트가 나왔으니 그 루머는 틀린 것 같다'고 지적했다.
- 3090 Ti에서 직접 돌려본 사용자가 '광고된 속도는 안 나오지만 답변이 채워지는 모습을 보는 게 재미있다'며, llama.cpp 패치 버전에서 Q4 양자화 모델로 'SVG 펠리컨' 테스트를 실행한 결과 링크를 공유했다.
- tool call 지원 여부, diffusion reasoning 모델 가능성(thinking 블록을 미리 diffuse 하는 방식), 출력 길이를 어떻게 결정하는지, latent space에서의 text diffusion 가능성, autoregressive 대비 GRPO/RLVR 호환 제약 등 기술적 질문들이 많이 올라왔으나 아직 명확한 답변이 없는 상태다.
How to Apply
- 실시간 코딩 보조나 인터랙티브 채팅처럼 응답 지연이 UX에 직결되는 앱을 만들고 있다면, NVIDIA build.nvidia.com의 무료 DiffusionGemma 엔드포인트로 먼저 속도 체감 테스트를 해볼 수 있다. 계정 생성 및 전화번호 인증만 하면 된다.
- 로컬 온디바이스 AI 기능(24GB 이하 VRAM 환경)을 개발 중이라면, llama.cpp 패치 버전을 통해 Q4 양자화 DiffusionGemma를 실행해볼 수 있다. 3.8B 활성 파라미터 덕분에 기존 26B 모델보다 훨씬 가볍게 돌아간다.
- 비용 민감한 서비스에서 Claude/GPT 대신 저렴한 모델을 쓰고 싶다면, 품질이 약간 낮더라도 속도가 훨씬 빠른 diffusion 계열 모델(DiffusionGemma, Mercury 등)을 레이턴시 우선 태스크에 적용하고 고품질 모델은 복잡한 태스크에만 라우팅하는 전략을 검토해볼 수 있다.
- 이미 Gemma 4 기반 파이프라인을 운영 중이라면, DiffusionGemma가 같은 Gemma 4 패밀리 기반이므로 기존 프롬프트 구조를 큰 변경 없이 실험해볼 수 있다. 단, tool call 지원 여부는 아직 불분명하므로 도구 호출이 필요한 agentic 워크플로우에는 아직 주의가 필요하다.
Terminology
관련 논문
로컬에서 SOTA LLM 실행하기 완전 가이드 (하드웨어부터 설정까지)
2천 달러짜리 RTX 3090 한 장부터 4만 달러짜리 RTX PRO 6000 4장 셋업까지, 로컬에서 최신 LLM을 직접 돌리는 방법을 하드웨어 선택·구성·실행 설정까지 통째로 정리한 실전 가이드다.
Manticore Search에서 ONNX 경로를 재설계해 임베딩 속도를 14배 높인 방법
Manticore Search가 기존 SentenceTransformers/Candle 백엔드를 ONNX Runtime으로 교체해 텍스트 임베딩 생성 속도를 평균 14배 향상시켰다. 별도 모델 서비스 없이 DB 내부에서 직접 임베딩을 처리하는 구조에서 INSERT 속도가 곧 임베딩 속도이기 때문에 이 개선은 실질적인 ingest 처리량 향상으로 직결된다.
Asymmetric Quantization: 97% 스토리지 절감으로 Late Interaction 검색 품질 유지하기
멀티벡터 검색 모델의 문서 벡터를 1비트 이진값으로 압축하고 쿼리 벡터만 int8로 유지하는 비대칭 양자화 기법으로, 스토리지를 97% 줄이면서 검색 품질 손실을 0.61점(NDCG@10 기준)에 그치게 만든 실제 프로덕션 적용 사례다.
Bash4LLM+ – 의존성 없는 경량 Bash LLM API 래퍼
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: 로컬과 hosted LLM 간 deterministic 쿼리 라우팅 도구
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: 아키텍처, 프로그래밍, 성능 (리버스 엔지니어링 가이드)
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.