DiffusionGemma: 기존 대비 4배 빠른 텍스트 생성 모델

TL;DR Highlight

Google이 토큰을 순차적으로 생성하는 기존 LLM 방식 대신 256토큰 블록을 한 번에 생성하는 diffusion 방식으로 최대 4배 빠른 추론 속도를 달성한 오픈 실험 모델 DiffusionGemma를 공개했다. Apache 2.0 라이선스로 배포되며 소비자용 GPU에서도 실행 가능해 엣지 디바이스와 실시간 인터랙티브 워크플로우에 새로운 가능성을 열어준다.

Who Should Read

빠른 응답 속도가 중요한 AI 기반 앱(코딩 보조, 실시간 채팅 등)을 개발하거나, 온디바이스/엣지 환경에서 LLM을 운영하고 싶은 ML 엔지니어나 개발자.

Core Mechanics

DiffusionGemma는 기존 LLM처럼 토큰을 하나씩 순차 생성하는 autoregressive 방식이 아니라, 256토큰짜리 블록 전체를 동시에 생성하는 text diffusion 방식을 쓴다. 이게 핵심 차별점이다.
벤치마크 기준 전용 GPU(H100)에서 동급 Gemma 모델 대비 최대 4배 빠른 추론 속도를 낸다. 순차 처리에서 '인쇄기'처럼 블록 단위 병렬 처리로 전환한 덕분이다.
모델 구조는 26B 파라미터 규모의 Mixture of Experts(MoE, 전체 파라미터 중 일부만 활성화하는 희소 모델 구조)이며, 추론 시 실제로 활성화되는 파라미터는 3.8B에 불과하다. Gemma 4 패밀리의 설계를 기반으로 한다.
양자화(quantization, 모델 가중치를 낮은 정밀도로 압축하는 기법) 적용 시 VRAM 18GB 이하로도 실행 가능해서, 24GB VRAM을 가진 소비자용 고급 GPU(예: RTX 3090)에서도 돌아간다.
Apache 2.0 라이선스로 공개된 오픈 실험 모델이며, Gemini Diffusion 연구에서 도출한 novel diffusion head 구조를 새로 추가했다.
엣지 디바이스(스마트폰, PC GPU)에서의 효과가 특히 크다. 기존 autoregressive LLM은 토큰마다 수 GB의 가중치를 RAM에서 불러와야 해서 메모리 대역폭이 병목인데, diffusion 방식은 토큰을 병렬 처리하므로 이 병목을 크게 완화한다.
NVIDIA가 build.nvidia.com에서 무료 API 엔드포인트를 제공하고 있으며, llama.cpp의 패치 버전을 통해 Q4 양자화 모델을 로컬에서도 실행 가능하다.
현재 autoregressive 대비 약간 성능이 낮다는 점이 단점으로 언급되며, tool call(도구 호출) 지원 여부나 RLHF/GRPO 같은 강화학습 기법과의 호환성 등 아직 검증이 필요한 부분이 남아 있다.

Evidence

Mercury(또 다른 diffusion 텍스트 모델)를 OpenCode에서 써본 사용자가 '스마트하진 않지만 엄청나게 빠르다'며, 프롬프트 입력 후 결과를 기다리는 슬롯머신 경험이 아니라 페어 프로그래밍처럼 느껴졌다는 경험을 공유했다. 이 때문에 Gemini Flash Lite, GPT Mini 같은 소형 빠른 모델들도 더 자주 쓰게 됐다고 한다.
엣지 디바이스에서의 장점에 대한 기술적 설명이 댓글로 올라왔다. 서버에서는 여러 요청을 배치(batch)로 묶어 처리하면 기존 LLM도 효율적이지만, 엣지에서는 요청이 직렬이라 배치가 안 되고 LPDDR/GDDR 메모리의 낮은 대역폭이 병목이 된다. Diffusion은 병렬 토큰 처리로 이 문제를 해결한다는 설명이다.
한 댓글에서 '몇 달 전 Google I/O에서 시연 후 비용이 너무 비싸서 출시 못 했다는 루머가 있었는데, 이번에 같은 H100 하드웨어 기준으로 기존 Gemma보다 빠르다는 차트가 나왔으니 그 루머는 틀린 것 같다'고 지적했다.
3090 Ti에서 직접 돌려본 사용자가 '광고된 속도는 안 나오지만 답변이 채워지는 모습을 보는 게 재미있다'며, llama.cpp 패치 버전에서 Q4 양자화 모델로 'SVG 펠리컨' 테스트를 실행한 결과 링크를 공유했다.
tool call 지원 여부, diffusion reasoning 모델 가능성(thinking 블록을 미리 diffuse 하는 방식), 출력 길이를 어떻게 결정하는지, latent space에서의 text diffusion 가능성, autoregressive 대비 GRPO/RLVR 호환 제약 등 기술적 질문들이 많이 올라왔으나 아직 명확한 답변이 없는 상태다.

How to Apply

실시간 코딩 보조나 인터랙티브 채팅처럼 응답 지연이 UX에 직결되는 앱을 만들고 있다면, NVIDIA build.nvidia.com의 무료 DiffusionGemma 엔드포인트로 먼저 속도 체감 테스트를 해볼 수 있다. 계정 생성 및 전화번호 인증만 하면 된다.
로컬 온디바이스 AI 기능(24GB 이하 VRAM 환경)을 개발 중이라면, llama.cpp 패치 버전을 통해 Q4 양자화 DiffusionGemma를 실행해볼 수 있다. 3.8B 활성 파라미터 덕분에 기존 26B 모델보다 훨씬 가볍게 돌아간다.
비용 민감한 서비스에서 Claude/GPT 대신 저렴한 모델을 쓰고 싶다면, 품질이 약간 낮더라도 속도가 훨씬 빠른 diffusion 계열 모델(DiffusionGemma, Mercury 등)을 레이턴시 우선 태스크에 적용하고 고품질 모델은 복잡한 태스크에만 라우팅하는 전략을 검토해볼 수 있다.
이미 Gemma 4 기반 파이프라인을 운영 중이라면, DiffusionGemma가 같은 Gemma 4 패밀리 기반이므로 기존 프롬프트 구조를 큰 변경 없이 실험해볼 수 있다. 단, tool call 지원 여부는 아직 불분명하므로 도구 호출이 필요한 agentic 워크플로우에는 아직 주의가 필요하다.

Terminology

text diffusion이미지 생성 AI(Stable Diffusion 등)에서 쓰던 확산 모델 아이디어를 텍스트에 적용한 것. 노이즈로 가득 찬 텍스트 블록을 점진적으로 다듬어 최종 출력을 만들며, 블록 전체를 병렬로 처리한다.

autoregressive LLMChatGPT처럼 토큰(단어 조각)을 앞에서부터 하나씩 순서대로 생성하는 일반적인 LLM 방식. 이전 토큰을 봐야 다음 토큰을 생성할 수 있어 본질적으로 직렬이다.

MoE (Mixture of Experts)모델 전체 파라미터 중 입력에 따라 일부 '전문가' 네트워크만 선택적으로 활성화하는 구조. 전체 파라미터는 크지만 실제 연산량은 훨씬 적어 효율적이다.

quantization모델의 가중치(수십억 개의 숫자)를 32비트 부동소수점에서 4비트 정수 등 낮은 정밀도로 압축하는 기법. 모델 크기와 메모리 사용량을 크게 줄일 수 있다.

메모리 대역폭 병목GPU나 CPU가 RAM에서 데이터를 읽는 속도가 연산 속도보다 느려 전체 처리가 지연되는 현상. 엣지 디바이스에서 LLM이 느린 주요 원인 중 하나다.

HBM (High Bandwidth Memory)서버용 고급 GPU(A100, H100 등)에 탑재된 초고속 메모리. 소비자용 GDDR/LPDDR 메모리보다 대역폭이 수 배 높아 LLM 추론에 유리하다.