로컬에서 SOTA LLM 실행하기 완전 가이드 (하드웨어부터 설정까지)
Jamesob's guide to running SOTA LLMs locally
TL;DR Highlight
2천 달러짜리 RTX 3090 한 장부터 4만 달러짜리 RTX PRO 6000 4장 셋업까지, 로컬에서 최신 LLM을 직접 돌리는 방법을 하드웨어 선택·구성·실행 설정까지 통째로 정리한 실전 가이드다.
Who Should Read
Claude/GPT API 비용이나 프라이버시가 걱정되어 로컬 LLM 환경을 구축하고 싶은 개발자. 특히 중간~고사양 하드웨어 구매를 고민 중인 사람.
Core Mechanics
- 예산대별 두 가지 티어를 제시한다. 약 2천 달러 수준(RTX 3090 1~2장)에서는 Qwen3 27B급 모델과 로컬 STT(음성인식)를 돌릴 수 있고, 약 4만 달러(RTX PRO 6000 4장, 384GB VRAM) 수준에서는 Claude Opus에 근접한 성능의 모델을 돌릴 수 있다고 설명한다.
- 저자는 RTX PRO 6000을 4장 구매했고, 베이스 시스템은 비용을 아끼기 위해 이전 세대 EPYC CPU와 eBay에서 구한 DDR4 메모리로 구성해 총 5.6천 달러에 맞췄다. GPU 외 본체 비용을 최소화하는 전략이다.
- GPU 간 통신을 위해 c-payne.com의 PCIe4 스위치를 사용했다. 이렇게 하면 텐서 병렬 처리(여러 GPU가 모델을 나눠 처리하는 방식)의 allreduce 단계에서 GPU끼리 직접 통신(P2P, Peer-to-Peer)이 가능해 대역폭 27.5~50.4 GB/s, 마이크로초 이하 레이턴시를 달성했다.
- BIOS 설정에서 PCIe bifurcation(하나의 PCIe 슬롯을 여러 장치가 나눠 쓰는 설정), 링크 속도, ASPM(전력 관리) 설정이 필요하고, GRUB 파라미터로 iommu=off를 설정하지 않으면 NCCL(GPU 간 통신 라이브러리)이 멈추는 문제가 있다는 경험을 공유한다.
- 주력 모델로 GLM-5.2-594B를 사용하는데, 이 모델은 REAP 프루닝(가중치 약 22% 제거)과 Int8/NVFP4 혼합 양자화(모델 숫자 표현 정밀도를 낮춰 크기를 줄이는 기법)가 적용된 버전이다. vLLM과 Docker Compose로 실행하며 약 80 토큰/초, 460k 컨텍스트를 지원한다.
- STT(음성→텍스트 변환)은 whisper-large-v3를 로컬에서 실행하는 ready-to-run 설정을 함께 제공한다.
- P2P 대역폭·레이턴시 벤치마크용 쉘 스크립트(measure-gpu-speed.sh)도 저장소에 포함되어 있어 구성 후 바로 성능 검증이 가능하다.
Evidence
- 4만 달러 예산이라고 소개하지만 RTX PRO 6000이 장당 12,000달러라 4장이면 실제로는 5만~5만5천 달러가 된다는 지적이 있었다. 실제 비용이 제목보다 25~35% 더 든다는 경고다.
- 4-bit 양자화가 품질 손실이 없다는 주장은 작은 코퍼스의 KL 발산(분포 차이 측정값) 기준이라 실제로는 다르다는 반론이 나왔다. 장기 컨텍스트 코딩 작업에서 4-bit, 8-bit, 16-bit 모델의 품질 차이가 분명히 느껴졌다는 실사용 경험 공유가 있었다.
- 40k 셋업이 'Claude Opus에 근접'한다는 주장에 대해, 실제로 GLM-5.2를 편안하게 돌리려면 8×H200이 필요해서 진짜 비용은 40만 달러에 가깝다는 반론이 있었다. 또 REAP 프루닝 + 4-bit 양자화를 적용한 모델이 벤치마크 수치와 동일하게 동작한다고 보기 어렵고, 오히려 8-bit/16-bit의 작은 모델이 '로보토마이즈된' 대형 모델보다 나을 수 있다는 의견도 있었다.
- Intel Arc B570 32GB 카드(약 1,000달러)로 Qwen 3.6 35B를 q4 양자화로 88 토큰/초에 돌렸다는 실사용 경험이 공유됐다. 단, Intel 전용 드라이버(Level Zero)와 SYCL 설정이 까다로웠고, llama.cpp를 Docker 컨테이너에서 GPU를 인식시키는 데도 삽질이 필요했다는 후기다.
- RTX 3090 한 장(2천 달러 이하)으로 Qwen3-27B q4를 250k 컨텍스트로 돌리는 게 충분히 빠르고 실용적이며, 2장 셋업 대비 비용 효율이 훨씬 좋다는 의견이 있었다. 반면 MacBook Pro M5 48GB 통합 메모리(약 3천 달러)가 동급 VRAM에 더 컴팩트하다는 대안도 제시됐다.
- Whisper가 여전히 STT SOTA인지 의문을 제기하는 댓글도 있었다. Parakeet 모델이 VRAM을 600MB만 써도 whisper-large-v3와 동등하거나 더 나은 성능을 낸다는 대안이 소개됐다.
- 40k 셋업이 'Claude Opus에 근접'한다고 해도 이는 월 200달러 구독료 기준으로 16.8년치 비용이라는 계산이 나왔다. 프라이버시·오프라인 등 특수한 이유가 없으면 API 구독이 훨씬 경제적이라는 의견이 다수였다.
How to Apply
- 예산이 2천 달러 이하이고 27B급 모델을 빠르게 써보고 싶다면, 중고 RTX 3090(24GB)을 구매해 llama.cpp + Docker로 Qwen3-27B q4를 올리면 250k 컨텍스트에서 충분한 속도로 동작한다. club-3090(github.com/noonghunna/club-3090)의 beellama 설정을 참고하면 바로 시작 가능하다.
- 인텔 Arc B570 32GB 카드(약 1,000달러)를 이미 보유한 서버에 추가 설치하고 싶다면, Level Zero 드라이버와 SYCL을 설치한 후 llama.cpp를 Docker 컨테이너로 실행하면 35B 모델을 88 토큰/초 수준으로 돌릴 수 있다. 단, 최신 커널과 드라이버 설정에 시간이 소요된다는 점을 감안해야 한다.
- RTX 3090 같은 고VRAM 단일 GPU를 구성한 뒤 로컬 STT가 필요하다면, 저장소의 runners/stt 설정으로 whisper-large-v3를 바로 띄울 수 있고, VRAM이 부족하다면 Parakeet 모델로 600MB만 써서 유사한 성능을 낼 수도 있다.
- 4만 달러 이상 고사양 멀티-GPU 셋업을 계획 중이라면, GPU P2P 통신을 위해 c-payne PCIe 스위치를 도입하고 BIOS bifurcation 설정과 GRUB의 iommu=off, ACS disable 커널 파라미터를 반드시 적용해야 NCCL 행(hang) 없이 텐서 병렬 처리가 작동한다. 저장소의 measure-gpu-speed.sh로 구성 후 P2P 대역폭을 즉시 검증할 수 있다.
Terminology
관련 논문
Manticore Search에서 ONNX 경로를 재설계해 임베딩 속도를 14배 높인 방법
Manticore Search가 기존 SentenceTransformers/Candle 백엔드를 ONNX Runtime으로 교체해 텍스트 임베딩 생성 속도를 평균 14배 향상시켰다. 별도 모델 서비스 없이 DB 내부에서 직접 임베딩을 처리하는 구조에서 INSERT 속도가 곧 임베딩 속도이기 때문에 이 개선은 실질적인 ingest 처리량 향상으로 직결된다.
Asymmetric Quantization: 97% 스토리지 절감으로 Late Interaction 검색 품질 유지하기
멀티벡터 검색 모델의 문서 벡터를 1비트 이진값으로 압축하고 쿼리 벡터만 int8로 유지하는 비대칭 양자화 기법으로, 스토리지를 97% 줄이면서 검색 품질 손실을 0.61점(NDCG@10 기준)에 그치게 만든 실제 프로덕션 적용 사례다.
Bash4LLM+ – 의존성 없는 경량 Bash LLM API 래퍼
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: 로컬과 hosted LLM 간 deterministic 쿼리 라우팅 도구
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: 아키텍처, 프로그래밍, 성능 (리버스 엔지니어링 가이드)
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.
DSpark: Speculative Decoding으로 LLM 추론 속도를 획기적으로 높인 DeepSeek의 새 논문
DeepSeek이 Speculative Decoding을 개선한 DSpark 기법을 공개했는데, 같은 시스템 용량 기준으로 사용자당 생성 속도가 57~78% 빨라졌다고 한다. 이게 DeepSeek이 경쟁사 대비 훨씬 싼 가격으로 Pro 모델을 제공할 수 있는 핵심 기술 중 하나일 가능성이 높다.