로컬에서 SOTA LLM 실행하기 완전 가이드 (하드웨어부터 설정까지)

TL;DR Highlight

2천 달러짜리 RTX 3090 한 장부터 4만 달러짜리 RTX PRO 6000 4장 셋업까지, 로컬에서 최신 LLM을 직접 돌리는 방법을 하드웨어 선택·구성·실행 설정까지 통째로 정리한 실전 가이드다.

Who Should Read

Claude/GPT API 비용이나 프라이버시가 걱정되어 로컬 LLM 환경을 구축하고 싶은 개발자. 특히 중간~고사양 하드웨어 구매를 고민 중인 사람.

Core Mechanics

예산대별 두 가지 티어를 제시한다. 약 2천 달러 수준(RTX 3090 1~2장)에서는 Qwen3 27B급 모델과 로컬 STT(음성인식)를 돌릴 수 있고, 약 4만 달러(RTX PRO 6000 4장, 384GB VRAM) 수준에서는 Claude Opus에 근접한 성능의 모델을 돌릴 수 있다고 설명한다.
저자는 RTX PRO 6000을 4장 구매했고, 베이스 시스템은 비용을 아끼기 위해 이전 세대 EPYC CPU와 eBay에서 구한 DDR4 메모리로 구성해 총 5.6천 달러에 맞췄다. GPU 외 본체 비용을 최소화하는 전략이다.
GPU 간 통신을 위해 c-payne.com의 PCIe4 스위치를 사용했다. 이렇게 하면 텐서 병렬 처리(여러 GPU가 모델을 나눠 처리하는 방식)의 allreduce 단계에서 GPU끼리 직접 통신(P2P, Peer-to-Peer)이 가능해 대역폭 27.5~50.4 GB/s, 마이크로초 이하 레이턴시를 달성했다.
BIOS 설정에서 PCIe bifurcation(하나의 PCIe 슬롯을 여러 장치가 나눠 쓰는 설정), 링크 속도, ASPM(전력 관리) 설정이 필요하고, GRUB 파라미터로 iommu=off를 설정하지 않으면 NCCL(GPU 간 통신 라이브러리)이 멈추는 문제가 있다는 경험을 공유한다.
주력 모델로 GLM-5.2-594B를 사용하는데, 이 모델은 REAP 프루닝(가중치 약 22% 제거)과 Int8/NVFP4 혼합 양자화(모델 숫자 표현 정밀도를 낮춰 크기를 줄이는 기법)가 적용된 버전이다. vLLM과 Docker Compose로 실행하며 약 80 토큰/초, 460k 컨텍스트를 지원한다.
STT(음성→텍스트 변환)은 whisper-large-v3를 로컬에서 실행하는 ready-to-run 설정을 함께 제공한다.
P2P 대역폭·레이턴시 벤치마크용 쉘 스크립트(measure-gpu-speed.sh)도 저장소에 포함되어 있어 구성 후 바로 성능 검증이 가능하다.

Evidence

4만 달러 예산이라고 소개하지만 RTX PRO 6000이 장당 12,000달러라 4장이면 실제로는 5만~5만5천 달러가 된다는 지적이 있었다. 실제 비용이 제목보다 25~35% 더 든다는 경고다.
4-bit 양자화가 품질 손실이 없다는 주장은 작은 코퍼스의 KL 발산(분포 차이 측정값) 기준이라 실제로는 다르다는 반론이 나왔다. 장기 컨텍스트 코딩 작업에서 4-bit, 8-bit, 16-bit 모델의 품질 차이가 분명히 느껴졌다는 실사용 경험 공유가 있었다.
40k 셋업이 'Claude Opus에 근접'한다는 주장에 대해, 실제로 GLM-5.2를 편안하게 돌리려면 8×H200이 필요해서 진짜 비용은 40만 달러에 가깝다는 반론이 있었다. 또 REAP 프루닝 + 4-bit 양자화를 적용한 모델이 벤치마크 수치와 동일하게 동작한다고 보기 어렵고, 오히려 8-bit/16-bit의 작은 모델이 '로보토마이즈된' 대형 모델보다 나을 수 있다는 의견도 있었다.
Intel Arc B570 32GB 카드(약 1,000달러)로 Qwen 3.6 35B를 q4 양자화로 88 토큰/초에 돌렸다는 실사용 경험이 공유됐다. 단, Intel 전용 드라이버(Level Zero)와 SYCL 설정이 까다로웠고, llama.cpp를 Docker 컨테이너에서 GPU를 인식시키는 데도 삽질이 필요했다는 후기다.
RTX 3090 한 장(2천 달러 이하)으로 Qwen3-27B q4를 250k 컨텍스트로 돌리는 게 충분히 빠르고 실용적이며, 2장 셋업 대비 비용 효율이 훨씬 좋다는 의견이 있었다. 반면 MacBook Pro M5 48GB 통합 메모리(약 3천 달러)가 동급 VRAM에 더 컴팩트하다는 대안도 제시됐다.
Whisper가 여전히 STT SOTA인지 의문을 제기하는 댓글도 있었다. Parakeet 모델이 VRAM을 600MB만 써도 whisper-large-v3와 동등하거나 더 나은 성능을 낸다는 대안이 소개됐다.
40k 셋업이 'Claude Opus에 근접'한다고 해도 이는 월 200달러 구독료 기준으로 16.8년치 비용이라는 계산이 나왔다. 프라이버시·오프라인 등 특수한 이유가 없으면 API 구독이 훨씬 경제적이라는 의견이 다수였다.

How to Apply

예산이 2천 달러 이하이고 27B급 모델을 빠르게 써보고 싶다면, 중고 RTX 3090(24GB)을 구매해 llama.cpp + Docker로 Qwen3-27B q4를 올리면 250k 컨텍스트에서 충분한 속도로 동작한다. club-3090(github.com/noonghunna/club-3090)의 beellama 설정을 참고하면 바로 시작 가능하다.
인텔 Arc B570 32GB 카드(약 1,000달러)를 이미 보유한 서버에 추가 설치하고 싶다면, Level Zero 드라이버와 SYCL을 설치한 후 llama.cpp를 Docker 컨테이너로 실행하면 35B 모델을 88 토큰/초 수준으로 돌릴 수 있다. 단, 최신 커널과 드라이버 설정에 시간이 소요된다는 점을 감안해야 한다.
RTX 3090 같은 고VRAM 단일 GPU를 구성한 뒤 로컬 STT가 필요하다면, 저장소의 runners/stt 설정으로 whisper-large-v3를 바로 띄울 수 있고, VRAM이 부족하다면 Parakeet 모델로 600MB만 써서 유사한 성능을 낼 수도 있다.
4만 달러 이상 고사양 멀티-GPU 셋업을 계획 중이라면, GPU P2P 통신을 위해 c-payne PCIe 스위치를 도입하고 BIOS bifurcation 설정과 GRUB의 iommu=off, ACS disable 커널 파라미터를 반드시 적용해야 NCCL 행(hang) 없이 텐서 병렬 처리가 작동한다. 저장소의 measure-gpu-speed.sh로 구성 후 P2P 대역폭을 즉시 검증할 수 있다.

Terminology

VRAMGPU 안에 있는 전용 메모리로, LLM 모델 가중치를 통째로 올려두는 공간. VRAM이 클수록 더 큰 모델을 로드할 수 있다.

양자화(Quantization)모델의 숫자 표현 정밀도를 낮춰(예: 16비트→4비트) 파일 크기와 메모리 사용량을 줄이는 기법. 성능 손실과 트레이드오프가 있다.

REAP 프루닝모델에서 특정 작업에 덜 중요한 가중치(전문가 모듈)를 잘라내어 모델 크기를 줄이는 기법. 벤치마크 성능과 실제 성능 간 괴리가 생길 수 있다.

텐서 병렬 처리(Tensor Parallelism)하나의 거대한 모델을 여러 GPU에 나눠 올려 동시에 계산하는 방식. GPU 간 고속 통신이 필수다.

allreduce텐서 병렬 처리 중 각 GPU의 계산 결과를 합산·동기화하는 통신 단계. 이 단계의 속도가 전체 추론 속도에 직접 영향을 미친다.

NCCLNVIDIA가 만든 GPU 간 통신 라이브러리. 멀티-GPU 딥러닝 학습 및 추론에서 allreduce 등 집단 통신 연산을 담당한다.