Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?
TL;DR Highlight
Hacker News에서 Claude/GPT를 로컬 LLM으로 완전 대체한 개발자들의 실제 셋업과 성능 경험담을 공유한 스레드로, Qwen3.6 35B를 중심으로 구체적인 하드웨어·속도·한계점까지 담겨 있어 로컬 AI 코딩 도입을 고민하는 개발자에게 현실적인 참고 자료가 된다.
Who Should Read
Claude Code나 ChatGPT에 월 $100 이상 지출하고 있는데 데이터 프라이버시나 비용 때문에 로컬 모델로 전환을 고민 중인 개발자, 또는 고성능 GPU/Apple Silicon 머신을 보유하고 있어 로컬 추론 환경 구축에 관심 있는 백엔드·풀스택 개발자.
Core Mechanics
- 가장 많이 언급된 모델은 Qwen3.6 35B-A3B(MoE 구조로 활성 파라미터 3B만 사용해 빠른 추론)로, Mac Studio 128GB RAM이나 단일 RTX 3090에서도 구동 가능하고 코딩 작업에서 현재 로컬 모델 중 사실상 표준으로 자리 잡고 있다.
- 추론 속도는 하드웨어에 따라 편차가 크다. RTX 3090 듀얼(UD-Q4_K_XL 양자화)에서 약 150 tok/s, RTX Ada 4000(20GB VRAM, Q4_KM)에서 약 55 tok/s, Framework 13 32GB RAM에서 약 15 tok/s로 측정됐다. 15 tok/s도 사람이 읽는 속도보다 빠르다는 평가가 있었다.
- Claude Opus 대비 체감 품질 차이가 존재한다. 한 사용자는 'Opus가 15x 생산성 향상이라면 로컬 Qwen은 5x 수준'이라고 표현했고, Opus가 아키텍처를 같이 고민해주는 시니어라면 Qwen은 전반적인 지식은 있지만 세밀하게 가이드해줘야 하는 주니어 같다고 비유했다.
- 로컬 모델 사용 시 프롬프트 정밀도가 훨씬 중요해진다. Claude는 모호한 지시도 알아서 좋은 방향으로 해석하지만, Qwen 같은 로컬 모델은 열린 가정(open assumption)이 있으면 가장 쉬운 방법(예: HTML 안에 인라인 CSS)을 선택하는 경향이 있어 구체적인 요구사항 명시가 필수다.
- MoE(Mixture of Experts, 전체 파라미터 중 일부만 활성화해 속도를 높이는 구조) 모델은 dense 모델보다 빠르지만 품질이 약간 낮다는 의견이 있었다. Qwen3.6 27B dense 모델이 더 큰 Qwen3.5 122B보다 코딩 성능이 좋았다는 경험담도 있어, 모델 크기보다 세대와 아키텍처가 더 중요할 수 있다.
- 컨텍스트 길이가 늘어날수록 품질이 저하된다. 256k 컨텍스트 창 기준으로 100k를 넘어가면 품질과 속도가 떨어지기 시작하고 150k 이후엔 심각해진다는 경험이 여럿 있었다. 컴팩트 타겟을 75%로 설정해 대화 길이를 관리하는 방식으로 대응하는 사례도 있었다.
- llama.cpp에서 Qwen 하이브리드 모델의 프롬프트 캐싱 문제가 보고됐다. 매 턴마다 전체 컨텍스트를 재처리하는 이슈가 있었는데, Qwen3.6부터 'preserve_thinking' 옵션을 지원해 thinking 토큰을 유지함으로써 캐시 재사용이 가능해졌다.
- 에이전트 하네스(agent harness)로는 Pi(pi coding harness), OpenCode, Claude Code 등이 언급됐고, 로컬 추론 엔진으로는 llama.cpp가 압도적으로 많이 사용됐다. 일부는 vLLM이나 LM Studio(llmster)도 병용했다.
Evidence
- 월 $100 Claude 구독을 해지하고 RTX 3090 듀얼 머신에서 Qwen3.6 35B-A3B와 Gemma 4 26B를 번갈아 쓴다는 사용자가 'Claude만큼 좋진 않지만, 무료인 점을 감안하면 의미 있는 수준의 성능 차이는 아니다'라고 평가했다. 개인 프로젝트(안드로이드 TV 런처, k8s 어드민 포털, Home Assistant 자동화 등)에는 충분하지만, 돈을 버는 소프트웨어 개발이라면 유료 서비스를 권장한다고 덧붙였다.
- Strix Halo(AMD 노트북 SoC) 128GiB 통합 메모리 환경에서 llama.cpp를 Vulkan 백엔드로 실행하는 사용자는 ROCm보다 Vulkan이 오히려 약간 빠르다고 경험을 공유했다. 이 사용자는 Qwen3.6 35B-A3B를 코딩용 기본 모델로 쓰고, 번역·일반 대화에는 Gemma 4 31B, 오디오 처리에는 Gemma 4 12B를 용도별로 분리해 사용한다고 밝혔다.
- 로컬 모델 전환에 회의적인 의견도 있었다. '매달 조사해도 결론은 같다 — 로컬 모델과 주변 도구들을 Claude Code + Sonnet/Opus 수준으로 끌어올리는 데 드는 시간·노력·비용이 아직은 가치 없다'는 주장이 있었고, 이에 대해 다른 사용자들은 자신의 구체적인 성공 사례로 반박했다.
- RTX 6000 Ada(48GB VRAM) 보유자는 Qwen3.6 27B로 자동차 소프트웨어 파워 매니지먼트 서비스의 C++ → C 전면 재작성, 복잡한 엑셀 스펙 파서, CJK 번역 도구 등 실제 프로덕션급 C/C++·Python 코딩을 3~4개월째 하고 있다고 공유했다. 다만 아키텍처 설계와 실행 계획은 Claude Sonnet으로 먼저 잡고 그 결과를 로컬 모델에 먹이는 하이브리드 워크플로우를 쓴다고 밝혔다.
- RTX Pro 6000 Blackwell을 보유한 사용자는 야간에 Chrome DevTools MCP를 연결한 로컬 모델이 수 시간 동안 퍼즈 테스트(사용자처럼 앱을 직접 조작해 버그를 찾는 테스트)를 자동으로 수행하도록 설정했다고 공유했다. Claude + 스크린샷은 비용이 너무 많이 들어 시도조차 못 했던 워크플로우인데 로컬 모델로는 지갑 걱정 없이 가능하다고 했다. '12~18개월 후면 $5,000 이하 하드웨어로 Opus급 모델을 로컬에서 돌릴 수 있을 것'이라고 전망했다.
How to Apply
- 월 $100 전후 Claude 구독 비용이 부담스럽고 개인 사이드 프로젝트 위주로 코딩하는 경우, RTX 3090(중고 약 40~50만 원대) 혹은 Mac Studio 64GB RAM 이상 환경에서 llama.cpp + Qwen3.6 35B-A3B(Q4_KM 양자화) + OpenCode 조합을 구성하면 구독 없이 50~150 tok/s 수준의 로컬 코딩 에이전트를 운용할 수 있다.
- 로컬 모델만으로는 아키텍처 설계가 불안하다면 하이브리드 워크플로우를 쓰면 된다. Claude Sonnet/Opus로 설계·아키텍처 문서와 실행 계획을 먼저 만든 뒤, 그 결과를 로컬 Qwen에 넣어 실제 코드 구현을 맡기면 API 호출 빈도를 크게 줄이면서도 품질을 유지할 수 있다.
- llama.cpp에서 Qwen3.6 모델 사용 시 매 턴마다 전체 컨텍스트가 재처리되어 느려지는 문제가 발생한다면, models.ini에 `chat-template-kwargs = {"preserve_thinking": true}` 옵션을 추가하고 llama.cpp를 최신 버전으로 업데이트하면 thinking 토큰이 보존되어 KV 캐시 재사용률이 올라가 속도가 개선된다.
- 대화가 길어질수록 품질이 떨어지는 문제가 있다면 컨텍스트 길이를 관리하는 전략이 필요하다. OpenCode 기준으로 컴팩트 타겟(compact target)을 75%로 설정하거나, 100k 토큰을 넘기 전에 새 대화 세션으로 분리해 복잡한 작업을 단계별로 나누면 품질 저하를 방지할 수 있다.
Code Example
# llama.cpp models.ini에서 Qwen3.6 모델의 thinking 보존 설정
# (매 턴 전체 컨텍스트 재처리 문제 해결)
[qwen3.6-35b]
chat-template-kwargs = {"preserve_thinking": true}
# llama.cpp 실행 예시 (RTX 3090, Qwen3.6 35B-A3B Q4_KM)
./llama-server \
--model unsloth/Qwen3.6-35B-A3B-MTP-GGUF \
--ctx-size 300000 \
--n-gpu-layers 99 \
--host 0.0.0.0 \
--port 8080Terminology
Related Papers
Jamesob's guide to running SOTA LLMs locally
2천 달러짜리 RTX 3090 한 장부터 4만 달러짜리 RTX PRO 6000 4장 셋업까지, 로컬에서 최신 LLM을 직접 돌리는 방법을 하드웨어 선택·구성·실행 설정까지 통째로 정리한 실전 가이드다.
Faster embeddings: how we rebuilt the ONNX path in Manticore
Manticore Search가 기존 SentenceTransformers/Candle 백엔드를 ONNX Runtime으로 교체해 텍스트 임베딩 생성 속도를 평균 14배 향상시켰다. 별도 모델 서비스 없이 DB 내부에서 직접 임베딩을 처리하는 구조에서 INSERT 속도가 곧 임베딩 속도이기 때문에 이 개선은 실질적인 ingest 처리량 향상으로 직결된다.
Asymmetric Quantization: Near-Lossless Retrieval with 97% Storage Reduction
멀티벡터 검색 모델의 문서 벡터를 1비트 이진값으로 압축하고 쿼리 벡터만 int8로 유지하는 비대칭 양자화 기법으로, 스토리지를 97% 줄이면서 검색 품질 손실을 0.61점(NDCG@10 기준)에 그치게 만든 실제 프로덕션 적용 사례다.
Show HN: Bash4LLM+ – A lightweight, dependency-free Bash wrapper for LLM APIs
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: deterministic routing of queries between local and hosted LLM
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: Architecture, Programming, and Performance
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.