Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?

TL;DR Highlight

Hacker News에서 Claude/GPT를 로컬 LLM으로 완전 대체한 개발자들의 실제 셋업과 성능 경험담을 공유한 스레드로, Qwen3.6 35B를 중심으로 구체적인 하드웨어·속도·한계점까지 담겨 있어 로컬 AI 코딩 도입을 고민하는 개발자에게 현실적인 참고 자료가 된다.

Who Should Read

Claude Code나 ChatGPT에 월 $100 이상 지출하고 있는데 데이터 프라이버시나 비용 때문에 로컬 모델로 전환을 고민 중인 개발자, 또는 고성능 GPU/Apple Silicon 머신을 보유하고 있어 로컬 추론 환경 구축에 관심 있는 백엔드·풀스택 개발자.

Core Mechanics

가장 많이 언급된 모델은 Qwen3.6 35B-A3B(MoE 구조로 활성 파라미터 3B만 사용해 빠른 추론)로, Mac Studio 128GB RAM이나 단일 RTX 3090에서도 구동 가능하고 코딩 작업에서 현재 로컬 모델 중 사실상 표준으로 자리 잡고 있다.
추론 속도는 하드웨어에 따라 편차가 크다. RTX 3090 듀얼(UD-Q4_K_XL 양자화)에서 약 150 tok/s, RTX Ada 4000(20GB VRAM, Q4_KM)에서 약 55 tok/s, Framework 13 32GB RAM에서 약 15 tok/s로 측정됐다. 15 tok/s도 사람이 읽는 속도보다 빠르다는 평가가 있었다.
Claude Opus 대비 체감 품질 차이가 존재한다. 한 사용자는 'Opus가 15x 생산성 향상이라면 로컬 Qwen은 5x 수준'이라고 표현했고, Opus가 아키텍처를 같이 고민해주는 시니어라면 Qwen은 전반적인 지식은 있지만 세밀하게 가이드해줘야 하는 주니어 같다고 비유했다.
로컬 모델 사용 시 프롬프트 정밀도가 훨씬 중요해진다. Claude는 모호한 지시도 알아서 좋은 방향으로 해석하지만, Qwen 같은 로컬 모델은 열린 가정(open assumption)이 있으면 가장 쉬운 방법(예: HTML 안에 인라인 CSS)을 선택하는 경향이 있어 구체적인 요구사항 명시가 필수다.
MoE(Mixture of Experts, 전체 파라미터 중 일부만 활성화해 속도를 높이는 구조) 모델은 dense 모델보다 빠르지만 품질이 약간 낮다는 의견이 있었다. Qwen3.6 27B dense 모델이 더 큰 Qwen3.5 122B보다 코딩 성능이 좋았다는 경험담도 있어, 모델 크기보다 세대와 아키텍처가 더 중요할 수 있다.
컨텍스트 길이가 늘어날수록 품질이 저하된다. 256k 컨텍스트 창 기준으로 100k를 넘어가면 품질과 속도가 떨어지기 시작하고 150k 이후엔 심각해진다는 경험이 여럿 있었다. 컴팩트 타겟을 75%로 설정해 대화 길이를 관리하는 방식으로 대응하는 사례도 있었다.
llama.cpp에서 Qwen 하이브리드 모델의 프롬프트 캐싱 문제가 보고됐다. 매 턴마다 전체 컨텍스트를 재처리하는 이슈가 있었는데, Qwen3.6부터 'preserve_thinking' 옵션을 지원해 thinking 토큰을 유지함으로써 캐시 재사용이 가능해졌다.
에이전트 하네스(agent harness)로는 Pi(pi coding harness), OpenCode, Claude Code 등이 언급됐고, 로컬 추론 엔진으로는 llama.cpp가 압도적으로 많이 사용됐다. 일부는 vLLM이나 LM Studio(llmster)도 병용했다.

Evidence

월 $100 Claude 구독을 해지하고 RTX 3090 듀얼 머신에서 Qwen3.6 35B-A3B와 Gemma 4 26B를 번갈아 쓴다는 사용자가 'Claude만큼 좋진 않지만, 무료인 점을 감안하면 의미 있는 수준의 성능 차이는 아니다'라고 평가했다. 개인 프로젝트(안드로이드 TV 런처, k8s 어드민 포털, Home Assistant 자동화 등)에는 충분하지만, 돈을 버는 소프트웨어 개발이라면 유료 서비스를 권장한다고 덧붙였다.
Strix Halo(AMD 노트북 SoC) 128GiB 통합 메모리 환경에서 llama.cpp를 Vulkan 백엔드로 실행하는 사용자는 ROCm보다 Vulkan이 오히려 약간 빠르다고 경험을 공유했다. 이 사용자는 Qwen3.6 35B-A3B를 코딩용 기본 모델로 쓰고, 번역·일반 대화에는 Gemma 4 31B, 오디오 처리에는 Gemma 4 12B를 용도별로 분리해 사용한다고 밝혔다.
로컬 모델 전환에 회의적인 의견도 있었다. '매달 조사해도 결론은 같다 — 로컬 모델과 주변 도구들을 Claude Code + Sonnet/Opus 수준으로 끌어올리는 데 드는 시간·노력·비용이 아직은 가치 없다'는 주장이 있었고, 이에 대해 다른 사용자들은 자신의 구체적인 성공 사례로 반박했다.
RTX 6000 Ada(48GB VRAM) 보유자는 Qwen3.6 27B로 자동차 소프트웨어 파워 매니지먼트 서비스의 C++ → C 전면 재작성, 복잡한 엑셀 스펙 파서, CJK 번역 도구 등 실제 프로덕션급 C/C++·Python 코딩을 3~4개월째 하고 있다고 공유했다. 다만 아키텍처 설계와 실행 계획은 Claude Sonnet으로 먼저 잡고 그 결과를 로컬 모델에 먹이는 하이브리드 워크플로우를 쓴다고 밝혔다.
RTX Pro 6000 Blackwell을 보유한 사용자는 야간에 Chrome DevTools MCP를 연결한 로컬 모델이 수 시간 동안 퍼즈 테스트(사용자처럼 앱을 직접 조작해 버그를 찾는 테스트)를 자동으로 수행하도록 설정했다고 공유했다. Claude + 스크린샷은 비용이 너무 많이 들어 시도조차 못 했던 워크플로우인데 로컬 모델로는 지갑 걱정 없이 가능하다고 했다. '12~18개월 후면 $5,000 이하 하드웨어로 Opus급 모델을 로컬에서 돌릴 수 있을 것'이라고 전망했다.

How to Apply

월 $100 전후 Claude 구독 비용이 부담스럽고 개인 사이드 프로젝트 위주로 코딩하는 경우, RTX 3090(중고 약 40~50만 원대) 혹은 Mac Studio 64GB RAM 이상 환경에서 llama.cpp + Qwen3.6 35B-A3B(Q4_KM 양자화) + OpenCode 조합을 구성하면 구독 없이 50~150 tok/s 수준의 로컬 코딩 에이전트를 운용할 수 있다.
로컬 모델만으로는 아키텍처 설계가 불안하다면 하이브리드 워크플로우를 쓰면 된다. Claude Sonnet/Opus로 설계·아키텍처 문서와 실행 계획을 먼저 만든 뒤, 그 결과를 로컬 Qwen에 넣어 실제 코드 구현을 맡기면 API 호출 빈도를 크게 줄이면서도 품질을 유지할 수 있다.
llama.cpp에서 Qwen3.6 모델 사용 시 매 턴마다 전체 컨텍스트가 재처리되어 느려지는 문제가 발생한다면, models.ini에 `chat-template-kwargs = {"preserve_thinking": true}` 옵션을 추가하고 llama.cpp를 최신 버전으로 업데이트하면 thinking 토큰이 보존되어 KV 캐시 재사용률이 올라가 속도가 개선된다.
대화가 길어질수록 품질이 떨어지는 문제가 있다면 컨텍스트 길이를 관리하는 전략이 필요하다. OpenCode 기준으로 컴팩트 타겟(compact target)을 75%로 설정하거나, 100k 토큰을 넘기 전에 새 대화 세션으로 분리해 복잡한 작업을 단계별로 나누면 품질 저하를 방지할 수 있다.

Code Example

snippet

# llama.cpp models.ini에서 Qwen3.6 모델의 thinking 보존 설정
# (매 턴 전체 컨텍스트 재처리 문제 해결)
[qwen3.6-35b]
chat-template-kwargs = {"preserve_thinking": true}

# llama.cpp 실행 예시 (RTX 3090, Qwen3.6 35B-A3B Q4_KM)
./llama-server \
  --model unsloth/Qwen3.6-35B-A3B-MTP-GGUF \
  --ctx-size 300000 \
  --n-gpu-layers 99 \
  --host 0.0.0.0 \
  --port 8080

Terminology

MoE (Mixture of Experts)전체 파라미터 중 일부(expert)만 골라서 활성화하는 모델 구조. 예를 들어 35B 파라미터 모델이지만 실제 추론 시 3B만 쓰면, 35B의 지식을 갖추면서도 속도는 3B 수준에 가깝게 낼 수 있다.

GGUFllama.cpp에서 사용하는 모델 파일 포맷. 양자화(가중치를 낮은 비트로 압축)된 모델을 CPU/GPU 혼합 환경에서 효율적으로 로딩할 수 있게 해준다.

KV 캐시 (KV Cache)LLM이 이전 대화 내용을 처리한 결과를 메모리에 저장해두는 것. 이 캐시가 재사용되면 매 턴마다 처음부터 다시 계산하지 않아도 되어 속도가 크게 빨라진다.

양자화 (Quantization)모델 가중치를 32비트 실수에서 8비트·4비트 등 낮은 정밀도로 압축하는 기법. 메모리 사용량과 속도가 개선되지만 약간의 품질 손실이 생긴다. Q4_KM, Q8 같은 표기가 이 압축 수준을 나타낸다.

MTP (Multi-Token Prediction)한 번에 여러 토큰을 예측하는 추론 가속 기법(Speculative Decoding의 일종). 별도의 draft 모델 없이 다음 토큰 여러 개를 동시에 예측하고 검증해 실질적인 tok/s를 높인다.

에이전트 하네스 (Agent Harness)LLM이 파일 읽기·수정·명령 실행 등 도구를 사용하며 스스로 작업을 완료할 수 있도록 감싸주는 프레임워크. Pi, OpenCode, Claude Code 등이 여기에 해당한다.