2025: LLM이 바꾼 한 해 총정리
2025: The Year in LLMs
TL;DR Highlight
Simon Willison의 2025년 LLM 생태계 연간 리뷰가 추론 모델·에이전트·바이브 코딩·MCP 등의 핵심 트렌드를 정리하여 개발자의 필수 참고 자료가 되었다.
Who Should Read
LLM 기반 제품을 만들거나 AI 도구를 적극적으로 쓰는 개발자 중, 한 해 흐름을 놓쳤거나 빠르게 복기하고 싶은 사람. 특히 에이전트·코딩 자동화에 관심 있는 백엔드·풀스택 개발자.
Core Mechanics
- 2025년 가장 큰 패러다임 전환은 '추론(Reasoning)' 모델의 대중화였다. OpenAI가 2024년 말 o1으로 시작한 RLVR(검증 가능한 보상으로 강화학습) 방식이 DeepSeek R1, Gemini 등 거의 모든 주요 모델에 퍼졌고, 모델이 수학·코딩 문제를 자동 검증하면서 '중간 추론 단계'를 스스로 학습하게 됐다.
- 추론 모델의 진짜 가치는 수학 퍼즐이 아니라 '툴 사용'에서 드러났다. 추론 능력 덕분에 모델이 다단계 툴 호출을 계획하고 결과를 보면서 계획을 수정할 수 있게 됐다. 이 조합이 에이전트와 AI 검색을 실용적인 수준으로 끌어올렸다.
- 에이전트가 실제로 동작하기 시작했다. 2024년에는 '에이전트' 논의만 많았고 실제 작동 사례가 없었지만, 2025년에는 '여러 단계에 걸쳐 툴을 호출해서 목표를 달성하는 LLM 시스템'이라는 실용적 정의가 자리잡으면서 Claude Code, Cursor, GitHub Copilot 등 코딩 에이전트가 폭발적으로 성장했다.
- 바이브 코딩(Vibe Coding)이 본격화됐다. 코드를 직접 타이핑하지 않고 AI에게 자연어로 지시해서 전체 앱을 만드는 방식이 흔해졌고, 비개발자도 앱을 직접 만드는 사례가 늘었다. 이는 '실제로 돌아가지만 내용을 이해하지 못하는 코드'에 대한 우려도 함께 불러왔다.
- MCP(Model Context Protocol)가 에이전트 툴 연동의 표준으로 부상했다. Anthropic이 제안한 이 프로토콜은 LLM이 외부 데이터·서비스와 표준화된 방식으로 통신할 수 있게 해주는데, GitHub·Jira 등 주요 서비스들이 MCP 서버를 공개하면서 생태계가 빠르게 형성됐다.
- 중국의 오픈 웨이트 모델이 최상위권을 차지했다. DeepSeek R1이 GPT-4급 성능을 대폭 낮은 비용으로 공개하면서 업계에 충격을 줬고, Qwen 시리즈 등 중국 오픈 모델들이 글로벌 벤치마크 상위권을 차지했다. OpenAI는 선두 자리를 잃고, Gemini가 구글의 주력 모델로 자리잡았다.
- 로컬 모델이 좋아졌지만 클라우드 모델은 더 빠르게 좋아졌다. 로컬에서 돌릴 수 있는 모델 수준이 올라갔으나, 코딩 에이전트처럼 안정적인 툴 호출이 필요한 작업에서는 클라우드 모델과의 격차가 여전하다. 로컬 모델 지지자들 사이에서 '코드와 자격증명을 클라우드로 보내는 것'에 대한 프라이버시 우려가 커지고 있다.
- YOLO 모드와 '일탈의 정상화' 현상이 나타났다. 에이전트에게 파일 시스템·인터넷 접근 등 광범위한 권한을 주는 방식이 일상화되면서, 보안 위험을 알면서도 편의 때문에 감수하는 행태가 늘었다. Anthropic은 이 트렌드의 위험성에 대해 공개적으로 경고했다.
Evidence
- 하드웨어 업계 종사자 댓글에 따르면, 현재 AI 붐은 스마트폰 이후 가장 큰 하드웨어 투자 사이클이라는 의견이 있었다. LPDDR6, 광 인터커넥트, 첨단 패키징 등 원래 8~10년 후 기술들이 AI 수요에 의해 앞당겨지고 있으며, 이 사이클이 최소 5~6년은 지속될 것이라는 낙관론이 공유됐다.
- YOLO 모드 보안 문제에 대해, 한 개발자는 Docker 대신 1970년대식 유닉스 사용자 권한 분리로 해결했다는 경험을 공유했다. agent 전용 사용자 계정을 만들어 /home/agent 디렉토리에만 접근하게 하고, 자신의 계정을 agent 그룹에 추가하는 방식으로 권한을 제한했으며, 실제로 꽤 원활하게 동작한다고 했다.
- MCP의 지속성에 대한 토론이 있었다. 저자는 '배시 명령어 실행 가능한 에이전트는 MCP가 필요 없다'며 MCP가 일시적 트렌드일 수 있다고 했으나, 댓글에서는 반론이 나왔다. 팀이나 고객에게 표준화된 인터페이스로 워크플로를 노출할 때는 MCP가 여전히 최선이며, GitHub·Jira 같은 API를 에이전트가 쉘 명령으로 직접 다루면 오류가 잦지만 MCP 서버를 쓰면 검증된 명령만 사용하게 된다는 주장이었다.
- 클라우드 vs 로컬 모델 논쟁에서 프라이버시 우려가 제기됐다. LocalGhost.ai를 개발 중인 한 댓글러는 '코딩 에이전트가 더 강력해질수록 코드베이스·자격증명에 대한 접근이 깊어지는데, 이걸 전부 외부 인프라로 보내도 되는가'라는 본질적 질문을 던졌다. 능력 격차는 언젠가 닫히겠지만 신뢰 격차는 의도적으로 설계하지 않으면 해결되지 않는다고 주장했다.
- Claude Opus 4.5에 대한 실사용 경험이 공유됐다. 한 개발자는 $20/월 플랜으로 NVIDIA 연구 논문을 단계별 예시와 함께 이해하는 데 성공했고, 예전이었으면 수일을 소비하다 포기했을 WGSL 셰이더 코드 분석을 빠르게 마쳤다고 했다. 학습 가속기로서의 가치를 강조하며 무거운 작업이 있는 달에는 $100 플랜으로 올린다고도 했다.
How to Apply
- 복잡한 버그를 디버깅할 때 추론 모델(o3, Claude with extended thinking, DeepSeek R1 등)을 쓰면 일반 모델보다 효과적이다. 모델이 에러 메시지에서 시작해 코드베이스를 단계적으로 추적하는 방식으로 원인을 찾아내므로, 큰 레포지토리의 난해한 버그일수록 추론 모델에 코드 읽기·실행 권한을 함께 주는 것이 좋다.
- 에이전트에게 파일 시스템 전체 접근권을 주기 전에 유닉스 사용자 권한으로 샌드박스를 구성하는 것을 고려하라. 별도 agent 사용자를 만들고 홈 디렉토리만 읽고 쓸 수 있게 제한하면, Docker 없이도 간단하게 피해 반경을 줄일 수 있다.
- 팀 내부 도구나 외부 서비스를 에이전트에 연동할 때는 MCP 서버 구현을 검토하라. 쉘 명령으로 REST API를 직접 호출하면 스키마 오류가 잦지만, MCP로 검증된 명령 집합을 정의해두면 에이전트의 API 호출 신뢰도가 높아진다. GitHub MCP, Jira MCP 같은 공개 서버를 먼저 참고하면 된다.
- 클라우드 모델에 코드베이스 전체를 노출하는 것이 부담스러운 경우, 로컬 모델(Qwen, Llama 등)을 먼저 시도해보되 툴 호출 안정성을 반드시 검증하라. 현재 로컬 모델은 단순 코드 생성에는 충분하지만, 다단계 에이전트 워크플로에서는 툴 호출 실패율이 높아 클라우드 모델과 혼용 전략이 현실적이다.
Terminology
관련 논문
adamsreview: Claude Code용 멀티 에이전트 PR 코드 리뷰 파이프라인
Claude Code에서 최대 7개의 병렬 서브 에이전트가 각각 다른 관점으로 PR을 리뷰하고, 자동 수정까지 해주는 오픈소스 플러그인이다. 기존 /review나 CodeRabbit보다 실제 버그를 더 많이 잡는다고 주장하지만 커뮤니티에서는 복잡도와 실효성에 대한 회의론도 나왔다.
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
AI Agent를 위한 Git: re_gent
AI 코딩 에이전트(Claude Code 등)가 수행한 모든 툴 호출을 자동으로 추적하고, 어떤 프롬프트가 어느 코드 줄을 작성했는지 blame까지 가능한 버전 관리 도구다.
Agent-Native CLI를 위한 설계 원칙 10가지
AI 에이전트가 CLI 도구를 더 잘 사용할 수 있도록 설계하는 원칙들을 정리한 글로, 에이전트가 CLI를 도구로 활용하는 빈도가 높아지면서 이 설계 방식이 실용적으로 중요해지고 있다.
Agent-harness-kit: MCP 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
여러 AI 에이전트가 서로 역할을 나눠 협업할 수 있도록 조율하는 scaffolding 도구로, Vite처럼 설정 없이 빠르게 멀티 에이전트 파이프라인을 구성할 수 있다.
Tilde.run – AI Agent를 위한 트랜잭션 기반 버전 관리 파일시스템 샌드박스
AI 에이전트가 실제 프로덕션 데이터를 건드려도 롤백할 수 있는 격리된 샌드박스 환경을 제공하는 도구로, GitHub/S3/Google Drive를 하나의 버전 관리 파일시스템으로 묶어준다.