2025: LLM이 바꾼 한 해 총정리

TL;DR Highlight

Simon Willison의 2025년 LLM 생태계 연간 리뷰가 추론 모델·에이전트·바이브 코딩·MCP 등의 핵심 트렌드를 정리하여 개발자의 필수 참고 자료가 되었다.

Who Should Read

LLM 기반 제품을 만들거나 AI 도구를 적극적으로 쓰는 개발자 중, 한 해 흐름을 놓쳤거나 빠르게 복기하고 싶은 사람. 특히 에이전트·코딩 자동화에 관심 있는 백엔드·풀스택 개발자.

Core Mechanics

2025년 가장 큰 패러다임 전환은 '추론(Reasoning)' 모델의 대중화였다. OpenAI가 2024년 말 o1으로 시작한 RLVR(검증 가능한 보상으로 강화학습) 방식이 DeepSeek R1, Gemini 등 거의 모든 주요 모델에 퍼졌고, 모델이 수학·코딩 문제를 자동 검증하면서 '중간 추론 단계'를 스스로 학습하게 됐다.
추론 모델의 진짜 가치는 수학 퍼즐이 아니라 '툴 사용'에서 드러났다. 추론 능력 덕분에 모델이 다단계 툴 호출을 계획하고 결과를 보면서 계획을 수정할 수 있게 됐다. 이 조합이 에이전트와 AI 검색을 실용적인 수준으로 끌어올렸다.
에이전트가 실제로 동작하기 시작했다. 2024년에는 '에이전트' 논의만 많았고 실제 작동 사례가 없었지만, 2025년에는 '여러 단계에 걸쳐 툴을 호출해서 목표를 달성하는 LLM 시스템'이라는 실용적 정의가 자리잡으면서 Claude Code, Cursor, GitHub Copilot 등 코딩 에이전트가 폭발적으로 성장했다.
바이브 코딩(Vibe Coding)이 본격화됐다. 코드를 직접 타이핑하지 않고 AI에게 자연어로 지시해서 전체 앱을 만드는 방식이 흔해졌고, 비개발자도 앱을 직접 만드는 사례가 늘었다. 이는 '실제로 돌아가지만 내용을 이해하지 못하는 코드'에 대한 우려도 함께 불러왔다.
MCP(Model Context Protocol)가 에이전트 툴 연동의 표준으로 부상했다. Anthropic이 제안한 이 프로토콜은 LLM이 외부 데이터·서비스와 표준화된 방식으로 통신할 수 있게 해주는데, GitHub·Jira 등 주요 서비스들이 MCP 서버를 공개하면서 생태계가 빠르게 형성됐다.
중국의 오픈 웨이트 모델이 최상위권을 차지했다. DeepSeek R1이 GPT-4급 성능을 대폭 낮은 비용으로 공개하면서 업계에 충격을 줬고, Qwen 시리즈 등 중국 오픈 모델들이 글로벌 벤치마크 상위권을 차지했다. OpenAI는 선두 자리를 잃고, Gemini가 구글의 주력 모델로 자리잡았다.
로컬 모델이 좋아졌지만 클라우드 모델은 더 빠르게 좋아졌다. 로컬에서 돌릴 수 있는 모델 수준이 올라갔으나, 코딩 에이전트처럼 안정적인 툴 호출이 필요한 작업에서는 클라우드 모델과의 격차가 여전하다. 로컬 모델 지지자들 사이에서 '코드와 자격증명을 클라우드로 보내는 것'에 대한 프라이버시 우려가 커지고 있다.
YOLO 모드와 '일탈의 정상화' 현상이 나타났다. 에이전트에게 파일 시스템·인터넷 접근 등 광범위한 권한을 주는 방식이 일상화되면서, 보안 위험을 알면서도 편의 때문에 감수하는 행태가 늘었다. Anthropic은 이 트렌드의 위험성에 대해 공개적으로 경고했다.

Evidence

하드웨어 업계 종사자 댓글에 따르면, 현재 AI 붐은 스마트폰 이후 가장 큰 하드웨어 투자 사이클이라는 의견이 있었다. LPDDR6, 광 인터커넥트, 첨단 패키징 등 원래 8~10년 후 기술들이 AI 수요에 의해 앞당겨지고 있으며, 이 사이클이 최소 5~6년은 지속될 것이라는 낙관론이 공유됐다.
YOLO 모드 보안 문제에 대해, 한 개발자는 Docker 대신 1970년대식 유닉스 사용자 권한 분리로 해결했다는 경험을 공유했다. agent 전용 사용자 계정을 만들어 /home/agent 디렉토리에만 접근하게 하고, 자신의 계정을 agent 그룹에 추가하는 방식으로 권한을 제한했으며, 실제로 꽤 원활하게 동작한다고 했다.
MCP의 지속성에 대한 토론이 있었다. 저자는 '배시 명령어 실행 가능한 에이전트는 MCP가 필요 없다'며 MCP가 일시적 트렌드일 수 있다고 했으나, 댓글에서는 반론이 나왔다. 팀이나 고객에게 표준화된 인터페이스로 워크플로를 노출할 때는 MCP가 여전히 최선이며, GitHub·Jira 같은 API를 에이전트가 쉘 명령으로 직접 다루면 오류가 잦지만 MCP 서버를 쓰면 검증된 명령만 사용하게 된다는 주장이었다.
클라우드 vs 로컬 모델 논쟁에서 프라이버시 우려가 제기됐다. LocalGhost.ai를 개발 중인 한 댓글러는 '코딩 에이전트가 더 강력해질수록 코드베이스·자격증명에 대한 접근이 깊어지는데, 이걸 전부 외부 인프라로 보내도 되는가'라는 본질적 질문을 던졌다. 능력 격차는 언젠가 닫히겠지만 신뢰 격차는 의도적으로 설계하지 않으면 해결되지 않는다고 주장했다.
Claude Opus 4.5에 대한 실사용 경험이 공유됐다. 한 개발자는 $20/월 플랜으로 NVIDIA 연구 논문을 단계별 예시와 함께 이해하는 데 성공했고, 예전이었으면 수일을 소비하다 포기했을 WGSL 셰이더 코드 분석을 빠르게 마쳤다고 했다. 학습 가속기로서의 가치를 강조하며 무거운 작업이 있는 달에는 $100 플랜으로 올린다고도 했다.

How to Apply

복잡한 버그를 디버깅할 때 추론 모델(o3, Claude with extended thinking, DeepSeek R1 등)을 쓰면 일반 모델보다 효과적이다. 모델이 에러 메시지에서 시작해 코드베이스를 단계적으로 추적하는 방식으로 원인을 찾아내므로, 큰 레포지토리의 난해한 버그일수록 추론 모델에 코드 읽기·실행 권한을 함께 주는 것이 좋다.
에이전트에게 파일 시스템 전체 접근권을 주기 전에 유닉스 사용자 권한으로 샌드박스를 구성하는 것을 고려하라. 별도 agent 사용자를 만들고 홈 디렉토리만 읽고 쓸 수 있게 제한하면, Docker 없이도 간단하게 피해 반경을 줄일 수 있다.
팀 내부 도구나 외부 서비스를 에이전트에 연동할 때는 MCP 서버 구현을 검토하라. 쉘 명령으로 REST API를 직접 호출하면 스키마 오류가 잦지만, MCP로 검증된 명령 집합을 정의해두면 에이전트의 API 호출 신뢰도가 높아진다. GitHub MCP, Jira MCP 같은 공개 서버를 먼저 참고하면 된다.
클라우드 모델에 코드베이스 전체를 노출하는 것이 부담스러운 경우, 로컬 모델(Qwen, Llama 등)을 먼저 시도해보되 툴 호출 안정성을 반드시 검증하라. 현재 로컬 모델은 단순 코드 생성에는 충분하지만, 다단계 에이전트 워크플로에서는 툴 호출 실패율이 높아 클라우드 모델과 혼용 전략이 현실적이다.

Terminology

RLVRReinforcement Learning from Verifiable Rewards. 수학 답이 맞다/틀리다처럼 자동으로 검증 가능한 피드백으로 모델을 강화학습하는 방식. 사람이 직접 채점하지 않아도 되어 대규모 학습이 가능하다.

추론 모델답을 바로 내놓지 않고 '생각하는 단계'를 거치도록 훈련된 LLM. 마치 사람이 복잡한 문제를 풀 때 종이에 중간 계산을 적듯, 모델이 내부적으로 추론 과정을 생성한 뒤 최종 답을 낸다.

MCPModel Context Protocol. LLM이 외부 도구·데이터·서비스와 통신하는 방식을 표준화한 프로토콜. USB 포트처럼, 한 번 규격을 맞춰두면 어떤 LLM이든 같은 방식으로 외부 서비스와 연결할 수 있다.

오픈 웨이트 모델모델의 가중치(학습된 파라미터) 파일을 공개해서 누구나 직접 다운로드해 실행할 수 있는 모델. 클라우드 API 없이 자체 서버나 로컬 PC에서 돌릴 수 있다.

바이브 코딩정확한 코드 문법을 몰라도 '이런 거 만들어줘'처럼 자연어로 지시해서 AI가 코드를 생성하게 하는 개발 방식. 코드를 직접 이해하기보다 결과물이 동작하는지 확인하며 진행한다.

YOLO 모드AI 에이전트에게 확인 없이 파일 삭제·명령 실행·네트워크 접근 등 광범위한 권한을 자동으로 허용하는 방식. 빠르고 편하지만 의도치 않은 삭제나 보안 사고 위험이 크다.