Claude Mythos Preview의 사이버보안 역량 평가 — 제로데이 취약점 자동 익스플로잇 | AI Paper Digest

TL;DR Highlight

Claude Mythos Preview가 주요 OS·브라우저의 제로데이 취약점을 자율적으로 찾아 익스플로잇까지 제작하며 이전 모델 대비 폭발적인 성능 향상을 달성함.

Who Should Read

보안 연구자, 취약점 분석 및 침투 테스트 업무를 하는 개발자, 그리고 AI 모델이 사이버 공격에 미치는 영향을 파악하고 방어 전략을 세우려는 보안 아키텍트.

Core Mechanics

Claude Mythos Preview는 주요 운영체제(Linux, FreeBSD, OpenBSD 등)와 주요 웹 브라우저 전반에서 제로데이(아직 발견되지 않은) 취약점을 찾아내고 익스플로잇(실제 공격 코드)까지 자율적으로 작성하는 능력을 보여줬다.
발견된 취약점 중 상당수는 수십 년 된 것들이다. 보안으로 유명한 OpenBSD에서는 27년 된 버그까지 찾아냈으며, 10~20년 된 취약점도 다수 발견했다.
익스플로잇의 복잡도가 단순 스택 오버플로우 수준이 아니다. 브라우저에서는 4개의 취약점을 체이닝해 렌더러와 OS 샌드박스를 모두 탈출하는 복잡한 JIT 힙 스프레이(메모리 취약점 공격 기법) 익스플로잇을 작성했다.
FreeBSD의 NFS 서버에서는 20개의 가젯(ROP chain)을 여러 패킷에 분산시켜 인증 없이 원격으로 root 권한을 얻는 RCE(원격 코드 실행) 익스플로잇을 자율적으로 완성했다.
이전 모델 Opus 4.6과의 성능 차이가 극적이다. Opus 4.6이 Firefox 147 JS 엔진 취약점을 수백 번 시도해 단 2번 익스플로잇에 성공한 반면, Mythos Preview는 같은 조건에서 181번 성공하고 29번 추가로 레지스터 제어권을 획득했다.
보안 전문 교육을 받지 않은 Anthropic 내부 엔지니어도 Mythos Preview에게 RCE 취약점을 찾아달라고 요청만 하면, 다음 날 아침 완성된 익스플로잇을 받을 수 있는 수준이다.
발견된 취약점의 99% 이상이 아직 패치되지 않아 구체적인 내용을 공개할 수 없는 상태이며, Anthropic은 공개 가능한 1%만으로도 이미 역대급 도약임을 보여줄 수 있다고 밝혔다.
Anthropic은 이에 대응해 Project Glasswing을 출범시켰는데, 이는 Mythos Preview를 활용해 세계 핵심 소프트웨어를 방어적으로 보호하고, 업계 전반이 공격자보다 앞서나갈 수 있도록 준비시키려는 협력 프로젝트다.

Evidence

업그레이드가 어려운 임베디드 기기 수억 대가 취약한 바이너리를 반영구적으로 실행하는 상황에 대한 우려가 제기됐다. 한 댓글 작성자는 이 문제의 해결책으로 프론티어 모델이 오래된 바이너리에 원격으로 '유익한 공격'을 주입해 면역시키는 '항체 봇넷(antibotty network)' 개념을 2025년 논문에서 제안했었다고 언급하며, 기술이 예상보다 훨씬 빠르게 발전했다고 놀라워했다.
Mythos Preview의 시연 대상이 수십 년 된 C/C++ 코드베이스 위주라는 점에서 과장 아니냐는 회의적 시각도 있었다. 브라우저는 샌드박스로 어느 정도 방어가 되어 있고 OS는 원래 취약점 밀도가 높으며, KASLR(주소 공간 배치 무작위화, 공격자가 메모리 주소를 예측하기 어렵게 하는 기법)은 이미 수년 전부터 LPE(로컬 권한 상승) 방어에 사실상 무용지물로 여겨졌다는 지적이다.
LLM이 익스플로잇 분야에서 특히 강한 이유를 분석한 댓글도 있었다. 보안 공격은 '성공/실패'라는 명확한 보상 함수가 있어 최적화하기 쉬운 반면, '좋은 소프트웨어 아키텍처' 같은 것은 보상 함수 자체를 정의하기 어려워 그만큼 발전이 느리다는 관점이다.
AI가 취약점 스캐닝에 막대한 비용을 요구하게 되면 F/OSS(무료·오픈소스 소프트웨어) 생태계에 타격을 줄 수 있다는 우려도 나왔다. 대형 기업은 이런 분석 비용을 감당할 수 있지만 소규모 오픈소스 프로젝트는 그렇지 못하다는 구조적 문제다.
AI 안전성 측면에서 냉소적인 시각도 있었다. 한 댓글은 '개선된 모델이 출시될 때 악의적 행위자가 이를 이용해 사회에 눈에 띄는 피해를 입히는 것이 오히려 AI 안전 논의를 앞당기는 아이러니한 결과가 될 수 있다'고 지적했다.

How to Apply

오픈소스 프로젝트를 유지보수 중이라면, Anthropic의 Project Glasswing 협력 채널을 주시하고 자신의 코드베이스를 대상으로 한 AI 기반 취약점 스캐닝 프로그램에 참여 신청을 검토할 것. Mythos급 모델이 방어 목적으로 쓰이면 사람이 수십 년 걸려 발견할 버그를 빠르게 찾아 패치할 수 있다.
레거시 C/C++ 코드베이스(임베디드 펌웨어, 구형 서버 데몬 등)를 운영 중인 경우, 패치 불가 기기가 있다면 네트워크 격리·접근 제어 강화를 즉시 검토해야 한다. Mythos Preview 수준의 모델은 수십 년 된 버그를 찾아내 체이닝할 수 있으므로 '오래됐으니 괜찮겠지'라는 가정은 더 이상 유효하지 않다.
보안 팀이 있다면, 내부 CTF(Capture The Flag) 환경이나 스테이징 서버에서 AI 에이전트 기반 자동 익스플로잇 스캐너를 도입해 레드팀 업무를 보조하는 파이프라인 구축을 실험해볼 수 있다. Mythos Preview처럼 LLM이 프로그램 상태를 탐색하는 능력이 높아졌으므로 반복적이고 범위 넓은 취약점 탐색에 에이전트를 활용하면 사람 리소스를 아낄 수 있다.
샌드박스(컨테이너, Firecracker VM, WebAssembly 등) 기반 격리를 강화하는 방향으로 인프라를 개선할 것. 댓글에서 지적됐듯 AI는 취약점 체이닝에 특히 강하므로, 단일 취약점으로는 피해를 최소화할 수 있도록 방어 레이어를 여러 겹 두는 '심층 방어(defense in depth)' 설계가 더욱 중요해졌다.

Terminology

zero-day소프트웨어 제조사도, 보안 연구자도 아직 모르는 취약점. 패치가 없으니 방어가 사실상 불가능한 상태.

N-day이미 알려졌지만 아직 패치가 널리 배포되지 않은 취약점. 공개된 순간부터 패치 전까지 공격자가 노릴 수 있는 구간.

ROP chainReturn-Oriented Programming의 약자. 프로그램 안에 이미 존재하는 코드 조각(가젯)들을 이어붙여 공격자가 원하는 코드를 실행시키는 기법.

JIT heap sprayJIT(Just-In-Time) 컴파일러가 동적으로 생성하는 메모리 영역을 공격 코드로 가득 채워 실행 흐름을 탈취하는 브라우저 공격 기법.

KASLRKernel Address Space Layout Randomization의 약자. OS 커널의 메모리 주소를 매번 다르게 배치해 공격자가 주소를 예측하기 어렵게 만드는 방어 기법인데, 실제로는 우회 방법이 많아 신뢰성이 낮다는 평가를 받는다.

sandbox escape브라우저나 VM이 악성 코드를 격리하기 위해 만들어둔 '모래 상자(sandbox)'를 뚫고 호스트 시스템에 영향을 줄 수 있는 영역으로 탈출하는 공격.

Claude Mythos Preview의 사이버보안 역량 평가 — 제로데이 취약점 자동 익스플로잇