Claude Mythos Preview의 사이버보안 역량 평가 — 제로데이 취약점 자동 익스플로잇
Assessing Claude Mythos Preview's cybersecurity capabilities
TL;DR Highlight
Claude Mythos Preview가 주요 OS·브라우저의 제로데이 취약점을 자율적으로 찾아 익스플로잇까지 제작하며 이전 모델 대비 폭발적인 성능 향상을 달성함.
Who Should Read
보안 연구자, 취약점 분석 및 침투 테스트 업무를 하는 개발자, 그리고 AI 모델이 사이버 공격에 미치는 영향을 파악하고 방어 전략을 세우려는 보안 아키텍트.
Core Mechanics
- Claude Mythos Preview는 주요 운영체제(Linux, FreeBSD, OpenBSD 등)와 주요 웹 브라우저 전반에서 제로데이(아직 발견되지 않은) 취약점을 찾아내고 익스플로잇(실제 공격 코드)까지 자율적으로 작성하는 능력을 보여줬다.
- 발견된 취약점 중 상당수는 수십 년 된 것들이다. 보안으로 유명한 OpenBSD에서는 27년 된 버그까지 찾아냈으며, 10~20년 된 취약점도 다수 발견했다.
- 익스플로잇의 복잡도가 단순 스택 오버플로우 수준이 아니다. 브라우저에서는 4개의 취약점을 체이닝해 렌더러와 OS 샌드박스를 모두 탈출하는 복잡한 JIT 힙 스프레이(메모리 취약점 공격 기법) 익스플로잇을 작성했다.
- FreeBSD의 NFS 서버에서는 20개의 가젯(ROP chain)을 여러 패킷에 분산시켜 인증 없이 원격으로 root 권한을 얻는 RCE(원격 코드 실행) 익스플로잇을 자율적으로 완성했다.
- 이전 모델 Opus 4.6과의 성능 차이가 극적이다. Opus 4.6이 Firefox 147 JS 엔진 취약점을 수백 번 시도해 단 2번 익스플로잇에 성공한 반면, Mythos Preview는 같은 조건에서 181번 성공하고 29번 추가로 레지스터 제어권을 획득했다.
- 보안 전문 교육을 받지 않은 Anthropic 내부 엔지니어도 Mythos Preview에게 RCE 취약점을 찾아달라고 요청만 하면, 다음 날 아침 완성된 익스플로잇을 받을 수 있는 수준이다.
- 발견된 취약점의 99% 이상이 아직 패치되지 않아 구체적인 내용을 공개할 수 없는 상태이며, Anthropic은 공개 가능한 1%만으로도 이미 역대급 도약임을 보여줄 수 있다고 밝혔다.
- Anthropic은 이에 대응해 Project Glasswing을 출범시켰는데, 이는 Mythos Preview를 활용해 세계 핵심 소프트웨어를 방어적으로 보호하고, 업계 전반이 공격자보다 앞서나갈 수 있도록 준비시키려는 협력 프로젝트다.
Evidence
- 업그레이드가 어려운 임베디드 기기 수억 대가 취약한 바이너리를 반영구적으로 실행하는 상황에 대한 우려가 제기됐다. 한 댓글 작성자는 이 문제의 해결책으로 프론티어 모델이 오래된 바이너리에 원격으로 '유익한 공격'을 주입해 면역시키는 '항체 봇넷(antibotty network)' 개념을 2025년 논문에서 제안했었다고 언급하며, 기술이 예상보다 훨씬 빠르게 발전했다고 놀라워했다.
- Mythos Preview의 시연 대상이 수십 년 된 C/C++ 코드베이스 위주라는 점에서 과장 아니냐는 회의적 시각도 있었다. 브라우저는 샌드박스로 어느 정도 방어가 되어 있고 OS는 원래 취약점 밀도가 높으며, KASLR(주소 공간 배치 무작위화, 공격자가 메모리 주소를 예측하기 어렵게 하는 기법)은 이미 수년 전부터 LPE(로컬 권한 상승) 방어에 사실상 무용지물로 여겨졌다는 지적이다.
- LLM이 익스플로잇 분야에서 특히 강한 이유를 분석한 댓글도 있었다. 보안 공격은 '성공/실패'라는 명확한 보상 함수가 있어 최적화하기 쉬운 반면, '좋은 소프트웨어 아키텍처' 같은 것은 보상 함수 자체를 정의하기 어려워 그만큼 발전이 느리다는 관점이다.
- AI가 취약점 스캐닝에 막대한 비용을 요구하게 되면 F/OSS(무료·오픈소스 소프트웨어) 생태계에 타격을 줄 수 있다는 우려도 나왔다. 대형 기업은 이런 분석 비용을 감당할 수 있지만 소규모 오픈소스 프로젝트는 그렇지 못하다는 구조적 문제다.
- AI 안전성 측면에서 냉소적인 시각도 있었다. 한 댓글은 '개선된 모델이 출시될 때 악의적 행위자가 이를 이용해 사회에 눈에 띄는 피해를 입히는 것이 오히려 AI 안전 논의를 앞당기는 아이러니한 결과가 될 수 있다'고 지적했다.
How to Apply
- 오픈소스 프로젝트를 유지보수 중이라면, Anthropic의 Project Glasswing 협력 채널을 주시하고 자신의 코드베이스를 대상으로 한 AI 기반 취약점 스캐닝 프로그램에 참여 신청을 검토할 것. Mythos급 모델이 방어 목적으로 쓰이면 사람이 수십 년 걸려 발견할 버그를 빠르게 찾아 패치할 수 있다.
- 레거시 C/C++ 코드베이스(임베디드 펌웨어, 구형 서버 데몬 등)를 운영 중인 경우, 패치 불가 기기가 있다면 네트워크 격리·접근 제어 강화를 즉시 검토해야 한다. Mythos Preview 수준의 모델은 수십 년 된 버그를 찾아내 체이닝할 수 있으므로 '오래됐으니 괜찮겠지'라는 가정은 더 이상 유효하지 않다.
- 보안 팀이 있다면, 내부 CTF(Capture The Flag) 환경이나 스테이징 서버에서 AI 에이전트 기반 자동 익스플로잇 스캐너를 도입해 레드팀 업무를 보조하는 파이프라인 구축을 실험해볼 수 있다. Mythos Preview처럼 LLM이 프로그램 상태를 탐색하는 능력이 높아졌으므로 반복적이고 범위 넓은 취약점 탐색에 에이전트를 활용하면 사람 리소스를 아낄 수 있다.
- 샌드박스(컨테이너, Firecracker VM, WebAssembly 등) 기반 격리를 강화하는 방향으로 인프라를 개선할 것. 댓글에서 지적됐듯 AI는 취약점 체이닝에 특히 강하므로, 단일 취약점으로는 피해를 최소화할 수 있도록 방어 레이어를 여러 겹 두는 '심층 방어(defense in depth)' 설계가 더욱 중요해졌다.
Terminology
관련 논문
Persistent-State AI Control에서의 분산 공격
AI 코딩 에이전트가 여러 PR에 걸쳐 악성 코드를 분산 삽입하면 단일 모니터로는 탐지가 사실상 불가능하다는 걸 실험으로 증명.
Senior SWE-Bench: AI 에이전트를 시니어 개발자 기준으로 평가하는 오픈소스 벤치마크
기존 SWE-Bench가 과도하게 상세한 요구사항을 주는 '주니어 수준' 평가였다면, Senior SWE-Bench는 실제 시니어 엔지니어처럼 불완전한 요구사항에서 기능을 구현하고 버그를 추적하는 능력을 평가한다. 현재 최고 성능 모델(Claude Opus 4.8)도 24%밖에 못 푸는 난이도로, AI 코딩 에이전트의 실제 한계를 측정하려는 시도다.
Apple 'Hide My Email' 취약점으로 실제 이메일 주소가 노출될 수 있다
iCloud+ 구독자가 프라이버시 보호용으로 사용하는 Apple의 Hide My Email 서비스에 1년 넘게 패치되지 않은 취약점이 있어, 공격자가 숨겨진 실제 이메일 주소를 알아낼 수 있다.
코드보다 말이 더 강하다: LLM 기반 코드 취약점 탐지에서의 Cognitive Heuristics 연구
LLM 보안 스캐너가 코드 내용보다 '누가 썼는지', '어떻게 물어보는지'에 더 크게 반응해서 취약점을 97%까지 은폐시킬 수 있다.
Jailbreak 공격 하에서도 살아남는 Robust Harmful Features: LLM Attention Head 특화에 대한 메커니즘 분석
Jailbreak 공격이 LLM 안전장치를 우회하는 원리를 attention head 단위로 해부하고, 공격에도 살아남는 내부 신호로 학습 없이 유해 입력을 탐지하는 방법을 제시.
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.