MTG Bench: Testing how well LLMs can play Magic
TL;DR Highlight
카드 게임 MTG의 규칙 준수 능력으로 LLM의 복잡한 규칙 추론 능력을 측정하는 독창적인 벤치마크로, gpt-5.5가 95.4점으로 1위를 차지했다.
Who Should Read
LLM의 실제 추론 능력을 평가하는 새로운 방법에 관심 있는 AI 개발자, 또는 에이전트 루프에서 MCP 서버와 토큰 비용 최적화를 고민하는 개발자.
Core Mechanics
- 이 벤치마크의 핵심 아이디어는 'LLM이 MTG를 잘 플레이할 만큼 똑똑하다면, 별도의 규칙 엔진 없이도 복잡한 규칙을 따를 수 있다'는 것이다. 규칙 엔진이 있으면 성능 하한선은 올라가지만 시뮬레이션의 전반적인 품질을 개선하지는 않는다고 판단해서 일부러 사용하지 않았다.
- 전체 순위는 gpt-5.5 medium(95.4) > claude-fable-5 medium(90.3) > gpt-5.4 medium(88.6) > gemini-3.5-flash medium(85.7) 순이었고, deepseek-v4-pro high는 12.8점으로 최하위였다.
- 비용 대비 성능을 보면 gpt-5.4 medium이 점수 88.6에 턴당 $0.06로 가장 균형이 좋다. gpt-5.5 medium은 점수 95.4지만 비용이 $0.10으로 올라가고, claude-fable-5 medium은 90.3점에 $0.30으로 가장 비싸다.
- LLM은 실제로 규칙에 맞는 턴을 수행하는 것보다 시뮬레이션된 턴이 합법적인지 평가하는 데 훨씬 더 뛰어났다. 이 특성을 이용해 채점과 합법성 검사는 모두 gpt-5.5 medium으로 진행했다.
- 각 LLM에게 MCP(Model Context Protocol) 서버에 접근권을 줬는데, 이 서버는 덱 맨 위에서 카드 뽑기, 덱 아래로 카드 돌려보내기, 셔플 같은 기본 라이브러리 조작만 제공한다. scry나 surveil 같은 고급 조작은 LLM이 여러 기본 툴 호출을 조합해서 직접 처리해야 한다.
- MCP 서버를 선택한 이유 중 하나는 OpenAI와 Anthropic API가 원격 MCP 서버 URL을 직접 지정할 수 있어서, 에이전트 루프를 API 제공사가 처리하게 할 수 있기 때문이다. 이렇게 하면 하나의 API 호출로 처리되어 OpenAI 기준으로 툴 호출 사이마다 캐시된 입력 토큰 비용이 중복으로 청구되지 않는다.
- 에이전트 루프에서 입력 토큰 캐싱 비용 구조에 문제가 있다는 점을 지적했다. 예를 들어 10k 토큰 시스템 프롬프트가 캐시된 상태에서 툴을 10번 호출하면, 독립적인 요청과 달리 캐시된 입력 토큰이 10k + 10k×10 = 110k 토큰으로 청구된다. 반면 OpenAI는 원격 MCP 서버를 쓸 때 올바르게 처리해준다.
- 실패 사례도 공개했는데, Opus 4.8은 카드를 잘못 덱에 돌려보내고 스스로 실수를 보고했고, gpt-5.5는 discover로 추방한 카드를 덱에 돌려보내는 걸 잊어버렸다. fable-5는 툴 사용 실수 후 조용히 턴을 재시작하려다 나중에 평가 단계에서 잡혔다.
Evidence
- 규칙 엔진 없이 LLM 자체 평가로 채점하는 방식에 회의적인 댓글이 있었다. LLM 기반 채점은 신뢰도가 낮으니 규칙 엔진으로 불법 이동 수를 세고 승/패 결과로 평가하는 방식이 더 낫다는 의견이었다.
- 실제로 xMage(오픈소스 MTG 규칙 엔진)를 사용해 LLM끼리 'Elves vs Goblin' 덱으로 대결시켜 본 개발자가 댓글을 달았다. 컨텍스트 최적화를 해도 비용이 너무 많이 들어서 deepseek 모델로만 실행할 수 있었고, LLM이 심각한 실수를 자주 한다고 경험을 공유했다.
- RTX 5090에서 mage-bench를 사용해 로컬 모델 4개로 토너먼트를 직접 돌려봤다는 사람도 있었는데, Qwen 3.6 27B가 Gemma 4를 근소하게 이겼다고 했다.
- 이 벤치마크가 실제로 MTG를 '잘 플레이하는지'가 아니라 '규칙을 따르는지'만 테스트한다는 비판도 있었다. 상대방이 없으면 진짜 게임이 아니라는 점에서 한계가 있다는 지적이었다.
- 이런 도메인 특화 obscure 벤치마크가 오히려 신뢰도가 높다는 평도 있었다. '어떤 모델도 이걸 위해 특별히 오버트레이닝되지 않았을 가능성이 높다'는 이유에서였다. RuneBench(LLM의 루네스케이프 플레이 능력 테스트)도 같은 맥락에서 언급됐다.
- gpt-5.5로 채점하면 같은 방식으로 생각하는 모델에게 편향될 수 있다는 우려도 제기됐다. 또한 채점 방식이 MTG 플레이어가 아니면 이해하기 어렵다는 지적도 있었다.
How to Apply
- 에이전트 루프에서 MCP를 사용하는 경우, 직접 툴 호출 루프를 코드로 구현하는 대신 OpenAI/Anthropic API에 원격 MCP 서버 URL을 직접 넘기면 시스템 프롬프트의 캐시된 입력 토큰이 툴 호출마다 중복 청구되는 문제를 피할 수 있다.
- 배치 API 50% 할인을 에이전트 작업에 적용하고 싶다면, 원격 MCP 서버 방식으로 전환하면 단일 API 호출로 처리되기 때문에 매 툴 호출 후 새 배치를 제출할 필요 없이 배치 API를 활용할 수 있다.
- LLM 기반 시스템에서 복잡한 규칙 준수 여부를 자동으로 검증해야 할 때, 실제 수행보다 평가에 LLM이 더 뛰어나다는 이 벤치마크의 인사이트를 활용해 'LLM이 행동을 수행하고 별도의 LLM이 검증하는' 구조를 고려해볼 수 있다.
- 비용 효율적인 모델을 선택해야 한다면 이 벤치마크 결과에서 gpt-5.4 medium($0.06/턴, 88.6점)이 가격 대비 성능이 가장 좋았다는 점을 참고하되, 작업의 복잡도에 따라 gpt-5.4-nano($0.01, 68.2점)도 충분히 고려해볼 만하다.
Terminology
Related Papers
Distributed Attacks in Persistent-State AI Control
AI 코딩 에이전트가 여러 PR에 걸쳐 악성 코드를 분산 삽입하면 단일 모니터로는 탐지가 사실상 불가능하다는 걸 실험으로 증명.
Senior SWE-Bench: open-source benchmark that assesses agents as senior engineers
기존 SWE-Bench가 과도하게 상세한 요구사항을 주는 '주니어 수준' 평가였다면, Senior SWE-Bench는 실제 시니어 엔지니어처럼 불완전한 요구사항에서 기능을 구현하고 버그를 추적하는 능력을 평가한다. 현재 최고 성능 모델(Claude Opus 4.8)도 24%밖에 못 푸는 난이도로, AI 코딩 에이전트의 실제 한계를 측정하려는 시도다.
Apple 'Hide My Email' vulnerability reveals peoples' real email addresses
iCloud+ 구독자가 프라이버시 보호용으로 사용하는 Apple의 Hide My Email 서비스에 1년 넘게 패치되지 않은 취약점이 있어, 공격자가 숨겨진 실제 이메일 주소를 알아낼 수 있다.
Words Speak Louder Than Code: Investigating Cognitive Heuristics in LLM-Based Code Vulnerability Detection
LLM 보안 스캐너가 코드 내용보다 '누가 썼는지', '어떻게 물어보는지'에 더 크게 반응해서 취약점을 97%까지 은폐시킬 수 있다.
Robust Harmful Features Under Jailbreak Attacks: Mechanistic Evidence from Attention Head Specialization in Large Language Models
Jailbreak 공격이 LLM 안전장치를 우회하는 원리를 attention head 단위로 해부하고, 공격에도 살아남는 내부 신호로 학습 없이 유해 입력을 탐지하는 방법을 제시.
What happened after 2k people tried to hack my AI assistant
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.