MCPThreatHive: Model Context Protocol 생태계를 위한 자동화된 Threat Intelligence 플랫폼
MCPThreatHive: Automated Threat Intelligence for Model Context Protocol Ecosystems
TL;DR Highlight
MCP 기반 Threat Intelligence 플랫폼이 AI 에이전트의 보안 위협을 자동으로 수집·분류·시각화하며 보안 팀의 위협 분석 시간을 대폭 단축한다.
Who Should Read
Claude, GitHub Copilot, Cursor 등 MCP를 통해 외부 도구를 연결한 AI 에이전트를 운영하거나 개발하는 보안 담당자 및 백엔드 개발자. MCP 서버를 배포하거나 아직 보안 체계를 갖추지 못한 AI 제품팀에게도 유용.
Core Mechanics
- MCP(Model Context Protocol)는 LLM이 외부 도구를 자연어 설명 기반으로 선택하기 때문에 기존 보안 프레임워크로는 커버 안 되는 새로운 공격 벡터가 존재함 — tool description poisoning, indirect prompt injection, parasitic tool chain 등.
- 기존 MCP 보안 도구들(MCP-Scan, Ramparts, MCP-Guardian 등)은 개별 도구를 점검할 뿐, 여러 도구가 조합될 때 발생하는 compositional attack(도구 체이닝 공격)을 탐지하지 못함.
- MCPThreatHive는 CVE DB, GitHub Security Advisories, 보안 블로그, ArXiv RSS 등 다중 소스에서 위협 정보를 지속적으로 수집하고 LLM으로 자동 분류하는 4단계 파이프라인을 구현함.
- MCP-38 위협 분류 체계(38개 MCP 특화 위협 패턴)를 STRIDE, OWASP LLM Top 10, OWASP Agentic Top 10 프레임워크에 동시 매핑해서 단일 뷰로 제공함.
- DREAD(위협 위험도 계산 방법론) 기반 복합 위험 점수 공식을 사용하며, agentic 시스템 특화 가중치(semantic 공격 ×1.20, parasitic chaining ×1.15, 낮은 관측성 ×1.10)를 적용함.
- 위협 간 관계를 Neo4j 지식 그래프(knowledge graph)로 저장해 '이 도구에서 시작하면 어떤 공격 경로로 데이터가 유출되나'를 그래프 쿼리로 추적 가능.
Evidence
- GitHub MCP 프롬프트 인젝션 실제 사고(2025년 공개)를 파이프라인에 넣었을 때, 관련성 점수 0.94(임계값 0.70 초과)로 필터 통과 후 MCP-20(Indirect Prompt Injection)·MCP-24(Data Exfiltration) 분류 결과가 전문가 레이블과 일치.
- Direct Prompt Injection(MCP-19)의 복합 위험 점수 계산 예시: R = 0.855, inference-time 멀티플라이어 1.20 적용 시 Rfinal = 10.0(Critical) — 실험적으로 가장 위험한 공격 클래스임이 수치로 확인됨.
- Table 2 비교 기준 6개 핵심 역량(MCP-38 커버리지, 지속 모니터링, 지식 그래프, AI 리스크 플랜, 멀티 프레임워크 매핑, MCP-UPD 체인 분석) 모두 MCPThreatHive만 지원, 나머지 5개 도구는 모두 미지원.
How to Apply
- MCP 서버를 운영 중인데 보안 감사를 주기적으로 못 하고 있다면, MCPThreatHive를 Docker Compose로 띄우고 NVD API·GitHub Security Advisories를 연결해두면 새 CVE가 등록될 때마다 자동으로 MCP-38 분류와 위험 점수가 생성됨.
- 여러 MCP 도구를 체이닝해서 쓰는 워크플로우(예: 웹 검색 → 파일 쓰기 → 이메일 전송)를 개발 중이라면, 지식 그래프의 CHAINS_INTO 엣지를 조회해 'T2T → UPD' 패턴(parasitic tool chain)이 있는지 확인하고 위험한 조합을 사전 차단하는 용도로 활용 가능.
- OWASP나 STRIDE 기반 보안 컴플라이언스 보고서가 필요한 팀이라면, MCPThreatHive의 멀티 프레임워크 매핑 기능으로 동일 위협을 STRIDE 카테고리와 OWASP LLM Top 10·Agentic Top 10에 동시 매핑한 결과를 뽑아 보고서 작성에 바로 쓸 수 있음.
Code Example
# MCPThreatHive 빠른 시작 (Docker Compose)
# 1. 저장소 클론
git clone https://github.com/VulcanLab/MCPThreatHive
cd MCPThreatHive
# 2. 환경 변수 설정 (.env 파일)
LLM_PROVIDER=openai # 또는 anthropic, local
LLM_MODEL=gpt-4o
OPENAI_API_KEY=sk-...
NEO4J_URI=bolt://neo4j:7687
NEO4J_PASSWORD=your_password
# 3. 실행
docker-compose up -d
# 4. 위협 수집 트리거 (REST API)
curl -X POST http://localhost:5000/api/gather \
-H 'Content-Type: application/json' \
-d '{"query": "MCP tool description poisoning", "sources": ["nvd", "github", "rss"]}'
# 5. 위험 점수 조회
curl http://localhost:5000/api/threats?min_score=7.0
# 반환 예시:
# {
# "threats": [
# {"id": "MCP-19", "name": "Direct Prompt Injection",
# "risk_score": 10.0, "level": "Critical",
# "stride": "Tampering", "owasp_llm": "LLM01",
# "owasp_agentic": "ASI01"}
# ]
# }
# 6. 지식 그래프에서 공격 체인 쿼리 (Neo4j Cypher)
# MATCH path = (t:Tool)-[:CHAINS_INTO*]->(u:Threat {type: 'UPD'})
# RETURN path LIMIT 10Terminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.
Related Resources
Original Abstract (Expand)
The rapid proliferation of Model Context Protocol (MCP)-based agentic systems has introduced a new category of security threats that existing frameworks are inadequately equipped to address. We present MCPThreatHive, an open-source platform that automates the end-to-end lifecycle of MCP threat intelligence: from continuous, multi-source data collection through AI-driven threat extraction and classification, to structured knowledge graph storage and interactive visualization. The platform operationalizes the MCP-38 threat taxonomy, a curated set of 38 MCP-specific threat patterns mapped to STRIDE, OWASP Top 10 for LLM Applications, and OWASP Top 10 for Agentic Applications. A composite risk scoring model provides quantitative prioritization. Through a comparative analysis of representative existing MCP security tools, we identify three critical coverage gaps that MCPThreatHive addresses: incomplete compositional attack modeling, absence of continuous threat intelligence, and lack of unified multi-framework classification.