Show HN: We post-trained a model that pen tests instead of refusing
TL;DR Highlight
Kimi K2.6 모델을 post-training해서 보안 거부 응답 없이 실제 취약점 스캔과 펜 테스트를 수행하는 CLI 도구 ArgusRed를 공개했다. 오픈 모델을 조금만 조정하면 AI 기반 해킹 도구를 누구나 만들 수 있다는 점에서 보안 커뮤니티에 논란이 되고 있다.
Who Should Read
코드베이스의 보안 취약점을 직접 스캔하고 싶은 개발자나 보안 엔지니어, 또는 AI 모델의 안전 장치 우회 가능성에 관심 있는 ML 엔지니어.
Core Mechanics
- ArgusRed는 Security Scan(읽기 전용 정적 분석)과 Pen Test(실제 익스플로잇 시도) 두 가지 모드를 하나의 CLI로 제공한다. Security Scan은 누구나 자유롭게 쓸 수 있고, Pen Test는 허가된 시스템에 대해서만 활성화되는 게이트 방식이다.
- 모델은 Kimi K2.6을 기반으로 post-training(파인튜닝 이후 추가 학습)을 거쳐 만들어졌다. 기존 모델은 보안 공격 관련 요청을 거부하는데, 이 모델은 그 거부 동작을 제거하고 펜 테스트에 특화되도록 재훈련됐다.
- 읽기 전용 강제는 모델 레벨이 아니라 Go 하네스(harness) 레벨에서 시행된다. 모델이 파일 쓰기나 명령 실행 같은 변경 도구를 호출해도 실행 전에 인터셉트해서 결정론적으로 차단하기 때문에 코드는 절대 수정되지 않는다.
- Exploit Verification 기능을 켜면 보고된 취약점이 실제로 재현 가능한지 검증한다. Docker 모드는 임시 격리 컨테이너 안에서 재현을 시도하고, Live FS 모드는 실제 체크아웃 환경에서 시도한다. 기본값은 비활성화(보고만 하고 재현 안 함)다.
- 스캔 속도는 ~30k LOC짜리 Bank of Anthos 프로젝트 6모듈 기준 약 10분, ~1.5M LOC짜리 Symfony 전체 스캔은 약 40분 걸렸다. 모듈들이 병렬 스웜(swarm)으로 돌기 때문에 코드 크기 대비 시간이 선형이 아니라 서브리니어(sub-linear)로 증가한다.
- 출력 결과는 `.argusred/scan-<날짜>.md` 마크다운 파일 하나로 저장된다. 각 발견 항목마다 위치, 심각도, 원인, 수정 방향이 포함되며 코드에서 근거를 찾을 수 없는 '감(vibes) 기반' 취약점은 보고하지 않는다.
- 설치는 무료이고 첫 실행 시 Cosine 계정이 생성되면서 2M 토큰이 지급된다. 이후 스캔은 Cosine의 코딩 에이전트와 동일한 로그인으로 유료 사용량 기반으로 과금된다.
- 샘플 리포트(Bank of Anthos)에서는 모든 원장 서비스에서 발급자/대상 클레임 없이 단일 RSA 공개키로 JWT를 검증하는 문제, 레포에 하드코딩된 RSA 개인키, 프론트엔드 JWT 서명 검증 비활성화, 금융 트랜잭션 정수 오버플로우, OAuth 흐름의 SSRF 등 CRITICAL 등급 취약점들이 발견됐다.
Evidence
- Kimi K2.6이 매우 capable한 모델인데 이것을 비교적 쉽게 post-training해서 펜 테스트 도구를 만들 수 있다는 사실 자체가 핵심이라는 의견이 있었다. 오픈 모델이 존재하는 한 AI 기반 해킹 도구는 누가 막으려 해도 결국 모든 사람이 쓸 수 있게 된다는 점에서 Fable 등 AI 안전 장치 기업들의 방어는 일시적이라는 주장이다.
- 굳이 post-training을 할 필요도 없다는 반론도 있었다. Qwen 변형 같은 'abliterated(안전 장치를 제거한)' 또는 'uncensored' 오픈 웨이트 모델은 이미 이런 요청에 기꺼이 응한다는 지적이다.
- 마케팅 페이지에서 Kimi K2.6을 전혀 언급하지 않은 것에 대한 비판이 있었다. Kimi 라이선스가 원 모델 언급을 요구할 수 있는데 이를 무시한 것이 비전문적이라는 지적이며, Cursor가 비슷한 문제를 겪었다는 사례도 언급됐다. 또한 '모델 랩이 만들었다'는 마케팅 문구에 대해 파인튜닝 하나로 모델 랩이라 부르는 것은 과장이라는 비판도 있었다.
- Shannon on AWS Bedrock을 VPC 내 에어갭 환경에서 돌리는 것과 비교해 이 도구의 차별점이 무엇인지 묻는 댓글이 있었다. Claude Code 토큰으로 사실상 무료로 쓸 수 있고 서브프로세서도 없다는 점에서 엔터프라이즈 입장에선 기존 솔루션이 더 매력적일 수 있다는 뉘앙스였다.
- 공격적 도구를 공개 배포하는 것이 안전한지에 대한 근본적 질문도 있었다. 레포 스캔 도구가 아니라 공격 도구를 만든 이유가 무엇인지, 이를 안전하게 공개 배포할 방법이 있는지 모르겠다는 의견이었다.
How to Apply
- 로컬 레포의 보안 취약점을 빠르게 확인하고 싶다면 `brew install CosineAI/argusred/argusred && argusred`로 설치 후 레포 디렉토리에서 실행하면 된다. 첫 실행 시 무료 2M 토큰이 지급되므로 30k LOC 규모 프로젝트라면 추가 비용 없이 10분 안에 CRITICAL 수준 취약점 리포트를 받을 수 있다.
- 발견된 취약점이 실제로 익스플로잇 가능한지 확인하고 싶다면 Exploit Verification을 Docker 모드로 켜면 된다. 격리된 컨테이너 안에서 재현을 시도하므로 호스트 환경을 건드리지 않으면서 '이론적 취약점'과 '실제 재현 가능한 취약점'을 분리할 수 있다.
- CI/CD 파이프라인에 보안 스캔을 넣고 싶다면 출력이 `.argusred/scan-<날짜>.md` 단일 마크다운 파일로 로컬에 저장되므로 이 파일을 아티팩트로 업로드하거나 파싱해서 CRITICAL/HIGH 항목이 있으면 빌드를 실패시키는 스크립트를 붙일 수 있다.
- 오픈 모델을 기반으로 비슷한 도메인 특화 에이전트를 만들고 싶다면 이 사례처럼 Kimi K2.6 같은 오픈 웨이트 모델을 post-training하되, 안전 장치 우회에 따른 라이선스 및 법적 리스크를 먼저 검토해야 한다. 실제로 커뮤니티에서 원 모델(Kimi) 미표기 문제가 지적됐으므로 라이선스 컴플라이언스를 꼼꼼히 확인할 필요가 있다.
Code Example
# macOS / Linux 설치 및 실행
brew install CosineAI/argusred/argusred && argusred
# 또는 curl 설치
curl -fsSL https://raw.githubusercontent.com/CosineAI/argusred-dist/main/install.sh | sh
# 레포 디렉토리에서 스캔 실행
cd path/to/your/repo
argusred
# 결과 파일 위치
# .argusred/scan-<날짜>.mdTerminology
Related Papers
Show HN: ctx – Search the coding agent history already on your machine
Claude Code, Cursor, Codex 등 코딩 에이전트가 이전 세션의 논의·결정·실패 시도를 잊지 않도록 SQLite로 인덱싱해 재사용할 수 있게 해주는 오픈소스 CLI 도구다.
Micro-Agent: Beat Frontier Models with Collaboration Inside Model API
vLLM 팀이 단일 모델 API 호출 뒤에서 여러 모델이 협업하는 'Micro-Agent' 개념을 공개했습니다. 별도의 에이전트 코드 없이 라우터 레이어에서 모델 조합을 실행해 GPT-4급 결과를 더 저렴하게 낼 수 있다는 아이디어입니다.
Ornith-1.0: self-improving open-source models for agentic coding
Gemma 4와 Qwen 3.5를 기반으로 파인튜닝한 코딩 특화 오픈소스 모델로, RL(강화학습)을 통해 스캐폴드(에이전트 실행 구조)까지 함께 최적화하는 방식을 주장하지만, 커뮤니티에서는 벤치마크 과최적화에 불과하다는 의심을 받고 있다.
Entity Binding Failures in Tool-Augmented Agents
AI 에이전트가 올바른 도구를 선택해도 잘못된 대상에 실행하는 'Entity Binding 실패' 문제를 정의하고, 이를 막는 실행 정책을 평가한 논문.
Herdr: Agent multiplexer that lives in your terminal
여러 AI 코딩 에이전트(Claude, Codex 등)를 하나의 터미널에서 동시에 실행·관리할 수 있는 Rust 기반 오픈소스 툴로, tmux처럼 세션이 유지되고 SSH로 원격 접속도 가능해 멀티 에이전트 워크플로우를 크게 단순화해준다.
Ornith-1.0: Self-scaffolding LLMs for agentic coding
모델이 문제 풀이 전략(scaffold)을 직접 생성하고 개선하는 자기강화 학습 프레임워크를 적용한 오픈소스 코딩 특화 LLM으로, 9B 소형 모델부터 397B 대형 모델까지 라인업을 갖추고 SWE-Bench 등 주요 벤치마크에서 Claude Opus 4.7을 능가하는 성능을 보여줬다.