Show HN: We post-trained a model that pen tests instead of refusing

TL;DR Highlight

Kimi K2.6 모델을 post-training해서 보안 거부 응답 없이 실제 취약점 스캔과 펜 테스트를 수행하는 CLI 도구 ArgusRed를 공개했다. 오픈 모델을 조금만 조정하면 AI 기반 해킹 도구를 누구나 만들 수 있다는 점에서 보안 커뮤니티에 논란이 되고 있다.

Who Should Read

코드베이스의 보안 취약점을 직접 스캔하고 싶은 개발자나 보안 엔지니어, 또는 AI 모델의 안전 장치 우회 가능성에 관심 있는 ML 엔지니어.

Core Mechanics

ArgusRed는 Security Scan(읽기 전용 정적 분석)과 Pen Test(실제 익스플로잇 시도) 두 가지 모드를 하나의 CLI로 제공한다. Security Scan은 누구나 자유롭게 쓸 수 있고, Pen Test는 허가된 시스템에 대해서만 활성화되는 게이트 방식이다.
모델은 Kimi K2.6을 기반으로 post-training(파인튜닝 이후 추가 학습)을 거쳐 만들어졌다. 기존 모델은 보안 공격 관련 요청을 거부하는데, 이 모델은 그 거부 동작을 제거하고 펜 테스트에 특화되도록 재훈련됐다.
읽기 전용 강제는 모델 레벨이 아니라 Go 하네스(harness) 레벨에서 시행된다. 모델이 파일 쓰기나 명령 실행 같은 변경 도구를 호출해도 실행 전에 인터셉트해서 결정론적으로 차단하기 때문에 코드는 절대 수정되지 않는다.
Exploit Verification 기능을 켜면 보고된 취약점이 실제로 재현 가능한지 검증한다. Docker 모드는 임시 격리 컨테이너 안에서 재현을 시도하고, Live FS 모드는 실제 체크아웃 환경에서 시도한다. 기본값은 비활성화(보고만 하고 재현 안 함)다.
스캔 속도는 ~30k LOC짜리 Bank of Anthos 프로젝트 6모듈 기준 약 10분, ~1.5M LOC짜리 Symfony 전체 스캔은 약 40분 걸렸다. 모듈들이 병렬 스웜(swarm)으로 돌기 때문에 코드 크기 대비 시간이 선형이 아니라 서브리니어(sub-linear)로 증가한다.
출력 결과는 `.argusred/scan-<날짜>.md` 마크다운 파일 하나로 저장된다. 각 발견 항목마다 위치, 심각도, 원인, 수정 방향이 포함되며 코드에서 근거를 찾을 수 없는 '감(vibes) 기반' 취약점은 보고하지 않는다.
설치는 무료이고 첫 실행 시 Cosine 계정이 생성되면서 2M 토큰이 지급된다. 이후 스캔은 Cosine의 코딩 에이전트와 동일한 로그인으로 유료 사용량 기반으로 과금된다.
샘플 리포트(Bank of Anthos)에서는 모든 원장 서비스에서 발급자/대상 클레임 없이 단일 RSA 공개키로 JWT를 검증하는 문제, 레포에 하드코딩된 RSA 개인키, 프론트엔드 JWT 서명 검증 비활성화, 금융 트랜잭션 정수 오버플로우, OAuth 흐름의 SSRF 등 CRITICAL 등급 취약점들이 발견됐다.

Evidence

Kimi K2.6이 매우 capable한 모델인데 이것을 비교적 쉽게 post-training해서 펜 테스트 도구를 만들 수 있다는 사실 자체가 핵심이라는 의견이 있었다. 오픈 모델이 존재하는 한 AI 기반 해킹 도구는 누가 막으려 해도 결국 모든 사람이 쓸 수 있게 된다는 점에서 Fable 등 AI 안전 장치 기업들의 방어는 일시적이라는 주장이다.
굳이 post-training을 할 필요도 없다는 반론도 있었다. Qwen 변형 같은 'abliterated(안전 장치를 제거한)' 또는 'uncensored' 오픈 웨이트 모델은 이미 이런 요청에 기꺼이 응한다는 지적이다.
마케팅 페이지에서 Kimi K2.6을 전혀 언급하지 않은 것에 대한 비판이 있었다. Kimi 라이선스가 원 모델 언급을 요구할 수 있는데 이를 무시한 것이 비전문적이라는 지적이며, Cursor가 비슷한 문제를 겪었다는 사례도 언급됐다. 또한 '모델 랩이 만들었다'는 마케팅 문구에 대해 파인튜닝 하나로 모델 랩이라 부르는 것은 과장이라는 비판도 있었다.
Shannon on AWS Bedrock을 VPC 내 에어갭 환경에서 돌리는 것과 비교해 이 도구의 차별점이 무엇인지 묻는 댓글이 있었다. Claude Code 토큰으로 사실상 무료로 쓸 수 있고 서브프로세서도 없다는 점에서 엔터프라이즈 입장에선 기존 솔루션이 더 매력적일 수 있다는 뉘앙스였다.
공격적 도구를 공개 배포하는 것이 안전한지에 대한 근본적 질문도 있었다. 레포 스캔 도구가 아니라 공격 도구를 만든 이유가 무엇인지, 이를 안전하게 공개 배포할 방법이 있는지 모르겠다는 의견이었다.

How to Apply

로컬 레포의 보안 취약점을 빠르게 확인하고 싶다면 `brew install CosineAI/argusred/argusred && argusred`로 설치 후 레포 디렉토리에서 실행하면 된다. 첫 실행 시 무료 2M 토큰이 지급되므로 30k LOC 규모 프로젝트라면 추가 비용 없이 10분 안에 CRITICAL 수준 취약점 리포트를 받을 수 있다.
발견된 취약점이 실제로 익스플로잇 가능한지 확인하고 싶다면 Exploit Verification을 Docker 모드로 켜면 된다. 격리된 컨테이너 안에서 재현을 시도하므로 호스트 환경을 건드리지 않으면서 '이론적 취약점'과 '실제 재현 가능한 취약점'을 분리할 수 있다.
CI/CD 파이프라인에 보안 스캔을 넣고 싶다면 출력이 `.argusred/scan-<날짜>.md` 단일 마크다운 파일로 로컬에 저장되므로 이 파일을 아티팩트로 업로드하거나 파싱해서 CRITICAL/HIGH 항목이 있으면 빌드를 실패시키는 스크립트를 붙일 수 있다.
오픈 모델을 기반으로 비슷한 도메인 특화 에이전트를 만들고 싶다면 이 사례처럼 Kimi K2.6 같은 오픈 웨이트 모델을 post-training하되, 안전 장치 우회에 따른 라이선스 및 법적 리스크를 먼저 검토해야 한다. 실제로 커뮤니티에서 원 모델(Kimi) 미표기 문제가 지적됐으므로 라이선스 컴플라이언스를 꼼꼼히 확인할 필요가 있다.

Code Example

snippet

# macOS / Linux 설치 및 실행
brew install CosineAI/argusred/argusred && argusred

# 또는 curl 설치
curl -fsSL https://raw.githubusercontent.com/CosineAI/argusred-dist/main/install.sh | sh

# 레포 디렉토리에서 스캔 실행
cd path/to/your/repo
argusred

# 결과 파일 위치
# .argusred/scan-<날짜>.md

Terminology

post-training사전 학습된 모델을 특정 목적에 맞게 추가로 재훈련하는 과정. 여기서는 보안 요청을 거부하는 동작을 제거하고 펜 테스트에 맞게 조정한 것을 의미한다.

abliterated model오픈 소스 LLM에서 안전 거부 동작을 제거(절제)한 모델. 원래 모델이 거부하는 요청도 그냥 응답한다.

Go harness모델의 도구 호출을 중간에 가로채는 Go 언어로 작성된 래퍼 레이어. 모델이 위험한 명령을 내려도 실행 전에 차단할 수 있다.

SSRFServer-Side Request Forgery의 약자. 서버가 공격자가 지정한 내부 네트워크 주소로 요청을 보내도록 유도하는 취약점이다.

Exploit Verification발견된 취약점이 실제로 재현 가능한지 자동으로 검증하는 기능. 단순 보고에서 끝나지 않고 '진짜 뚫리는지' 확인해준다.

swarm여러 에이전트(모듈)가 병렬로 동시에 작업하는 방식. 하나씩 순차 처리하는 것보다 전체 시간이 훨씬 빠르다.