Collaborative Human-Agent Protocol (CHAP)
TL;DR Highlight
AI 에이전트와 사람이 함께 일할 때 '누가, 무엇을, 왜 결정했는지'를 표준화된 방식으로 기록하고 감사할 수 있게 해주는 오픈 프로토콜.
Who Should Read
AI 에이전트를 프로덕션에 배포하면서 human-in-the-loop 워크플로우, 감사 로그, 또는 규제 컴플라이언스를 고민하는 백엔드/플랫폼 개발자. 특히 의료, 금융, 법률, 고객지원 도메인에서 멀티에이전트 시스템을 설계하는 개발자에게 적합.
Core Mechanics
- MCP(에이전트↔툴)와 A2A(에이전트↔에이전트) 프로토콜이 이미 있지만, '인간+에이전트가 함께 작업하는 공유 워크스페이스'를 정의하는 레이어가 빠져 있음 — CHAP이 그 갭을 채움.
- 핵심 6개 프리미티브: Workspace(협업 공간), Participant(참여자), Coordinator(중재 서비스), Task(작업 단위), Artefact(산출물), Evidence Entry(변경 불가 감사 기록)로 구성됨.
- human override(사람이 AI 초안을 수정하는 행위)를 단순 텍스트가 아닌 structured diff + 이유 + 태그로 기록 — 이걸로 나중에 '어디서 AI가 틀렸는지' 분석 가능.
- shadow → trial → production 모드 프로모션 사다리를 지원해서, 새 에이전트 버전을 실제 배포 전에 안전하게 검증할 수 있음.
- intent_preserved 플래그로 '사람이 AI 표현을 다듬은 것'(true)과 '완전히 다른 결정으로 교체한 것'(false)을 구분 — 고쳐야 할 문제의 종류가 달라짐.
- Core + 선택적 Profile 구조로 설계되어, 소규모 팀은 Core만으로 시작하고 규제 환경에서는 Identity, Signing, SCITT 감사 프로필을 점진적으로 추가할 수 있음.
Evidence
- v0.2 기준 59개 메서드 카탈로그 정의, 현재 레퍼런스 구현은 Core + Review + Modes + Routing + Control 프로필 dispatch 지원.
- 실제 사용 사례 12개를 상세 코드와 함께 제시 — 1인 개발자부터 GMP 규제 바이오파마 제조까지 커버.
- 두 번째 독립 구현체가 아직 없어 Full 컨포먼스 레벨 클레임 불가(v0.2 현재 한계로 명시), Minimal/Recommended 두 레벨만 선언 가능.
- override 분석 예시: 2개월 누적 결과에서 31개 false-positive 오버라이드 중 22개가 동일 프레임워크 패턴에서 발생 — 프롬프트 수정으로 연결됨을 데모.
How to Apply
- AI 코드리뷰 봇을 운영 중이라면, 개발자가 리뷰를 dismiss할 때 decide.reject 메서드로 reason_category와 rationale을 기록하도록 연동하면 분기별 '어떤 유형의 AI 플래그를 몇 번 무시했는지' 리포트를 자동 생성할 수 있음.
- 고객 지원 에이전트에서 shift handoff가 슬랙 메시지로 이루어지고 있다면, handoff.propose 메서드로 담당 태스크 목록 + 인수인계 노트를 workspace evidence chain에 기록하면 다음 교대자가 단일 쿼리로 현황 파악 가능.
- 규제 감사(FCA, GMP, DSA 등)가 필요한 환경에서는 audit-scitt/1.0 프로필을 추가해 외부 transparency log에 증거를 앵커링하면, 감사관이 내부 시스템을 신뢰하지 않아도 체인 무결성을 독립적으로 검증할 수 있음.
Code Example
// 로컬 CHAP Coordinator 부트스트랩 (Node.js)
import { Coordinator } from "@chap/coordinator";
const coord = new Coordinator({ storage: "sqlite:./chap.db" });
// 워크스페이스 생성
await coord.dispatch({
jsonrpc: "2.0", id: "init",
method: "workspace.create",
params: {
workspace_id: "wsp_my_reviews",
profiles: ["core/1.0", "review/1.0"]
}
});
// 사람이 AI 초안을 수정했을 때 override 기록
await coord.dispatch({
jsonrpc: "2.0", id: "ov1",
method: "decide.override",
params: {
task_id: "tsk_pr_482",
from: "human:me@local",
logical_id: "lgl_pr_482_review",
intent_preserved: true, // true: 표현 다듬음, false: 다른 결정으로 교체
diff: [
{ "op": "replace", "path": "/comments/0/severity",
"from": "warning", "to": "info" }
],
rationale: "False positive: framework signature pattern",
tags: ["false-positive", "framework-pattern-misread"]
}
});
// 감사 로그 조회
const audit = await coord.dispatch({
jsonrpc: "2.0", id: "a1",
method: "audit.read",
params: {
workspace_id: "wsp_my_reviews",
filter: { task_id: "tsk_pr_482" }
}
});
for (const entry of audit.result.entries) {
console.log(`[${entry.envelope.ts}] ${entry.envelope.method}`);
}Terminology
Related Papers
Show HN: ctx – Search the coding agent history already on your machine
Claude Code, Cursor, Codex 등 코딩 에이전트가 이전 세션의 논의·결정·실패 시도를 잊지 않도록 SQLite로 인덱싱해 재사용할 수 있게 해주는 오픈소스 CLI 도구다.
Micro-Agent: Beat Frontier Models with Collaboration Inside Model API
vLLM 팀이 단일 모델 API 호출 뒤에서 여러 모델이 협업하는 'Micro-Agent' 개념을 공개했습니다. 별도의 에이전트 코드 없이 라우터 레이어에서 모델 조합을 실행해 GPT-4급 결과를 더 저렴하게 낼 수 있다는 아이디어입니다.
Ornith-1.0: self-improving open-source models for agentic coding
Gemma 4와 Qwen 3.5를 기반으로 파인튜닝한 코딩 특화 오픈소스 모델로, RL(강화학습)을 통해 스캐폴드(에이전트 실행 구조)까지 함께 최적화하는 방식을 주장하지만, 커뮤니티에서는 벤치마크 과최적화에 불과하다는 의심을 받고 있다.
Entity Binding Failures in Tool-Augmented Agents
AI 에이전트가 올바른 도구를 선택해도 잘못된 대상에 실행하는 'Entity Binding 실패' 문제를 정의하고, 이를 막는 실행 정책을 평가한 논문.
Herdr: Agent multiplexer that lives in your terminal
여러 AI 코딩 에이전트(Claude, Codex 등)를 하나의 터미널에서 동시에 실행·관리할 수 있는 Rust 기반 오픈소스 툴로, tmux처럼 세션이 유지되고 SSH로 원격 접속도 가능해 멀티 에이전트 워크플로우를 크게 단순화해준다.
Ornith-1.0: Self-scaffolding LLMs for agentic coding
모델이 문제 풀이 전략(scaffold)을 직접 생성하고 개선하는 자기강화 학습 프레임워크를 적용한 오픈소스 코딩 특화 LLM으로, 9B 소형 모델부터 397B 대형 모델까지 라인업을 갖추고 SWE-Bench 등 주요 벤치마크에서 Claude Opus 4.7을 능가하는 성능을 보여줬다.
Related Resources
Original Abstract (Expand)
Foundation models are moving from response generation into operational roles. They plan across steps, call tools, request human input, coordinate with other agents, and increasingly carry responsibility for work that affects customers, claims, code, contracts, and clinical decisions. Production deployments are no longer one human supervising one model. They are multi-human, multi-agent collaborations that cross teams, time zones, and trust boundaries. The technical surface for this collaboration remains weakly specified. When an agent drafts a response and a human edits it before it ships, the moment of human judgement is the most valuable signal in the system. In current practice it is recorded, if at all, in application code, chat threads, ticket comments, and tribal memory. Two protocol standards address adjacent concerns: MCP standardises agent access to tools and data, and A2A standardises agent-to-agent interoperability. Neither defines the shared workspace in which humans and agents perform accountable work together. This paper presents CHAP, the Collaborative Human-Agent Protocol. Under CHAP, the override that used to vanish into a chat thread becomes a structured event carrying a diff, a rationale, and a content hash. The handoff between shifts becomes a portable envelope rather than a pinned message. The human approval of an agent's draft becomes a non-repudiable signed decision that can be replayed years later. The protocol achieves this through a small Core (workspaces, participants, tasks, artefacts, and an append-only evidence log) together with composable profiles that add review, modes, routing, deliberation, handoff, identity, signatures, and transparency-backed audit as deployments require them. Specification, reference implementation, conformance suite, and worked examples are available at: https://github.com/BrightbeamAI/chap