Resource-Constrained Visual Agent의 Shared-State Collaboration 실패 모드 진단
Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents
TL;DR Highlight
4B~8B 소형 비전 모델에서 공유 메모리(화이트보드) 기반 멀티에이전트 협업이 오히려 성능을 떨어뜨리는 이유를 분석한 연구.
Who Should Read
멀티모달 QA 파이프라인에서 멀티에이전트 협업 구조를 설계하거나 소형 VLM(비전-언어 모델)을 실무에 도입하려는 ML 엔지니어 및 AI 에이전트 개발자.
Core Mechanics
- 공유 보드(shared board) 기반 협업이 '더 잘 추론할 것'이라는 직관과 달리, 4B~8B 소형 모델에서는 오히려 성능을 떨어뜨리는 'Efficiency Paradox'가 발생함.
- 첫 번째 실패 모드인 'Noise Reinforcement': 모델이 차트를 잘못 읽어 틀린 노트를 보드에 기록하면, 이후 에이전트가 그걸 사실인 근거로 재활용해 오류가 눈덩이처럼 굳어짐.
- 두 번째 실패 모드인 'Policy Collapse': 보드에 쌓인 요약 컨텍스트를 보면 모델이 최종 답변을 지나치게 짧게(0~16 토큰) 생성하는 방향으로 drift되어 VQA 커버리지가 붕괴함.
- 토큰 비용이 늘어날수록 성능이 오히려 하락하는 '음의 Pareto 구간'이 존재함. 즉 compute를 더 써도 품질 제어 없이는 손해.
- 가벼운 검증 게이트(verified-board)—같은 소형 모델이 'SUPPORTED/UNSUPPORTED' 판단—만 추가해도 ChartQAPro에서 naive 보드 사용으로 인한 성능 하락을 대부분 회복함.
- 이 실패 패턴은 Qwen3-VL-4B, Qwen3-VL-8B, Phi-4-multimodal, Gemma-3-4B 등 여러 아키텍처에서 일관되게 관찰되어 특정 모델 문제가 아닌 용량(capacity) 체제의 문제임.
Evidence
- ChartQAPro에서 Qwen3-VL-4B 기준 baseline EM 0.139 → single board EM 0.081 → 두 에이전트 CoSee EM 0.120. 보드 사용이 baseline보다 최대 42% 낮은 EM을 기록.
- SlideVQA에서 CoSee(two qwen, 4B) EM은 0.570으로, baseline 0.680 대비 -11.0pp 하락, 95% CI [-16.5, -6.2], P(△>0)=0.03으로 통계적으로 유의미한 악화.
- Verified-board 도입 시 ChartQAPro raw EM이 0.081(naive board) → 0.131로 회복. 검증 게이트 하나로 degradation의 대부분을 복구.
- Majority voting(temperature=0.7, N=5) 앙상블은 +1.2pp EM 개선을 위해 ~200 토큰/샘플을 소비하는 반면, verified-board는 ~25 토큰만 추가로 동등한 baseline 수준을 달성.
How to Apply
- 소형 VLM(≤8B)으로 차트·문서 QA 파이프라인을 만들 때, 멀티에이전트가 보드에 노트를 쓰기 전에 동일 모델로 'SUPPORTED/UNSUPPORTED/UNCERTAIN' 검증 콜을 1회 추가하면 노이즈 누적을 차단할 수 있음. 검증 프롬프트는 본 논문 Appendix J.2의 Verification Prompt 템플릿을 그대로 사용 가능.
- 오픈엔디드 QA(VQAonline 류)에서 보드 기반 협업을 쓸 경우, Policy Collapse 방지를 위해 최종 답변 생성 프롬프트에 최소 길이/커버리지 제약(예: '최소 6개 bullet 또는 80+ 토큰')을 명시하면 Token-F1이 부분적으로 회복됨.
- 비용 대비 성능을 측정할 때, 단순 토큰 수 외에 시각 인코딩 비용(멀티턴이면 N배 발생)을 함께 집계해야 실제 Pareto 효율을 정확히 파악할 수 있음. 논문의 Cost–Accuracy Pareto frontier 분석 방식을 평가 파이프라인에 적용할 것.
Code Example
# Verified-Board 게이트 예시 (논문 Appendix J.2 기반)
def verify_note(model, image, question, note_content):
prompt = f"""
Task: Verify if the claim is directly supported by the image.
CLAIM: {note_content}
QUESTION: {question}
INSTRUCTION: Look at the image. Is the claim supported by visible evidence?
Output strictly one token: SUPPORTED, UNSUPPORTED, or UNCERTAIN.
"""
response = model.generate(image=image, text=prompt, max_new_tokens=4, temperature=0)
return response.strip()
def write_to_board_verified(board, model, image, question, proposed_note):
"""검증 통과한 노트만 보드에 기록"""
verdict = verify_note(model, image, question, proposed_note)
if verdict == "SUPPORTED":
board.append(proposed_note)
return True, "accepted"
else:
return False, f"rejected ({verdict})"
# 최종 답변 생성 시 Policy Collapse 방지용 길이 제약 추가
final_prompt_template = """
You are a helpful assistant.
BOARD HISTORY: {board_summary}
QUESTION: {question}
INSTRUCTION: Answer the question based on the image and the board history.
If the board contains errors, prioritize the image.
Write a complete answer with sufficient coverage. Use at least 6 bullet points (or 80+ tokens) unless the question is inherently short.
FORMAT: "Final Answer: <answer>"
"""Terminology
관련 논문
ctx – 로컬 머신의 코딩 에이전트 히스토리를 검색하는 CLI 도구
Claude Code, Cursor, Codex 등 코딩 에이전트가 이전 세션의 논의·결정·실패 시도를 잊지 않도록 SQLite로 인덱싱해 재사용할 수 있게 해주는 오픈소스 CLI 도구다.
Micro-Agent: Model API 내부 협업으로 Frontier 모델을 이기는 방법 (vLLM Semantic Router)
vLLM 팀이 단일 모델 API 호출 뒤에서 여러 모델이 협업하는 'Micro-Agent' 개념을 공개했습니다. 별도의 에이전트 코드 없이 라우터 레이어에서 모델 조합을 실행해 GPT-4급 결과를 더 저렴하게 낼 수 있다는 아이디어입니다.
Ornith-1.0: 에이전틱 코딩을 위한 자기 개선형 오픈소스 모델
Gemma 4와 Qwen 3.5를 기반으로 파인튜닝한 코딩 특화 오픈소스 모델로, RL(강화학습)을 통해 스캐폴드(에이전트 실행 구조)까지 함께 최적화하는 방식을 주장하지만, 커뮤니티에서는 벤치마크 과최적화에 불과하다는 의심을 받고 있다.
Tool-Augmented Agent에서의 Entity Binding 실패 분석
AI 에이전트가 올바른 도구를 선택해도 잘못된 대상에 실행하는 'Entity Binding 실패' 문제를 정의하고, 이를 막는 실행 정책을 평가한 논문.
Herdr: 터미널에서 여러 AI Agent를 한 번에 관리하는 Agent Multiplexer
여러 AI 코딩 에이전트(Claude, Codex 등)를 하나의 터미널에서 동시에 실행·관리할 수 있는 Rust 기반 오픈소스 툴로, tmux처럼 세션이 유지되고 SSH로 원격 접속도 가능해 멀티 에이전트 워크플로우를 크게 단순화해준다.
Ornith-1.0: 스스로 Scaffold를 생성하는 Agentic Coding LLM
모델이 문제 풀이 전략(scaffold)을 직접 생성하고 개선하는 자기강화 학습 프레임워크를 적용한 오픈소스 코딩 특화 LLM으로, 9B 소형 모델부터 397B 대형 모델까지 라인업을 갖추고 SWE-Bench 등 주요 벤치마크에서 Claude Opus 4.7을 능가하는 성능을 보여줬다.
Original Abstract (Expand)
Modular visual reasoning systems increasingly rely on shared working memory for multi-step collaboration, yet the failure dynamics of intermediate state evolution in low-capacity regimes remain underexplored. We study failure modes of collaborative reasoning with weak learners (4B--8B models) through the lens of noise accumulation. We introduce CoSee, an auditing framework that formalizes the read-write-verify loop to trace information flow in document visual question answering. Across multi-page, chart, and web-based benchmarks, we find a counter-intuitive degradation: naive shared workspaces often amplify hallucinations rather than resolve them. We identify two dominant failure modes: Noise Reinforcement, where ungrounded notes are reused as evidence, and Policy Collapse, where added context shifts the model toward under-specified, short-form answers. Using cost-accuracy Pareto frontiers, we show that increased compute can correlate negatively with performance without explicit verification. Our findings suggest that for resource-constrained agents, the bottleneck lies not in reasoning depth but in communication fidelity, providing trace-level diagnostics and a mechanistic baseline for reliable modular design.