DuMate-DeepResearch: Recursive Search와 Rubric 기반 추론을 갖춘 감사 가능한 Multi-Agent 시스템
DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning
TL;DR Highlight
Baidu가 만든 Deep Research 멀티에이전트 프레임워크로, DAG 기반 동적 플래닝 + 재귀 검색 에이전트 + Rubric 스캐폴딩을 조합해 두 벤치마크에서 SOTA를 달성했다.
Who Should Read
복잡한 리서치 자동화 파이프라인을 설계하는 AI 엔지니어나 에이전트 시스템 아키텍트. 특히 단일 에이전트의 검색 품질과 환각 문제를 해결하려는 개발자.
Core Mechanics
- 단일 에이전트가 고수준 플래닝과 세부 검색을 동시에 하면 실패가 전파되는 문제를 해결하기 위해, Research Agent(외부)와 Search Agent(내부)를 2레벨로 분리하는 재귀 구조를 사용함.
- 연구 로드맵을 DAG(방향성 비순환 그래프)로 표현해서 증거가 쌓일수록 coarse-to-fine 방식으로 확장하고, 실패한 노드는 backtracking + replan으로 처리함.
- Rubric(품질 평가 기준표)을 사후 평가가 아니라 실시간 추론 스캐폴드로 사용 - Persistent Rubric(세션 전체 기준)과 Ephemeral Rubric(매 사이클 갱신 기준)으로 나눠 주입함.
- Ephemeral Rubric이 '더 이상 검색할 정보 격차 없음'을 보고하면 자동으로 탐색을 멈추는 Adaptive Stopping 메커니즘으로 과탐색 방지.
- 모든 플래너 결정, 툴 호출, 검색 결과가 명시적 아티팩트로 기록되어 최종 보고서뿐 아니라 생성 과정 전체를 추적·감사할 수 있음.
- 보고서 생성 단계 모델이 파이프라인 전체에서 가장 큰 품질 영향 요소로 확인됨 - Rubric 제거보다 모델 교체 시 성능 하락이 훨씬 크게 나타남.
Evidence
- DeepResearch Bench에서 전체 점수 58.03%로 1위 달성, 2위 ZTE Nebula DeepResearch(57.27%) 대비 +0.76%, Comprehensiveness 59.48%(+0.90%), Insight 61.48%(+1.34%) 모두 1위.
- DeepResearch Bench II에서 전체 점수 61.95%로 1위, 2위 iFlow-Researcher(59.91%) 대비 +2.04%; Information Recall 57.58%(+2.59%), Analysis 71.70%(+1.80%) 모두 1위.
- Rubric 제거 ablation: 보고서 단계에서만 Rubric 제거 시 Overall 58.03→57.61(-0.42), 플래닝까지 제거해도 추가 하락은 -0.08에 불과 - Rubric의 핵심 가치는 보고서 합성 단계에 집중됨.
- 보고서 생성 모델 교체 실험: DeepSeek V4 Pro 교체 시 -0.82, MiniMax-M3 교체 시 -2.82로, Rubric 제거 효과(-0.42~-0.50)보다 모델 선택의 영향이 훨씬 큼.
How to Apply
- 단일 에이전트가 검색과 플래닝을 동시에 하는 구조라면, 고수준 Research Agent와 검색 전용 Search Agent를 분리하고 후자에 자체 플래닝 루프를 부여하면 검색 실패가 전체 파이프라인에 전파되는 문제를 막을 수 있다.
- RAG 파이프라인에서 언제 검색을 멈출지 기준이 없다면, 매 사이클마다 'Ephemeral Rubric'(현재 증거 기반 갱신되는 품질 기준)을 생성하고 미충족 항목이 없을 때 자동 종료하는 Adaptive Stopping 로직을 추가하면 된다.
- 보고서 생성 품질을 높이려면 Rubric을 평가 지표로만 쓰지 말고, 보고서 작성 프롬프트에 'Persistent Rubric'(주제 레벨 품질 기준)을 직접 주입해서 작성 중 실시간으로 증거 기반 클레임을 생성하게 유도한다.
Code Example
# Rubric 스캐폴드 방식 보고서 생성 프롬프트 예시
persistent_rubric = [
{
"name": "evidence_grounding",
"description": "모든 핵심 주장은 검색된 출처로 뒷받침되어야 함",
"guidance": "주장을 작성하기 전에 해당 주장을 지지하는 출처 URL을 최소 2개 확인하라. 출처 없는 주장은 '추정'으로 명시하라."
},
{
"name": "cross_source_validation",
"description": "다수 출처의 상충되는 수치나 주장을 명시적으로 비교",
"guidance": "벤더 주장과 제3자 연구(e.g., Gartner, IDC)를 구분해서 제시하고, 수치 차이가 있으면 그 이유를 분석하라."
}
]
ephemeral_rubric = [
{
"gap_type": "missing_coverage",
"affected_section": "3장: 비용 분석",
"guidance": "현재 수집된 증거에 TCO(총소유비용) 데이터가 없음. 다음 검색에서 'TCO analysis' + 도메인 키워드로 보완하라."
}
]
writer_prompt = f"""
당신은 deep research 보고서 작성자입니다.
[Persistent Rubric - 보고서 전체에 적용]
{persistent_rubric}
[수집된 증거]
{accumulated_evidence}
위 Rubric의 각 기준을 만족하면서 보고서를 작성하세요.
모든 수치 주장에는 출처를 인라인 인용([출처명, URL])으로 표기하세요.
벤더 주장과 독립 연구 결과를 명확히 구분하세요.
"""
# Adaptive Stopping: Ephemeral Rubric 기반
def should_stop(ephemeral_rubric: list) -> bool:
"""미충족 격차가 없으면 탐색 종료"""
return all(
item.get("status") == "satisfied"
for item in ephemeral_rubric
)Terminology
관련 논문
ctx – 로컬 머신의 코딩 에이전트 히스토리를 검색하는 CLI 도구
Claude Code, Cursor, Codex 등 코딩 에이전트가 이전 세션의 논의·결정·실패 시도를 잊지 않도록 SQLite로 인덱싱해 재사용할 수 있게 해주는 오픈소스 CLI 도구다.
Micro-Agent: Model API 내부 협업으로 Frontier 모델을 이기는 방법 (vLLM Semantic Router)
vLLM 팀이 단일 모델 API 호출 뒤에서 여러 모델이 협업하는 'Micro-Agent' 개념을 공개했습니다. 별도의 에이전트 코드 없이 라우터 레이어에서 모델 조합을 실행해 GPT-4급 결과를 더 저렴하게 낼 수 있다는 아이디어입니다.
Ornith-1.0: 에이전틱 코딩을 위한 자기 개선형 오픈소스 모델
Gemma 4와 Qwen 3.5를 기반으로 파인튜닝한 코딩 특화 오픈소스 모델로, RL(강화학습)을 통해 스캐폴드(에이전트 실행 구조)까지 함께 최적화하는 방식을 주장하지만, 커뮤니티에서는 벤치마크 과최적화에 불과하다는 의심을 받고 있다.
Tool-Augmented Agent에서의 Entity Binding 실패 분석
AI 에이전트가 올바른 도구를 선택해도 잘못된 대상에 실행하는 'Entity Binding 실패' 문제를 정의하고, 이를 막는 실행 정책을 평가한 논문.
Herdr: 터미널에서 여러 AI Agent를 한 번에 관리하는 Agent Multiplexer
여러 AI 코딩 에이전트(Claude, Codex 등)를 하나의 터미널에서 동시에 실행·관리할 수 있는 Rust 기반 오픈소스 툴로, tmux처럼 세션이 유지되고 SSH로 원격 접속도 가능해 멀티 에이전트 워크플로우를 크게 단순화해준다.
Ornith-1.0: 스스로 Scaffold를 생성하는 Agentic Coding LLM
모델이 문제 풀이 전략(scaffold)을 직접 생성하고 개선하는 자기강화 학습 프레임워크를 적용한 오픈소스 코딩 특화 LLM으로, 9B 소형 모델부터 397B 대형 모델까지 라인업을 갖추고 SWE-Bench 등 주요 벤치마크에서 Claude Opus 4.7을 능가하는 성능을 보여줬다.
Related Resources
Original Abstract (Expand)
Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.