DuMate-DeepResearch: Recursive Search와 Rubric 기반 추론을 갖춘 감사 가능한 Multi-Agent 시스템

TL;DR Highlight

Baidu가 만든 Deep Research 멀티에이전트 프레임워크로, DAG 기반 동적 플래닝 + 재귀 검색 에이전트 + Rubric 스캐폴딩을 조합해 두 벤치마크에서 SOTA를 달성했다.

Who Should Read

복잡한 리서치 자동화 파이프라인을 설계하는 AI 엔지니어나 에이전트 시스템 아키텍트. 특히 단일 에이전트의 검색 품질과 환각 문제를 해결하려는 개발자.

Core Mechanics

단일 에이전트가 고수준 플래닝과 세부 검색을 동시에 하면 실패가 전파되는 문제를 해결하기 위해, Research Agent(외부)와 Search Agent(내부)를 2레벨로 분리하는 재귀 구조를 사용함.
연구 로드맵을 DAG(방향성 비순환 그래프)로 표현해서 증거가 쌓일수록 coarse-to-fine 방식으로 확장하고, 실패한 노드는 backtracking + replan으로 처리함.
Rubric(품질 평가 기준표)을 사후 평가가 아니라 실시간 추론 스캐폴드로 사용 - Persistent Rubric(세션 전체 기준)과 Ephemeral Rubric(매 사이클 갱신 기준)으로 나눠 주입함.
Ephemeral Rubric이 '더 이상 검색할 정보 격차 없음'을 보고하면 자동으로 탐색을 멈추는 Adaptive Stopping 메커니즘으로 과탐색 방지.
모든 플래너 결정, 툴 호출, 검색 결과가 명시적 아티팩트로 기록되어 최종 보고서뿐 아니라 생성 과정 전체를 추적·감사할 수 있음.
보고서 생성 단계 모델이 파이프라인 전체에서 가장 큰 품질 영향 요소로 확인됨 - Rubric 제거보다 모델 교체 시 성능 하락이 훨씬 크게 나타남.

Evidence

DeepResearch Bench에서 전체 점수 58.03%로 1위 달성, 2위 ZTE Nebula DeepResearch(57.27%) 대비 +0.76%, Comprehensiveness 59.48%(+0.90%), Insight 61.48%(+1.34%) 모두 1위.
DeepResearch Bench II에서 전체 점수 61.95%로 1위, 2위 iFlow-Researcher(59.91%) 대비 +2.04%; Information Recall 57.58%(+2.59%), Analysis 71.70%(+1.80%) 모두 1위.
Rubric 제거 ablation: 보고서 단계에서만 Rubric 제거 시 Overall 58.03→57.61(-0.42), 플래닝까지 제거해도 추가 하락은 -0.08에 불과 - Rubric의 핵심 가치는 보고서 합성 단계에 집중됨.
보고서 생성 모델 교체 실험: DeepSeek V4 Pro 교체 시 -0.82, MiniMax-M3 교체 시 -2.82로, Rubric 제거 효과(-0.42~-0.50)보다 모델 선택의 영향이 훨씬 큼.

How to Apply

단일 에이전트가 검색과 플래닝을 동시에 하는 구조라면, 고수준 Research Agent와 검색 전용 Search Agent를 분리하고 후자에 자체 플래닝 루프를 부여하면 검색 실패가 전체 파이프라인에 전파되는 문제를 막을 수 있다.
RAG 파이프라인에서 언제 검색을 멈출지 기준이 없다면, 매 사이클마다 'Ephemeral Rubric'(현재 증거 기반 갱신되는 품질 기준)을 생성하고 미충족 항목이 없을 때 자동 종료하는 Adaptive Stopping 로직을 추가하면 된다.
보고서 생성 품질을 높이려면 Rubric을 평가 지표로만 쓰지 말고, 보고서 작성 프롬프트에 'Persistent Rubric'(주제 레벨 품질 기준)을 직접 주입해서 작성 중 실시간으로 증거 기반 클레임을 생성하게 유도한다.

Code Example

snippet

# Rubric 스캐폴드 방식 보고서 생성 프롬프트 예시

persistent_rubric = [
    {
        "name": "evidence_grounding",
        "description": "모든 핵심 주장은 검색된 출처로 뒷받침되어야 함",
        "guidance": "주장을 작성하기 전에 해당 주장을 지지하는 출처 URL을 최소 2개 확인하라. 출처 없는 주장은 '추정'으로 명시하라."
    },
    {
        "name": "cross_source_validation",
        "description": "다수 출처의 상충되는 수치나 주장을 명시적으로 비교",
        "guidance": "벤더 주장과 제3자 연구(e.g., Gartner, IDC)를 구분해서 제시하고, 수치 차이가 있으면 그 이유를 분석하라."
    }
]

ephemeral_rubric = [
    {
        "gap_type": "missing_coverage",
        "affected_section": "3장: 비용 분석",
        "guidance": "현재 수집된 증거에 TCO(총소유비용) 데이터가 없음. 다음 검색에서 'TCO analysis' + 도메인 키워드로 보완하라."
    }
]

writer_prompt = f"""
당신은 deep research 보고서 작성자입니다.

[Persistent Rubric - 보고서 전체에 적용]
{persistent_rubric}

[수집된 증거]
{accumulated_evidence}

위 Rubric의 각 기준을 만족하면서 보고서를 작성하세요.
모든 수치 주장에는 출처를 인라인 인용([출처명, URL])으로 표기하세요.
벤더 주장과 독립 연구 결과를 명확히 구분하세요.
"""

# Adaptive Stopping: Ephemeral Rubric 기반
def should_stop(ephemeral_rubric: list) -> bool:
    """미충족 격차가 없으면 탐색 종료"""
    return all(
        item.get("status") == "satisfied" 
        for item in ephemeral_rubric
    )

Terminology

DAG방향성 비순환 그래프(Directed Acyclic Graph). 작업들 사이의 의존 관계를 나타내는 구조로, 'A가 끝나야 B를 시작할 수 있다'는 순서를 화살표로 표현한 흐름도.

Rubric원래 교육 평가에서 쓰는 채점 기준표. 이 논문에서는 '좋은 보고서란 무엇인가'를 정의하는 기준을 AI 추론 중에 실시간으로 주입하는 가이드라인으로 활용.

ReAct추론(Reasoning)과 행동(Acting)을 번갈아 수행하는 에이전트 패턴. 한 번에 하나씩 다음 행동을 결정하는 단기적 방식이라 장기 계획에 취약한 단점이 있음.

Coarse-to-Fine먼저 큰 그림을 잡은 뒤 세부 사항으로 좁혀가는 탐색 전략. 지도 앱에서 도시 전체를 보고 나서 특정 골목으로 줌인하는 것과 같은 방식.

Adaptive Stopping언제 검색을 멈출지를 고정된 횟수가 아니라 '충분한 정보가 모였는가'라는 기준으로 동적으로 결정하는 메커니즘.

Multi-Agent여러 AI 에이전트가 역할을 나눠 협력하는 구조. 팀장 에이전트가 전략을 짜고 팀원 에이전트들이 각자 맡은 검색·분석 작업을 수행하는 분업 시스템.

HallucinationAI가 사실이 아닌 내용을 그럴듯하게 생성하는 현상. 특히 긴 보고서를 쓸 때 출처 없는 주장이 섞여들어 신뢰성이 떨어지는 문제.

Related Resources

Original Abstract (Expand)

Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.