MiroThinker H1 검증 중심 추론: 더 적은 상호작용으로 더 나은 에이전트 성능

[D] Breaking down MiroThinker H1's verification centric reasoning: why fewer interaction rounds produce better agent performance

Mar 19, 2026•Soggy_Limit8864•View Original

검증기가 탐욕적 경로 탈출을 강제함으로써 성능 17%, 상호작용 라운드 43% 감소를 달성하고 에이전트 루프 문제를 해결함

에이전트 시스템에서 도구 호출 루프 문제를 해결하려는 개발자, RAG·에이전트 아키텍처를 설계하는 엔지니어

Local Verifier: 가장 높은 확률의 경로를 따르는 대신 반증 증거를 적극 탐색하도록 강제 — 과신(overconfidence)과 루프 탈출
Global Planner: 목표를 하위 작업으로 분해하고 도구 호출을 감독 — 불필요한 재시도 제거
결과: 이전 세대 대비 ~17% 성능 향상, ~43% 상호작용 라운드 감소 (arXiv: 2603.15726)
핵심 인사이트: 에이전트 루프 최적화는 "더 많은 시도"가 아닌 "올바른 시도 선택"의 문제

Local Verifier각 추론 단계에서 현재 경로가 올바른지 반증 증거를 탐색하는 검증기

검증 중심 추론(Verification-Centric Reasoning)탐욕적 경로 대신 검증을 우선시하는 에이전트 추론 방식