Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation

TL;DR Highlight

메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.

Who Should Read

Deep research 시스템이나 복잡한 멀티스텝 웹 검색 에이전트를 운영하면서 병렬 실행 결과를 어떻게 합칠지 고민하는 ML 엔지니어. 여러 LLM 에이전트를 동시에 돌리는 프로덕션 시스템을 설계하는 백엔드 개발자.

Core Mechanics

병렬로 실행한 여러 에이전트 궤적(trajectory)을 단순히 최종 답만 모아서 투표하면 중간 추론 과정의 핵심 정보를 버리게 되고, 전체를 context에 넣으면 토큰 한도를 초과하는 딜레마가 있음
AggAgent는 집계 자체를 에이전트 작업으로 바꿔서, get_solution·search_trajectory·get_segment 세 가지 경량 도구로 완성된 궤적 배열을 on-demand로 탐색함
coarse-to-fine 전략: 먼저 모든 궤적의 최종 답을 훑어 합의/불일치를 파악하고, 의심스러운 부분만 키워드 검색 후 해당 구간을 전문 읽기해서 도구 관측값(ground truth)과 에이전트 추론을 교차 검증함
AggAgent는 8개 궤적이 모두 틀린 경우에도 각 궤적의 부분적 단서를 교차 참조해서 정답을 합성해낼 수 있음 — 이는 단순 선택(selection)이 아닌 합성(synthesis)의 핵심 장점
집계 비용이 단일 에이전트 롤아웃 하나 수준으로 고정됨: K가 커져도 AggAgent 오버헤드는 약 5.7%인 반면, Summary Aggregation은 K개의 LLM 호출이 필요해 41% 오버헤드 발생
더 강한 모델을 aggregator로 쓰고 약한 모델을 여러 개 병렬 롤아웃에 쓰는 비대칭 할당 전략이 효과적 — GLM-4.7-Flash로 롤아웃하고 MiniMax-M2.5로 집계하면 BrowseComp-Plus에서 Pass@8도 초과

Evidence

6개 벤치마크 평균 기준 AggAgent는 가장 강한 기존 방법인 Solution Aggregation 대비 최대 5.3 포인트 향상, deep research 두 태스크에서는 최대 10.3 포인트 향상
GLM-4.7-Flash 기준 Pass@1 대비 AggAgent는 평균 13.3~17.9 포인트 향상 (K=8): 예) Healthbench-Hard 8.67 → 27.99, ResearchRubrics 37.47 → 45.31
K=8에서 AggAgent의 집계 추가 비용은 롤아웃 비용의 5.7%에 불과, Summary Aggregation(41%)보다 훨씬 저렴하며 Solution Aggregation(3.7%)과 비슷한 수준
강한 aggregator(MiniMax-M2.5)를 사용할 경우 BrowseComp-Plus에서 AggAgent가 Pass@8(72.00)을 초과한 72.67을 달성 — 개별 롤아웃 최선값을 뛰어넘는 합성 가능

How to Apply

병렬 에이전트 K개를 실행한 뒤 별도의 aggregator 에이전트를 띄워서 get_solution으로 모든 최종 답을 먼저 스캔하게 하고, 불일치가 있는 궤적에만 search_trajectory와 get_segment를 써서 실제 도구 관측값을 검증하도록 프롬프트를 구성하면 됨. 전체 궤적을 context에 넣지 않아도 되므로 토큰 비용이 선형으로 늘지 않음.
롤아웃용 모델(비용 저렴한 소형 모델)과 집계용 모델(더 강력한 모델)을 분리하는 비대칭 전략을 쓰면 비용 대비 성능을 높일 수 있음. 예: GLM-4.7-Flash 8개 병렬 + MiniMax-M2.5 1개 집계.
Deep research처럼 정답이 여러 궤적에 분산된 오픈엔디드 태스크에서는 단순히 가장 좋아 보이는 궤적 하나를 고르는 대신 합성(synthesis) 모드로 동작하도록 finish 도구의 solution 필드를 long-form report 형식으로 지정하면 됨. 논문 Appendix B의 프롬프트를 그대로 활용 가능.

Code Example

snippet

Terminology

trajectory에이전트가 문제를 푸는 과정에서 생성한 생각·도구 호출·관측값의 연속 기록. 사람으로 치면 문제 풀이 노트 전체.

parallel scaling같은 문제를 여러 에이전트가 동시에 독립적으로 풀게 해서 정답 확률을 높이는 방법. 시험을 여러 명이 각자 풀고 나중에 답을 모으는 것과 유사.

test-time scaling모델 학습을 더 하는 대신, 추론(inference) 시점에 계산을 더 써서 성능을 올리는 전략. 시험 중에 더 오래 생각하게 하는 것.

long-horizon agentic task웹 검색, 문서 읽기, 코드 실행 등을 수십~수백 번 반복하며 수행하는 복잡한 작업. 단순 Q&A와 달리 여러 스텝에 걸친 계획과 실행이 필요함.

majority voting여러 모델 출력 중 가장 많이 나온 답을 최종 답으로 선택하는 방법. 객관식 다수결과 동일한 원리.

Best-of-N (BoN)N개의 출력 중 모델이 스스로 가장 자신 있다고 평가한 답을 고르는 방법. 자기 채점 방식.

ROUGE-L두 텍스트가 얼마나 비슷한지 측정하는 지표. 공통으로 나타나는 단어 순서를 기반으로 유사도를 계산함.

LLM-as-a-judge모델 출력의 품질을 사람 대신 다른 LLM이 평가하게 하는 방법. GPT-4 같은 강력한 모델을 채점관으로 활용.

Related Resources

AggAgent GitHub Repository

Original Abstract (Expand)

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.