Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks
TL;DR Highlight
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
Who Should Read
Deep research 시스템이나 복잡한 멀티스텝 웹 검색 에이전트를 운영하면서 병렬 실행 결과를 어떻게 합칠지 고민하는 ML 엔지니어. 여러 LLM 에이전트를 동시에 돌리는 프로덕션 시스템을 설계하는 백엔드 개발자.
Core Mechanics
- 병렬로 실행한 여러 에이전트 궤적(trajectory)을 단순히 최종 답만 모아서 투표하면 중간 추론 과정의 핵심 정보를 버리게 되고, 전체를 context에 넣으면 토큰 한도를 초과하는 딜레마가 있음
- AggAgent는 집계 자체를 에이전트 작업으로 바꿔서, get_solution·search_trajectory·get_segment 세 가지 경량 도구로 완성된 궤적 배열을 on-demand로 탐색함
- coarse-to-fine 전략: 먼저 모든 궤적의 최종 답을 훑어 합의/불일치를 파악하고, 의심스러운 부분만 키워드 검색 후 해당 구간을 전문 읽기해서 도구 관측값(ground truth)과 에이전트 추론을 교차 검증함
- AggAgent는 8개 궤적이 모두 틀린 경우에도 각 궤적의 부분적 단서를 교차 참조해서 정답을 합성해낼 수 있음 — 이는 단순 선택(selection)이 아닌 합성(synthesis)의 핵심 장점
- 집계 비용이 단일 에이전트 롤아웃 하나 수준으로 고정됨: K가 커져도 AggAgent 오버헤드는 약 5.7%인 반면, Summary Aggregation은 K개의 LLM 호출이 필요해 41% 오버헤드 발생
- 더 강한 모델을 aggregator로 쓰고 약한 모델을 여러 개 병렬 롤아웃에 쓰는 비대칭 할당 전략이 효과적 — GLM-4.7-Flash로 롤아웃하고 MiniMax-M2.5로 집계하면 BrowseComp-Plus에서 Pass@8도 초과
Evidence
- 6개 벤치마크 평균 기준 AggAgent는 가장 강한 기존 방법인 Solution Aggregation 대비 최대 5.3 포인트 향상, deep research 두 태스크에서는 최대 10.3 포인트 향상
- GLM-4.7-Flash 기준 Pass@1 대비 AggAgent는 평균 13.3~17.9 포인트 향상 (K=8): 예) Healthbench-Hard 8.67 → 27.99, ResearchRubrics 37.47 → 45.31
- K=8에서 AggAgent의 집계 추가 비용은 롤아웃 비용의 5.7%에 불과, Summary Aggregation(41%)보다 훨씬 저렴하며 Solution Aggregation(3.7%)과 비슷한 수준
- 강한 aggregator(MiniMax-M2.5)를 사용할 경우 BrowseComp-Plus에서 AggAgent가 Pass@8(72.00)을 초과한 72.67을 달성 — 개별 롤아웃 최선값을 뛰어넘는 합성 가능
How to Apply
- 병렬 에이전트 K개를 실행한 뒤 별도의 aggregator 에이전트를 띄워서 get_solution으로 모든 최종 답을 먼저 스캔하게 하고, 불일치가 있는 궤적에만 search_trajectory와 get_segment를 써서 실제 도구 관측값을 검증하도록 프롬프트를 구성하면 됨. 전체 궤적을 context에 넣지 않아도 되므로 토큰 비용이 선형으로 늘지 않음.
- 롤아웃용 모델(비용 저렴한 소형 모델)과 집계용 모델(더 강력한 모델)을 분리하는 비대칭 전략을 쓰면 비용 대비 성능을 높일 수 있음. 예: GLM-4.7-Flash 8개 병렬 + MiniMax-M2.5 1개 집계.
- Deep research처럼 정답이 여러 궤적에 분산된 오픈엔디드 태스크에서는 단순히 가장 좋아 보이는 궤적 하나를 고르는 대신 합성(synthesis) 모드로 동작하도록 finish 도구의 solution 필드를 long-form report 형식으로 지정하면 됨. 논문 Appendix B의 프롬프트를 그대로 활용 가능.
Code Example
Terminology
관련 논문
adamsreview: Claude Code용 멀티 에이전트 PR 코드 리뷰 파이프라인
Claude Code에서 최대 7개의 병렬 서브 에이전트가 각각 다른 관점으로 PR을 리뷰하고, 자동 수정까지 해주는 오픈소스 플러그인이다. 기존 /review나 CodeRabbit보다 실제 버그를 더 많이 잡는다고 주장하지만 커뮤니티에서는 복잡도와 실효성에 대한 회의론도 나왔다.
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
AI Agent를 위한 Git: re_gent
AI 코딩 에이전트(Claude Code 등)가 수행한 모든 툴 호출을 자동으로 추적하고, 어떤 프롬프트가 어느 코드 줄을 작성했는지 blame까지 가능한 버전 관리 도구다.
Agent-Native CLI를 위한 설계 원칙 10가지
AI 에이전트가 CLI 도구를 더 잘 사용할 수 있도록 설계하는 원칙들을 정리한 글로, 에이전트가 CLI를 도구로 활용하는 빈도가 높아지면서 이 설계 방식이 실용적으로 중요해지고 있다.
Agent-harness-kit: MCP 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
여러 AI 에이전트가 서로 역할을 나눠 협업할 수 있도록 조율하는 scaffolding 도구로, Vite처럼 설정 없이 빠르게 멀티 에이전트 파이프라인을 구성할 수 있다.
Tilde.run – AI Agent를 위한 트랜잭션 기반 버전 관리 파일시스템 샌드박스
AI 에이전트가 실제 프로덕션 데이터를 건드려도 롤백할 수 있는 격리된 샌드박스 환경을 제공하는 도구로, GitHub/S3/Google Drive를 하나의 버전 관리 파일시스템으로 묶어준다.
Related Resources
Original Abstract (Expand)
We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.