LLM이 고전적인 Hyperparameter 최적화 알고리즘을 이길 수 있을까?

TL;DR Highlight

LLM 기반 하이퍼파라미터 최적화 에이전트와 CMA-ES, TPE 같은 고전 알고리즘을 직접 비교한 연구로, LLM 단독으로는 고전 방법을 이기지 못하지만 두 방법을 합친 하이브리드 'Centaur'가 최고 성능을 낸다는 결론이 나왔다.

Who Should Read

ML 모델 학습 파이프라인을 운영하면서 하이퍼파라미터 튜닝에 시간과 비용을 많이 쓰는 ML 엔지니어나 연구자. LLM 기반 자동화 도구를 실무에 도입할지 고민 중인 개발자.

Core Mechanics

이 연구는 autoresearch라는 오픈소스 저장소를 실험 환경으로 사용했는데, 이 툴은 LLM 에이전트가 학습 코드를 직접 수정하는 방식으로 하이퍼파라미터를 최적화한다.
고정된 검색 공간(fixed search space)을 정해놓고 비교했을 때, CMA-ES(진화 전략 기반 최적화 알고리즘)와 TPE(Tree-structured Parzen Estimator, 베이즈 최적화 기반 알고리즘)가 LLM 에이전트보다 일관되게 성능이 좋았다.
LLM 에이전트가 고전 방법에 밀리는 주요 원인 중 하나는 OOM(Out-of-Memory) 실패를 피하는 것이 검색 다양성보다 중요한데, LLM이 이 부분을 잘 다루지 못하기 때문이다.
LLM에게 소스 코드를 자유롭게 수정할 수 있는 권한을 주면 고전 방법과의 격차가 줄어들지만, Claude Opus 4.6이나 Gemini 3.1 Pro Preview 같은 최신 프론티어 모델을 써도 격차를 완전히 없애지는 못했다.
LLM의 핵심 약점은 여러 번의 시도(trial)에 걸쳐 최적화 상태를 추적하는 능력이 부족하다는 점이다. 반면 고전 알고리즘은 도메인 지식이 없다는 약점이 있다.
이 두 약점을 보완하기 위해 'Centaur'라는 하이브리드 방법을 제안했는데, CMA-ES의 내부 상태(평균 벡터, 스텝 크기, 공분산 행렬)를 LLM에게 공유해서 LLM이 맥락을 이해하고 시도를 제안할 수 있게 했다.
Centaur는 실험에서 가장 좋은 결과를 냈고, 0.8B짜리 소형 LLM만으로도 모든 고전 방법과 순수 LLM 방법을 능가했다. 코드 자유 편집 방식은 고전 방법과 경쟁하려면 더 큰 모델이 필요했다.
결론적으로 LLM은 고전 최적화 알고리즘을 대체하는 것보다 보완하는 역할에서 가장 효과적이라는 것이 이 연구의 핵심 메시지다.

Evidence

LLM이 고전 방법을 이기지 못한다는 결과에 대해 'TPE가 autoresearch를 압도하고, 이 논문의 방법과도 거의 대등한데 LLM 추론 비용이 전혀 없다'는 점을 들어 LLM이 추가하는 가치가 미미하다는 냉소적인 반응이 있었다. LLM이 더 비싼 방법이라면 더 좋아야 하는데 그렇지 않다는 의견이다.
반면 연구자 한 명은 목적 함수 평가 비용이 매우 비싼 경우(HPC 코드 파라미터 자동 튜닝 등 일부 틈새 적용)에서는 프론티어 LLM이 고전 최적화 알고리즘을 능가하는 경우도 있다고 밝혔다. 다만 오픈 웨이트 모델은 일부 애플리케이션에서는 잘 작동하지만 다른 경우엔 완전히 실패하기도 한다는 점도 덧붙였다.
Centaur 아이디어에 대해서는 'pycma 라이브러리의 ask-and-tell 인터페이스와 코딩 에이전트를 조합하면 구현이 꽤 간단하다'는 실용적인 반응이 있었다.
LLM과 고전 방법의 조합이 정답이라는 방향으로 연구가 수렴되고 있으며, ACM CAIS 2026 워크숍의 여러 논문이 이를 지지한다는 의견이 있었다. AlphaEvolve와 Vizier를 함께 써서 컴파일러 코드 레이아웃 휴리스틱을 진화시키는 AI-PROPELLER 논문이 구체적인 사례로 언급됐다.
ecdsa.fail에서 진행 중인 관련 실험도 주목받았는데, ECDSA를 깨는 양자 회로를 최적화하는 리더보드 챌린지에서 Google 연구자 결과 대비 40% 성능 향상을 달성했다는 흥미로운 사례가 공유됐다. 이것도 LLM과 고전 최적화의 조합 방향성을 지지하는 사례로 언급됐다.

How to Apply

ML 모델 학습에서 하이퍼파라미터 튜닝을 LLM 에이전트로 완전히 대체하려고 계획 중이라면, 우선 CMA-ES나 TPE(Optuna, scikit-optimize 등으로 구현 가능) 같은 고전 알고리즘을 베이스라인으로 먼저 돌려보고 비교 수치를 확인하라. LLM 에이전트가 더 비싼 만큼 더 좋아야 한다는 기준을 명확히 세우는 것이 중요하다.
LLM 기반 하이퍼파라미터 최적화를 도입하려면 Centaur 방식을 참고해볼 만하다. pycma 라이브러리의 ask-and-tell 인터페이스로 CMA-ES의 내부 상태(평균 벡터, 스텝 크기, 공분산 행렬)를 LLM에게 프롬프트로 전달하면, 0.8B 규모의 작은 모델로도 고전 방법보다 좋은 결과를 낼 수 있다.
하이퍼파라미터 튜닝 예산이 제한적이고(적은 trial 수), 목적 함수 평가 비용이 매우 비싼 HPC나 특수 시스템 최적화 같은 상황이라면 LLM 단독으로도 고전 방법 대비 경쟁력이 있는 경우가 있으니, 해당 도메인에서 먼저 소규모 실험으로 검증해보라.
autoresearch 저장소와 인터랙티브 데모가 공개되어 있으므로, 자신의 학습 코드에 바로 적용해보거나 Centaur 구현체를 참고해서 기존 HPO 파이프라인에 LLM 보조 제안 단계를 추가하는 실험을 해볼 수 있다.

Terminology

HPOHyperparameter Optimization의 약자. 모델 학습률, 배치 크기, 레이어 수 같은 설정값을 자동으로 찾아주는 기법.

CMA-ESCovariance Matrix Adaptation Evolution Strategy. 생물의 진화를 모방해서 좋은 파라미터 조합을 점점 좁혀가는 최적화 알고리즘. 수학적으로 탄탄하고 연속적인 값 최적화에 강하다.

TPETree-structured Parzen Estimator. 이전 시도 결과를 바탕으로 다음에 어떤 파라미터를 시도할지 확률적으로 판단하는 베이즈 최적화 기반 알고리즘. Optuna의 기본 알고리즘이다.

Centaur이 논문에서 제안한 하이브리드 방법. CMA-ES가 계산한 내부 상태 정보를 LLM에게 전달해서 LLM이 도메인 지식으로 시도를 제안하게 하고, 두 방법의 장점을 결합한 구조.

ask-and-tell interface최적화 알고리즘에서 '다음에 어떤 값을 시도할지 물어보고(ask), 그 결과를 알려주는(tell)' 방식의 API 패턴. pycma에서 이 인터페이스를 제공해서 외부 시스템과 쉽게 연동할 수 있다.

search space하이퍼파라미터 최적화에서 탐색할 파라미터 범위를 정해놓은 것. 예를 들어 학습률은 0.0001~0.1 사이, 배치 크기는 32/64/128 중 하나처럼 제한을 두는 것.