Black-Box LLM에서 지식 증류하기: Proxy-KD 기법 (2024)
Knowledge Distillation of Black-Box Large Language Models (2024)
TL;DR Highlight
GPT-4 같은 내부 구조에 접근할 수 없는 독점 LLM에서 작은 모델로 지식을 효과적으로 전달하는 Proxy-KD 기법을 소개하는 논문으로, 전통적인 White-Box 방식보다 성능이 높다는 점에서 주목할 만하다.
Who Should Read
GPT-4, Claude 같은 상용 LLM API를 쓰고 있지만 추론 비용을 줄이기 위해 작은 모델을 파인튜닝하고 싶은 ML 엔지니어나 연구자.
Core Mechanics
- 지식 증류(Knowledge Distillation, KD)는 큰 '교사' 모델의 능력을 작은 '학생' 모델에게 전달하는 기법인데, GPT-4처럼 내부 가중치나 확률 분포를 볼 수 없는 Black-Box 모델은 기존 KD 방식을 그대로 적용하기 어렵다.
- 기존 White-Box KD는 교사 모델의 내부 상태(레이어별 출력, softmax 확률 등)에 접근해서 학생 모델을 학습시키는데, API로만 제공되는 독점 LLM은 이런 접근이 불가능하다.
- 이 논문에서 제안하는 Proxy-KD는 중간에 '프록시 모델'을 두는 방식이다. 프록시 모델이 Black-Box 교사 모델의 출력을 흉내 내도록 먼저 학습하고, 이 프록시를 통해 학생 모델을 훈련시키는 구조다.
- 프록시 모델을 활용하면 Black-Box 교사의 내부 상태에 직접 접근하지 못해도, 프록시를 통해 soft label이나 확률 분포 형태의 추가 지식을 학생 모델에게 전달할 수 있다.
- 실험 결과, Proxy-KD는 Black-Box 교사로부터의 일반 KD 성능을 높일 뿐 아니라, 내부 접근이 가능한 White-Box KD 기법들도 성능 면에서 넘어섰다고 보고했다.
- 논문은 2024년 1월에 처음 제출됐고, 2024년 11월에 v2로 개정됐다(파일 크기가 359KB에서 8,288KB로 크게 증가한 것으로 보아 실험 결과와 내용이 상당히 보강된 것으로 보인다).
Evidence
- SFT(지도 학습 파인튜닝)와 DPO(선호도 기반 최적화 기법)를 프록시에 적용하는 것과 그냥 학생 모델에 SFT만 하는 것의 성능 차이가 크지 않다는 점에서, 차라리 SFT 데이터셋 품질을 높이는 데 집중하는 게 낫지 않냐는 현실적인 의문이 제기됐다.
- 이 논문보다 더 흥미롭다는 2025년 1월 논문이 소개됐다. 'Black-Box On-Policy Distillation of Large Language Models'(arXiv:2511.10643)에서는 'Generative Adversarial Distillation(GAD)'이라는 기법으로 Qwen 2.5 14B 모델을 GPT-5 수준으로 끌어올렸다고 주장했다.
- 'Well-Read Students Learn Better: On the Importance of Pre-training Compact Models'(arXiv:1908.08962)라는 관련 논문이 같이 소개됐는데, 학생 모델의 사전 학습이 KD 성능에 얼마나 중요한지를 다루는 논문이라 함께 읽으면 도움이 된다는 의견이 있었다.
- 이 논문이 왜 지금 다시 화제가 됐는지 묻는 댓글이 있었고, 제목에 2024년 논문임을 명시해달라는 요청도 있었다. 최신 연구로 오해할 수 있다는 점에서 나온 반응으로 보인다.
- 에이전트 파이프라인에서 실패 원인을 추적하는 시스템을 만들 때, 이 Black-Box 증류 기법이 모델 내부에 접근하지 않고도 인과 관계 추적 모델을 만드는 데 활용될 수 있다는 실용적 관점의 의견도 있었다.
How to Apply
- GPT-4 API 호출 비용이 너무 높아서 작은 모델로 대체하고 싶은 경우, GPT-4 출력으로 SFT 데이터셋을 만들기 전에 Proxy-KD 방식을 검토해볼 수 있다. 프록시 모델을 먼저 GPT-4 출력에 맞게 학습시키고, 이 프록시에서 soft label을 추출해 학생 모델을 훈련하면 단순 SFT보다 더 나은 성능을 기대할 수 있다.
- Black-Box 교사 모델의 API 비용을 최소화하고 싶다면, 먼저 소량의 GPT-4 출력으로 프록시 모델을 학습시킨 뒤, 대량의 증류 데이터는 프록시 모델로 생성하는 방식으로 API 호출 수를 크게 줄일 수 있다.
- 댓글에서 언급된 GAD(Generative Adversarial Distillation, arXiv:2511.10643) 기법도 함께 확인해볼 것을 권장한다. Qwen 2.5 14B 수준의 모델을 대상으로 실험했다고 하니, 비슷한 규모의 모델을 운용 중이라면 비교 검토 가치가 있다.
- 단순히 SFT 데이터 품질을 극한으로 높이는 접근과 Proxy-KD를 비교 실험해보는 것도 유효하다. 커뮤니티 댓글에서 지적됐듯이 성능 차이가 크지 않을 수 있으므로, 실제 태스크에서 A/B 테스트로 검증하고 복잡도 대비 이득이 있는지 확인하는 것이 현실적이다.
Terminology
관련 논문
레이어 하나면 충분한가? 단일 Transformer 레이어 학습이 전체 파라미터 RL 학습과 동등한 성능
LLM의 RL 후처리 학습(post-training)에서 성능 향상의 대부분이 중간 레이어 소수에 집중되며, 단 하나의 레이어만 학습해도 전체 파라미터 학습과 비슷하거나 더 나은 결과를 낼 수 있다는 연구 결과. 이는 RL 학습 비용을 대폭 줄일 수 있는 가능성을 시사한다.
NanoEuler – 순수 C/CUDA로 처음부터 만든 GPT-2 규모 언어 모델
PyTorch나 autograd 없이 C와 CUDA만으로 GPT-2 수준의 LLM을 처음부터 구현한 교육용 프로젝트로, 역전파·BPE 토크나이저·FlashAttention까지 직접 손으로 작성했다.
Neural Particle Automata: 자기조직화 파티클 시스템을 학습하는 신경망 모델
고정된 격자 대신 움직이는 파티클 위에서 동작하는 Neural Cellular Automata의 확장 버전으로, 형태 생성·포인트 클라우드 분류·텍스처 합성 등 다양한 작업에서 자기조직화 동작을 학습할 수 있다.
PyTorch Training Loop 완전 해부: 각 줄이 하는 일과 순서를 바꾸면 생기는 문제
PyTorch 학습 루프의 각 코드 줄이 왜 그 위치에 있어야 하는지, 순서를 바꾸거나 빠뜨렸을 때 어떤 문제가 생기는지를 단계별로 설명한 심층 가이드다.
좋은 Verifier도 망가질 수 있다: Self-Improving VLM이 새로운 태스크에서 오히려 퇴보하는 현상
VLM 자가학습 루프에서 verifier가 특정 태스크에 맞지 않으면 학습할수록 오히려 성능이 떨어지는데, DPO 손실값은 멀쩡히 내려가서 눈치채기도 어렵다.
Self-Distillation에서 Feedback Alignment의 역할
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.