Perplexity 기반 단계별 정제로 Chain-of-Thought 추론 효율화하기 (SPIRIT)

Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models

Feb 18, 2025•Yingqian Cui, Pengfei He, Jingying Zeng +11•View PDF

TL;DR Highlight

CoT 추론 단계에서 perplexity가 안 변하는 불필요한 스텝을 자동으로 찾아 제거해 토큰 수를 줄이면서 정확도를 유지하는 방법

Who Should Read

LLM 추론 비용을 줄이고 싶은 ML 엔지니어, 특히 CoT 파인튜닝 데이터를 직접 만들거나 few-shot 프롬프트를 최적화하는 개발자

Core Mechanics

추론 스텝 하나를 제거했을 때 perplexity가 크게 오르면 '중요한 스텝', 별로 안 오르면 '불필요한 스텝' — 이 단순한 원칙으로 CoT 스텝 중요도를 측정
perplexity와 추론 정확도 사이에 강한 음의 상관관계 확인 (AL1: r=-0.690~-0.860, Diff-Calc: r=-0.997, Time-Diff: r=-0.850~-0.973)
스텝을 그냥 지우면 앞뒤 문맥이 끊길 수 있어서 '병합(merge)' 메커니즘을 추가 — 제거된 스텝의 내용을 앞뒤 스텝에 녹여냄
Few-shot CoT용 SPIRIT-FS: 데모 예시의 스텝을 줄여서 모델이 짧게 생성하도록 유도 (AL1 7단계→4단계로 줄여도 대부분 모델 정확도 유지)
파인튜닝용 SPIRIT-FT: 학습 데이터의 추론 스텝을 정제해서 SFT/ORPO 학습에 활용 — 랜덤 스텝 제거보다 정확도-효율 트레이드오프 일관되게 우수
한 모델(LLaMA3.1-70B)의 perplexity로 선택한 스텝이 GPT-4o-mini, GPT-3.5-Turbo에도 잘 통함 — 다른 모델에도 transferable

Evidence

Diff-Calc 태스크에서 perplexity-정확도 상관계수 r=-0.997 (p=3.37e-8), Time-Diff에서 r=-0.973 (p=0.0002) — 통계적으로 매우 유의미
AL1 few-shot에서 7단계→4단계 축소 시 LLaMA3.1-70B 정확도 99.80%→99.20%, GPT-4o-mini 98.00%→98.80% 오히려 소폭 향상, 반면 랜덤 제거는 94.40%로 하락
NBC 태스크 12단계→9단계 축소 시 Ours(merge) GPT-4o-mini 95.80%→97.80%, 랜덤 제거는 91.60%로 하락 — 6%p 이상 차이
강한 모델(LLaMA3-8B)의 perplexity로 약한 모델(LLaMA2-7B, Qwen1.5-7B) 파인튜닝 데이터를 정제했을 때, 해당 약한 모델 자체 perplexity로 정제한 것보다 오히려 성능이 더 좋음

How to Apply

Few-shot 프롬프트 최적화: 기존 CoT 데모 예시에서 각 스텝을 하나씩 빼보고 calibration 샘플들의 perplexity 변화를 측정 — 가장 적게 변하는 스텝부터 제거 또는 인접 스텝과 병합하면 토큰을 줄이면서 정확도 유지 가능
CoT 파인튜닝 데이터 정제: GSM8K 같은 수학 추론 데이터셋의 각 샘플에서 SPIRIT-FT 알고리즘으로 불필요한 추론 스텝을 제거한 뒤 LoRA SFT/ORPO로 학습하면 생성 토큰 수를 줄이면서 정확도 트레이드오프를 조절 가능
모델 접근 제한 상황 (GPT-4o 등 closed 모델 파인튜닝): LLaMA3.1-70B 같은 오픈소스 모델로 perplexity를 계산해서 스텝 선택 후, 그 결과를 GPT 계열 모델의 few-shot 데모로 활용 — cross-model transferability 덕분에 성능 유지됨

Code Example

snippet

Terminology

Perplexity (PPL)모델이 텍스트를 얼마나 '예상 못했는지'를 나타내는 수치. 낮을수록 모델이 해당 텍스트를 자연스럽게 받아들인다는 뜻. 낯선 단어가 많은 문장일수록 PPL이 높아짐.

Chain-of-Thought (CoT)LLM이 바로 답을 내지 않고 '1단계: ... 2단계: ...' 식으로 풀이 과정을 쭉 쓰면서 추론하게 하는 방법. 수학 문제 풀 때 중간 계산 과정을 적는 것과 같음.

Few-shot CoT프롬프트에 풀이 예시를 2~5개 넣어주고 모델이 그 패턴을 따라 새 문제를 풀게 하는 방식. 시험 전에 예제 문제 몇 개 보여주는 것과 비슷.

SFT (Supervised Fine-Tuning)모범답안 데이터를 보여주고 따라하게 학습시키는 방법. 학교에서 선생님이 풀이 과정을 보여주고 학생이 비슷하게 풀도록 연습시키는 것.

LoRA모델 전체 파라미터를 다 학습하지 않고 작은 어댑터 레이어만 추가해서 학습하는 기법. 전체 옷을 새로 맞추는 대신 패치만 붙이는 것처럼 효율적.

ORPO (Odds Ratio Preference Optimization)좋은 응답과 나쁜 응답 쌍을 보여줘서 좋은 쪽을 선호하도록 학습시키는 방법. 별도의 보상 모델 없이 SFT와 preference 학습을 동시에 함.

Calibration Set알고리즘 튜닝에 쓰이는 소규모 검증용 샘플 집합. 실제 테스트 전에 설정값이 잘 작동하는지 확인하는 용도로, 일종의 파라미터 조정용 데이터셋.

Original Abstract (Expand)

Chain-of-Thought (CoT) reasoning, which breaks down complex tasks into intermediate reasoning steps, has significantly enhanced the performance of large language models (LLMs) on challenging tasks. However, the detailed reasoning process in CoT often incurs long generation times and high computational costs, partly due to the inclusion of unnecessary steps. To address this, we propose a method to identify critical reasoning steps using perplexity as a measure of their importance: a step is deemed critical if its removal causes a significant increase in perplexity. Our method enables models to focus solely on generating these critical steps. This can be achieved through two approaches: refining demonstration examples in few-shot CoT or fine-tuning the model using selected examples that include only critical steps. Comprehensive experiments validate the effectiveness of our method, which achieves a better balance between the reasoning accuracy and efficiency of CoT.