LLM Multi-Turn Interaction 능력 종합 서베이

A Survey on Multi-Turn Interaction Capabilities of Large Language Models

Jan 17, 2025•Chen Zhang, Xinyi Dai, Yaxiong Wu +4•View PDF

TL;DR Highlight

챗봇을 넘어 에이전트까지, LLM의 멀티턴 대화 능력을 평가·향상시키는 방법론 전체를 한 논문에 정리했다.

Who Should Read

AI 에이전트나 챗봇을 개발하면서 멀티턴 대화 품질, 메모리 관리, 도구 사용 전략을 고민하는 백엔드/ML 엔지니어. 특히 LLM 기반 고객 상담, 코딩 어시스턴트, 튜터링 시스템을 만드는 팀에 유용하다.

Core Mechanics

멀티턴 평가 기준은 MT-Bench → MT-Bench++ → MT-Bench-101로 진화했고, 지금은 GPT-4를 심판으로 쓰는 'LLM-as-a-Judge'가 표준이 됐다
유저 인터랙션 패턴은 5가지로 분류: 지시 명확화, 지시 확장, 제약 추가, 지시 수정, 전역 일관성 유지 — 이 패턴 기준으로 데이터 만들면 파인튜닝 효과가 좋다
외부 메모리(요약 트리, 해시 기반 저장, 계층적 집계 트리)가 컨텍스트 길이 한계를 우회하는 실용적 방법이고, 모델 아키텍처를 바꾸는 내부 메모리보다 플러그인 방식이 더 쓰기 쉽다
자기 수정(self-correction) 능력은 프롬프팅만으로는 부족하고, SCoRe처럼 온라인 RL로 훈련해야 진짜 작동한다 — SFT 오프라인 데이터만으론 분포 불일치 문제가 생긴다
멀티턴 추론 벤치마크 WILT에서 최고 모델도 정확도 28%밖에 안 나옴 — 멀티턴 논리 추론은 아직 LLM의 큰 약점이다
RLHF를 멀티턴으로 확장하는 방법(ArCHer, MTPO, REFUEL, DPO 멀티턴 버전)들이 등장했고, 각각 계층적 RL, Mirror Descent, Q-값 직접 회귀 방식을 씀

Evidence

WILT 벤치마크에서 최고 성능 모델 정확도 28% — 멀티턴 귀납 논리 추론의 심각한 한계를 수치로 확인
MT-Bench-101은 13개 세부 태스크, 3단계 분류 체계로 기존 MT-Bench 대비 가장 세밀한 멀티턴 평가 프레임워크
LOCOMO 벤치마크: 600턴, 32세션 규모 대화에서 long-context LLM과 RAG 모델 모두 인간 대비 temporal reasoning에서 크게 뒤처짐
CodeGen 실험: 멀티턴 프로그램 합성이 모든 모델 크기에서 싱글턴 방식보다 일관되게 높은 성능 달성

How to Apply

챗봇에 메모리 추가할 때: ChatGPT Memory 패턴처럼 대화 후 핵심을 해시 저장하고, 다음 턴에 관련 메모리만 꺼내 주입하면 컨텍스트 길이 제한을 우회하면서 일관성 유지 가능
에이전트가 애매한 요청을 받았을 때: ACT 프레임워크처럼 '답변'보다 '질문'을 선택하도록 DPO 학습 데이터를 설계하면 불필요한 오답 생성을 줄일 수 있다
멀티턴 코드 생성 파이프라인에서: 실행 피드백을 주기 전에 CoT 추론 프롬프트(문제 속성 예측, 자연어 솔루션 생성)를 먼저 넣으면 단순 실행 결과만 넣는 것보다 성능이 좋다

Code Example

snippet

# Think-in-Memory 패턴 — 멀티턴 대화에서 핵심 포인트를 저장/검색
import hashlib

class TurnMemory:
    def __init__(self):
        self.memory = {}  # hash -> thought
    
    def save_thought(self, thought: str):
        key = hashlib.md5(thought.encode()).hexdigest()[:8]
        self.memory[key] = thought
        return key
    
    def retrieve_relevant(self, query: str, top_k: int = 3) -> list[str]:
        # 실제로는 임베딩 유사도 검색 사용
        return list(self.memory.values())[:top_k]

memory = TurnMemory()

def chat_with_memory(user_input: str, llm_call):
    # 관련 기억 검색
    relevant = memory.retrieve_relevant(user_input)
    context = "\n".join([f"- {t}" for t in relevant])
    
    # 메모리 포함 프롬프트
    prompt = f"""Previous context:\n{context}\n\nUser: {user_input}\nAssistant:"""
    response = llm_call(prompt)
    
    # 이번 턴 핵심을 메모리에 저장
    summary_prompt = f"One key point from this exchange: {user_input} -> {response}"
    thought = llm_call(summary_prompt)
    memory.save_thought(thought)
    
    return response

Terminology

LLM-as-a-JudgeGPT-4 같은 강력한 모델을 심판으로 써서 다른 모델 답변을 자동으로 평가하는 방법. 사람이 직접 채점하는 것보다 빠르고 재현 가능하며, 사람 평가와 높은 상관관계를 보임.

DPODirect Preference Optimization. 좋은 답변/나쁜 답변 쌍을 주고 모델이 좋은 걸 선택하도록 학습하는 방법. RLHF보다 구현이 단순하고 안정적.

SFTSupervised Fine-Tuning. 모범답안 데이터를 보여주고 따라하게 하는 지도학습 파인튜닝. 가장 기본적인 LLM 훈련 방식이지만, 자기 수정 같은 복잡한 능력 학습엔 한계가 있다.

RLHFReinforcement Learning from Human Feedback. 사람의 선호도 피드백으로 보상 신호를 만들어 강화학습으로 모델을 개선하는 방법. ChatGPT 훈련에 핵심적으로 사용됨.

CoTChain-of-Thought. 답을 바로 내지 않고 '단계별로 생각하기' 방식으로 중간 추론 과정을 명시하게 하는 프롬프팅 기법. 수학 문제나 논리 추론 성능이 크게 향상됨.

MDPMarkov Decision Process. 현재 상태에서 행동을 선택하고 다음 상태로 넘어가는 의사결정 모델. 대화를 MDP로 모델링하면 강화학습 알고리즘을 바로 적용할 수 있음.

RAGRetrieval-Augmented Generation. 모델이 답변할 때 외부 문서 DB에서 관련 내용을 검색해서 함께 넣어주는 방법. 모델 자체 지식의 한계를 외부 정보로 보완함.

Related Resources

Original Abstract (Expand)

Multi-turn interaction in the dialogue system research refers to a system's ability to maintain context across multiple dialogue turns, enabling it to generate coherent and contextually relevant responses. Recent advancements in large language models (LLMs) have significantly expanded the scope of multi-turn interaction, moving beyond chatbots to enable more dynamic agentic interactions with users or environments. In this paper, we provide a focused review of the multi-turn capabilities of LLMs, which are critical for a wide range of downstream applications, including conversational search and recommendation, consultation services, and interactive tutoring. This survey explores four key aspects: (1) the core model capabilities that contribute to effective multi-turn interaction, (2) how multi-turn interaction is evaluated in current practice, (3) the general algorithms used to enhance multi-turn interaction, and (4) potential future directions for research in this field.