Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs
TL;DR Highlight
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
Who Should Read
멀티모달 LLM을 활용해 이미지 내 공간 관계(위치, 방향, 거리 등)를 분석하는 서비스를 개발 중인 ML 엔지니어. 또는 CoT 프롬프팅을 기본값으로 사용하는 AI 애플리케이션 개발자.
Core Mechanics
- CoT(Chain-of-Thought, 단계별 추론을 텍스트로 출력하는 기법) 프롬프팅이 수학·논리 과제와 달리 시각적 공간 추론에서는 평균 3% 정확도를 떨어뜨린다.
- RL(강화학습)로 훈련된 MRM(Multimodal Reasoning Model, 추론 특화 멀티모달 모델) 8개 중 7개가 베이스 모델인 Qwen2.5-VL-7B-Instruct보다 공간 추론 성능이 낮다. 즉, 비싼 훈련이 오히려 역효과.
- 공간 추론에 특화 훈련된 ViGoRL-7B-Spatial도 베이스 대비 −2%, TreeVGR도 −1.57%로 언더퍼폼. 유일한 예외는 Vision-G1(+0.6%).
- No-Image++ 실험: 이미지를 회색 빈 화면으로 교체하고 '이미지로는 판단 불가' 선택지를 추가해도, MRM들은 텍스트 지식 기반으로 공간 좌표까지 지어내며 틀린 답을 자신 있게 선택한다.
- GPT-5, GPT-5-nano도 Non-CoT가 CoT보다 각각 +0.65%, +1.23% 높아 오픈소스 모델과 같은 경향을 보인다. GPT-4o·GPT-4.1-mini는 미미한 CoT 이득(0.5% 미만)이 있지만 추가 추론 비용 대비 실익이 없다.
- CoT 트레이스가 짧고 반복 없이 간결한 모델(GPT 계열, 평균 ~350자)이 긴 루프·'wait' 반복이 많은 오픈소스 모델(~3600자)보다 성능 저하가 덜하다. 장황한 추론이 환각을 유발하는 것으로 추정.
Evidence
- 17개 모델 × 13개 공간 벤치마크 평균에서 CoT 프롬프팅이 Non-CoT 대비 평균 3% 정확도 하락. Qwen2.5-VL-7B 기준 Non-CoT 62.68% vs CoT 59.68%.
- GThinker-7B는 Non-CoT 프롬프트를 쓸 때 CoT 대비 −23.14%로 가장 큰 낙폭. Non-CoT 지시를 따르지 못하고 tool_call 토큰을 max token까지 반복 출력.
- No-Image++ 실험에서 MRM들의 '이미지로 판단 불가' 정답 선택률: GThinker 5.55%, R1-Onevision 11.22%, Vision-R1 7.29%로 랜덤 수준 이하. 베이스 Qwen2.5-VL-7B는 76.41%로 훨씬 높음.
- Qwen3-VL-8B-Thinking(공간 인식 강화 모델)도 13개 데이터셋 중 8개에서 Non-CoT가 CoT를 앞서며 평균 +0.64% 차이.
How to Apply
- 멀티모달 앱에서 '이미지 내 물체 위치/방향/거리' 질문을 처리할 때, CoT 프롬프트 대신 직접 답변 요청 프롬프트(Non-CoT)로 바꾸면 된다. 예: 'You are a spatial-reasoning assistant. 질문에 바로 답하라'처럼 think 태그 없이 설정.
- 공간 추론 파이프라인에 CoT 모델(GThinker, ViGoRL 등 MRM)을 쓰고 있다면, 같은 베이스인 Qwen2.5-VL-7B-Instruct를 Non-CoT로 돌리는 것과 성능을 비교해볼 것. 비용과 지연 모두 절감 가능.
- 시각적 공간 판단이 핵심인 기능(예: 로봇 내비게이션, 이미지 내 객체 관계 추출)에 모델 환각을 줄이려면, 빈 이미지 입력 + '판단 불가' 선택지를 추가하는 No-Image++ 스타일의 내부 신뢰도 테스트를 QA 파이프라인에 포함시킬 수 있다.
Code Example
# Non-CoT 프롬프트 예시 (공간 추론 태스크)
base_system_prompt = "You are a spatial-reasoning assistant. The user asks a question, and the Assistant solves it."
# CoT 프롬프트 (쓰지 말 것 - 공간 과제에서 성능 하락)
cot_system_prompt = (
"You are a spatial-reasoning assistant. "
"First output the thinking process in <think></think> tags "
"and then output the final answer in <answer></answer> tags."
)
# 권장: Non-CoT로 직접 호출
messages = [
{"role": "system", "content": base_system_prompt},
{
"role": "user",
"content": [
{"type": "image", "image": "<your_image_path_or_url>"},
{"type": "text", "text": "Where is the red box relative to the blue sphere?\nOptions:\nA. Left\nB. Right\nC. Above\nD. Below\nPlease select the correct answer (letter and option text) from the options above."}
]
}
]
# No-Image++ 신뢰도 테스트: 빈 이미지 + 판단불가 옵션 추가
def add_cannot_determine_option(options: list[str]) -> list[str]:
return options + ["Cannot determine from the image"]
# 모델이 빈 이미지에서도 '판단불가'를 고르지 않으면 → 환각 위험 신호Terminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.
Related Resources
Original Abstract (Expand)
Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.