Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다

TL;DR Highlight

CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.

Who Should Read

멀티모달 LLM을 활용해 이미지 내 공간 관계(위치, 방향, 거리 등)를 분석하는 서비스를 개발 중인 ML 엔지니어. 또는 CoT 프롬프팅을 기본값으로 사용하는 AI 애플리케이션 개발자.

Core Mechanics

CoT(Chain-of-Thought, 단계별 추론을 텍스트로 출력하는 기법) 프롬프팅이 수학·논리 과제와 달리 시각적 공간 추론에서는 평균 3% 정확도를 떨어뜨린다.
RL(강화학습)로 훈련된 MRM(Multimodal Reasoning Model, 추론 특화 멀티모달 모델) 8개 중 7개가 베이스 모델인 Qwen2.5-VL-7B-Instruct보다 공간 추론 성능이 낮다. 즉, 비싼 훈련이 오히려 역효과.
공간 추론에 특화 훈련된 ViGoRL-7B-Spatial도 베이스 대비 −2%, TreeVGR도 −1.57%로 언더퍼폼. 유일한 예외는 Vision-G1(+0.6%).
No-Image++ 실험: 이미지를 회색 빈 화면으로 교체하고 '이미지로는 판단 불가' 선택지를 추가해도, MRM들은 텍스트 지식 기반으로 공간 좌표까지 지어내며 틀린 답을 자신 있게 선택한다.
GPT-5, GPT-5-nano도 Non-CoT가 CoT보다 각각 +0.65%, +1.23% 높아 오픈소스 모델과 같은 경향을 보인다. GPT-4o·GPT-4.1-mini는 미미한 CoT 이득(0.5% 미만)이 있지만 추가 추론 비용 대비 실익이 없다.
CoT 트레이스가 짧고 반복 없이 간결한 모델(GPT 계열, 평균 ~350자)이 긴 루프·'wait' 반복이 많은 오픈소스 모델(~3600자)보다 성능 저하가 덜하다. 장황한 추론이 환각을 유발하는 것으로 추정.

Evidence

17개 모델 × 13개 공간 벤치마크 평균에서 CoT 프롬프팅이 Non-CoT 대비 평균 3% 정확도 하락. Qwen2.5-VL-7B 기준 Non-CoT 62.68% vs CoT 59.68%.
GThinker-7B는 Non-CoT 프롬프트를 쓸 때 CoT 대비 −23.14%로 가장 큰 낙폭. Non-CoT 지시를 따르지 못하고 tool_call 토큰을 max token까지 반복 출력.
No-Image++ 실험에서 MRM들의 '이미지로 판단 불가' 정답 선택률: GThinker 5.55%, R1-Onevision 11.22%, Vision-R1 7.29%로 랜덤 수준 이하. 베이스 Qwen2.5-VL-7B는 76.41%로 훨씬 높음.
Qwen3-VL-8B-Thinking(공간 인식 강화 모델)도 13개 데이터셋 중 8개에서 Non-CoT가 CoT를 앞서며 평균 +0.64% 차이.

How to Apply

멀티모달 앱에서 '이미지 내 물체 위치/방향/거리' 질문을 처리할 때, CoT 프롬프트 대신 직접 답변 요청 프롬프트(Non-CoT)로 바꾸면 된다. 예: 'You are a spatial-reasoning assistant. 질문에 바로 답하라'처럼 think 태그 없이 설정.
공간 추론 파이프라인에 CoT 모델(GThinker, ViGoRL 등 MRM)을 쓰고 있다면, 같은 베이스인 Qwen2.5-VL-7B-Instruct를 Non-CoT로 돌리는 것과 성능을 비교해볼 것. 비용과 지연 모두 절감 가능.
시각적 공간 판단이 핵심인 기능(예: 로봇 내비게이션, 이미지 내 객체 관계 추출)에 모델 환각을 줄이려면, 빈 이미지 입력 + '판단 불가' 선택지를 추가하는 No-Image++ 스타일의 내부 신뢰도 테스트를 QA 파이프라인에 포함시킬 수 있다.

Code Example

snippet

# Non-CoT 프롬프트 예시 (공간 추론 태스크)
base_system_prompt = "You are a spatial-reasoning assistant. The user asks a question, and the Assistant solves it."

# CoT 프롬프트 (쓰지 말 것 - 공간 과제에서 성능 하락)
cot_system_prompt = (
    "You are a spatial-reasoning assistant. "
    "First output the thinking process in <think></think> tags "
    "and then output the final answer in <answer></answer> tags."
)

# 권장: Non-CoT로 직접 호출
messages = [
    {"role": "system", "content": base_system_prompt},
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "<your_image_path_or_url>"},
            {"type": "text", "text": "Where is the red box relative to the blue sphere?\nOptions:\nA. Left\nB. Right\nC. Above\nD. Below\nPlease select the correct answer (letter and option text) from the options above."}
        ]
    }
]

# No-Image++ 신뢰도 테스트: 빈 이미지 + 판단불가 옵션 추가
def add_cannot_determine_option(options: list[str]) -> list[str]:
    return options + ["Cannot determine from the image"]

# 모델이 빈 이미지에서도 '판단불가'를 고르지 않으면 → 환각 위험 신호

Terminology

CoTChain-of-Thought. 모델이 최종 답 전에 풀이 과정을 단계별로 텍스트로 쓰게 하는 기법. 수학 문제 풀 때 '풀이 보이기'를 시키는 것과 같음.

MRMMultimodal Reasoning Model. 이미지+텍스트를 동시에 받고, 답 전에 긴 추론 체인을 생성하도록 RL로 훈련된 모델. DeepSeek-R1의 멀티모달 버전이라고 보면 됨.

RLVRReinforcement Learning with Verifiable Rewards. 정답이 맞는지 자동으로 검증 가능한 보상 신호(예: 수식 정답 여부)를 이용해 모델을 강화학습시키는 방법.

SFTSupervised Fine-Tuning. 모범 답안 데이터를 보여주고 따라하게 학습시키는 방식. 학교에서 예시 풀이를 보고 따라 푸는 것과 같음.

No-Image++이 논문이 고안한 환각 탐지 실험. 이미지를 회색 빈 화면으로 바꾸고 '이미지로 판단 불가' 선택지를 추가해, 모델이 시각 정보 없이 텍스트 지식만으로 답하는지 확인하는 테스트.

GRPOGroup Relative Policy Optimization. 여러 샘플 그룹의 상대적 보상을 기준으로 정책을 업데이트하는 강화학습 알고리즘. DeepSeek 계열 모델에서 많이 사용됨.

shortcut learning모델이 진짜 이해 대신 데이터의 통계적 패턴(예: '동굴은 보통 나무 아래 있다')에 의존해 답을 맞추는 현상. 새로운 상황에서 쉽게 틀림.

Related Resources

Original Abstract (Expand)

Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.