Loc3R-VLM: Vision-Language Model에 Language 기반 Localization과 3D Reasoning 능력 추가하기

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Mar 18, 2026•Kevin Qu, Haozhe Qi, Mihai Dusmanu +3•View PDF

TL;DR Highlight

일반 단안 비디오만으로 VLM에 3D 공간 이해와 자기 위치 추론 능력을 붙이는 프레임워크

Who Should Read

로보틱스, 자율주행, 공간 AI 서비스를 개발하면서 VLM에 3D 공간 인식 기능을 추가하고 싶은 ML 엔지니어. 포인트 클라우드 없이 일반 비디오 입력으로 'AI가 지금 어디 있고 어느 방향을 보고 있는가'를 파악하는 시스템을 만들고 싶은 연구자나 개발자.

Core Mechanics

포인트 클라우드(3D 점 데이터) 없이 일반 단안 비디오만으로 기존 3D 입력 기반 모델을 위치 추정 정확도에서 압도함 (Acc@0.5m 기준 +25.2%, Acc@1.0m 기준 +39.0%)
LLaVA-Video-7B 기반에 두 가지 공간 학습 목표를 추가: ① BEV(Bird's-Eye-View, 위에서 내려다본 2D 지도) 레이아웃 재구성으로 전체 장면 구조 학습, ② <Pos>/<Ori> 특수 토큰으로 에이전트 위치·방향 명시적 추정
CUT3R(사전학습된 3D foundation model)에서 카메라 토큰만 뽑아 VLM 입력 앞에 붙이는 경량 방식으로 메트릭 스케일(실제 미터 단위) 위치 정렬 달성 — 지오메트리 토큰까지 쓰면 오히려 성능 하락
위치 추정이 정확할 때 QA 정확도도 높고(EM-R 기준 눈에 띄는 차이), 위치 불확실도(σpos)가 높으면 실제로 위치 추정이 틀린 경우 — 불확실도가 신뢰도 지표로 실제 작동
VSI-Bench에서 평균 63.2점으로 2D MLLM 중 1위, SQA3D에서 EM 62.8로 2D 방법 전체 1위 및 대부분의 3D 방법도 능가
3D foundation model을 CUT3R에서 VGGT로 바꿔도 성능이 거의 동일해 특정 모델에 종속되지 않음

Evidence

Language-based Localization(SQA3D): 기존 최강 베이스라인 View2Cap 대비 Acc@0.5m 17.4→42.6(+25.2%p), Acc@1.0m 36.9→75.9(+39.0%p), Acc@15° 24.1→38.4(+14.3%p), Acc@30° 28.5→63.0(+34.5%p)
VSI-Bench 전체 63.2점 — GPT-4o 34.0, Gemini-1.5-Pro 45.4, 가장 가까운 generalist 2위 VG-LLM-8B 50.7 대비 큰 격차
MSQA spatial 서브카테고리 57.6점(2위 대비 +11.1%p), Beacon3D spatial 64.7점(2위 대비 +9.4%p)로 공간 추론 항목에서 특히 강세
추론 효율: RTX 4090 기준 CUT3R 인코딩 1.2s, 전체 TTFT 2.6s, VRAM 추가 사용량 +6.8%(20.3GB vs 19.0GB) — 같은 비디오에 여러 질문 시 인코딩 캐싱 가능

How to Apply

로봇이나 AR 앱에서 '나는 지금 어디 있고 어느 방향을 보나'를 텍스트로 설명하면 모델이 위치·방향을 추정하게 하려면: 상황 설명 텍스트 뒤에 <Pos>, <Ori> 토큰을 삽입하고, 각각에 연결된 경량 MLP 헤드로 BEV 좌표와 각도 bin을 예측하는 구조를 추가하면 됨
기존 VLM 파이프라인에 3D 공간 인식을 추가하고 싶지만 포인트 클라우드 데이터가 없는 경우: CUT3R 또는 VGGT 같은 3D foundation model에서 카메라 토큰만 추출해 MLP로 언어 임베딩 공간에 투영한 뒤 각 프레임의 vision token sequence 맨 앞에 붙이면 됨 (geometry token은 쓰지 않는 게 더 좋음)
실내 공간 QA 서비스에서 '내 왼쪽에 뭐가 있어?' 같은 시점 의존적 질문을 처리하려면: 32프레임 단안 비디오를 입력으로 BEV 레이아웃 재구성 보조 학습(LBEV)과 상황 모델링(Lsit)을 joint loss로 파인튜닝하면 시점 인식 추론 능력이 생김

Code Example

snippet

# Loc3R-VLM의 핵심 구조 pseudocode

# 1. CUT3R에서 카메라 토큰 추출 (프레임당 1개)
for frame_t in video_frames:  # 32 frames
    F_t = cut3r_encoder(frame_t)          # vision feature tokens
    z_t, F_t_prime, s_t = cut3r_decoder(z, F_t, s_prev)  # z_t = camera token
    c_t = fcam_mlp(z_t)                   # 언어 임베딩 공간으로 투영
    v_t = siglip_encoder(frame_t)         # SigLIP vision tokens
    X_aug_t = concat([c_t, v_t])          # 카메라 토큰을 vision tokens 앞에 붙임

# 2. 상황 설명과 질문 사이에 <Pos>, <Ori> 토큰 삽입
input_ids = tokenize(situation_text) + [POS_TOKEN, ORI_TOKEN] + tokenize(question_text)

# 3. LLM forward pass 후 위치·방향 헤드로 디코딩
hidden_states = llm(input_ids, visual_tokens=X_aug_all)
pos_hidden = hidden_states[POS_TOKEN_IDX]   # <Pos> 토큰의 hidden state
ori_hidden = hidden_states[ORI_TOKEN_IDX]   # <Ori> 토큰의 hidden state

pos_pred, sigma_pos = fpos_mlp(pos_hidden)  # BEV 좌표 (x, y) + 불확실도
ori_logits = fori_mlp(ori_hidden)           # 36개 방향 bin 로짓

# 4. 학습 손실 (joint objective)
L_total = L_CE + 0.05 * L_BEV + 0.075 * (L_pos + 3.5 * L_ori)

# 추론 시 방향 복원 (circular soft-argmax)
probs = softmax(ori_logits)
v = sum(probs[b] * [cos(theta_b), sin(theta_b)] for b in range(36))
theta_pred = atan2(v[1], v[0])

Terminology

BEVBird's-Eye-View의 약자. 드론으로 위에서 내려다본 것처럼 3D 공간을 2D 지도로 납작하게 펼친 표현. 내비게이션 앱 지도와 비슷한 개념.

VLMVision-Language Model. 이미지와 텍스트를 함께 이해하는 AI 모델. GPT-4o나 LLaVA처럼 '이 사진에서 뭐가 보여?'라고 물으면 대답하는 모델.

monocular video단안 비디오. 깊이 카메라나 LiDAR 없이 일반 카메라 한 대로 찍은 영상. 스마트폰 카메라로 찍은 영상이 여기에 해당.

CUT3R논문에서 카메라 포즈(위치·방향) 정보를 추출하는 데 사용한 사전학습된 3D foundation model. 비디오 프레임들로부터 각 프레임의 카메라가 어디에 있었는지 추정.

situated QA상황 인식 질문답변. '내가 창문을 바라보고 있고 왼쪽에 파란 박스가 있을 때, 오른쪽에 뭐가 있어?' 같이 화자의 시점·위치가 중요한 QA 태스크.

GNLLGaussian Negative Log-Likelihood. 예측값이 얼마나 틀렸는지 측정하는 손실 함수인데, 불확실한 예측은 자동으로 덜 패널티를 받도록 설계됨. 모델이 '나 잘 모르겠어'라고 솔직하게 말할 수 있게 해주는 장치.

point cloud3D 공간의 수많은 점들의 집합. LiDAR나 깊이 카메라로 스캔하면 얻을 수 있는 데이터. 정확하지만 장비가 필요하고 데이터 수집이 어려움.

Related Resources

Loc3R-VLM 프로젝트 페이지

Original Abstract (Expand)

Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm