ManiTwin: 로봇 조작 학습용 Digital Object Dataset 10만 개로 확장

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

Mar 17, 2026•Kaixuan Wang, Tianxing Chen, Jiawei Liu +13•View PDF

TL;DR Highlight

이미지 한 장으로 물리 시뮬레이션 바로 쓸 수 있는 3D 로봇 조작 데이터셋 10만 개를 자동 생성하는 파이프라인

Who Should Read

로봇 조작 정책 학습을 위한 시뮬레이션 데이터 생성 파이프라인을 구축하는 로보틱스 ML 엔지니어. 시뮬레이션 학습용 3D 에셋 확보에 어려움을 겪는 연구자.

Core Mechanics

이미지 한 장 → 시뮬레이션 바로 올릴 수 있는 3D 메시로 자동 변환 (CLAY 모델 사용, 약 45초/개)
VLM이 물리 속성(질량, 마찰계수, 크기), 기능 포인트(손잡이·주둥이·버튼), 파지 포인트를 자동 어노테이션
GraspGen(확산 모델 기반 파지 생성기)으로 물체당 최대 4,000개 파지 후보 생성 → SAPIEN 시뮬레이터로 물리 검증
ManiTwin-100K: 512개 카테고리, 10만 개 물체, 검증된 파지 포즈 500만 개, 자동 생성된 파지 궤적 1,000만 개
Franka Panda로 검증한 파지 어노테이션이 다른 로봇 플랫폼(병렬 그리퍼, 다관절 손 등)으로도 전이 가능
로봇 VQA 데이터 자동 생성도 지원: 언어 그라운딩, 기능 계획, 태스크 플래닝 등 5개 카테고리

Evidence

인간 평가 500개 샘플 기준 카테고리 분류 100%, 언어 설명 99.6%, 기능 포인트 레이블 92.2%, 물리 속성 추정 92.2%, 파지 포인트 선택 84.8% 정확도
3D 생성 성공률 69.67%, 파지 시뮬레이션 검증 통과율 76.13% (물체당 평균 62.14개 검증된 파지 유지)
이미지→3D 생성 시 CLIP(I-I/T) 0.7769, CLIP(N-I/T) 0.6848로 텍스트→3D(각 0.2324, 0.1948) 대비 훨씬 높은 정렬도
기존 로보틱스 특화 데이터셋 RoboTwin-OD(731개), GAPartNet(4K)과 달리 시뮬레이션 준비 + 파지 + 기능 + 언어 어노테이션 모두 갖춘 데이터셋을 10만 개 규모로 제공

How to Apply

e-커머스 제품 이미지나 text-to-image 생성 이미지를 ManiTwin 파이프라인에 입력하면 시뮬레이터 바로 로드 가능한 3D 에셋 + 파지 포즈를 자동 확보할 수 있음
ManiTwin-100K 데이터셋에서 원하는 카테고리 물체를 불러와 SAPIEN/Isaac Gym 등 시뮬레이터에 직접 로드한 뒤, 제공된 6-DoF 파지 포즈로 pick-and-place 궤적 데이터 대량 생성 가능
VQA 데이터가 필요한 경우, 레이아웃 생성 기능으로 여러 물체를 테이블에 배치하고 기능 포인트·언어 어노테이션을 활용해 언어-행동 정렬 학습용 QA 쌍 자동 생성

Terminology

6-DoF grasp pose로봇 그리퍼가 물체를 잡을 때의 3D 위치(x,y,z) + 3D 방향(롤,피치,요)을 합친 6개 자유도 자세. 어느 각도에서 어떻게 잡을지를 완전히 기술함.

FPS (Farthest Point Sampling)점구름에서 서로 최대한 멀리 떨어진 대표 점들을 고르는 알고리즘. 물체 표면을 고르게 커버하는 후보 포인트를 선택할 때 사용.

VLM (Vision-Language Model)이미지와 텍스트를 함께 이해하는 AI 모델. 여기선 3D 물체 렌더링을 보고 '이건 손잡이', '마찰계수는 0.4' 같은 어노테이션을 자동 생성하는 데 씀.

SAPIEN로봇 물리 시뮬레이션 플랫폼. 파지 포즈가 실제로 물체를 안정적으로 들 수 있는지 가상 환경에서 테스트하는 데 사용됨.

GraspGen점구름 입력을 받아 안정적인 파지 자세를 예측하는 확산 모델 기반 학습 방법. 물체당 수천 개의 파지 후보를 생성함.

sim-to-real gap시뮬레이션에서 학습한 로봇 정책이 실제 환경에서 잘 안 되는 현상. 물리 속성이나 외형이 현실과 다를수록 갭이 커짐.

affordance (어포던스)물체에서 어떤 행동이 가능한지를 나타내는 속성. 컵의 손잡이는 '잡기'가 가능하고, 주전자 주둥이는 '붓기'가 가능한 것이 어포던스의 예.

Related Resources

ManiTwin 프로젝트 페이지

Original Abstract (Expand)

Learning in simulation provides a useful foundation for scaling robotic manipulation capabilities. However, this paradigm often suffers from a lack of data-generation-ready digital assets, in both scale and diversity. In this work, we present ManiTwin, an automated and efficient pipeline for generating data-generation-ready digital object twins. Our pipeline transforms a single image into simulation-ready and semantically annotated 3D asset, enabling large-scale robotic manipulation data generation. Using this pipeline, we construct ManiTwin-100K, a dataset containing 100K high-quality annotated 3D assets. Each asset is equipped with physical properties, language descriptions, functional annotations, and verified manipulation proposals. Experiments demonstrate that ManiTwin provides an efficient asset synthesis and annotation workflow, and that ManiTwin-100K offers high-quality and diverse assets for manipulation data generation, random scene synthesis, and VQA data generation, establishing a strong foundation for scalable simulation data synthesis and policy learning. Our webpage is available at https://manitwin.github.io/.