ManiTwin: 로봇 조작 학습용 Digital Object Dataset 10만 개로 확장
ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K
TL;DR Highlight
이미지 한 장으로 물리 시뮬레이션 바로 쓸 수 있는 3D 로봇 조작 데이터셋 10만 개를 자동 생성하는 파이프라인
Who Should Read
로봇 조작 정책 학습을 위한 시뮬레이션 데이터 생성 파이프라인을 구축하는 로보틱스 ML 엔지니어. 시뮬레이션 학습용 3D 에셋 확보에 어려움을 겪는 연구자.
Core Mechanics
- 이미지 한 장 → 시뮬레이션 바로 올릴 수 있는 3D 메시로 자동 변환 (CLAY 모델 사용, 약 45초/개)
- VLM이 물리 속성(질량, 마찰계수, 크기), 기능 포인트(손잡이·주둥이·버튼), 파지 포인트를 자동 어노테이션
- GraspGen(확산 모델 기반 파지 생성기)으로 물체당 최대 4,000개 파지 후보 생성 → SAPIEN 시뮬레이터로 물리 검증
- ManiTwin-100K: 512개 카테고리, 10만 개 물체, 검증된 파지 포즈 500만 개, 자동 생성된 파지 궤적 1,000만 개
- Franka Panda로 검증한 파지 어노테이션이 다른 로봇 플랫폼(병렬 그리퍼, 다관절 손 등)으로도 전이 가능
- 로봇 VQA 데이터 자동 생성도 지원: 언어 그라운딩, 기능 계획, 태스크 플래닝 등 5개 카테고리
Evidence
- 인간 평가 500개 샘플 기준 카테고리 분류 100%, 언어 설명 99.6%, 기능 포인트 레이블 92.2%, 물리 속성 추정 92.2%, 파지 포인트 선택 84.8% 정확도
- 3D 생성 성공률 69.67%, 파지 시뮬레이션 검증 통과율 76.13% (물체당 평균 62.14개 검증된 파지 유지)
- 이미지→3D 생성 시 CLIP(I-I/T) 0.7769, CLIP(N-I/T) 0.6848로 텍스트→3D(각 0.2324, 0.1948) 대비 훨씬 높은 정렬도
- 기존 로보틱스 특화 데이터셋 RoboTwin-OD(731개), GAPartNet(4K)과 달리 시뮬레이션 준비 + 파지 + 기능 + 언어 어노테이션 모두 갖춘 데이터셋을 10만 개 규모로 제공
How to Apply
- e-커머스 제품 이미지나 text-to-image 생성 이미지를 ManiTwin 파이프라인에 입력하면 시뮬레이터 바로 로드 가능한 3D 에셋 + 파지 포즈를 자동 확보할 수 있음
- ManiTwin-100K 데이터셋에서 원하는 카테고리 물체를 불러와 SAPIEN/Isaac Gym 등 시뮬레이터에 직접 로드한 뒤, 제공된 6-DoF 파지 포즈로 pick-and-place 궤적 데이터 대량 생성 가능
- VQA 데이터가 필요한 경우, 레이아웃 생성 기능으로 여러 물체를 테이블에 배치하고 기능 포인트·언어 어노테이션을 활용해 언어-행동 정렬 학습용 QA 쌍 자동 생성
Terminology
Related Resources
Original Abstract (Expand)
Learning in simulation provides a useful foundation for scaling robotic manipulation capabilities. However, this paradigm often suffers from a lack of data-generation-ready digital assets, in both scale and diversity. In this work, we present ManiTwin, an automated and efficient pipeline for generating data-generation-ready digital object twins. Our pipeline transforms a single image into simulation-ready and semantically annotated 3D asset, enabling large-scale robotic manipulation data generation. Using this pipeline, we construct ManiTwin-100K, a dataset containing 100K high-quality annotated 3D assets. Each asset is equipped with physical properties, language descriptions, functional annotations, and verified manipulation proposals. Experiments demonstrate that ManiTwin provides an efficient asset synthesis and annotation workflow, and that ManiTwin-100K offers high-quality and diverse assets for manipulation data generation, random scene synthesis, and VQA data generation, establishing a strong foundation for scalable simulation data synthesis and policy learning. Our webpage is available at https://manitwin.github.io/.