Gemini Robotics 소개
- Google DeepMind는 Gemini 2.0 기반의 모델을 로봇 공학에 도입하여 복잡한 문제를 해결하는 데 진전을 이루었음.
- Gemini Robotics는 시각-언어-행동(VLA) 모델로, 로봇을 직접 제어하기 위한 물리적 행동을 출력으로 추가하여 개발되었음.
- Gemini Robotics-ER은 고급 공간 이해를 갖춘 모델로, 로봇 공학자들이 Gemini의 구현된 추론(ER) 능력을 활용할 수 있게 함.
- Apptronik과 협력하여 차세대 인간형 로봇을 개발 중이며, 신뢰할 수 있는 테스트 사용자와 함께 Gemini Robotics-ER의 미래를 안내하고 있음.
Gemini Robotics: 가장 진보된 시각-언어-행동 모델
일반성
- Gemini Robotics는 새로운 상황에 적응하고 다양한 작업을 수행할 수 있는 능력을 갖추고 있음.
- 새로운 객체, 다양한 지시사항, 새로운 환경에 대한 적응력이 뛰어남.
- 기존 모델 대비 일반화 벤치마크에서 두 배 이상의 성능을 보임.
상호작용성
- Gemini Robotics는 사람과 환경과의 상호작용을 원활하게 수행할 수 있음.
- 일상적인 대화 언어로 된 명령을 이해하고 반응할 수 있으며, 다양한 언어로도 가능함.
- 환경 변화나 지시사항에 따라 행동을 조정하는 능력을 가짐.
손재주
- 복잡한 다단계 작업을 수행할 수 있는 능력을 갖추고 있음.
- 정교한 조작이 필요한 작업도 수행 가능함.
다양한 구현
- 다양한 로봇 유형에 쉽게 적응할 수 있도록 설계됨.
- ALOHA 2 플랫폼을 기반으로 훈련되었으며, 다양한 로봇에 적용 가능함.
Gemini의 세계 이해력 향상
- Gemini Robotics-ER은 공간 추론을 통해 Gemini의 세계 이해력을 향상시킴.
- 로봇 제어에 필요한 모든 단계를 수행할 수 있으며, 코드 생성 능력을 갖춤.
- 구현된 추론 능력에서 뛰어난 성과를 보이며, 3D 객체 탐지 및 지점 찾기 등에서 우수함.
AI와 로봇 공학의 책임 있는 발전
-
연구의 안전성을 보장하기 위해 다층적 접근 방식을 채택하고 있음.
-
로봇의 물리적 안전과 주변 사람들의 안전을 보장하기 위한 조치를 취하고 있음.
-
새로운 데이터셋을 출시하여 구현된 AI와 로봇 공학의 의미적 안전성을 평가하고 개선할 계획임.
-
사회적 영향을 평가하기 위해 다양한 전문가와 협력하고 있음.
-
Gemini Robotics-ER 모델은 Apptronik과의 협력 외에도 Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools와 같은 신뢰할 수 있는 테스트 사용자에게 제공되고 있음.