제미니 로보틱스

2 days ago 2

Gemini Robotics 소개

Google DeepMind는 Gemini 2.0 기반의 모델을 로봇 공학에 도입하여 복잡한 문제를 해결하는 데 진전을 이루었음.
Gemini Robotics는 시각-언어-행동(VLA) 모델로, 로봇을 직접 제어하기 위한 물리적 행동을 출력으로 추가하여 개발되었음.
Gemini Robotics-ER은 고급 공간 이해를 갖춘 모델로, 로봇 공학자들이 Gemini의 구현된 추론(ER) 능력을 활용할 수 있게 함.
Apptronik과 협력하여 차세대 인간형 로봇을 개발 중이며, 신뢰할 수 있는 테스트 사용자와 함께 Gemini Robotics-ER의 미래를 안내하고 있음.

Gemini Robotics: 가장 진보된 시각-언어-행동 모델

일반성

Gemini Robotics는 새로운 상황에 적응하고 다양한 작업을 수행할 수 있는 능력을 갖추고 있음.
새로운 객체, 다양한 지시사항, 새로운 환경에 대한 적응력이 뛰어남.
기존 모델 대비 일반화 벤치마크에서 두 배 이상의 성능을 보임.

상호작용성

Gemini Robotics는 사람과 환경과의 상호작용을 원활하게 수행할 수 있음.
일상적인 대화 언어로 된 명령을 이해하고 반응할 수 있으며, 다양한 언어로도 가능함.
환경 변화나 지시사항에 따라 행동을 조정하는 능력을 가짐.

손재주

복잡한 다단계 작업을 수행할 수 있는 능력을 갖추고 있음.
정교한 조작이 필요한 작업도 수행 가능함.

다양한 구현

다양한 로봇 유형에 쉽게 적응할 수 있도록 설계됨.
ALOHA 2 플랫폼을 기반으로 훈련되었으며, 다양한 로봇에 적용 가능함.

Gemini의 세계 이해력 향상

Gemini Robotics-ER은 공간 추론을 통해 Gemini의 세계 이해력을 향상시킴.
로봇 제어에 필요한 모든 단계를 수행할 수 있으며, 코드 생성 능력을 갖춤.
구현된 추론 능력에서 뛰어난 성과를 보이며, 3D 객체 탐지 및 지점 찾기 등에서 우수함.

AI와 로봇 공학의 책임 있는 발전

연구의 안전성을 보장하기 위해 다층적 접근 방식을 채택하고 있음.
로봇의 물리적 안전과 주변 사람들의 안전을 보장하기 위한 조치를 취하고 있음.
새로운 데이터셋을 출시하여 구현된 AI와 로봇 공학의 의미적 안전성을 평가하고 개선할 계획임.
사회적 영향을 평가하기 위해 다양한 전문가와 협력하고 있음.
Gemini Robotics-ER 모델은 Apptronik과의 협력 외에도 Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools와 같은 신뢰할 수 있는 테스트 사용자에게 제공되고 있음.

Read Entire Article