구글 딥마인드, 음성·영상·카메라 활용해 도움주는 'AI 어시스턴트' 개발

2 days ago 1

마니쉬 굽타 구글 딥마인드 시니어 디렉터가 2일 서울 역삼동 조선팰리스에서 열린 미디어 브리핑에서 '이매진 4'를 소개하고 있다. 굽타 디렉터는 구글 딥마인드 아시아태평양지역 AI 연구를 총괄한다. ⓒ박종진기자

구글 딥마인드가 텍스트뿐만 아니라 음성·영상·카메라를 활용하는 인공지능(AI) 어시스턴트를 개발한다. AI와 대화는 물론, 카메라를 통해 상황까지 공유하며 문제 해결과 조언·도움을 제공하는 어시스턴트다.

마니쉬 굽타 구글 딥마인드 시니어 디렉터는 2일 미디어 브리핑에서 “AI는 공상과학(SF) 영화나 상상 속 존재가 아니라 현실로 구현되고 있다”며 이같이 밝혔다. 음성인식(STT)과 합성(TTS)뿐만 아니라 텍스트로 이미지와 영상 등을 구현하는 AI 모델 '제미나이'를 활용한다.

구글 딥마인드는 거대언어모델(LLM) 중심에서 이미지, 음성, 영상, 코딩 처리 등이 가능한 AI 모델로 제미나이를 고도화하고 있다. 최근 공개된 '제미나이 2.5'가 결과물이다.

텍스트를 이미지로 만드는 '이매진 4'와 텍스트를 영상으로 생성하는 '비오3' 기능을 탑재, 고도화하고 있다. 추상화나 사진과 흡사한 고해상도 이미지와 영상을 만들어내고 영상에 음성을 입히는 것은 물론, AI 음악 생성 툴 '리디아'를 활용해 텍스트와 음성인식으로 작곡도 가능해졌다.

굽타 디렉터는 “한국어를 포함해 다른 언어도 영어로 명령을 했을 때와 동일 품질의 결과를 얻도록 차이 최소화에 집중하고 있고, 언어뿐만 아니라 문화를 이해할 수 있도록 영상이나 콘퍼런스 등으로 학습하고 있다”고 말했다.

구글 딥마인드는 '인류에 혜택을 주기 위한 책임감 있는 AI 구축'을 목표로 한다. 굽타 디렉터는 “AI가 인류에게 가장 유익한 기술이 될 것”이라고 강조했다.

대표 사례로 지난해 허사비스 CEO의 노벨화학상 수상 계기가 된 '알파폴드'를 소개했다. 알파폴드는 단백질 접힘 구조를 예측하는 오픈소스 기반 AI 도구다. 단백질을 이루는 3차원 입체 구조를 예측하고 해독, 단백질과 상호작용하는 화합물을 확인해 신약 개발 등에 활용되고 있다.

굽타 디렉터는 “세계 200만명 이상 연구원들이 알파포드 정보를 활용하고 있다”며 “항생제 개발은 물론, 구조생물학, 플라스틱 분해 효소 만드는 데도 사용해 환경오염도 줄일 것”이라고 설명했다. 이어 “6만5000명 이상 연구원은 알파폴드 단백질 구조 기술을 활용하는데 한국에서는 KAIST 교수의 암치료 목적 신약 개발 프로젝트가 대표적”이라고 부연했다.

이렇듯 구글 AI 모델이 지속 발전하는 근원은 딥러닝 모델 '트랜스포머 아키텍처'다.

굽타 디렉터는 “트랜스포머 아키텍처로 (AI가) 새로운 문제를 해결하는 데 있어 그동안 학습 경험을 활용하게 됐다”며 “사람과 유사하게 학습이 가능해졌고 전문성을 강화해 파운데이션 모델 개발로 이어졌다”고 설명했다.

구글 연구·문서 작성 특화 AI '노트북LM' 개발을 총괄하는 사이먼 토쿠미네 구글 랩스 디렉터가 2일 서울 역삼동 조선팰리스에서 열린 미디어 브리핑에서 구글 AI 연구 방향성인 '트랜스포메이션'과 '콜라보레이션' 철학을 설명하고 있다. ⓒ박종진기자

구글의 향후 AI 개발과 고도화는 트랜스포메이션과 콜라보레이션 중심으로 진행될 예정이다. AI 전환(AX) 등으로 업무 생산성을 극대화하고 일상에서 AI 활용 확대를 고려한 방향성이다.

사이먼 토쿠미네 구글 랩스 디렉터는 “사람들이 AI를 어떻게 활용하고, 사용자가 좋아하는 AI는 무엇인지 중요하게 보고 있다”며 “직장 동료 같이 코딩 업무를 돕고 한국어로도 사용 가능한 에이전트 '줄스'를 개발했고 이커머스 등 일상에서 도움을 주기 위한 AI 프로젝트를 가동 중”이라고 밝혔다.

박종진 기자 truth@etnews.com

Read Entire Article