마이크로소프트(MS)가 사람의 말을 자동으로 텍스트로 변환하는 음성 생성 모델과 이미지 생성 특화 인공지능(AI) 모델을 내놨다.
사티아 나델라 MS 최고경영자(CEO)는 2일(현지시간) 링크드인을 통해 “모든 개발자에게 ‘MAI(MS AI)’ 모델 제품군을 제공하게 됐다”며 음성 받아쓰기 모델 ‘MAI-트랜스크라이브-1’, 음성 생성 모델 ‘MAI-보이스-1’, 이미지 생성 모델 ‘MAI-이미지-2’를 소개했다.
MAI-트랜스크라이브-1은 영어와 한국어 등 25개 언어를 인식한다. MS는 이 모델이 다국어로 진행되는 국제 회의장과 시끄러운 카페·콘서트 현장 등에서도 음성을 또렷하게 인식할 수 있다고 강조했다.
MAI-보이스-1은 몇 초 길이의 음성 데이터만으로도 맞춤형 음성을 생성하고, 60초 분량의 오디오를 단 1초 만에 만들어낼 수 있다. 이를 통해 콜센터 자동화, 가상 비서, 실시간 음성 인터페이스 등 다양한 서비스를 구현할 수 있다고 회사 측은 설명했다.
강경주 기자 qurasoha@hankyung.com

1 hour ago
1












English (US) ·