Open AI의 Whisper 도 써보고, NCP의 Clova도 써봤는데, 한국어 다중화자 구분이 생각보다 많이 어려운거 같아요.
혹시 사용해보신 로컬 or 클라우드, 상용 모델 중에 추천해 주실 만한 것들이 있을까요?
예상 프로세스는
- 콘텐츠 수집 > 오디오 분리(Music와 Effect, Voice) > 오디오 파형분석 > 오디오 내 다중 화자 분리 > 다중 화자 기준 STT 진행 > 타임코드 정보 기반 대본 제작 이런 순으로 해볼 예정입니다.
결과물에 따라 더빙/자막제작 까지도 확장이 가능해 보입니다.
제가 보는 기준은 다음과 같습니다.
- 오디오 분리의 산출물의 결과가 어떻나?
- 오디오 기준으로 동일 인물의 목소리 인지 구분이 가능한가?
많은 고견 부탁드립니다!

3 days ago
7



![[사설] ‘AI 괴물 해커’ 등장, 북한이 가장 관심 있을 것](https://www.chosun.com/resizer/v2/4VXZD5TPHZJIXRV5YQ4T2ETGLQ.jpg?auth=67f6c152837c4859d2d377d7790c043d6ead2ef97e5bc8589c6f83789aa94a72&smart=true&width=720&height=532)

![[천자칼럼] 인간 이긴 로봇 마라토너](https://static.hankyung.com/img/logo/logo-news-sns.png?v=20201130)



English (US) ·