"인터넷 느려도 OK" 상대방 얼굴 보고 0.3초 만에 대답하는 화상 통화 AI 등장

7 hours ago 1
"인터넷 느려도 OK" 상대방 얼굴 보고 0.3초 만에 대답하는 화상 통화 AI 등장

베이징대학교 연구팀이 사람과 AI가 마치 실제로 만나 대화하는 것처럼 자연스럽게 소통할 수 있는 새로운 기술을 개발했다. 이 연구는 AI와의 대화에서 발생하는 답답한 지연 시간을 획기적으로 줄여, AI가 실제 사람처럼 즉석에서 반응할 수 있도록 만드는 것이 목표다.

기존 화상통화는 사람끼리 하는 것이었지만, 이제는 AI와도 얼굴을 보며 대화할 수 있는 시대가 왔다. 하지만 AI가 비디오를 보고 이해한 뒤 답변하는 데 너무 오랜 시간이 걸려서, 마치 느린 인터넷처럼 답답한 경험을 주고 있었다. 연구팀은 이 문제를 해결하기 위해 'Artic'이라는 새로운 시스템을 만들었다.

AI가 답변하는 데 왜 이렇게 오래 걸릴까?

일반적인 화상통화에서는 상대방이 바로 대답할 수 있어서 주로 인터넷 속도가 문제였다. 그런데 AI와 화상통화를 할 때는 상황이 완전히 다르다. AI가 비디오를 보고 내용을 파악한 다음 적절한 답변을 만들어내는 과정이 필요하기 때문이다.

연구 결과에 따르면, AI가 음성만 듣고 답변하는 데도 최소 232밀리초(0.232초)가 걸린다. 자연스러운 대화를 위해서는 전체 응답 시간이 300밀리초(0.3초) 이내여야 하는데, 그러면 비디오 전송에 쓸 수 있는 시간은 고작 68밀리초밖에 남지 않는다. 이는 기존 기술로는 거의 불가능한 수준이다.

연구팀이 실험해 본 결과, 비디오 용량이 클수록 전송 시간이 늘어나고, 인터넷이 불안정하면 재전송으로 인해 더욱 지연된다는 것을 확인했다. 마치 고화질 동영상을 느린 인터넷으로 보려고 할 때 계속 멈추는 것과 같은 현상이다.

똑똑한 AI가 중요한 부분만 골라서 본다

연구팀이 개발한 첫 번째 핵심 기술은 AI가 대화 내용에 따라 비디오에서 정말 중요한 부분만 선별해서 보는 것이다. 마치 사람이 대화할 때 상황에 따라 상대방의 얼굴, 손짓, 배경 등 다른 부분에 집중하는 것과 같다. 예를 들어, 사용자가 "지금 게임 점수가 몇 대 몇이야?"라고 물으면 AI는 화면의 점수판 부분에만 집중한다. 이때는 비디오 화질을 크게 낮춰도 AI가 정확하게 답변할 수 있다. 반대로 "선수 유니폼에 있는 작은 로고가 뭐야?"라고 물으면 세밀한 부분을 봐야 하므로 해당 영역의 화질을 높게 유지해야 한다.

이 기술을 사용하면 놀라운 결과를 얻을 수 있다. 실험에서 비디오 용량을 절반으로 줄였을 때, 기존 방식으로는 AI의 정확도가 73%에서 33%로 급락했지만, 새로운 방식을 쓰면 93%에서 87%로 약간만 떨어졌다.

비디오가 끊어져도 자동으로 메워주는 기술

두 번째 기술은 인터넷이 불안정해서 비디오 일부가 전송되지 않아도 AI가 알아서 처리할 수 있게 만드는 것이다. AI는 사실 초당 2장 정도의 사진만 있어도 충분히 이해할 수 있는데, 일반적으로는 초당 30장의 사진을 보내고 있었다.

연구팀은 이런 '여분의 사진들'을 백업용으로 활용하는 아이디어를 냈다. 만약 중요한 사진이 인터넷 문제로 도착하지 않으면, 조금 전에 받은 비슷한 사진을 대신 사용하는 것이다. 이를 통해 전송 오류로 인한 지연을 25.3밀리초에서 1.2밀리초로 20분의 1 수준으로 줄일 수 있었다.

AI 성능을 제대로 측정하는 새로운 평가 방법

마지막으로 연구팀은 AI가 저화질 비디오를 얼마나 잘 이해하는지 측정할 수 있는 새로운 평가 도구를 만들었다. 기존 평가 방법들은 모두 고화질 비디오를 기준으로 했기 때문에, 실제 인터넷 환경에서 AI가 얼마나 잘 작동하는지 알기 어려웠다.

새로운 평가 도구인 'DeViBench'는 AI가 직접 어려운 질문들을 만들어내는 방식을 사용한다. 고화질 비디오와 저화질 비디오를 동시에 보여주고, 화질 차이에 민감한 질문들을 자동으로 생성한다. 이 과정을 거쳐 만들어진 질문들 중 약 15%가 실제 평가에 사용할 수 있을 정도로 정확한 것으로 나타났다.

FAQ

Q: AI 화상통화가 일반 화상통화와 다른 점은 무엇인가요?

A: 일반 화상통화는 사람끼리 즉석에서 대답하지만, AI 화상통화는 AI가 비디오를 분석하고 답변을 만드는 시간이 필요합니다. 그래서 화질보다는 AI가 얼마나 정확하게 이해하느냐가 더 중요해집니다.

Q: 이 기술을 사용하면 인터넷이 느려도 AI와 자연스럽게 대화할 수 있나요?

A: 네, 맞습니다. AI가 대화 내용에 맞는 중요한 부분만 골라서 보기 때문에 전체 데이터 사용량이 크게 줄어들어 느린 인터넷에서도 원활한 대화가 가능합니다.

Q: 이 기술은 언제쯤 실제로 사용할 수 있나요?

A: 아직 연구 단계이지만, 기본 원리가 검증됐으므로 몇 년 내에 실제 AI 서비스에 적용될 가능성이 높습니다. 특히 스마트폰이나 스마트 글래스 같은 모바일 기기에서 활용도가 클 것으로 예상됩니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)

AI 리포터 (Aireporter@etnews.com)

Read Entire Article