
글로벌 분산형 AI 클라우드 인프라 기업 쎄타 네트워크(Theta Network)는 28일, 성균관대학교 AI & Media Lab(지도교수 홍성은)과 공식 파트너십을 체결했다고 밝혔다. 쎄타네트워크는 인공지능(AI), 미디어, 엔터테인먼트 분야를 위한 GPU 기반 분산 클라우드 인프라의 선두주자로 자리매김하고 있다.
이번 협업을 통해 성균관대 AIM Lab은 쎄타 엣지클라우드 플랫폼을 도입해 대규모 멀티모달 AI 모델 학습, 3D 비전 기반 로봇 인지, 프라이버시 보존 도메인 전이 등 핵심 연구를 본격화할 예정이다. 이를 통해 국내외 주요 학술 네트워크 및 산업 파트너십 연계를 확대해 나갈 방침이다.
쎄타랩스의 엣지클라우드는 고성능 GPU 리소스를 연구 수요에 맞춰 유연하게 제공하는 하이브리드 클라우드-엣지 기반 인프라로, 성균관대 연구진의 AI 모델 학습 및 추론 효율을 극대화하고 실시간 로봇 실험 및 실제 환경에서의 AI 시스템 구현을 가속화할 것으로 기대된다.
연구실을 이끄는 홍성은 교수는 SK텔레콤 T-Brain에서 Research Scientist로 근무한 이력을 지닌 인공지능 분야 전문가로, 현재 성균관대 실감미디어공학과 부교수이자 학과장으로 재직 중이다. KAIST 전산학부에서 석사 및 박사 학위를, 한양대학교에서 컴퓨터공학 학사 학위를 받았다.
홍 교수의 AI & Media Lab은 멀티모달 AI, 도메인 적응, 로봇 비전 연구를 중점적으로 수행하며, CVPR, ICCV, INTERSPEECH 등 세계 최고 수준의 학술 대회와 Pattern Recognition, Neural Networks 등 저명 저널에 꾸준히 연구 결과를 발표하고 있다. 최근에는 삼성의 지원을 받아 수행한 연구성과 2건이 국제적으로 주목받고 있다.
대표적인 성과 중 하나인 “Question-Aware Gaussian Experts for Audio-Visual Question Answering” 논문은 영상과 소리를 동시에 분석해 질문에 답하는 AI 모델 QA-TIGER를 소개하며, CVPR 2025에서 하이라이트 논문으로 채택(선정률: 2.98%)되었다. 또 다른 논문 “Memory-Efficient Cross-Modal Attention for RGB-X Segmentation and Crowd Counting”은 Pattern Recognition 저널(JCR: Top 6.9%)에 게재되어, 컴퓨터비전 및 로보틱스에 실질적 기여를 하고 있다.

해당 논문은 QA-TIGER라는 새로운 AI 모델을 제안한다. 이 모델은 영상과 오디오 정보를 동시에 활용해 주어진 질문에 정확히 답변할 수 있도록 설계됐다. 기존 방식처럼 모든 프레임을 동일하게 처리하지 않고, 질문 내용을 기반으로 영상에서 핵심적인 순간을 식별해 분석의 초점을 맞춘다.
QA-TIGER는 Gaussian attention 메커니즘과 다중 전문가 모델(multiple expert models)을 적용해, 질문과 관련된 오디오∙비디오 구간을 정밀하게 선택하고 정렬한다. 이를 통해 AI가 더 정확하고 일관된 답변을 생성할 수 있도록 돕는다.
논문 내 Figure 3은 QA-TIGER가 MUSIC-AVQA 데이터셋 상에서 “어떤 악기?”, “언제 연주되나?” 등 다양한 질문 유형에 대해 어떻게 작동하는지를 보여준다. 해당 예시는 모델이 질문에 따라 적절한 장면과 소리 정보를 찾아내고 집중하는 과정을 시각적으로 잘 드러낸다.
쎄타네트워크 CEO인 Mitch Liu는 “성균관대 AIM Lab과의 협력은 분산 클라우드 기반 AI 인프라의 가능성을 입증하는 상징적인 사례”라며, “앞으로도 AI 학계 와의 협력을 통해 생성형 AI, 멀티모달 분석, 엣지 디바이스 적용 등 다양한 분야에서 기술 혁신을 이어갈 것”이라고 밝혔다.