텔로스가 방송 콘텐츠 음성을 자동으로 향상시키는 MPEG-H 다이얼로그+ 기술을 도입했습니다.
모처럼 친구들과 집에서 영화를 보기로 한 날. 중요한 장면이 나오면서 모두 TV 화면에 집중하고 있습니다. 그런데 대사를 도통 알아들을 수가 없네요. 배우가 웅얼거리는건지 갑자기 배경음악이 커진 건지 모르겠지만 아무튼 몰입이 깨져버려 되감기 버튼을 누르고 맙니다.
아마 살면서 한번쯤 이런 경험이 다들 있을 것입니다. 난청을 겪는 이들뿐 아니라 누구에게나 거슬리는 상황이지요. 하지만 애꿎은 영화 음향감독을 탓할 수는 없는 일입니다. 연구에 따르면 음성과 배경음 음량의 최적 비율은 개인에 따라 큰 차이가 있다고 합니다. 한가지 믹스로는 절대 모두를 만족시킬 수 없다는 것이지요. 하지만 그렇다고 해서 배우들의 웅얼거리는 소리를 계속 참고 들어야 한다는 얘기는 아닙니다. 오늘날 영화제작사나 방송사에서는 MPEG-H 오디오 등의 음향기술을 도입하여 시청자가 개별 오디오 객체 음량을 본인의 취향에 맞게 조정할 수 있도록 하고 있습니다.
한편, 꾸준히 사랑받는 고전 영화들을 위해 프라운호퍼 IIS 연구진은 파일 기반 음성추출 기술인 MPEG-H 다이얼로그+(Dialog+)를 개발했습니다. 다이얼로그+는 심층신경망을 사용하여 기존 방송믹스의 배경음에서 음성을 구분하고 음성 명료도가 개선된 리믹스를 만들어내는 AI 기반 MPEG-H 제작기술입니다. 최근에는 텔로스 얼라이언스 미네통카 오디오툴즈 서버(Telos Alliance Minnetonka AudioTools Server)에 적용되어 다이얼로그+ 모듈로 출시되었습니다.
모듈 출시를 앞두고 프라운호퍼 IIS와 텔로스는 독일방송사인 서부독일방송(WDR)과 손잡고 AI를 위한 최상의 학습환경을 조성했습니다. 우선 DVB와VoD 플랫폼인 아르떼 메디아텍(ARD Mediathek)에서 필드 테스트를 실시하여 믹싱 시 음성 명료도 향상을 위해 필요한 구체적인 요구사항과 워크플로우를 파악한 후, 해당 내용을 텔로스의 제품개발에 반영했습니다. 서부독일방송을 비롯한 기타 아르떼 방송사들은 심층신경망 훈련에 적합한 컨텐츠를 제공하고 워크플로우 설계를 주도했습니다. 이 외에도 서부독일방송은 아르떼 메디아텍에서 음성 명료화(Klare Sprache) 서비스를 선보였습니다. 이번 제휴로 인해 MPEG-H 다이얼로그+ 소프트웨어가 아카이브, 트랜스코딩팜(transcoding farm) 등 서부독일방송 제작장비의 자동 워크플로우에 적용되었습니다.
MPEG-H 다이얼로그+ 기술이 텔로스 얼라이언스 제품군에 탑재되면서 방송사들은 첨단 음성추출 알고리즘을 사용해 레거시 콘텐츠를 재작업하여 시청자에게 맞춤형 오디오 믹스를 제공할 수 있게 됩니다. 워크플로우는 자동화되어 있어 확장 가능하고 비용효율적입니다. 용도에 따라 사전 정의된 프리셋(preset)을 사용할 경우, 다큐멘터리, 음악, 영화, 스포츠 등 다양한 콘텐츠별로 최적화된 처리기술을 적용할 수 있습니다. 아웃풋 포맷은 두 가지로 레거시 워크플로우용 스테레오 믹스와 개인맞춤화, 모든 재생기기 지원 등 차세대 오디오의 모든 혁신적인 기능을 지원하는 ADM 파일이 있습니다.
무엇보다도 이번 탑재로 시청자들은 대사가 들리지 않아 고심할 필요 없이 가장 좋아하는 배우의 연기에 푹 빠져들 수 있게 되었습니다.