Telos integriert die MPEG-H Technologie Dialog+ und ermöglicht damit Sendeanstalten eine automatische Dialogverbesserung für ihre Inhalte.
Freitagabend, Filmzeit. Novemberregen prasselt auf die Fensterbleche, während es draußen dunkel wird. Die Filmmusik schwillt dramatisch an, während sich die Spannung dem Höhepunkt nähert. Der Bösewicht ist gerade dabei, seinen finsteren Plan vor sich hin murmelnd zu enthüllen – als ein „Schatz, spul‘ bitte kurz noch mal zurück!“ die Spannung durchschneidet.
Sind es undeutlich sprechende Schauspielerinnen und Schauspieler, übereifrige Musikkomponisten, oder eine unbeholfene Tonmischung, die solche Unannehmlichkeiten zu verantworten haben? Nichts von alldem – die Antwort ist wesentlich komplexer.
Tatsächlich belegen zahlreiche Studien, dass es ein allgemeingültig optimales Verhältnis zwischen Dialoglautstärke und Hintergrundgeräuschen schlicht nicht gibt. Die Wahrnehmung ist hochindividuell. Sounddesignern ist es in der Praxis schier unmöglich, die gesamte heterogene Masse des Publikums mit einer einzigen Mischung glücklich zu machen. Moderne Filmproduktionen haben jedoch heutzutage die technischen Möglichkeiten, das Hörerlebnis variabel zu gestalten. Wenn Filmproduzierende Audiosysteme wie MPEG-H Audio implementieren, können sie dem Publikum die Option geben, die Lautstärke einzelner Audioobjekte individuell anzupassen. So könnte, an einem regnerischen Novemberabend, die Stimme des Bösewichts lauter und die dramatische Filmmusik leiser gestellt werden.
Auch für bereits existierende Filme haben Wissenschaftler des Fraunhofer IIS ein technisches Werkzeug entwickelt, das die Hörqualität drastisch verbessert: die dateibasierte Technologie MPEG-H Dialog+. Sie ist AI-basiert und nutzt Deep Neural Networks, um im bereits bestehenden Mix den Dialog von Hintergrundgeräuschen zu trennen und das gesprochene Wort akustisch zu verstärken. Das führt dazu, dass der neue Remix einfacher zu verstehen ist. MPEG-H Dialog+ wurde kürzlich im Telos Alliance Minnetonka AudioTools Server implementiert und als Dialog+ Modul auf den Markt gebracht.
Selbstverständlich musste die AI in Vorbereitung auf den Produktlaunch trainiert werden. Gemeinsam mit dem WDR haben Fraunhofer IIS und Telos eine ideale Lernumgebung geschaffen: über DVB und die ARD-Mediathek wurde eine Feldstudie durchgeführt. Ziel war es, zu implementierende Anforderungen und Produktionsabläufe zu verfeinern, um eine Dialogmischung mit einer verbesserten Sprachverständlichkeit zu erreichen. Die Ergebnisse flossen in die Telos-Produktentwicklung ein. Der WDR, sowie andere Anstalten der ARD, spielten eine wichtige Rolle, indem sie geeignetes Trainingsmaterial für das Deep Neutral Network zur Verfügung stellten und den optimalen Workflow gestalteten. Außerdem führte der WDR den Dienst „Klare Sprache“ in der Mediathek ein. Die gute Zusammenarbeit führte unter anderem dazu, dass die Software nun als Teil eines automatischen Workflows in der WDR-Produktions-Infrastruktur implementiert ist – vom Archiv bis zur Transcoding-Farm.
Die Integration von MPEG-H Dialog + in die Telos Alliance-Produktpalette ermöglicht es Sendern, auch ältere Filme technisch aufzupolieren. Mithilfe des hochmodernen Dialogtrennungs-Algorithmus können sie dem Publikum nun personalisierbare Audiomischungen bieten. Die Automatisierung dieses Workflows macht ihn besonders praktisch und kosteneffizient. Zudem gibt es eine Reihe von Voreinstellungen (sog. Presets), die auf spezifische Anwendungsszenarien zugeschnitten sind – beispielsweise auf Musikfilme, Dokus oder Sport. Dabei kann MPEG-H Dialog+ zwei Formate ausgeben: Zum einen eine Stereomischung für herkömmliche Workflows, zum anderen eine ADM-Datei, die alle brandneuen Funktionen von Next Generation Audio unterstützt – etwa Personalisierung und die Bereitstellung eines universellen Datensatzes für alle Wiedergabegeräte.
Dank hochmoderner, automatischer Dialogverbesserung können Film-Fans sich in Zukunft ohne Verständnisprobleme voll und ganz in phantastische Welten stürzen – selbst wenn lautes Regengeprassel von draußen erschwerend hinzukommen sollte.