Rückblick: AES International Conference on Semantic Audio zu Gast am Fraunhofer IIS

Die International Conference on Semantic Audio der Audio Engineering Society (AES) fand vom 22. bis 24. Juni in den Räumlichkeiten des Fraunhofer IIS in Erlangen statt. Abgerundet wurde die dreitägige Konferenz mit technischen Diskussionen, Demos und Poster-Sessions durch ein kulturelles und unterhaltsames Abendprogramm.

Den Teilnehmern wurden vor dem offiziellen Start der Konferenz drei vertiefende Einführungstutorials angeboten, die äußerst regen Zulauf fanden: Die Themen lauteten „Music Performance Analysis“, „Sonic Interactions for Virtual Reality Applications“ und „Phase Reconstruction from magnitude spectrograms“.

Alexander Lerch und Stefan Weinzierl erklärten zunächst, wie semantische Analyse eingesetzt werden könnte, um das Erlernen eines Musikinstruments zu unterstützen, indem Rückmeldung über die musikalische Performance hinsichtlich Rhythmus, Tonhöhe und Farbton gegeben wird.

Im zweiten Tutorial, „Sonic Interactions for Virtual Reality Applications”, sprach Stefania Serafin über die Möglichkeit, VR-Anwendungen insbesondere in den Bereichen Gaming, virtuelle Musikinstrumente und Rehabilitation durch akustisches und haptisches Feedback noch realistischer zu gestalten.

Christian Dittmar präsentierte schließlich einen umfassenden Überblick über verschiedene Methoden der Phasenrekonstruktion aus Magnituden-Spektrogrammen. Solche Algorithmen werden bevorzugt angewandt, um bei Trennung der Audioquelle die Klangqualität zu verbessern.

Der offizielle Beginn der Konferenz wurde am 22. Juni durch eine Begrüßungsrede des Institutsleiters Bernhard Grill eingeläutet. Mark Plumbley, Professor für Signalverarbeitung an der University of Surrey, hielt anschließend eine Keynote zum Thema „Automatisierte Erkennung von Ereignissen und Szenen in Tonsignalen“. Mithilfe von rechenbasierten Methoden werden Aufnahmen von alltäglichen Geräuschen analysiert. Dabei ist das Ziel, zum einen Klänge beispielsweise als Zuschlagen einer Tür oder als Pistolenschüsse zu klassifizieren und zum anderen die Umgebung der Aufnahme, zum Beispiel Bahnhof oder Büroraum, festzustellen.

Der Bereich Audio und Medientechnologien des Fraunhofer IIS präsentierte Demos zu den Themen EVS, MPEG-H und Cingo. Die Besucher waren sehr neugierig, wie die neuesten Audiotechnologien angewendet werden und beteiligten sich rege an den Diskussionen zur Implementierung von MPEG-H in Korea.

Auch Auszeichnungen wurden vergeben. Rodrigo Schramm und Emmanouil Benetos erhielten später am Abend den „Best Paper“-Preis für ihren Beitrag „Automatic Transcription of A Cappella Recordings from Multiple Singers“. Die Gewinner der Kategorie „Best Student Paper“ waren Rachel M. Bittner, Justin Salamon, Juan J. Bosch und Juan P. Bello für ihren Beitrag „Pitch Contours as a Mid-Level Representation for Music Informatics“. Im Anschluss an die Preisverleihungen begeisterte auf der Bühne die Band LINda Capo (http://www.lindamund.de/) mit ihrem angenehmen Mix aus Jazz und Pop.

Der zweite Tag der Konferenz wurde mit einer Session zum Thema „Pitch Tracking“ eröffnet. Einen Höhepunkt bildete dabei der Vortrag von Udo Zölzer, Professor an der TU Hamburg, über „Pitch-based Audio Algorithms“. Als Experte in digitaler Audioverarbeitung behandelte Zölzer verschiedene Themen mit dem Schwerpunkt Tonhöhe, sowie das Schätzen der Grundfrequenz eines Audiosignals und wie diese Informationen für kreative Audioeffekte, wie beispielsweise automatische Gesangsharmonisierung und neue Methoden zur Kurvenverlaufssynthese, genutzt werden können.

Abends waren die Konferenzteilnehmer zu einem Besuch in einem fränkischen Biergarten eingeladen und konnten dort ein Labyrinth aus historischen Bierkellern besichtigen, die vor der Erfindung des Kühlschranks das Bier im Sommer gekühlt hatten.

Die Konferenz endete am 24. Juni mit einer Session zu Deep Learning, gefolgt von einem Vortrag von Masataka Goto, einem bekannten Forscher und Wissenschafter mit wichtigen Beiträgen zu den Entwicklungen im Feld der semantischen Audioanalyse. Goto stellte „Hatsune Miku“ vor, einen digitalen Avatar, der Gesangssynthese nutzt und viele Menschen in Japan dazu inspirierte, Multimediainhalte zu kreieren und zu teilen. Goto erklärte zudem, wie Technologien zur Audioanalyse dazu angewandt werden könnten, um durch diese Webinhalte zu browsen und mit ihnen zu interagieren.

 

Zahlen und Fakten

– Die diesjährige AES International Conference war die dritte zum Thema Audiosemantik. Die erste Konferenz fand in Ilmenau im Juli 2011 und die zweite in London im Januar 2014 statt.

– Die Konferenz wurde vom Fraunhofer-Institut für Integrierte Schaltungen IIS, der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) und den International Audio Laboratories Erlangen veranstaltet.

– 76 Besucher aus 15 verschiedenen Ländern in Europa, Australien, Asien und Amerika, nahmen teil. Etwa 30% davon waren Fachexperten aus der Industrie, während 70% aus einem universitären Umfeld stammen. Die Konferenz wurde von Dr.-Ing. Christian Uhle (Fraunhofer IIS) und Prof. Meinard Müller (FAU, AudioLabs) geleitet. Das wissenschaftliche Programm wurde von Christian Dittmar (FAU, AudioLabs) und Dr. Jakob Abeßer (Fraunhofer IDMT) koordiniert.

– Die Organisatoren der Konferenz erhielten 38 Beitragseinreichungen, von denen 27 entweder als Vorträge (13) oder als Poster (14) vorgestellt wurden. Zudem wurden Demos von insgesamt fünf Moderatoren präsentiert, zwei davon vom Fraunhofer IIS. Das technische Programm beinhaltete außerdem zwei Keynotes von Prof. Mark Plumbley und Prof. Udo Zölzer und einen Gastvortrag von Masataka Goto.

Titelbild: © Fraunhofer IIS/David Willner

Hier sind einige Impressionen von der Konferenz:

This post is also available in: English