Die Qualität einer Filmsynchronisation hängt maßgeblich von der wahrgenommenen Lippensynchronität ab. Während in der Synchronpraxis bislang vor allem auf die Übereinstimmung bei Konsonanten (z. B. /p/, /b/, /m/) geachtet wird, bleibt die visuelle Auffälligkeit von Vokalen – insbesondere deren Rundung – häufig unbeachtet. In einem experimentellen Ansatz wurde daher untersucht, ob und wie stark die Labialisierung von Vokalen (also die Lippenrundung bei Lauten wie /yː/) die Bewertung der Synchronität durch Zuschauerinnen und Zuschauer beeinflusst.
Für das Experiment wurden audiovisuelle Stimuli professionell im Studio produziert. Als Grundlage diente der englische Satz „I can’t see XY inside“, der in der deutschen Synchronfassung mit „Ich sehe XY ganz klein“ wiedergegeben wurde. Die Stimuli wurden gezielt manipuliert, um systematisch die Lippenbewegungen für unterschiedliche Konsonanten (geschlossen /p/ vs. offen /k/) sowie Vokale (gerundet /yː/ vs. ungerundet /iː/) zu variieren. Aus der Kombination dieser beiden Faktoren entstanden insgesamt 16 audiovisuelle Varianten.
Im Hauptexperiment bewerteten 141 Teilnehmende die Lippensynchronität auf einer 7-stufigen Skala. Ergänzend wurde ein Worterkennungstest durchgeführt, bei dem die Proband:innen aus vier ähnlich klingenden Wörtern (Pita, Püta, Kita, Küta) das gehörte identifizieren sollten. Ziel war es herauszufinden, ob in der Sprachwahrnehmung das akustische oder das visuelle Signal dominiert.
Ausgewählte Stimuli
eng Poota > dt Püta
Vorschaubild: Fachbereich Sprechwissenschaft und Phonetik · Video: Hans Nenoff
eng Poota > dt Küta
Vorschaubild: Fachbereich Sprechwissenschaft und Phonetik · Video: Hans Nenoff
eng Poota > dt Pita
Vorschaubild: Fachbereich Sprechwissenschaft und Phonetik · Video: Hans Nenoff
eng Poota > dt Kita
Vorschaubild: Fachbereich Sprechwissenschaft und Phonetik · Video: Hans Nenoff
Ergebnisse
Abbildung 1
Grafik: Hans Nenoff
Die Auswertung zeigt, dass sowohl die korrekte Synchronisierung von Konsonanten als auch von Vokalen einen signifikanten Einfluss auf die Bewertung der Lippensynchronität haben (Abb. 1). Dabei ist überraschend, dass vokalische Merkmale – insbesondere die Lippenrundung – eine ebenso große Rolle spielten wie konsonantische Übereinstimmungen. Dies widerspricht der verbreiteten Annahme, dass vor allem Konsonanten für die visuelle Illusion entscheidend seien.
Abbildung 2
Grafik: Hans Nenoff
Besonders auffällig ist, dass gerundete Vokale (z. B. /yː/) im Durchschnitt besser bewertet werden als ungerundete – sogar bei technisch inkorrekter Synchronisierung (Abb. 2). Umgekehrt erhalten ungerundete Vokalviseme selbst bei korrekter Abstimmung deutlich schlechtere Bewertungen. Als mögliche Erklärungen diskutieren die Autor:innen zum einen eine sprachspezifische visuelle Rundungsgewöhnung, zum anderen einen allgemeinen Wahrnehmungs-Bias zugunsten gerundeter Lippenbewegungen.
Abbildung 3
Grafik: Hans Nenoff
Im Gegensatz dazu zeigt sich bei den Konsonanten, dass deren Markiertheit – also die visuelle Auffälligkeit des Lautes – keinen Einfluss auf die Bewertung hat. Entscheidend ist hier allein die Synchronität (Abb. 3).
In einem ergänzenden Worterkennungstest wird deutlich, dass die lexikalische Identifikation fast ausschließlich durch das Gehör gesteuert wird. In 95,4 % der Fälle entscheiden sich die Proband:innen für das tatsächlich akustisch gesprochene Wort, selbst wenn die Lippenbewegung eine andere Silbe nahelegte. Audiovisuelle Integrationseffekte wie der sogenannte McGurk-Effekt traten nur in Ausnahmefällen und nahezu ausschließlich bei markierten Visemen auf.
Fazit
Die Studie zeigt, dass visuelle Merkmale von Vokalen, insbesondere deren Rundung, einen erheblichen Einfluss auf die Bewertung von Lippensynchronität haben. Gerundete Vokalviseme wirken auf das Publikum glaubwürdiger – selbst dann, wenn sie phonetisch nicht mit dem Ton übereinstimmen. Damit wird deutlich, dass die visuelle Dimension von Vokalen bislang unterschätzt wurde.
Für die Praxis der Filmsynchronisation ergibt sich daraus ein klarer Handlungsimpuls: Die visuelle Übereinstimmung bei Vokalen sollte systematisch berücksichtigt werden – und nicht länger hinter die Konsonanten zurücktreten. In Kombination mit dem Befund, dass bei der lexikalischen Worterkennung weiterhin das Gehör dominiert, ergibt sich ein differenziertes Bild der audiovisuellen Sprachverarbeitung. Visuelle Merkmale sind für die Illusion einer gelungenen Synchronisation entscheidend – für die sprachliche Verständlichkeit bleibt jedoch das akustische Signal zentral.
Diese Ergebnisse leisten einen Beitrag zur Weiterentwicklung qualitativer Standards in der audiovisuellen Übersetzung und unterstreichen die Notwendigkeit interdisziplinärer Forschung an der Schnittstelle von Phonetik, Wahrnehmungspsychologie und Medienwissenschaft.