Vertonung von Inhalten

Was kann Text to Speech Software?

Alexa, Siri und Polly? Die Stimmen dieser Damen kennen wir schon lange und manch einer hat die Stimme seines Navigationssystems im Auto schon seit Jahren getauft. Text to Speech (T2S) ist ein fester Bestandteil unseres Alltags – öffentlicher Nahverkehr, Hotlines, Apps – immer häufiger werden ursprünglich geschriebene Texte als gesprochener Inhalt von einer Softwarelösung statt von Menschen wiedergegeben.

Unternehmenskommunikation ist heute multimedial –Videos, interaktive Schulungen, Werksführungen, Messeauftritte und vieles mehr. Dabei ist aber nicht nur die Multimedialität der Inhalte relevant, genauso wichtig ist dabei die Multilingualität! Text und Ton sollten in den jeweiligen Zielsprachen zur Verfügung stehen – qualitativ hochwertig, schnell und effizient. Je nachdem wie umfangreich das Projekt ist, für wie viele Märkte es aufbereitet werden soll und wie oft das Unternehmen ähnliche Inhalte benötigt, bietet Text to Speech hier eine wirtschaftliche Alternative zu der „traditionelleren“ Vertonung der Inhalte durch menschliche Sprecher, sogenannte „Talents“. Gleichzeitig bietet die auditive Erstellung der Inhalte Vorteile gegenüber der Untertitelung, oder kann ergänzend dazu erstellt werden.

Voraussetzungen für Text to Speech – die Vorbereitung macht den Unterschied

Die Text to Speech-Software kann standardmäßig einen Großteil der Wörter eines Textes korrekt „aussprechen“. Je nach Softwarelösung stehen hier verschiedene Stimmen pro Sprache zur Auswahl. Hier lohnt es sich, ein wenig auszuprobieren, welche Stimme den Inhalt am passendsten repräsentiert.

Da die Software sich hier auf die grundlegenden Betonungsregeln der jeweiligen Sprache verlässt, müssen einige Begriffe manuell zum Beispiel durch einen Linguisten angepasst werden. Unter anderem gehören Abkürzungen, Fachausdrücke, Lehnwörter und Eigennamen zu dieser Kategorie. Damit die Maschine oder Software auch weiß, wie diese Begriffe ausgesprochen werden sollen, wird der zu vertonende Text in Lautschrift umgewandelt. In diesem Modus können die Laute entsprechend verändert werden, sodass die Wörter korrekt wiedergegeben werden. Um zukünftig nicht immer wieder dieselben Begriffe anpassen zu müssen, wird ein Aussprache-Wörterbuch pro Unternehmen und Sprache angelegt, das mit jedem Projekt weiter gefüllt wird. Der manuelle Nachbereitungsaufwand der Nachbearbeitung der automatischen Umwandlung in Lautschrift nimmt so mit jedem Projekt ab, ist initial aber durchaus ein Faktor, der beachtet werden muss. Zudem können Feinheiten in der Betonung der Begriffe innerhalb der Satzstruktur angepasst werden. Hierzu gehören zum Beispiel Pausen, das Sprechtempo, Senken oder Heben der Betonung am Satzende usw.

Im Anschluss kann die Vertonung erfolgen. Diese nimmt nur wenige Minuten in Anspruch. Das Verhältnis von Vorbereitung und Durchführung einer Text to Speech-Vertonung sind so spiegelverkehrt zu der durch einen menschlichen Sprecher. Während ein Sprecher mindestens so lange für die Aufnahme benötigt, wie sie eben laufen soll – zuzüglich Korrekturen – benötigt die Text to Speech-Software eine ausführliche Vorbereitung, die Vertonung selbst aber kaum Zeit.

Vorteile

Nicht nur werden durch Text to Speech Zeitaufwände und Budget eingespart, Unternehmen können es sich dadurch leisten, auch mehr Inhalte in mehr Sprachen zu vertonen als bislang vorgesehen.
Hinzu kommen die Faktoren Konsistenz und Wiedererkennungswert, die mit einer Software flexibler umzusetzen sind als mit Talents: Die Stimmen der Software stehen immer zur Verfügung und können auch kurzfristig eingesetzt werden. Videos können so immer mit derselben Stimme produziert werden, ohne dass Rücksicht auf die Ressourcenplanung genommen werden muss.
Dadurch dass das Recording durch die Software geschieht, ist die Qualität der Aufnahmen zudem immer gleichbleibend. Mögliche Störfaktoren wie Hintergrundgeräusche können ausgeschlossen werden.

Ergebnisse

Bei guter Vorbereitung der zu vertonenden Inhalte sind die Ergebnisse von Text to Speech zwar noch von einer menschlichen Vertonung zu unterscheiden, aber von der Qualität her schon sehr nah dran. In einigen Sprachen klingt die maschinelle Vertonung generell „natürlicher“ als in anderen, es eignen sich aber grundsätzlich alle Sprachen für einen solchen Prozess. Die nachhaltige Vorbereitung der Inhalte ist bei Text to Speech essentiell, damit kunden- und projektspezifische Begriffe in jeder Sprache verständlich und flüssig vermittelt werden. Unter diesen Voraussetzungen bietet Text to Speech eine attraktive Alternative zur traditionellen Vertonung.

Sie möchten mehr über Text to Speech bei der tsd erfahren? Melden Sie sich gerne bei uns!