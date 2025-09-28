Sprachen überleben nicht allein in Wörterbüchern, sondern im Alltag – in Geschäftsräumen, auf Bahnsteigen und in Fahrzeugen. Wo seltene, nur teilweise normierte oder digital unterversorgte Sprachen auf betriebliche Anforderungen treffen, entscheidet saubere Text-to-Speech-Technologie (TTS) über Verstehen, Akzeptanz und damit auch über Sichtbarkeit und Erhalt. Dabei kann Sprach-KI helfen – vorausgesetzt, sie erfüllt die Anforderungen an Datenhygiene, linguistische Präzision und kulturelle Eignung.
Mit künstlicher Intelligenz zur echten Sprache
Für den Sprachtechnologie-Entwickler Aristech ist dieser Spagat Alltag. Das Unternehmen aus Heidelberg entwickelt TTS-Systeme und maßgeschneiderte Corporate Voices, digitalisiert etablierte Sprecherstimmen und stellt Plattformen bereit, die natürlich klingende, akzent-sensible, mehrsprachige Durchsagen in Echtzeit ermöglichen.
Dazu kuratieren die Sprachexperten von Aristech zunächst einen Korpus mit für den Verkehr typischen Formulierungen sowie Orts- und Liniennamen. Darauf aufbauend spricht eine ausgewählte Stimme mehrere tausend Beispielsätze ein; anschließend wird jedes gesprochene Fragment mit der vorgesehenen Schreib- und Lautform abgeglichen, bis Betonung, Rhythmus und Übergänge stimmig sind.
Mit modernen Verfahren reichen wenige Sekunden Audio, um eine Stimme zu klonen – auch Aristech verfügt über diese Technik. Jedoch bleibt für stark präsente Corporate Voices im ÖPNV der kuratierte Ansatz mit kontrollierter Phonetik, umfangreichen Korpora und strengem Alignment Mittel der Wahl, da er Betonung und Robustheit über tausende Live-Situationen hinweg absichert.
Heute prägen die Aristech-Stimmen die akustische Leitkommunikation zahlreicher Netze im DACH-Raum. In Deutschland setzen kommunale und regionale Betreiber wie die Freiburger Verkehrsbetriebe und die Stuttgarter Straßenbahnen AG (SSB) auf die Technologie aus Heidelberg. Bei den Österreichischen Bundesbahnen (ÖBB) laufen die Ansagen der Lokallegende Chris Lohner auf Aristech-TTS; bei den Schweizerischen Bundesbahnen (SBB) ebenso – in Deutsch, Französisch, Italienisch und Hochdeutsch mit Schweizer Einschlag. In Luxemburg betreibt die CFL eine mehrsprachige Systemstimme »Anne«, die nahtlos zwischen Lëtzebuergesch, Deutsch, Französisch und Englisch wechselt.
Anne und die Formalisierung des Luxemburgerischen
»Anne« ist ein spannendes Beispiel dafür, wie anspruchsvoll sich das »Einfangen« einer authentischen Sprache gestaltet. Denn: Lëtzebuergesch ist Alltagssprache und Identitätsanker, jedoch nur partiell normiert. In Orthografie, Aussprache und Grammatik existieren konkurrierende Referenzen und regionale Varianz. Dabei lebt das Training von TTS-Systemen von eindeutigen, digital verfügbaren Ressourcen – einem »Korpus«.
Für die Luxemburger Eisenbahn (CFL) wurde die Sprecherin Martine Anne Breisch – besser bekannt als »Anne« – zur mehrsprachigen Systemstimme aufgebaut. Der Umfang ist industriell: rund 7.000 Sätze auf Deutsch, jeweils ca. 3.000 Sätze auf Englisch und Französisch sowie ca. 2.000 Sätze auf Luxemburgisch; die Studiozeit lag bei rund acht Wochen innerhalb eines Gesamtprojektrahmens von etwa drei Monaten. Neben der reinen Domänenabdeckung wurden insbesondere Lautübergänge systematisch adressiert. Viele der Sätze waren bewusst kontextfrei, um Koartikulation und phonetische Randfälle robust zu modellieren.
Im Betrieb kann die CFL-Stimme flexibel zwischen Luxemburgisch, Deutsch, Französisch und Englisch wechseln; Durchsagen bleiben tonal aus einem Guss. Für ein Land mit hohem Pendleranteil und Multilingualität ist diese nahtlose Sprachumschaltung essenzieller Bestandteil der Betriebssicherheit und Barrierefreiheit.
Über Geschmack lässt sich streiten – über Schweizer Dialekte auch
Erst der lokale Klang macht eine Bahnansage authentisch. Wie selektiert man aber den »richtigen« Lokalkolorit für ein Land wie die Schweiz, das in 26 Kantonen mehrere Sprachen spricht – und selbst innerhalb der deutschen Sprache ausgeprägten Lokalpatriotismus pflegt?
Als die SBB ab 2020 automatisierte Bahnhofsdurchsagen einführten, berichteten Schweizer Medien über kontroverse Reaktionen, vor allem zum Akzent und regionaler Varietät, bis hin zu Hinweisen auf eine »Zürcher Computerstimme« in Ostschweizer Bahnhöfen.
»In einer Schweiz mit vier Landessprachen hat die Sprache eine ganz besondere Bedeutung«, weiß Peter Ruoss, Product Owner Kundeninformation Bahnhof, SBB. »So setzen wir beispielsweise in unseren deutschsprachigen Durchsagen bewusst auf eine TTS-Stimme mit einem leichten Schweizer Akzent, was zu Beginn die unterschiedlichsten Reaktionen auslöste. Das zeigt: Sprache umfasst mehr als nur eine inhaltliche Botschaft. Sprache gibt uns Orientierung und ist Ausdruck unserer Kultur und Zugehörigkeit.«
Der tägliche Gebrauch hält Sprachen lebendig. Eine TTS-Technologie, die Dialekte und seltene Varietäten präzise formalisiert, verankert Klangmuster im Gedächtnis einer Gesellschaft und macht sie zugleich zugänglich für alle, die auf klare, konsistente Information angewiesen sind. Entscheidend ist die Pflege: Korrekturen, Aktualisierungen, neue Ortsnamen oder Lehnwörter lassen sich einarbeiten, ohne die Identität zu verlieren. So entsteht aus digitaler Spracharbeit eine verlässliche Infrastruktur des Erinnerns.
Michael Mende
Michael Mende ist CTO und Mitgründer der Aristech GmbH. Der studierte Germanist entdeckte früh seine Leidenschaft für Computerlinguistik und Informatik und forschte mehr als zehn Jahre im Bereich Sprachtechnologie am Wissenschaftlichen Zentrum Europa der IBM. Gemeinsam mit seiner Tochter Carolin gründete er Aristech, wo er heute die technologische Entwicklung verantwortet. Neben seiner Arbeit schreibt er Mundartstücke und ist mit seinem mehrfach aufgelegten Buch »Kurpfalz Impressionen« weit über die Grenzen Heidelbergs bekannt.
