Ratgeber: Diese Sprachen kann KI perfekt übersetzen
Wird künstliche Intelligenz in Zukunft kroatische Sprichwörter übersetzen können? Isländische Gesetzestexte? Oder irische Diplomatenkorrespondenz?
Wenn man den Plänen des Principle-Projekts der Europäischen Union Glauben schenken darf – dann ja! Hinter der Initiative steht ein Konsortium aus Forschungseinrichtungen und Tech-Playern, das hochwertige maschinelle Übersetzung für Kroatisch, Isländisch, Norwegisch und Irisch auf den Weg bringen möchte. Das Ziel: Wichtige Übersetzungen im öffentlichen Sektor und der Privatwirtschaft noch schneller und günstiger zu realisieren.
Das spiegelt einen allgemeinen Trend: Immer mehr „seltene“ Sprachen werden zur automatischen Übersetzung in immer höherer Qualität angeboten. Erleben wir bald den legendären Babelfisch aus Per Anhalter durch die Galaxis – ein kleiner Helfer im Ohr, der sämtliche Sprachen des Universums aus dem Stehgreif für uns verdolmetscht? Was bei KI-Übersetzungen bereits heute möglich ist und was ins Reich der Science-Fiction gehört, klären wir in diesem Blog-Post.
High-resource vs. low-resource languages
Moderne maschinelle Übersetzung (MT) basiert auf künstlicher Intelligenz. Der „Treibstoff“, mit dem diese Elektronengehirne gefüttert werden, sind Daten. Im Fall von maschinellen Übersetzungssystemen handelt es sich dabei in der Regel um riesige bilinguale Textkorpora. Mindestens 10 Millionen Satzpaare sind zum Training einer solchen Maschine erforderlich. Das benötigte Trainingsmaterial finden MT-Engines unter anderem, indem sie das Web crawlen.
Ideal geeignet sind deshalb Sprachen mit einer starken Internetpräsenz, wie etwa Englisch und Deutsch. Solche Sprachen werden als high-resource languages bezeichnet. Problematischer hingegen sind die sogenannten low-resource languages. Dabei handelt es sich um Sprachen aus Ländern, in denen vergleichbar wenig Content online verfügbar ist. Dazu zählen zum Beispiel Finnisch, Slowenisch und Hindi.
Genau, auch Hindi! Zwar handelt es sich dabei um eine der meistgesprochenen Sprachen der Welt, aber in Indien liegen viele offizielle Publikationen oder Handelsdokumente primär auf Englisch, der zweiten offiziellen Amtssprache des Landes, vor. Deshalb findet man im Netz vergleichbar wenig hochwertige bilinguale Texte mit Hindi als Ausgangs- oder Zielsprache.
Gewinnen seltene Sprachen dank KI an Sichtbarkeit?
Aktuell erleben low-resource languages eine Blütephase. Das hat mehrere Gründe:
Das technologische Fundament
Moderne maschinelle Übersetzung greift auf neuronale Netze und Deep Learning zurück. Gegenüber älteren Übersetzungsalgorithmen kommt diese Technologie auch besser mit Sprachkombinationen zurecht, die stark abweichende grammatikalische Strukturen aufweisen. So erreichen beispielsweise maschinelle Übersetzungen vom Chinesischen ins Deutsche heute eine Qualität, die vor 10 Jahren noch undenkbar gewesen wäre.
Der hohe Reifegrad maschineller Übersetzung
Maschinelle Übersetzung befindet sich aktuell am Scheitelpunkt der Innovationskurve – die Technologie ist qualitativ ausgereizt, dafür nimmt die Sprachenvielfalt weiter zu. Damit einher geht eine Diversifizierung des Markts. Während anfangs große Player wie Google, Microsoft, Amazon und IBM die Branche dominierten, gibt es inzwischen immer mehr Nischenanbieter, die sich auf ein bestimmtes Fachgebiet (z. B. medizinische Übersetzungen) oder weniger verbreitete Sprachen konzentrieren. Für Russisch ist hier beispielsweise Yandex zu nennen und für Chinesisch Baidu, während sich in Korea Naver Papago großer Beliebtheit erfreut.
Einen weiteren Ansatz zur Verbesserung der Übersetzungsqualität bei seltenen Sprachen liefert Google mit seinem Massively Multilingual NMT System. Das Wort „massiv“ ist dabei keine Übertreibung: Atemberaubende 25 Milliarden Satzpaare sind in Googles MT-System eingeflossen. Die Lösung deckt nicht wie üblich nur ein einziges Sprachenpaar, sondern gleich mehrere Dutzend Sprachen und noch mehr Sprachkombinationen ab. Der zentrale Vorteil: Das mithilfe von high-resource languages entwickelte Sprachmodell kann von low-resource languages referenziert und für weniger gebräuchliche Sprachkombinationen herangezogen werden – etwa bei Übersetzungen vom Französischen ins Irische.
Ranking: Die Tops und Flops der KI-Sprachen
Hier mutiert KI zum Sprachgenie …
Übersetzungen ins Englische: Wenig überraschend Übersetzungen ins Englische die Paradedisziplin vieler KI-Übersetzer. Das belegen auch Branchenstudien wie der State of Machine Translation Report von Intento.
Englisch ↔ Westeuropäische Sprachen (Französisch, Spanisch, Deutsch etc.): Hier trägt die enorme Menge an bilingualen Daten, die aus den engen politischen und wirtschaftlichen Verflechtungen der westeuropäischen Länder resultiert, zum Erfolg der maschinellen Übersetzung bei.
Innerhalb der romanischen Sprachgruppe (Spanisch, Portugiesisch, Französisch, Italienisch): Die romanischen Sprachen eint bekanntlich das lateinische Erbe. Aufgrund der vielen Gemeinsamkeiten im Hinblick auf Vokabular und Grammatik funktioniert maschinelle Übersetzung zwischen diesen Sprachen besonders gut.
Innerhalb der skandinavischen Sprachgruppe (Schwedisch, Dänisch, Norwegisch etc.): Eine weitere Sprachfamilie, die eng verwandt ist und untereinander relativ präzise Übersetzungen produziert.
… und hier verschlägt es ihr die Sprache
Ostasiatische Sprachen (Chinesisch, Japanisch, Koreanisch etc.): In den letzten Jahren hat sich die maschinelle Übersetzung dieser Sprachen erheblich verbessert. Dennoch stellt die Kluft, die im Hinblick auf Grammatik, Syntax und Schriftsysteme zwischen den europäischen und ostasiatischen Sprachen besteht, weiterhin ein Hindernis für KI-Übersetzungen dar.
Afrikanische Sprachen: Der afrikanische Kontinent ist in der Forschung zu Natural Language Processing bislang stark unterrepräsentiert. Für die Zukunft bleibt zu hoffen, dass auch kommerziell weniger sichtbare oder gar vom Aussterben bedrohte Sprachen in der Übersetzungsforschung ausreichend Berücksichtigung finden.
Ungarisch: Ungarisch gehört zum agglutinierend-flektierenden Typus an Sprachen. Das bedeutet, dass die Bedeutung von Wörtern und deren Beziehung zueinander durch das Anhängen von Lautelementen (sogenannten Affixen) an das Ursprungswort ausgedrückt werden. Diese starken Wortmutationen sind für maschinelle Übersetzung schwierig zu interpretieren.
Ukrainisch: Auch hier weist Intentos State of Machine Translation Report auf die niedrige Anzahl funktionierender Übersetzungsdienste hin.
Tipp: Für die letztgenannten Sprachen liefern nur wenige KI-Übersetzer brauchbare Ergebnisse. Zudem schwankt die Übersetzungsqualität stark nach Themengebiet (z. B. Medizin, Recht, Journalismus, Alltagssprache). Als Folge kann der Einsatz solcher KI-Tools bei der Übersetzung sensibler Inhalte mit Risiken verbunden sein. Lassen Sie sich deshalb im Zweifelsfall von einer Übersetzungsagentur wie Milengo bei der Auswahl des besten Anbieters beraten.
Jetzt kostenlose Erstberatung vereinbaren
Sprachnerds aufgepasst: Das bringt die Zukunft für low-resource languages
In der Vergangenheit war das Training von MT-Systemen an zweisprachige Korpora geknüpft – oder einfacher ausgedrückt: eine enorme Menge an hochwertigen Übersetzungen. Für ressourcenarme Sprachen sind diese Daten nur bruchstückhaft vorhanden. Doch gibt es Alternativen?
Ja. 2017 eröffnete die sogenannte Transformer-Architektur bahnbrechende neue Möglichkeiten im Bereich Natural Language Processing. Das gilt insbesondere für das Training maschineller Übersetzungssysteme, wo endlich neue Datenquellen erschlossen werden können:
- Monolinguale Daten: Daten in einer einzigen Sprache sind leichter und billiger zu beschaffen als validierte Übersetzungen. Speziell über grammatikalische Strukturen und Kontextbeziehungen enthalten derartige Texte wertvolle Informationen.
- Hilfssprachen: Hiermit sind Sprachen gemeint, die über eine ähnliche Syntax und Semantik wie die Referenzsprache, aber deutlich mehr Sprachressourcen verfügen. Hilfssprachen können das Training von NMT-Modellen nachhaltig unterstützen.
- Multimodale Daten: Ein experimenteller Ansatz ist die Verwendung von Audioaufnahmen für Sprachkombinationen, die sich in der mündlichen Konversation sehr ähneln, aber in der Schriftsprache große Unterschiede aufweisen (z. B. Tadschikisch und Persisch).
- Zweisprachige Wörterbücher: Auch die Verknüpfung zweisprachiger Glossare mit monolingualen Daten kann die Übersetzung von low-resource languages
Fazit
Technologie überwindet Sprachbarrieren – das gilt heute mehr denn je! Speziell für Unternehmen, die Märkte in Osteuropa, Skandinavien, Asien oder Afrika bedienen, sind das gute Nachrichten. Dort trägt maschinelle Übersetzung zukünftig noch stärker dazu bei, die Kosten von Lokalisierungskampagnen zu senken.
Da sich der Markt für maschinelle Übersetzungstechnologie rasant wandelt und die angebotenen Lösungen hinsichtlich Qualität und Kosten stark variieren, empfiehlt es sich dabei, mit einer erfahrenen Übersetzungsagentur wie Milengo zusammenzuarbeiten.