Sebastian Stüker, ehemalig Geschäftsführer, nun Director Research Scientist bei der von Zoom aufgekauften Firma Kites.
Sebastian Stüker, ehemalig Geschäftsführer, nun Director Research Scientist bei der von Zoom aufgekauften Firma Kites.
Bild: KITES
Revolution für Video-Calls aus Karlsruhe? Tech-Gigant "Zoom" kauft Start-Up für Live-Sprachübersetzung: "Wir teilen eine Vision"
Karlsruhe
02.08.2021 15:55
Zwei ehemalige Forscher des Karlsruher Instituts für Technologie (KIT) stellten sich im Jahr 2015 die Aufgabe, einen Simultanübersetzer zu entwickeln - einen Dienst, der vollautomatisch gesprochene Worte in andere Sprachen übersetzen kann. Ihr dafür gegründetes Start-up wurde am 1. Juli dieses Jahres vom Videochat-Unternehmen Zoom aufgekauft. Wie es dazu kam und was das Übersetzungsprogramm für Zoom attraktiv macht, erklärt der Mitbegründer Sebastian Stüker bei ka-news.de

Über 6.500 Sprachen verteilen sich unter der Gesamtheit der Erdbevölkerung - 6.500 unterschiedliche Wege, dem Dasein Namen zu geben.  Der Durchschnittsmensch beherrscht davon vielleicht zwei oder drei. Selbst die Weltsprache Englisch ist nicht immer selbstverständlich. Das wird in einer immer stärker vernetzten Welt in der Kommunikation zwischen verschiedensten Kulturen nicht nur möglich, sondern notwendig ist, zunehmend zum Problem. 

Doch wo ein Problem auftritt, da wird an Lösungen geforscht. Und so wurde die Firma "Karlsruhe Information Technology Solutions GmbH" (Kites) gegründet, um digital zwischen Sprachen aller Art zu vermitteln. "Bereits während unserer universitären Forschung arbeiteten wir die ersten Ansätze für unser Produkt der Simultanübersetzung aus. Unser Ziel war es, gesprochene Sprache in Echtzeit digital zu erfassen und übersetzen zu können", sagt Kites-Co-Gründer Sebastian Stüker.

Sebastian Stüker, ehemalig Geschäftsführer, nun Director Research Scientist bei der von Zoom aufgekauften Firma Kites.
Sebastian Stüker, ehemalig Geschäftsführer, nun Director Research Scientist bei der von Zoom aufgekauften Firma Kites. Bild: KITES

Gemeinsam mit seinem ehemaligen Doktor-Vater Alexander Waibel, rief Stüker die Firma 2015 ins Leben. "Er hatte bereits in den 1980er-Jahren großes Interesse am Konzept der automatischen Übersetzung gesprochener Sprache. Aber erst 2015 war bei uns das Gefühl da, dass die Technologie dahinter weit genug fortgeschritten ist, um marktfähige Dienstleistungen zu entwickeln", so Stüker.

Alexander Waibel, Mitbegründer und ehemaliger Kapitalgeber des Start-ups Kites.
Alexander Waibel, Mitbegründer und ehemaliger Kapitalgeber des Start-ups Kites. Bild: KIT, Markus Breig

Noch vor sechs Jahren waren diese beiden Wissenschaftler die einzigen Eigentümer und Mitarbeiter des jungen Start-ups. Mittlerweile habe Kites insgesamt 12 Mitarbeiter, die weltweit überzeugende Ergebnisse lieferten: "Wir bedienen unter anderem die Sprachfelder Englisch, Französisch, Italienisch, Spanisch sowie einigen ostasiatischen Sprachen. Auf eine bestimmte Sprache fokussieren wir uns dabei nicht, sondern wollen ein möglichst breites Spektrum abdecken", wie der Vordenker des Projekts erzählt.

"Zoom teilt unsere Vision"

"Unser Angebot wurde bereits zu Anfangszeiten durch einige Kunden aus verschiedenen Ländern in Anspruch genommen. 2020 stellten wir den Kontakt zum Videotelefonie-Unternehmen Zoom her, das unser Start-up am 1. Juli dieses Jahres aufkaufte und unseren Service in den seinen integrierte", so Stüker. Seit dieser Übernahme sei er nun nicht mehr Geschäftsführer von Kites, sondern Director Research Scientist des Zoom-eigenen Projekts.

Der Videokonferenz-Dienst Zoom will seine Kassen über ein Aktienangebot im Wert von mindestens 1,5 Milliarden Dollar füllen.
Der Videokonferenz-Dienst Zoom will seine Kassen über ein Aktienangebot im Wert von mindestens 1,5 Milliarden Dollar füllen. Bild: Andre M. Chang/ZUMA Wire/dpa

Auf die Frage, warum man sich für Zoom als Mutterunternehmen entschied, sagt Sebastian Stüker: "Zoom teilt unsere Vision und unsere Leidenschaft, menschliche Kommunikation über Sprachgrenzen hinauszuheben. Wir haben natürlich zunächst einmal klären müssen, ob die Technologie, die Mitarbeiter und auch die Zukunftspläne von Kites und Zoom zusammenpassen. Aber uns wurde ziemlich schnell klar, dass wir das Zoom-Erlebnis bereichern können."

Für wie viel Geld Zoom das Start-up gekauft hat, möchte der Director Research Scientist nicht verraten. Sehr wohl aber, wie genau das Zoom-Erlebnis von Kites optimiert werden könne. Die Rechenleistung hinter solch einem Simultanübersetzer sei laut Stüker nämlich durchaus beachtlich.

"Gesprochene Sprache ist deutlich komplexer als Text"

Um den eigentlichen Aufwand hinter der Translation-Software zu verstehen, müsse man jedoch erst einmal die Unterschiede menschlicher Kommunikation beleuchten: "Sprache in Textform ist beispielsweise deutlich leichter zu übersetzen. Der Text liegt einem Programm im Regelfall in vollständiger und normierter Form vor", erklärt der Forscher. Das sei auch der Grund warum Textübersetzer schon seit Jahren und Jahrzehnten frei zugänglich seien.

"Kites dagegen legt seinen Fokus auf gesprochene Sprache. Das ist schon deutlich komplizierter, denn zunächst einmal muss sie korrekt von der Software erfasst und verarbeitet werden. Gesprochene Sprache ist sehr unstrukturiert und auch nicht durch Satzzeichen, Absätze, Sinnabschnitte oder Kapitel segmentiert", wie der Entwickler berichtet.

"Sie liegt dem Programm nicht von Anfang an vollständig vor, sondern kommt mit dem Redefluss. Außerdem ist sie stark geprägt durch die Person, die spricht, etwa durch Wortwahl, Sprachtempo oder Dialekt", so Stüker.

Die Funktionsweise des Übersetzers

Damit während des Redeflusses Untertitel generiert werden können, sei es also zunächst nötig, die gesprochenen Worte digital aufzufangen und in Text zu konvertieren. "Unsere Software arbeitet nicht Wort für Wort, sondern erfasst einen ganzen Wortschwall, der zunächst in Text umgewandelt wird. Anschließend wird durch einen sogenannten hochdimensionalen Zeilenvektor die genaue Semantik des Textes erfasst und mit Beispielsätzen aus einer Zielsprache abgeglichen."

Auf diese Weise werde "die sinnvollste Übersetzung in dieser Zielsprache ermittelt", so Stüker. Das Ziel sei dabei, syntaktisch natürliche und idiomatisch korrekte Untertitel zu erzeugen, sobald in einer zuvor eingestellten Sprache gesprochen wird. Die Dolmetscherfähigkeiten des Programms würden währenddessen stetig und in gewissem Maße selbstständig verbessert werden.

"Unser Übersetzer basiert auf künstlicher Intelligenz und maschinellem Lernen. Er ist sozusagen an ein menschliches Gehirn angelehnt und bildet ähnliche neuronale Verknüpfungen, je mehr Sprachen er lernt und übersetzt", so Stüker. "Somit verbessert er seine Funktionen auch im Laufe der Zeit und kann die verbalen Aussagen der Nutzer noch natürlicher und präziser in andere Sprachen übertragen."

"Das Programm ist nie fertig"

Natürlich bedeute das nicht, dass der Übersetzer ohne menschliche Direktion auskäme. Er werde vom 12-köpfigen Kites-Team und auch unter der Schirmherrschaft von Zoom kontinuierlich weiterentwickelt. "Alleine in den letzten Jahren durchlief unsere Software drei Technologiezyklen", berichtet Stüker. Ihre technologische Basis musste also immer wieder durch fortgeschrittenere Komponenten aktualisiert werden.

"Das Programm ist nie fertig", resümiert Sebastian Stüker. "Auch die Systeme sind noch nicht frei von Fehlern und der Übersetzer erreicht noch nicht in allen Fällen eine menschliche Leistung." Das sei aber auch nicht weiter verwunderlich, bedenke man die enorme Menge an Daten, die die Server des Übersetzers verarbeiten müssten, um überhaupt eine menschenähnliche Leistung in puncto Dolmetschen zu erbringen.

"Konform mit der Datenschutz-Grundverordnung"

Und natürlich müsse man diese Daten auch schützen. "Datenschutz ist für uns ein sehr wichtiges Thema", meint Stüker. "Unser Übersetzungsservice ist technisch durch die Gesetze des jeweiligen Landes reguliert. Hierzulande sind wir mit der deutschen Datenschutz-Grundverordnung konform." Das bedeute konkret, dass die Aussagen aufgenommen, in Text umgewandelt, in Untertitel konvertiert und anschließend sofort gelöscht werden.

Die Übermittlung zum Kites-Server, die die Daten zur Übersetzung durchlaufen müsse, finde vollständig verschlüsselt statt. Selbst auf Sprachaufnahmen, die mit Zoom erstellt werden und übersetzt werden könnten, habe nur der jeweilige Nutzer Zugriff. "Auch wenn Zoom nun der alleinige Eigentümer von Kites und damit unserem Übersetzungsserver ist - bei privaten Gesprächen und übersetzten Transkripten kann die Firma prinzipiell nicht mitlesen", wie Stüker versichert.

Es ist nicht mehr möglich, Kommentare zu diesem Artikel zu verfassen.
2 Kommentare