Wie KI Sprache versteht – Ein Interview mit Dr. Patrick McCrae von LangTec

Künstliche Intelligenz und Menschliche Sprache

 

Ein wichtiges Anwendungsgebiet der künstlichen Intelligenz sind sprachbasierte Services, die im Alltag der Nutzer inzwischen unaufgeregt zum Einsatz kommen. Siri und Alexa sind heute in der Lage, menschliche Sprache zu verarbeiten und einfache Antworten zu geben. Eine Leistung, die vor einem Jahrzehnt noch Science Fiction war. Mit zunehmendem Training der Algorithmen steigt auch die Qualität der Antworten.

Auch Facebook arbeitet am Verständnis der menschlichen Sprachen. Das Bindeglied in der Interaktion zwischen Mensch und Maschine sollen zukünftig Chatbots darstellen. Innerhalb einer natürlichen Konversation können Nutzer des Facebook Messengers z.B. Blumen bestellen oder Wetterinformationen erhalten. Kommunizieren wir in Zukunft alle mit Maschinen wie Joaquin Phoenix im Kinofilm „Her“?

 

Wir sprachen mit dem Computerlinguisten und Inhaber des Unternehmens LangTec Dr. Patrick McCrae über die aktuellen Entwicklungen im Bereich der sprachbasierten Technologien:

 

  •  Was fasziniert dich an der Computerlinguistik?

Für mich definiert sich Computerlinguistik durch die Verbindung von Sprache und Technologie. Sie ist dadurch ein extrem breites und vielseitiges Feld, das spannende Herausforderungen in so unterschiedlichen Bereichen bietet wie der effektiven Suche nach relevanten Inhalten im Web, der semantischen Interpretation von Texten, der automatischen Generierung von Dokumenten, der maschinellen Übersetzung oder der Erkennung gesprochener Sprache in der Mensch-Maschine-Interaktionen.

Durch den zunehmenden Einsatz hochparallelisierter verteilter Systemarchitekturen haben sich in den letzten fünf Jahren in der kommerziellen Anwendung ungeahnte Optionen zur Skalierbarkeit ergeben. Wir können heute komplexe semantische Analysen auf riesigen Datenbeständen in Bruchteilen einer Sekunde ausführen, die früher Stunden gedauert hätten. So ist es heute z. B. ohne Weiteres möglich, mehrfach täglich einen kompletten Dump des deutschsprachigen Internets gezielt auf spezifische Inhalte hin zu durchsuchen.

Dies stellt nicht nur einen quantitativen, sondern einen qualitativen Fortschritt in der datengetriebenen Gewinnung von relevanten Erkenntnissen dar. Diese aktuellen Entwicklungen machen Computerlinguistik sowohl wissenschaftlich, technologisch als auch wirtschaftlich zu einem hochinteressanten Bereich.

 

  • Welche Idee steht hinter Deinem Unternehmen LangTec?

Als ich LangTec vor fünf Jahren gründete, war ganz offensichtlich, dass der deutsche Markt für diese Themen in der Breite noch nicht aufgestellt war. Unsere Kunden waren zu der Zeit vorwiegend ausländische Unternehmen. Buzzwords wie Big Data, Semantische Analyse und Machine Learning schwappten gerade erst über den großen Teich. Seit ungefähr zwei Jahren jedoch beobachten wir eine intensive Entwicklung in der kommerziellen Umsetzung dieser Themen auch im deutschen Mittelstand. Daraus hat sich für LangTec eine klare Verschiebung des Kundenportfolios hin zum innovativen deutschen Mittelstand ergeben.

LangTec versteht sich als forschungsnaher Dienstleister. Signifikante neue Entdeckungen im Bereich der semantischen Technologien entstehen vorwiegend im universitären Umfeld oder aber in den Labs der ganz großen Technologiekonzerne. Es vergehen im Schnitt fünf bis zehn Jahre, bis dieses Wissen überhaupt in der kommerziellen Anwendung ankommt. Oftmals vergehen weitere fünf bis zehn Jahre, bis diese Ansätze dann in der Breite für den innovativen Mittelstand sichtbar und erschwinglich werden. Wir bilden bewusst die Schnittstelle zwischen der akademischen Welt und dem anwendungsbezogenen Mittelstand. Unser Ziel ist es, für unsere Kunden diese historisch langwierigen Innovationszyklen deutlich zu verkürzen und somit relevante Forschungsergebnisse schneller in die Umsetzung zu bringen.

 

  • Wie funktioniert die intelligente Verarbeitung sprachlicher Daten?

Prinzipiell unterscheidet man bei den semantischen Analyseverfahren zwischen regelbasierten und datengetrieben Verfahren. Ein typischer Anwendungsfall für einen regelbasierten Ansatz ist die automatisierte Erkennung von Datumsausdrücken in E-Mails. Dafür müssen vorab möglichst viele potenzielle Muster der gewünschten Ausdrücke möglichst genau von Experten modelliert werden. Ein solches System kann dann mit hoher Genauigkeit all jene Muster entdecken, die zuvor antizipiert wurden.

Ein typischer Anwendungsfall für ein datengetriebenes Verfahren ist die automatisierte Einordnung eines Zeitungsartikels in eine von 20 vordefinierten Inhaltsrubriken. Dafür wird ein Klassifikator trainiert, der mittels maschineller Lernverfahren aus bereits bekannten Rubrikzuweisungen eigenständig die charakteristischen Muster erlernt. Der Vorteil von datengetriebenen Verfahren ist, dass sie von den Trainingsdaten abstrahieren können und somit auch für noch nie zuvor gesehenen Input plausible Vorhersagen liefern können.

Ergänzend sei noch anzumerken, dass sich regelbasierte und datengetriebene Ansätze nicht gegenseitig ausschließen. Tatsächlich lassen sich in der Praxis gerade durch die Kombination beider Ansätze oftmals besonders robuste und leistungsfähige Lösungen realisieren.

 

  • Wo liegen aktuell die Grenzen beim Einsatz sprachbasierter Technologie?

Moderne Textanalytik-Lösungen sind schon extrem leistungsfähig und kommen in einer Vielzahl von Anwendungsfällen zum Einsatz. Es wäre aber ebenso naiv wie unseriös, die bestehenden Herausforderungen zu verschweigen. Neben den offensichtlichen technologischen Beschränkungen von Prozessor-Taktung, Arbeits- und Festplattenspeicher sehe ich primär auch methodische Limitationen:

  1. Datenqualität
    In den meisten Anwendungsfällen ist das Verhältnis von Signal zu Rauschen ungünstig. Man denke nur an die textliche Qualität von Twitter-Posts. In diesem Datenrauschen das relevante Signal zu entdecken, ist selbst für Menschen oftmals eine Herausforderung.
  2. Verfügbarkeit von Trainingsdaten
    Insbesondere für maschinelle Lernverfahren werden zum Erlernen abstrakter Muster große Mengen an Trainingsdaten benötigt. Viele Probleme der Textanalytik ließen sich sehr elegant durch entsprechend trainierte Klassifikatoren lösen … wenn es nur ausreichend Trainingsmaterial gäbe, um den Klassifikatoren vorab das Lernen der relevanten Muster zu ermöglichen.
  3. Weltwissen
    Tiefgehende semantische Analyse benötigt oftmals neben dem textlichen Input zusätzliches Wissen über die Welt, in der wir leben. Dieses Wissen ist in den zu analysierenden Daten meist nicht verfügbar. Der effiziente Zugriff auf geeignete Wissensrepräsentationen scheitert in der Praxis oft daran, dass entsprechendes Wissen noch gar nicht – oder nicht in effizient verarbeitbarerer Form – modelliert wurde.

 

  • Welche Anwendungsfelder sind dabei für dich am spannendsten?

In unserer Arbeit bei LangTec sind wir nicht auf bestimmte Anwendungsbereiche oder Branchen festgelegt. Für uns ist prinzipiell jede Anwendung interessant, die sprachliche Daten involviert.
Mich persönlich reizt besonders die maschinelle Gewinnung von Erkenntnissen, die ohne den Einsatz computationeller Verfahren gar nicht – oder zumindest nicht ohne unverhältnismäßigen Aufwand – zugänglich wären. So finde ich z. B. die Leistung von IBM Watson, Propositionen vollautomatisiert aus umfassenden Beständen wissenschaftlicher Literatur zu extrahieren, diese in maschinell verarbeitbarer Form zu repräsentieren und daraus neue Hypothesen zu entwickeln, unglaublich faszinierend.

Auf eher praktischer Ebene begeistern mich smarte Ansätze von Effizienzsteigerung durch die Automatisierung komplexer oder repetitiver manueller Tätigkeiten mittels künstlicher Intelligenz. Es ist ein cooles Gefühl, wenn Computer uns die nervigen Tasks abnehmen, und uns damit wertvolle Zeit für das Wesentliche schenken.

 

  • Welche zukünftigen Chancen und Möglichkeiten entstehen für den Einsatz semantischer Technologie und wo liegen die Hindernisse?

Semantische Analyse ist schon lange kein Buzzword für ein Nischenphänomen mehr. Die Community wächst stetig und ist längst aus den universitären Labs in der Industrie angekommen. Dadurch entstehen ständig neue, größere, umfassendere Ressourcen als Basis für immer komplexer werdende Analysen.
In den kommenden Jahren werden wir meines Erachtens massive Fortschritte im Verstehen natürlicher Sprache sehen. Dabei werden insbesondere längerkettige Inferenzen und Question Answering eine Rolle spielen. Maschinen werden zunehmend in der Lage sein, Fragen zu beantworten, die die Verknüpfung von mehreren Informationsquellen, das Treffen von plausiblen Annahmen und das abwägende logische Schließen über die verfügbaren Informationen erfordern. Das intelligente Handling von Ungewissheit und fehlenden Informationen ist dabei ein ganz wesentlicher Faktor.

Dies sind Themen, denen sich die ganz großen Player der Branche natürlich schon längst intensiv widmen … aber die Limitationen, die wir heute an verschiedensten Stellen sehen, werden auch sie noch eine gute Zeit lang auf dem Weg begleiten.

 

  • Abschließend ein wenig Science Fiction: Wie sieht für dich eine Welt in 2030 aus, in der sprachbasierte Technologien zum Alltag der Menschen gehören?

Um eine möglichst realistische Einschätzung des Innovationsinkrements für die nächsten 15 Jahre zu bekommen, blicke ich erst einmal 15 Jahre zurück. Dabei fällt auf, dass die Welt, in der wir heute leben, ja gar nicht so viel anders ist als die zu Beginn unseres Jahrtausends.

Vorausblickend würde ich annehmen, dass der zeitliche Faktor in der Berechnung tiefer semantischer Analysen weitgehend verschwindet und auch komplexe Analysen in Echtzeit verfügbar sein werden. Wir können somit auch schwere faktenbasierte Fragen in wenigen Bruchteilen eines Augenblicks beantworten.

Durch die komplette infrastrukturelle Vernetzung sind diese Antworten jederzeit und überall verfügbar. Die Trennung zwischen online und offline wird verschwinden. Gesprochene Sprache wird sich als primäres Interaktionsmedium in der Mensch-Maschine-Schnittstelle etabliert haben. An das Bild von Menschen, die auf eine vermutlich gar nicht mehr sichtbare Maschine einreden, werden wir uns also auch langfristig gewöhnen müssen.

Im Übrigen erwarte ich, dass sich diese Entwicklung auch gesellschaftlich auf  uns auswirken wird. Wir werden alle zunehmend in die Verantwortung genommen werden, dass wir die wachsenden technologischen Fähigkeiten verantwortungsvoll einsetzen und nicht zu einem orwellschen Zustand führen.


Vielen Dank für das Interview an Dr. Patrick McCrae.