Kann künstliche Intelligenz uns wirklich dabei helfen, mit den Tieren zu sprechen? | Sprache

EIN Die Delphinführerin macht mit ihren Händen das Zeichen für „gemeinsam“, gefolgt von „schaffen“. Die beiden trainierten Delfine verschwinden unter Wasser, tauschen Geräusche aus und tauchen dann auf, drehen sich auf den Rücken und heben ihre Schwänze. Sie haben sich einen neuen Trick ausgedacht und ihn im Tandem ausgeführt, genauso wie gewünscht. „Das beweist nicht, dass es Sprache gibt“, sagt Aza Raskin. „Aber es macht sicherlich sehr viel Sinn, dass, wenn sie Zugang zu einer reichen, symbolischen Art der Kommunikation hätten, dies diese Aufgabe viel einfacher machen würde.“

Raskin ist Mitbegründer und Präsident von Earth Species-Projekt (ESP), eine kalifornische Non-Profit-Gruppe mit einem kühnen Ehrgeiz: nichtmenschliche Kommunikation mithilfe einer Form der künstlichen Intelligenz (KI) namens maschinelles Lernen zu entschlüsseln und das gesamte Know-how öffentlich zugänglich zu machen, um so unsere Verbindung zu anderen lebenden Arten zu vertiefen und helfen, sie zu schützen. EIN 1970 Album mit Walliedern entfachte die Bewegung, die zum Verbot des kommerziellen Walfangs führte. Was könnte ein Google Übersetzer für das Tierreich hervorbringen?

Die 2017 mit Hilfe von Großspendern wie LinkedIn-Mitbegründer Reid Hoffman gegründete Organisation veröffentlichte im vergangenen Dezember ihr erstes wissenschaftliches Paper. Das Ziel ist es, die Kommunikation zu unseren Lebzeiten freizuschalten. „Das Ziel, auf das wir hinarbeiten, ist, können wir die Tierkommunikation entschlüsseln und nichtmenschliche Sprache entdecken“, sagt Raskin. „Unterwegs und ebenso wichtig ist, dass wir Technologien entwickeln, die Biologen und den Naturschutz jetzt unterstützen.“

Das Verstehen tierischer Lautäußerungen ist seit langem Gegenstand menschlicher Faszination und Studien. Verschiedene Primaten geben Alarmrufe ab, die je nach Raubtier unterschiedlich sind; Delfine sprechen sich mit charakteristischen Pfeifen an; und einige Singvögel können Elemente ihrer Anrufe nehmen und sie neu anordnen, um verschiedene Nachrichten zu übermitteln. Aber die meisten Experten hören damit auf, es eine Sprache zu nennen, da keine Tierkommunikation alle Kriterien erfüllt.

Bis vor kurzem beruhte die Entschlüsselung hauptsächlich auf sorgfältiger Beobachtung. Aber das Interesse an der Anwendung von maschinellem Lernen zur Bewältigung der riesigen Datenmengen, die heute von modernen Tiersensoren gesammelt werden können, ist gewachsen. „Die Leute fangen an, es zu benutzen“, sagt Elodie Briefer, außerordentliche Professorin an der Universität Kopenhagen, die die stimmliche Kommunikation bei Säugetieren und Vögeln untersucht. „Aber wir verstehen noch nicht wirklich, wie viel wir tun können.“

Briefer hat einen Algorithmus mitentwickelt, der das Grunzen von Schweinen analysiert, um festzustellen, ob das Tier eine positive oder negative Emotion erlebt. Ein anderes, namens DeepSqueak, beurteilt anhand ihrer Ultraschallrufe, ob sich Nagetiere in einem gestressten Zustand befinden. Eine weitere Initiative – Projekt CETI (was für die Cetacean Translation Initiative steht) – plant, maschinelles Lernen einzusetzen, um die Kommunikation von Pottwalen zu übersetzen.

Anfang dieses Jahres veröffentlichten Elodie Briefer und Kollegen eine Studie über die Emotionen von Schweinen basierend auf ihren Lautäußerungen. 7.414 Geräusche wurden von 411 Schweinen in einer Vielzahl von Szenarien gesammelt. Foto: Matt Cardy/Getty Images

ESP sagt jedoch, dass sein Ansatz anders ist, weil es sich nicht darauf konzentriert, die Kommunikation einer Art zu entschlüsseln, sondern aller. Während Raskin anerkennt, dass es eine höhere Wahrscheinlichkeit einer reichhaltigen, symbolischen Kommunikation zwischen sozialen Tieren geben wird – zum Beispiel Primaten, Walen und Delfinen – ist das Ziel, Werkzeuge zu entwickeln, die auf das gesamte Tierreich angewendet werden könnten. „Wir sind Spezies-Agnostiker“, sagt Raskin. „Die Werkzeuge, die wir entwickeln … können in der gesamten Biologie eingesetzt werden, von Würmern bis hin zu Walen.“


TDie „motivierende Intuition“ für ESP, sagt Raskin, ist eine Arbeit, die gezeigt hat, dass maschinelles Lernen verwendet werden kann, um zwischen verschiedenen, manchmal weit entfernten menschlichen Sprachen zu übersetzen – ohne dass Vorkenntnisse erforderlich sind.

Dieser Prozess beginnt mit der Entwicklung eines Algorithmus zur Darstellung von Wörtern in einem physischen Raum. In dieser mehrdimensionalen geometrischen Darstellung beschreiben der Abstand und die Richtung zwischen Punkten (Wörtern), wie sie sinnvoll zueinander in Beziehung stehen (ihre semantische Beziehung). Zum Beispiel hat „König“ eine Beziehung zu „Mann“ mit der gleichen Distanz und Richtung, die „Frau“ zu „Königin“ hat. (Die Zuordnung erfolgt nicht, indem man weiß, was die Wörter bedeuten, sondern indem man zum Beispiel betrachtet, wie oft sie nebeneinander vorkommen.)

Später wurde festgestellt, dass diese „Formen“ für verschiedene Sprachen ähnlich sind. Und dann, im Jahr 2017, fanden zwei unabhängig voneinander arbeitende Forschergruppen eine Technik, die dies ermöglichte Erzielen Sie eine Übersetzung, indem Sie die Formen ausrichten. Um vom Englischen zum Urdu zu gelangen, richten Sie ihre Formen aus und finden Sie den Punkt in Urdu, der dem Punkt des Wortes auf Englisch am nächsten liegt. „Man kann die meisten Wörter recht gut übersetzen“, sagt Raskin.

Das Bestreben von ESP ist es, diese Art von Darstellungen der Tierkommunikation zu erstellen – sowohl an einzelnen Arten als auch an vielen Arten gleichzeitig zu arbeiten – und dann Fragen zu untersuchen, z. B. ob es Überschneidungen mit der universellen menschlichen Form gibt. Wir wissen nicht, wie Tiere die Welt erleben, sagt Raskin, aber es gibt Emotionen, zum Beispiel Trauer und Freude, die anscheinend einige mit uns teilen und über die sie mit anderen ihrer Art kommunizieren können. „Ich weiß nicht, was unglaublicher sein wird – die Teile, in denen sich die Formen überschneiden und wir direkt kommunizieren oder übersetzen können, oder die Teile, in denen wir das nicht können.“

zwei Delfine in einem Pool
Delphine verwenden Klicks, Pfeifen und andere Geräusche, um zu kommunizieren. Aber was sagen sie? Foto: ALesik/Getty Images/iStockphoto

Er fügt hinzu, dass Tiere nicht nur stimmlich kommunizieren. Bienen zum Beispiel teilen anderen den Standort einer Blume durch einen „Wackeltanz“ mit. Es wird auch notwendig sein, über verschiedene Kommunikationsarten hinweg zu übersetzen.

Das Ziel ist „wie zum Mond zu fliegen“, räumt Raskin ein, aber die Idee ist auch nicht, auf einmal dorthin zu gelangen. Vielmehr umfasst die Roadmap von ESP die Lösung einer Reihe kleinerer Probleme, die für die Verwirklichung des Gesamtbildes erforderlich sind. Dies sollte zur Entwicklung allgemeiner Werkzeuge führen, die Forschern helfen können, KI anzuwenden, um die Geheimnisse der untersuchten Arten zu entschlüsseln.

Zum Beispiel veröffentlichte ESP kürzlich ein Papier (and teilte seinen Code) zum sogenannten „Cocktailparty-Problem“ in der Tierkommunikation, bei dem es schwierig ist, zu erkennen, welches Individuum in einer Gruppe gleicher Tiere in einer lauten sozialen Umgebung vokalisiert.

„Nach unserem Wissen hat noch niemand diese End-to-End-Entwirrung durchgeführt [of animal sound] vorher“, sagt Raskin. Das von ESP entwickelte KI-basierte Modell, das an Delphinpfeifen, Makaken-Gurrrufen und Fledermausvokalisationen ausprobiert wurde, funktionierte am besten, wenn die Rufe von Personen kamen, auf die das Modell trainiert worden war; aber mit größeren Datensätzen war es in der Lage, Mischungen von Anrufen von Tieren zu entwirren, die nicht in der Trainingskohorte waren.

Ein weiteres Projekt beinhaltet die Verwendung von KI zur Erzeugung neuartiger Tierrufe mit Buckelwalen als Testart. Die neuartigen Rufe – die durch die Aufspaltung von Vokalisationen in Mikrophoneme (unterscheidbare Toneinheiten, die eine Hundertstelsekunde dauern) und die Verwendung eines Sprachmodells, um etwas Walähnliches zu „sprechen“, erzeugt werden – können dann den Tieren vorgespielt werden, um zu sehen, wie sie es tun antworten. Wenn die KI erkennen kann, was eine zufällige Änderung im Vergleich zu einer semantisch sinnvollen Änderung ausmacht, bringt uns das einer sinnvollen Kommunikation näher, erklärt Raskin. „Es bedeutet, dass die KI die Sprache spricht, obwohl wir noch nicht wissen, was das bedeutet.“

Eine hawaiianische Krähe, die einen Zweig benutzt, um Maden von einem Ast zu haken
Hawaiianische Krähen sind bekannt für ihren Gebrauch von Werkzeugen, aber es wird auch angenommen, dass sie eine besonders komplexe Reihe von Lautäußerungen haben. Foto: Minden Bilder/Alamy

Ein weiteres Projekt zielt darauf ab, einen Algorithmus zu entwickeln, der ermittelt, wie viele Ruftypen eine Art zur Verfügung hat, indem er selbstüberwachtes maschinelles Lernen anwendet, das keine Kennzeichnung von Daten durch menschliche Experten erfordert, um Muster zu lernen. In einem frühen Testfall wird es Audioaufnahmen untersuchen, die von einem Team unter der Leitung von Christian Rutz, einem Professor für Biologie an der Universität von St. Andrews, erstellt wurden, um eine Bestandsaufnahme des Stimmrepertoires der hawaiianischen Krähe zu erstellen – einer Art, die Rutz entdeckt hat , hat die Fähigkeit, Werkzeuge für die Nahrungssuche herzustellen und zu verwenden, und es wird angenommen, dass sie einen wesentlich komplexeren Satz von Lautäußerungen hat als andere Krähenarten.

Rutz ist besonders begeistert vom Naturschutzwert des Projekts. Die hawaiianische Krähe ist vom Aussterben bedroht und existiert nur in Gefangenschaft, wo sie für die Wiedereinführung in die Wildnis gezüchtet wird. Anhand von Aufzeichnungen zu unterschiedlichen Zeitpunkten soll nachvollzogen werden können, ob das Rufrepertoire der Art in Gefangenschaft erodiert – beispielsweise könnten bestimmte Alarmrufe verloren gegangen sein – was Folgen für die Wiederansiedlung haben könnte; Dieser Verlust könnte durch Intervention angegangen werden. „Es könnte unsere Fähigkeit, diesen Vögeln zu helfen, vom Abgrund zurückzukommen, grundlegend verändern“, sagt Rutz und fügt hinzu, dass das manuelle Erkennen und Klassifizieren der Rufe arbeitsintensiv und fehleranfällig wäre.

In der Zwischenzeit versucht ein anderes Projekt, die funktionalen Bedeutungen von Vokalisationen automatisch zu verstehen. Sie wird mit dem Labor von Ari Friedlaender, Professor für Ozeanwissenschaften an der University of California, Santa Cruz, verfolgt. Das Labor untersucht, wie sich wild lebende Meeressäuger, die schwer direkt zu beobachten sind, unter Wasser verhalten und betreibt eines der weltweit größten Markierungsprogramme. Kleine elektronische „Biologging“-Geräte, die an den Tieren angebracht sind, erfassen ihren Standort, die Art der Bewegung und sogar das, was sie sehen (die Geräte können Videokameras enthalten). Das Labor verfügt auch über Daten von strategisch platzierten Tonaufzeichnungsgeräten im Ozean.

ESP zielt darauf ab, zunächst selbstüberwachtes maschinelles Lernen auf die Tag-Daten anzuwenden, um automatisch zu messen, was ein Tier tut (z. B. ob es frisst, sich ausruht, reist oder Kontakte knüpft), und dann die Audiodaten hinzuzufügen, um zu sehen, ob eine funktionale Bedeutung gegeben werden kann zu Anrufen, die mit diesem Verhalten verbunden sind. (Wiedergabeexperimente könnten dann verwendet werden, um alle Ergebnisse zusammen mit zuvor entschlüsselten Rufen zu validieren.) Diese Technik wird zunächst auf Buckelwaldaten angewendet – das Labor hat mehrere Tiere in derselben Gruppe markiert, damit es möglich ist zu sehen, wie Signale werden gegeben und empfangen. Friedlaender sagt, er sei „an die Decke gestoßen“ in Bezug darauf, was derzeit verfügbare Tools aus den Daten herauskitzeln könnten. „Wir hoffen, dass die Arbeit von ESP neue Erkenntnisse liefern wird“, sagt er.


BAber nicht jeder ist so begeistert von der Macht der KI, solch große Ziele zu erreichen. Robert Seyfarth ist emeritierter Professor für Psychologie an der University of Pennsylvania, der seit mehr als 40 Jahren das Sozialverhalten und die stimmliche Kommunikation bei Primaten in ihrem natürlichen Lebensraum untersucht. Während er glaubt, dass maschinelles Lernen für einige Probleme nützlich sein kann, wie z. B. die Identifizierung des Stimmrepertoires eines Tieres, gibt es andere Bereiche, einschließlich der Entdeckung der Bedeutung und Funktion von Lautäußerungen, bei denen er skeptisch ist, dass es viel beitragen wird.

Das Problem, erklärt er, ist, dass viele Tiere zwar ausgeklügelte, komplexe Gesellschaften haben können, aber ein viel kleineres Repertoire an Geräuschen haben als Menschen. Das Ergebnis ist, dass der exakt gleiche Klang verwendet werden kann, um verschiedene Dinge in verschiedenen Kontexten zu bedeuten, und das nur durch das Studium des Kontexts – wer die individuelle Berufung ist, wie sie mit anderen verwandt ist, wo sie in der Hierarchie steht, wen sie hat interagiert mit – diese Bedeutung kann darauf hoffen, etabliert zu werden. „Ich finde diese KI-Methoden einfach unzureichend“, sagt Seyfarth. „Du musst rausgehen und die Tiere beobachten.“

eine Honigbiene auf einer Hundsrosenblüte
Eine Karte der Tierkommunikation muss nicht-vokale Phänomene wie die „Wackeltänze“ von Honigbienen beinhalten. Foto: Ben Birchall/PA

Es gibt auch Zweifel am Konzept – dass sich die Form der Tierkommunikation sinnvoll mit der menschlichen Kommunikation überschneidet. Computergestützte Analysen auf die uns so vertraute menschliche Sprache anzuwenden, sei das eine, sagt Seyfarth. Aber es kann „ganz anders“ sein, es anderen Arten anzutun. „Es ist eine aufregende Idee, aber es ist ein großer Schritt“, sagt Kevin Coffey, ein Neurowissenschaftler an der University of Washington, der den DeepSqueak-Algorithmus mitentwickelt hat.

Raskin räumt ein, dass KI allein möglicherweise nicht ausreicht, um die Kommunikation mit anderen Arten zu ermöglichen. Aber er bezieht sich auf Forschungsergebnisse, die gezeigt haben, dass viele Arten auf eine Art und Weise kommunizieren, „die komplexer ist, als sich die Menschen jemals vorgestellt haben“. Die Stolpersteine ​​waren unsere Fähigkeit, ausreichend Daten zu sammeln und sie in großem Umfang zu analysieren, und unsere eigene begrenzte Wahrnehmung. „Das sind die Werkzeuge, mit denen wir die menschliche Brille abnehmen und ganze Kommunikationssysteme verstehen können“, sagt er.

source site-27