KI macht nicht-invasives Gedankenlesen möglich, indem sie Gedanken in Text umwandelt | Künstliche Intelligenz (KI)

Ein KI-basierter Decoder, der die Gehirnaktivität in einen kontinuierlichen Textstrom übersetzen kann, wurde in einem Durchbruch entwickelt, der es zum ersten Mal ermöglicht, die Gedanken einer Person nicht-invasiv zu lesen.

Der Decoder konnte Sprache mit unheimlicher Genauigkeit rekonstruieren, während die Menschen einer Geschichte zuhörten – oder sich sogar eine im Stillen vorstellten –, indem sie nur fMRI-Scandaten verwendeten. Frühere Sprachdecodierungssysteme erforderten chirurgische Implantate, und der neueste Fortschritt lässt die Aussicht auf neue Wege aufkommen, um die Sprache bei Patienten wiederherzustellen, die aufgrund eines Schlaganfalls oder einer Motoneuronerkrankung Schwierigkeiten haben, sich zu verständigen.

Dr. Alexander Huth, ein Neurowissenschaftler, der die Arbeit an der University of Texas in Austin leitete, sagte: „Wir waren irgendwie schockiert, dass es so gut funktioniert. Ich arbeite seit 15 Jahren daran … also war es schockierend und aufregend, als es endlich funktionierte.“

Die Errungenschaft überwindet eine grundlegende Einschränkung der fMRI, die darin besteht, dass die Technik zwar die Gehirnaktivität mit unglaublich hoher Auflösung an einem bestimmten Ort abbilden kann, es jedoch eine inhärente Zeitverzögerung gibt, die die Verfolgung von Aktivitäten in Echtzeit unmöglich macht.

Die Verzögerung besteht, weil fMRT-Scans die Reaktion des Blutflusses auf die Gehirnaktivität messen, die ihren Höhepunkt erreicht und über etwa 10 Sekunden zum Ausgangswert zurückkehrt, was bedeutet, dass selbst der leistungsstärkste Scanner dies nicht verbessern kann. “Es ist dieser laute, träge Proxy für neuronale Aktivität”, sagte Huth.

Diese harte Grenze hat die Fähigkeit behindert, die Gehirnaktivität als Reaktion auf natürliche Sprache zu interpretieren, da sie einen „Mischmasch aus Informationen“ ergibt, der sich über einige Sekunden erstreckt.

Das Aufkommen großer Sprachmodelle – die Art von KI, die ChatGPT von OpenAI untermauert – bot jedoch einen neuen Zugang. Diese Modelle sind in der Lage, die semantische Bedeutung von Sprache in Zahlen darzustellen, sodass die Wissenschaftler untersuchen können, welche Muster neuronaler Aktivität vorliegen Wortfolgen mit einer bestimmten Bedeutung entsprachen, anstatt zu versuchen, die Aktivität Wort für Wort vorzulesen.

Der Lernprozess war intensiv: Drei Freiwillige mussten jeweils 16 Stunden in einem Scanner liegen und Podcasts hören. Der Decoder wurde darauf trainiert, die Gehirnaktivität mithilfe eines großen Sprachmodells, GPT-1, einem Vorläufer von ChatGPT, mit der Bedeutung abzugleichen.

Später wurden dieselben Teilnehmer gescannt, während sie sich eine neue Geschichte anhörten oder sich vorstellten, eine Geschichte zu erzählen, und der Decoder wurde verwendet, um Text allein aus der Gehirnaktivität zu generieren. Etwa die Hälfte der Zeit stimmte der Text genau – und manchmal genau – mit der beabsichtigten Bedeutung der ursprünglichen Wörter überein.

„Unser System arbeitet auf der Ebene der Ideen, der Semantik, der Bedeutung“, sagte Huth. „Das ist der Grund, warum wir nicht die genauen Worte herausbekommen, sondern das Wesentliche.“

Wenn beispielsweise einer Teilnehmerin die Worte „Ich habe noch keinen Führerschein“ vorgespielt wurden, übersetzte der Decoder diese mit „Sie hat noch nicht einmal angefangen, Autofahren zu lernen“. In einem anderen Fall die Worte „Ich wusste nicht, ob ich schreien, weinen oder weglaufen sollte. Stattdessen sagte ich: ‚Lass mich in Ruhe!’“ wurden entschlüsselt als „Fing an zu schreien und zu weinen, und dann sagte sie nur: ‚Ich habe dir gesagt, du sollst mich in Ruhe lassen.’“

Die Teilnehmer wurden außerdem gebeten, sich vier kurze, stumme Videos anzusehen, während sie sich im Scanner befanden, und der Decoder war in der Lage, ihre Gehirnaktivität zu nutzen, um einen Teil des Inhalts genau zu beschreiben. die Arbeit in Nature Neuroscience gemeldet.

„Für eine nicht-invasive Methode ist dies ein echter Sprung nach vorne im Vergleich zu dem, was vorher gemacht wurde, was typischerweise aus einzelnen Wörtern oder kurzen Sätzen besteht“, sagte Huth.

Manchmal hat der Decoder das falsche Ende des Sticks erwischt und mit bestimmten Aspekten der Sprache, einschließlich Pronomen, gekämpft. „Es weiß nicht, ob es First-Person oder Third-Person, männlich oder weiblich ist“, sagte Huth. „Warum es so schlecht ist, wissen wir nicht.“

Der Decoder war personalisiert und als das Modell an einer anderen Person getestet wurde, war die Anzeige unverständlich. Es war auch möglich, dass Teilnehmer, denen der Decoder beigebracht worden war, das System durchkreuzen konnten, indem sie zum Beispiel an Tiere dachten oder sich in Ruhe eine andere Geschichte ausmalten.

Jerry Tang, Doktorand an der University of Texas at Austin und Co-Autor, sagte: „Wir nehmen die Bedenken sehr ernst, dass es für schlechte Zwecke verwendet werden könnte, und haben daran gearbeitet, dies zu vermeiden. Wir wollen sicherstellen, dass Menschen diese Art von Technologien nur dann verwenden, wenn sie es wollen, und dass es ihnen hilft.“

Prof. Tim Behrens, ein Computational Neuroscientist an der University of Oxford, der nicht an der Arbeit beteiligt war, beschrieb es als „technisch äußerst beeindruckend“ und sagte, es eröffne eine Vielzahl experimenteller Möglichkeiten, einschließlich des Lesens von Gedanken von jemandem, der träumt, oder der Untersuchung neuer Ideen entstehen aus der Hintergrundaktivität des Gehirns. „Diese generativen Modelle lassen Sie auf einer neuen Ebene sehen, was im Gehirn vor sich geht“, sagte er. „Das bedeutet, dass man aus dem fMRI wirklich etwas Tiefes herauslesen kann.“

Prof. Shinji Nishimoto von der Universität Osaka, der Pionierarbeit geleistet hat Rekonstruktion visueller Bilder aus der Gehirnaktivität, bezeichnete das Papier als „signifikanten Fortschritt“. „Das Papier zeigte, dass das Gehirn kontinuierliche Sprachinformationen während der Wahrnehmung und Vorstellung auf kompatible Weise darstellt“, sagte er. „Dies ist eine nicht triviale Erkenntnis und kann eine Grundlage für die Entwicklung von Gehirn-Computer-Schnittstellen sein.

Das Team hofft nun zu beurteilen, ob die Technik auf andere, tragbarere Bildgebungssysteme des Gehirns angewendet werden könnte, wie z. B. die funktionelle Nahinfrarot-Spektroskopie (fNIRS).

source site-27