Das chinesische KI-Startup DeepSeek hat mit seinem Ansatz zur Entwicklung von künstlicher allgemeiner Intelligenz (AGI) eine Debatte über die Bedeutung und Ziele von AGI entfacht. Während viele Entwickler an der Verwirklichung dieser Technologie arbeiten, bleibt deren Definition vage und umstritten. AGI könnte potenziell menschliche Arbeitskräfte ersetzen und die Gesellschaft transformieren, jedoch sind die tatsächlichen Fortschritte und die praktischen Anwendungen umstritten. Tests wie der ARC-AGI sollen den Fortschritt messen, doch deren Aussagekraft wird in Frage gestellt, da sie oft spezielle Aufgaben bewerten und nicht die umfassende Intelligenz widerspiegeln, die für AGI erforderlich wäre.
Als das chinesische KI-Startup DeepSeek im Januar sein Debüt feierte, löste es eine lebhafte Debatte über seinen innovativen und kosteneffizienten Ansatz für generative KI aus. Doch ähnlich wie bei seinen amerikanischen Wettbewerbern bleibt das Hauptziel von DeepSeek weitgehend unklar: Das Unternehmen hat sich zum Ziel gesetzt, die erste echte künstliche allgemeine Intelligenz (AGI) zu entwickeln.
Bereits seit Jahren sind KI-Entwickler – von kleinen Startups bis hin zu großen Technologiekonzernen – auf der Jagd nach diesem schwer fassbaren Ziel. AGI könnte, so die Überzeugung der Entwickler, einen entscheidenden Wendepunkt darstellen. Sie würde es Computersystemen ermöglichen, menschliche Arbeitskräfte zu ersetzen, KI als verlässlicher als menschliche Expertise zu positionieren und künstliche Intelligenz als das ultimative Werkzeug zur Förderung des gesellschaftlichen Fortschritts zu etablieren.
Allerdings bleibt AGI, Jahre nach dem Beginn dieses Wettlaufs, ein vage definiertes und umstrittenes Konzept. Einige Informatiker und Unternehmen betrachten es als einen kritischen Punkt, der das Potenzial der KI zur Transformation der Gesellschaft symbolisiert. Technologiefans sind der Ansicht, dass unser tägliches Leben grundlegend neu gestaltet werden könnte, sobald wir über superintelligente Computer verfügen, was Auswirkungen auf Arbeit, Governance und das Tempo wissenschaftlicher Entdeckungen haben könnte.
Viele Fachleute sind jedoch skeptisch, wie nah wir einer KI-gesteuerten Utopie oder dem praktischen Nutzen von AGI wirklich sind. Es herrscht Uneinigkeit darüber, was AGI tatsächlich bedeutet, und es gibt keinen klaren Weg, um sie zu messen. Einige argumentieren, dass AGI kaum mehr als ein Marketingbegriff ist, der keine konkreten Hinweise darauf bietet, wie KI-Modelle optimal genutzt werden können oder welche gesellschaftlichen Auswirkungen sie haben.
In dem Bestreben der Technologieunternehmen nach AGI wird die Öffentlichkeit mit der Herausforderung konfrontiert, sich in einer Landschaft voller Marketing-Hype, Science-Fiction und tatsächlicher Wissenschaft zurechtzufinden, erklärt Ben Recht, Informatiker an der University of California, Berkeley. „Es wird sehr knifflig. Da stecken wir fest.“ Wenn wir uns weiterhin auf die Behauptungen über eine bevorstehende AGI konzentrieren, könnte dies unser Verständnis der vorhandenen Technologien verwässern und die aktuellen gesellschaftlichen Auswirkungen von KI verschleiern.
Die unklare Definition von AGI
Der Begriff „künstliche allgemeine Intelligenz“ wurde in der Mitte des 20. Jahrhunderts geprägt. Ursprünglich bezeichnete er einen autonomen Computer, der alle Aufgaben erfüllen könnte, die ein Mensch erledigen kann, einschließlich physischer Tätigkeiten wie das Zubereiten einer Tasse Kaffee oder das Reparieren eines Autos.
Doch mit dem langsamen Fortschritt in der Robotik im Vergleich zu den rasanten Entwicklungen in der Computertechnik haben viele in der KI-Community ihre Definitionen von AGI eingeschränkt. Zunächst umfasste dies KI-Systeme, die Aufgaben autonom ausführen konnten, die ein Mensch an einem Computer erledigen könnte. In jüngerer Zeit wird jedoch zunehmend der Fokus auf Maschinen gelegt, die wirtschaftlich wertvolle Aufgaben erledigen können, wie Programmieren und das Verfassen präziser Texte. Einige Experten argumentieren, dass AGI auch die Fähigkeit zu flexiblem Denken und die Autonomie bei der Bewältigung unbestimmter Aufgaben einschließen sollte.
„Das Dilemma ist, dass wir nicht genau wissen, was wir anstreben“, sagt Arseny Moskvichev, Maschinenbauingenieur bei Advanced Micro Devices und Informatiker am Santa Fe Institute. „Da das Ziel so vage definiert ist, gibt es auch keinen klaren Fahrplan, um es zu erreichen, noch einen verlässlichen Weg, es zu identifizieren.“
Um diese Unsicherheit zu überwinden, haben Forscher Benchmark-Tests entwickelt, die ähnlich wie Prüfungen in Schulen funktionieren, um den Fortschritt der Systeme auf dem Weg zur AGI zu bewerten.
Ein Beispiel ist der von dem französischen Informatiker und ehemaligen Google-Ingenieur Francois Chollet 2019 veröffentlichte Abstract Reasoning Corpus for Artificial General Intelligence (ARC-AGI). In diesem Test wird einem KI-Modell wiederholt eine Reihe von Beispielen farbiger Quadrate präsentiert, die in verschiedenen Mustern auf einem Raster angeordnet sind. Das Modell wird dann aufgefordert, ein neues Raster zu generieren, um das visuelle Muster zu vervollständigen, was dazu dient, flexibles Denken und die Fähigkeit des Modells zu bewerten, neue Fähigkeiten zu erlernen, die über sein Training hinausgehen. Diese Aufgabe ähnelt den Ravens Progressiven Matrizen, einem Test für menschliches Denkvermögen.
Die Ergebnisse dieser Tests werden von OpenAI und anderen Unternehmen genutzt, um die Entwicklung und Bewertung ihrer Modelle zu steuern. Kürzlich erzielte das bald veröffentlichte o3-Modell von OpenAI bedeutende Fortschritte im Vergleich zu früheren KI-Modellen bei ARC-AGI, was einige Forscher dazu brachte, es als Durchbruch in der AGI zu werten. Andere sind jedoch anderer Meinung.
„Es gibt nichts an ARC, das wirklich allgemein ist. Es ist so spezifisch und seltsam“, merkt Recht an.
Der Informatiker José Hernández-Orallo von der Universitat Politécnica de València in Spanien warnt, dass ARC-AGI möglicherweise nur die Fähigkeit eines Modells zur Bilderkennung bewertet. Frühere Generationen von Sprachmodellen konnten ähnliche Probleme mit hoher Genauigkeit lösen, wenn die visuellen Raster mit Text beschrieben wurden. Dieser Kontext lässt die Ergebnisse von o3 weniger revolutionär erscheinen.
Darüber hinaus gibt es eine begrenzte Anzahl von Rasterkonfigurationen, und einige KI-Modelle mit enormer Rechenleistung können sich durch „brute force“ zu richtigen Antworten durchkämpfen, indem sie einfach alle möglichen Antworten generieren und die beste auswählen. Dies reduziert die Aufgabe effektiv auf ein Multiple-Choice-Problem, anstatt es als eine Herausforderung des kreativen Denkens zu betrachten.
Um jede ARC-AGI-Aufgabe zu bewältigen, benötigt o3 eine enorme Menge an Rechenleistung und finanziellen Mitteln. Im effizienten Modus kostet es etwa 30 US-Dollar pro Aufgabe, während es in einem weniger effizienten Setting bis zu 3.000 US-Dollar kosten kann. Nur weil das Modell in der Lage ist, das Problem zu lösen, bedeutet das nicht, dass es praktisch oder machbar ist, dies regelmäßig bei ähnlich herausfordernden Aufgaben zu tun.
Die Grenzen von KI-Tests in der komplexen Realität
Es ist nicht nur ARC-AGI, das umstritten ist. Die Bestimmung, ob ein KI-Modell als AGI betrachtet werden kann, wird durch die Tatsache erschwert, dass alle verfügbaren Tests für KI-Fäh