TechScape: Erklärung der sieben wichtigsten KI-Akronyme | Technologie

Ich nahm mir sechs Wochen frei, um ein Baby großzuziehen, und alle entschieden, dass es an der Zeit sei, die KI-Revolution als unmittelbar bevorstehend zu erklären. Es ist schwer, es nicht persönlich zu nehmen.

Das Tick-Tack neuer Entwicklungen, jede beeindruckender als die vorherige – und jede schneller als die vorherige auf der Bildfläche – erreichte letzte Woche mit der nahezu zeitgleichen Ankündigung von Googles Bard und Microsofts Bing Chat ihren Höhepunkt. Seitdem gab es mögliche Permutationen des Diskurses, von tausendjährigen Behauptungen über ein bevorstehendes KI-Eschaton bis hin zur Ablehnung des gesamten Feldes als verherrlichte Autovervollständigung.

Ich bin nicht hier, um diese Debatte zu schlichten. Wenn 2023 stattdessen das Jahr ist, in dem KI alles verändert, dann ist es früh in diesem Jahr an der Zeit, ein wenig tiefer in das einzudringen, was sie ist, wie sie funktioniert und warum sie so ist, wie sie ist. Und der beste Weg, dies zu tun, ist, über all die kleinen Begriffe zu sprechen, die aus der Mainstream-Berichterstattung ausgelassen werden, weil sie „zu technisch“ sind.

Was die wichtigsten KI-Akronyme und der Jargon wirklich bedeuten

Neural Netzwerk

Neuronale Netze sind die grundlegende Technologie im Herzen des KI-Booms. Betrachten Sie sie als das Äquivalent der Dampfmaschine in der ersten industriellen Revolution: eine Allzwecktechnologie, die unzählige verschiedene Branchen und Anwendungsfälle erreichen und transformieren kann.

Neuronale Netze, die erstmals in den 1940er Jahren konzipiert wurden, begannen mit dem Versuch, tierische Gehirne zu modellieren, die aus Millionen einfacher Neuronen bestehen, die jeweils mit einigen anderen verbunden sind. Jedes einzelne Neuron ist extrem einfach, aber Quantität erzeugt Qualität, und viele von ihnen zusammen können lernen, komplexe Aufgaben auszuführen. Das Gleiche gilt für künstliche neuronale Netze, obwohl diese Neuronen eher rein algorithmische Ideen als physische Verbindungen sind.

Wie bei der Dampfmaschine dauerte es Jahrzehnte, bis die wahre Kraft der Erfindung verstanden wurde. Ein neuronales Netz funktioniert nur mit enormen Mengen an Rechenleistung und Daten, daher waren sie in den letzten 70 Jahren größtenteils Kuriositäten. Das änderte sich um die Jahrtausendwende, und das Zeitalter der KI begann stotternd langsam ins Dasein zu treten.

LLM

Ein „großes Sprachmodell“ oder LLM ist einer der beiden wichtigsten KI-Ansätze, die zu den jüngsten Fortschritten in der Branche geführt haben. Es beschreibt neuronale Netze, die mit riesigen Sammlungen von Textdaten trainiert werden, wie die GPT-Serie von OpenAI, PaLM von Google oder LLaMa von Meta. PaLM verwendet beispielsweise „hochwertige Webdokumente, Bücher, Wikipedia, Konversationen und GitHub-Code“, um ein Sprachverständnis zu entwickeln.

Die Frage, die ein LLM zu beantworten versucht, ist einfach: Bei einem kurzen Textabschnitt, was kommt als nächstes? Aber diese Aufgabe gut auszuführen, ist unglaublich mächtig. Zum einen ist es rekursiv. Sobald Sie vorhergesagt haben, was als nächstes kommt, haben Sie einen neuen, etwas längeren Textabschnitt, den Sie in das LLM zurückführen und die Frage wiederholen können, wodurch ganze Sätze, Absätze, Artikel oder Bücher entstehen.

Die Frage ist auch allgemeingültig. Die Vorhersage, was als nächstes für einen kurzen Abschnitt englischen Sachtextes kommt, unterscheidet sich von der Vorhersage, was als nächstes für einen kurzen Abschnitt Code, eine Frage, ein Gedicht, zwei übersetzte Sätze oder ein Logikrätsel kommt – aber der gleiche Ansatz scheint für all diese Aufgaben recht gut zu funktionieren. Je größer das Sprachmodell, desto besser das Ergebnis: GPT-3 ist 1.500-mal größer als GPT-1, und wir scheinen noch lange nicht an der Grenze zu sein.

KI-generierte Porträts im Renaissance-Stil, die durch Stable Diffusion erstellt wurden. Zusammengesetzt: Universal Public Domain Widmung

GAN

Was LLMs für Text getan haben, haben „Generative Adversarial Networks“ für Bilder, Filme, Musik und mehr getan. Genau genommen besteht ein GAN aus zwei neuronalen Netzwerken: eines zum Kennzeichnen, Kategorisieren und Bewerten und das andere zum Erstellen von Grund auf neu. Indem Sie sie koppeln, können Sie eine KI erstellen, die Inhalte auf Befehl generieren kann.

Angenommen, Sie wollen eine KI, die Bilder machen kann. Zuerst machen Sie die harte Arbeit, die Etikettierungs-KI zu erstellen, eine, die ein Bild sehen und Ihnen sagen kann, was sich darin befindet, indem Sie ihr Millionen von Bildern zeigen, die bereits etikettiert wurden, bis sie lernt, „einen Hund“ zu erkennen und zu beschreiben. , „ein Vogel“ oder „ein Foto einer halbierten Orange, die zeigt, dass ihr Inneres das eines Apfels ist“. Dann nehmen Sie dieses Programm und verwenden es, um eine zweite KI zu trainieren, um es auszutricksen. Diese zweite KI „gewinnt“, wenn sie ein Bild erstellen kann, dem die erste KI das gewünschte Etikett gibt.

Sobald Sie diese zweite KI trainiert haben, haben Sie das, was Sie bauen wollten: eine KI, der Sie ein Etikett und eine Bezeichnung geben können ein Bild bekommen dass es denkt, passt das Etikett. Oder ein Lied. Oder ein Video. Oder ein 3D-Modell.

Berechnen

Das Training eines neuen KI-Modells kann teuer sein. Die endgültige Erstellung von GPT-3 erforderte rund 10 Millionen US-Dollar Rechenzeit, basierend auf den Forschungspapieren von OpenAI, und es blieb ungesagt, wie viele fehlgeschlagene Anstrengungen erforderlich waren, bevor der endgültige Lauf wie beabsichtigt herauskam. Diese Hürde – der Zugang zu „Computing“ oder Rechenleistung – bedeutet, dass große Allzweck-Tools wie LLMs in der Regel in den Zuständigkeitsbereich großer Unternehmen fallen. So weit zurück wie 2018, warnte OpenAI, dass sich die Menge an Rechenleistung, die in KI-Trainingsläufen verwendet wird, alle dreieinhalb Monate verdoppelt. Aus diesem Grund kündigte das Unternehmen ein Jahr später an, dass es von einem gemeinnützigen Modell wechseln werde, da „in den kommenden Jahren Milliarden von Dollar in groß angelegte Cloud-Computing-Lösungen investiert werden müssen“.

Großbritannien ist dank des „goldenen Dreiecks“ aus Oxford, Cambridge und London weltweit führend in der KI-Forschung. Akademiker haben jedoch oft nur begrenzten Zugang zu der Menge an Rechenleistung, die sie benötigen, um an der Spitze zu arbeiten, was dazu geführt hat, dass die kommerziellen Gewinne von den amerikanischen und chinesischen Unternehmensgiganten mit Milliardeninvestitionen eingefangen wurden. Dies hat zu Forderungen nach einem staatlichen „BritGPT“ geführt, das mit öffentlichen Mitteln gebaut wurde, um die Rechenleistung bereitzustellen, die britischen Forschern fehlt.

vergangene Newsletter-Aktion überspringen

Der ChatGPT-Bot auf einem iPhone.
Der ChatGPT-Bot auf einem iPhone. Foto: Koshiro K/Alamy

Flugschreiber

Neuronale Netze werden oft als „Black Box“ bezeichnet: Je kompetenter sie werden, desto schwieriger ist es herauszufinden, wie sie tun, was sie tun. GPT-3 enthält 175 Milliarden „Parameter“, die jeweils beschreiben, wie stark oder schwach ein Neuron auf ein anderes wirkt. Aber es ist fast unmöglich zu sagen, was ein bestimmter Parameter für das LLM als Ganzes tut.

Selbst die Gesamtstruktur der neuronalen Netze ist ein Rätsel. Manchmal können wir einen Blick auf die Ordnung erhaschen. Das „T“ in GPT steht für „Transformer“, eine Art, das neuronale Netzwerk zu verkabeln, damit es das Kurzzeitgedächtnis nachahmen kann, was offensichtlich sinnvoll ist, wenn es darum geht, einen Satz Wort für Wort zu lesen. Aber andere Aspekte des neuronalen Netzwerkdesigns sind eher Trial-and-Error: Beispielsweise scheint es, dass die Qualität der Ausgabe verbessert werden kann, wenn ein neuronales Netzwerk gezwungen wird, sein Denken durch einen Engpass von nur wenigen Neuronen zu „zwängen“. Warum? Wir wissen es nicht wirklich. Es … tut es einfach.

Feinabstimmung

Nicht alles erfordert das Training eines KI-Modells von Grund auf neu. Sie können sich die 10 Millionen Dollar, die für GPT-3 ausgegeben wurden, als die Kosten vorstellen, die es kostet, einer KI beizubringen, perfektes Englisch zu lesen und zu schreiben. Aber wenn Sie nur eine KI entwickeln möchten, die beispielsweise gute wissenschaftliche Artikel schreiben kann, müssen Sie nicht bei Null anfangen, wenn es bereits KIs gibt, die Englisch lesen können: Stattdessen können Sie diese KIs „feintunen“. die spezifischen Daten, von denen sie lernen sollen, und ihnen hyperspezifische Fähigkeiten zu einem Bruchteil der Kosten beizubringen. Dabei besteht jedoch ein Risiko: Eine solche Feinabstimmung hängt zwangsläufig von der anfänglichen Schulung ab, die möglicherweise nicht unter Ihrer Kontrolle stand.

Ausrichtung

Auf einer Ebene ist die „Ausrichtung“ der KI eine einfache Frage: Haben wir die KI tatsächlich darauf trainiert, das zu tun, was wir wollen? Wenn wir eine KI wollen, die vorhersagen kann, welche Gefangenen wahrscheinlich rückfällig werden, aber die KI das Racial Profiling als zentralen Bestandteil ihrer Entscheidung verwendet, könnten wir sie als „nicht im Einklang“ mit unseren Wünschen bezeichnen.

Manchmal kann die KI aufgrund schlechter Trainingsdaten, die Vorurteile und Ungenauigkeiten enthalten, nicht ausgerichtet sein. Wenn eine KI zum Beispiel darauf trainiert wird, Wiederholungstäter auf der Grundlage eines Datensatzes von Gefangenen zu erkennen, wird sie niemals von denen erfahren, die nicht ins Gefängnis geschickt werden. Wenn es darauf trainiert ist, Englisch mit einem Datensatz zu sprechen, der ganz Twitter enthält, könnte es anfangen, eigenwillige Überzeugungen über die Verbindungen zwischen Bill Gates, 5G und Covid-Impfstoffen zu verbreiten.

In anderen Fällen kann die KI nicht ausgerichtet sein, weil wir ihr die falsche Frage gestellt haben. Ein LLM soll vorhersagen, welcher Text als nächstes kommt, aber manchmal ist das nicht der Fall Wirklich was wir wollen: Manchmal hätten wir lieber „wahre“ Antworten als „wahrscheinliche“. Manchmal hätten wir lieber Antworten, die keine rassistischen Beleidigungen wiederholen, den Benutzer bedrohen oder Anweisungen zum Bau von Bomben geben. Aber das ist nicht die Frage, die wir der KI gestellt haben.

Und manchmal wird Ausrichtung verwendet, um etwas Existenzielleres zu bedeuten. Angenommen, Sie bitten eine KI, Ihre Fabrikhalle zu optimieren, um die Stundenleistung zu maximieren, und sie entscheidet, dass es am wichtigsten ist, sicherzustellen, dass niemand die Produktion für die nächsten Milliarden Jahre unterbricht, also versteckt sie in ihren Plänen eine Technologie, die jede organische Lebensform töten würde auf dem Planeten – das wäre auch eine nicht ausgerichtete KI.

Wenn Sie die vollständige Version des Newsletters lesen möchten, abonnieren Sie bitte TechScape jeden Dienstag in Ihrem Posteingang.

source site-27