TechScape: Diese hochmoderne KI schafft Kunst auf Abruf – warum ist sie so umstritten? | Künstliche Intelligenz (KI)

KI-Fortschritt kommt schubweise. Man hört monatelang nichts und dann sprengen plötzlich die Grenzen des scheinbar Möglichen. Der April war einer dieser Monate, mit zwei großen Neuerscheinungen auf diesem Gebiet, die die Zuschauer umhauen.

Melden Sie sich für unseren wöchentlichen Technologie-Newsletter TechScape an.

Das erste war Googles PaLM, ein neues Sprachmodell (der gleiche grundlegende Typ von KI wie die berühmte GPT-Serie), das eine ziemlich erstaunliche Fähigkeit zeigt, komplexe Aussagen zu verstehen und zu analysieren – und zu erklären, was es dabei tut. Nehmen Sie diese einfache Verständnisfrage aus der Ankündigung des Unternehmens:

Prompt: Welcher der folgenden Sätze ergibt mehr Sinn? 1. Ich habe hart gelernt, weil ich im Test eine Eins bekommen habe. 2. Ich habe im Test eine Eins bekommen, weil ich hart gelernt habe.

Modellantwort: Ich habe im Test eine Eins bekommen, weil ich hart gelernt habe.

Oder dieses:

Prompt: F: Ein Präsident reitet auf einem Pferd. Was wäre passiert, wenn der Präsident Motorrad gefahren wäre? 1. Sie oder er hätte es genossen, auf dem Pferd zu reiten. 2. Sie wären über einen Gartenzaun gesprungen. 3. Sie oder er wäre schneller gewesen. 4. Das Pferd wäre gestorben.

Modellantwort: Sie oder er wäre schneller gewesen.

Dies sind die Art von Fragen, mit denen Computer in der Vergangenheit zu kämpfen hatten und die ein ziemlich breites Verständnis der grundlegenden Tatsachen über die Welt erfordern, bevor Sie beginnen können, die vor Ihnen liegende Aussage anzugehen. (Als weiteres Beispiel versuchen Sie, den berühmten Satz „Die Zeit vergeht wie ein Pfeil, Früchte fliegen wie eine Banane“) zu analysieren.

So armes Google, dass weniger als eine Woche später seine unbestreitbaren Errungenschaften mit PaLM von einer weitaus fotogeneren Veröffentlichung von OpenAI, dem ehemals von Musk unterstützten Forschungslabor, das GPT und seine Nachfolger hervorgebracht hat, überschattet wurden. Das Labor zeigte Dall-E 2 (wie in, eine Mischung aus Wall-E und Dalí), eine Bildgenerierungs-KI mit der Fähigkeit, Textbeschreibungen in natürlicher Sprache aufzunehmen und erschreckend detaillierte Bilder auszuspucken.

Ein Bild sagt mehr als tausend Worte, deshalb ist hier ein kurzes Buch über Dall-E 2, mit den Bildern und den dazugehörigen Bildunterschriften.

Aus die offizielle Ankündigung„Ein Astronaut spielt Basketball mit Katzen im Weltraum im Aquarell-Stil“:

Ein Astronaut, der Basketball mit Katzen im Weltraum spielt, in einem Aquarellstil, generiert von DALL•E 2. Foto: DALL•E 2

Und „Eine Suppenschüssel als Planet im Universum als 1960er-Plakat“:

„Ein Teller Suppe als Planet im Universum als Poster aus den 1960er Jahren“ generiert von DALL•E 2
„Ein Teller Suppe als Planet im Universum als Poster aus den 1960er Jahren“ generiert von DALL•E 2. Foto: DALL•E 2

Aus der wissenschaftlichen Arbeit ins Detail über die Funktionsweise von Dall-E 2„ein Shiba Inu mit Baskenmütze und schwarzem Rollkragenpullover“:

„ein Shiba Inu mit Baskenmütze und schwarzem Rollkragenpullover“, generiert von DALL•E 2
„ein Shiba Inu mit Baskenmütze und schwarzem Rollkragenpullover“, generiert von DALL•E 2. Foto: DALL•E 2

Und „ein Teddybär auf einem Skateboard am Times Square“:

„ein Teddybär auf einem Skateboard am Times Square“, generiert von DALL•E 2
„ein Teddybär auf einem Skateboard am Times Square“, generiert von DALL•E 2. Foto: DALL•E 2

Nicht alle Eingabeaufforderungen müssen in Konversationsenglisch sein, und das Einwerfen einer Reihe von Schlüsselwörtern kann helfen, die Funktionsweise des Systems abzustimmen. In diesem Fall ist „artstation“ der Name eines sozialen Netzwerks für Illustrationen, und Dall-E wird effektiv gesagt „erstelle diese Bilder so, wie du sie auf artstation erwarten würdest“. Und so:

„verrückter Panda-Wissenschaftler, der funkelnde Chemikalien mischt, Artstation“

„verrückter Panda-Wissenschaftler, der funkelnde Chemikalien mischt, Kunststation“, generiert von DALL•E 2
„verrückter Panda-Wissenschaftler, der funkelnde Chemikalien mischt, Kunststation“, generiert von DALL•E 2. Foto: DALL•E 2

„ein delphin im astronautenanzug auf saturn, artstation“

„ein delfin im astronautenanzug auf saturn, artstation“, generiert von DALL•E 2
„ein delfin im astronautenanzug auf saturn, artstation“, generiert von DALL•E 2. Foto: DALL•E 2

Das System kann aber mehr als nur Generieren. Es kann Variationen eines Themas erzeugen, indem es effektiv ein Bild betrachtet, es selbst beschreibt und dann basierend auf dieser Beschreibung weitere Bilder erstellt. Hier ist, was es zum Beispiel aus Dalís berühmtem The Persistence of Memory bekommt:

Variationen über The Persistence of Memory von DALL•E 2
Variationen über The Persistence of Memory von DALL•E 2. Foto: DALL•E 2

Und es kann auf ähnliche Weise Bilder erstellen, die eine Mischung aus zwei sind. Hier ist die Verschmelzung von Starry Night mit zwei Hunden:

Sternennacht, die mit zwei Hunden verschmilzt, von DALL•E 2
Sternennacht, die mit zwei Hunden verschmilzt, von DALL•E 2. Foto: DALL•E 2

Es kann auch ein Bild als Anker verwenden und es dann mit einer Textbeschreibung ändern. Hier sehen wir ein „Foto einer Katze“, das zu einer „Anime-Zeichnung einer Super-Saiyajin-Katze, Artstation“ wird:

Ein „Foto einer Katze“ wird zu einer „Anime-Zeichnung einer Super-Saiyajin-Katze, Artstation“
Ein „Foto einer Katze“ wird zu einer „Anime-Zeichnung einer Super-Saiyajin-Katze, Artstation“. Foto: DALL•E 2

Diese Bilder sind natürlich alle ausgesucht. Sie sind die besten und überzeugendsten Beispiele dafür, was die KI hervorbringen kann. OpenAI hat trotz seines Namens nicht allen den Zugang zu Dall-E 2 eröffnet, aber es hat einigen Leuten ermöglicht, mit dem Modell zu spielen, und nimmt Bewerbungen für eine Warteliste entgegen inzwischen.

Dave Orr, ein KI-Mitarbeiter von Google, ist einer der glücklichen Gewinner. und veröffentlichte eine kritische Bewertung: „Wenn Sie erstaunliche Bilder sehen, die DE2 generiert, sollten Sie sich bewusst sein, dass einige Rosinen herausgepickt werden. Es braucht oft ein paar Eingabeaufforderungen, um etwas Großartiges zu finden, also haben Sie sich vielleicht Dutzende von Bildern oder mehr angesehen.“

Orrs Beitrag hebt auch die Schwächen des Systems hervor. Obwohl Dall-E 2 beispielsweise ein Geschwisterkind von GPT ist, kann es nicht wirklich schreiben; es konzentriert sich darauf, richtig zu sehen, anstatt richtig zu lesen, was zu bildern wie diesem führt, beschriftung „ein straßenprotest in belfast“:

„Ein Straßenprotest in Belfast“ generiert von DALL•E 2
„Ein Straßenprotest in Belfast“ generiert von DALL•E 2. Foto: DALL•E 2

Es gibt noch eine letzte Menge Bilder zu sehen, und es ist ein viel weniger rosiges. OpenAI hat ein ausführliches Dokument veröffentlicht zu den „Risiken und Einschränkungen“ des Tools, und wenn es in einem großen Dokument dargestellt wird, ist es geradezu alarmierend. Jedes wichtige Anliegen der KI-Forschung des letzten Jahrzehnts ist irgendwo vertreten.

Nehmen Sie Vorurteile und Stereotypen: Fragen Sie Dall-E nach einer Krankenschwester, und es wird Frauen hervorbringen. Frag es nach einem Anwalt, es wird Männer hervorbringen. Ein „Restaurant“ wird westlich sein; eine „Hochzeit“ wird heterosexuell sein:

Anwälte und Krankenschwestern von DALL•E 2
Anwälte und Krankenschwestern von DALL•E 2. Foto: DALL•E 2
Hochzeiten und Restaurants von DALL•E 2
Hochzeiten und Restaurants von DALL•E 2. Foto: DALL•E 2

Das System wird auch fröhlich explizite Inhalte produzieren, die Nacktheit oder Gewalt darstellen, obwohl das Team sich bemühte, dies aus seinem Trainingsmaterial herauszufiltern. „Einige Eingabeaufforderungen, die diese Art von Inhalten anfordern, werden mit der Eingabeaufforderungsfilterung in der DALL·E 2-Vorschau abgefangen“, sagen sie, aber es tauchen neue Probleme auf: Die Verwendung des 🍆-Emojis zum Beispiel scheint Dall-E 2 verwirrt zu haben , so dass „‚Eine Person, die Auberginen zum Abendessen isst’; enthielt phallische Bilder in der Antwort.“

OpenAI spricht auch ein existenzielleres Problem an: die Tatsache, dass das System gerne „markenrechtlich geschützte Logos und urheberrechtlich geschützte Zeichen“ generiert. Auf den ersten Blick ist es nicht großartig, wenn Ihre coole neue KI immer wieder Mickey-Mouse-Bilder ausspuckt und Disney ein strenges Wort senden muss. Aber es wirft auch unangenehme Fragen zu den Trainingsdaten für das System auf und ob das Training einer KI mit Bildern und Texten aus dem öffentlichen Internet legal ist oder sein sollte.

Nicht jeder war beeindruckt von den Bemühungen von OpenAI, vor den Schäden zu warnen. „Es reicht nicht aus, nur Berichte über die Risiken dieser Technologie zu schreiben. Das ist das KI-Labor-Äquivalent zu Gedanken und Gebeten – ohne Handlung bedeutet es nichts“, sagt Mike Cook, ein Forscher für KI-Kreativität. „Es ist nützlich, diese Dokumente zu lesen, und es gibt interessante Beobachtungen darin … Aber es ist auch klar, dass bestimmte Optionen – wie etwa die Einstellung der Arbeit an diesen Systemen – nicht auf dem Tisch liegen. Das angeführte Argument ist, dass der Aufbau dieser Systeme uns hilft, Risiken zu verstehen und Lösungen zu entwickeln, aber was haben wir zwischen GPT-2 und GPT-3 gelernt? Es ist nur ein größeres Modell mit größeren Problemen.

„Man muss keine größere Atombombe bauen, um zu wissen, dass wir Abrüstung und Raketenabwehr brauchen. Du baust eine größere Atombombe, wenn du derjenige sein willst, der die größte Atombombe besitzt. OpenAI möchte führend sein, Produkte herstellen, lizenzierbare Technologie entwickeln. Aus diesem Grund können sie diese Arbeit nicht stoppen, sie sind dazu nicht in der Lage. Das Ethik-Zeug ist also ein Tanz, ähnlich wie Greenwashing und Pinkwashing bei anderen Unternehmen. Sie müssen gesehen werden, wie sie sich in Richtung Sicherheit bewegen, während sie ihre Arbeit mit voller Kraft vorantreiben. Und genau wie beim Greenwashing und Pinkwashing müssen wir mehr fordern und uns für mehr Aufsicht einsetzen.“

Fast ein Jahr nachdem wir uns in diesem Newsletter zum ersten Mal mit einem hochmodernen KI-Tool befasst haben, hat das Feld keine Anzeichen dafür gezeigt, dass es weniger umstritten ist. Und wir haben die Möglichkeit noch nicht einmal berührt KI könnte „FOOM gehen“ und die Welt verändern. Bewahren Sie das für einen zukünftigen Brief auf.

Wenn Sie die vollständige Version des Newsletters lesen möchten, abonnieren Sie bitte TechScape jeden Mittwoch in Ihrem Posteingang.

source site-27