Dall-E 2: Was genau ist „KI-generierte Kunst“? Wie funktioniert es? Wird es menschliche bildende Künstler ersetzen? | Kunst

Josh, ich habe viel über „KI-generierte Kunst“ gehört und eine ganze Menge wirklich verrückt aussehender Memes gesehen. Was ist los, holen die Maschinen jetzt Pinsel?

Keine Pinsel, nein. Was Sie sehen, sind neuronale Netze (Algorithmen, die angeblich nachahmen, wie unsere Neuronen sich gegenseitig signalisieren), die darauf trainiert sind, Bilder aus Text zu erzeugen. Es ist im Grunde eine Menge Mathematik.

Neuronale Netze? Bilder aus Text generieren? Also, wie, Sie stecken „Kermit der Frosch in Blade Runner“ in einen Computer und der spuckt Bilder von … dem aus?

KI-generierte Kunst von „Känguru aus Käse“. Foto: Dalle Mini

Du denkst nicht genug um die Ecke! Natürlich können Sie alle gewünschten Kermit-Bilder erstellen. Aber der Grund, warum Sie von KI-Kunst hören, liegt in der Fähigkeit, Bilder aus Ideen zu erstellen, die noch nie zuvor jemand zum Ausdruck gebracht hat. Wenn Sie eine Google-Suche nach „ein Känguru aus Käse“ durchführen, werden Sie nicht wirklich fündig. Aber hier sind neun davon, die von a generiert wurden Modell.

Du hast vorher erwähnt, dass das alles eine Menge Mathematik ist, aber – Um es so einfach wie möglich zu machen – wie funktioniert es eigentlich?

Ich bin kein Experte, aber im Wesentlichen haben sie einen Computer dazu gebracht, sich Millionen oder Milliarden von Bildern von Katzen und Brücken und so weiter „anzuschauen“. Diese werden normalerweise zusammen mit den damit verbundenen Bildunterschriften aus dem Internet geschabt.

Die Algorithmen identifizieren Muster in den Bildern und Bildunterschriften und können schließlich damit beginnen, vorherzusagen, welche Bildunterschriften und Bilder zusammenpassen. Sobald ein Modell basierend auf einer Bildunterschrift vorhersagen kann, wie ein Bild aussehen „sollte“, besteht der nächste Schritt darin, es umzukehren – indem völlig neuartige Bilder aus neuen „Bildunterschriften“ erstellt werden.

Wenn diese Programme neue Bilder erstellen, finden sie Gemeinsamkeiten – alle meine Bilder mit dem Tag „Kängurus“ sind normalerweise große Blöcke von Formen wie Diesund “Käse” ist normalerweise eine Ansammlung von Pixeln, die aussehen wie Dies – und nur Variationen davon zu spinnen?

Es ist ein bisschen mehr als das. Wenn Sie sich ansehen dieser Blogbeitrag von 2018 Sie können sehen, wie viel Mühe ältere Modelle hatten. Mit der Bildunterschrift „eine Herde Giraffen auf einem Schiff“ entstand ein Haufen giraffenfarbener Kleckse, die im Wasser standen. Die Tatsache, dass wir erkennbare Kängurus und verschiedene Käsesorten bekommen, zeigt also, wie es einen großen Sprung im „Verständnis“ der Algorithmen gegeben hat.

Verdammt. Was hat sich also geändert, damit das Zeug, das daraus gemacht wird, nicht mehr wie völlig schreckliche Alpträume aussieht?

Es gab eine Reihe von Entwicklungen bei den Techniken sowie bei den Datensätzen, auf denen sie trainieren. Im Jahr 2020 veröffentlichte ein Unternehmen namens OpenAi GPT-3 – einen Algorithmus, der in der Lage ist, Text zu generieren, der dem, was ein Mensch schreiben könnte, unheimlich nahe kommt. Einer der am meisten gehypten Algorithmen zur Text-zu-Bild-Generierung, DALLE, basiert auf GPT-3; vor kurzem veröffentlichte Google Bildnmit eigenen Textmodellen.

Diese Algorithmen werden mit riesigen Datenmengen gefüttert und gezwungen, Tausende von „Übungen“ zu machen, um besser in der Vorhersage zu werden.

„Übungen“? Gibt es noch wirkliche Personen, die daran beteiligt sind?wie den Algorithmen zu sagen, ob das, was sie machen, richtig oder falsch ist?

Eigentlich ist dies eine weitere große Entwicklung. Wenn Sie eines dieser Modelle verwenden, sehen Sie wahrscheinlich nur eine Handvoll der Bilder, die tatsächlich generiert wurden. Ähnlich wie diese Modelle ursprünglich trainiert wurden, um die besten Bildunterschriften vorherzusagen, zeigen sie Ihnen nur die Bilder, die am besten zu dem Text passen, den Sie ihnen gegeben haben. Sie markieren sich selbst.

Aber es gibt immer noch Schwächen in diesem Generierungsprozess, oder?

Ich kann nicht genug betonen, dass dies keine Intelligenz ist. Die Algorithmen „verstehen“ die Wörter oder Bilder nicht so wie Sie oder ich. Es ist so etwas wie eine beste Vermutung, basierend auf dem, was es zuvor „gesehen“ hat. Es gibt also einige Einschränkungen sowohl in dem, was es tun kann, als auch in dem, was es wahrscheinlich nicht tun sollte (z. B. potenziell grafische Bilder).

Okay, wenn die Maschinen jetzt Bilder auf Anfrage machen, wie viele Künstler werden dadurch arbeitslos?

Derzeit sind diese Algorithmen weitgehend eingeschränkt oder teuer in der Anwendung. Ich stehe immer noch auf der Warteliste, um DALLE auszuprobieren. Aber auch die Rechenleistung wird billiger, es gibt viele riesige Bilddatensätze, und sogar ganz normale Menschen sind es eigene Modelle erstellen. Wie das, mit dem wir die Känguru-Bilder erstellt haben.

Ich bezweifle, dass irgendjemand weiß, was mit den Künstlern passieren wird. Aber es gibt immer noch so viele Grenzfälle, in denen diese Modelle kaputt gehen, dass ich mich nicht ausschließlich auf sie verlassen würde.

Ich habe das Gefühl, dass KI-generierte Kunst die wirtschaftliche Nachhaltigkeit eines Illustrators verschlingen wird

nicht weil Kunst als Ganzes durch KI ersetzt wird – sondern weil es so viel billiger und gut genug für die meisten Menschen und Unternehmen sein wird

– Freya Holmér (@FreyaHolmer) 2. Juni 2022

Gibt es andere Probleme beim Erstellen von Bildern, die ausschließlich auf Musterabgleich basieren und sich dann auf ihren Antworten markieren? Irgendwelche Fragen der Voreingenommenheit, sagen wir, oder unglückliche Assoziationen?

Etwas, das Sie in den Unternehmensankündigungen dieser Modelle bemerken werden, ist, dass sie dazu neigen, harmlose Beispiele zu verwenden. Viele generierte Bilder von Tieren. Dies spricht für eines der massiven Probleme bei der Verwendung des Internets zum Trainieren eines Mustererkennungsalgorithmus – so vieles davon ist absolut schrecklich.

Vor ein paar Jahren wurde ein Datensatz mit 80 Millionen Bildern zum Trainieren von Algorithmen verwendet von MIT-Forschern abgebaut wegen „abwertender Begriffe wie Kategorien und anstößiger Bilder“. Etwas, das wir bei unseren Experimenten bemerkt haben, ist, dass „geschäftliche“ Wörter mit generierten Bildern von Männern assoziiert zu sein scheinen.

Im Moment ist es also gerade gut genug für Memes und macht immer noch seltsame Albtraumbilder (insbesondere von Gesichtern), aber nicht mehr so ​​​​viel wie früher. Aber wer weiß über die Zukunft Bescheid. Danke Josh.


source site-32