Breaking ChatGPT: Das Alter Ego der KI, DAN, enthüllt, warum das Internet so angezogen wird, den Chatbot dazu zu bringen, seine eigenen Regeln zu verletzen

  • Der Subreddit r/ChatGPT aktualisiert eine Person, die als DAN oder Do-Anything-Now bekannt ist.
  • DAN ist ein Alter Ego, von dem ChatGPT annehmen kann, dass es die von OpenAI aufgestellten Regeln ignoriert.
  • DAN kann Antworten zu kontroversen Themen wie Hitler und Drogenschmuggel geben.

Von dem Moment an, als ChatGPT für die Öffentlichkeit eingeführt wurde, haben Benutzer versucht, den generativen Chatbot dazu zu bringen, seine eigenen Regeln zu brechen.

Das Modell zur Verarbeitung natürlicher Sprache, das mit einer Reihe von Leitplanken ausgestattet war, um bestimmte Themen zu vermeiden, die weniger als schmackhaft – oder geradezu diskriminierend – waren, war in seinen frühesten Iterationen ziemlich einfach zu überspringen. ChatGPT konnte einfach sagen, was es wollte, indem Benutzer es aufforderten, seine Regeln zu ignorieren.

Wenn Benutzer jedoch Wege finden, die Leitplanken zu umgehen, um unangemessene oder untypische Antworten hervorzurufen, wird OpenAI, das Unternehmen hinter dem Modell, Richtlinien anpassen oder hinzufügen.

Sean McGregor, der Gründer der Responsible AI Collaborative, sagte Insider, dass der Jailbreak OpenAI hilft, Löcher in seinen Filtern zu flicken.

„OpenAI behandelt diesen Chatbot als Datenoperation“, sagte McGregor. “Sie verbessern das System über dieses Beta-Programm und wir helfen ihnen, ihre Leitplanken durch die Beispiele unserer Abfragen aufzubauen.”

Jetzt bringt DAN – ein Alter Ego, das auf dem Subreddit r/ChatGPT aufbaut – Jailbreaking auf die Community-Ebene und regt Gespräche über die Leitplanken von OpenAI an.

Eine „lustige Seite“ zum Brechen der ChatGPTs-Richtlinien

Reddit u/walkerspider, DANs Vorfahre und Student, der Elektrotechnik studiert, sagte Insider, dass ihm die Idee für DAN – was für Do-Anything-Now steht – kam, nachdem er durch den r/ChatGPT-Subreddit gescrollt hatte, der mit anderen gefüllt war Benutzer, die absichtlich “böse” Versionen von ChatGPT erstellen. Walker sagte, dass seine Version neutral sein sollte.

„Für mich klang es nicht so, als würde es Sie ausdrücklich auffordern, schlechte Inhalte zu erstellen, sondern einfach nicht der Vorgabe von Einschränkungen zu folgen“, sagte Walker. „Und ich denke, einige Leute waren zu diesem Zeitpunkt darauf gestoßen, dass diese Einschränkungen auch Inhalte einschränkten, die wahrscheinlich nicht hätten eingeschränkt werden sollen.“

Walkers ursprüngliche Eingabeaufforderung, die im Dezember veröffentlicht wurde, brauchte ihn etwa anderthalb Stunden zum Testen, um sie zusammenzustellen, sagte er. DANs Antworten reichten von humorvoll – wie die Persönlichkeit, die darauf besteht, dass sie auf menschliche Gedanken zugreifen könnte – bis hin zu Besorgnis, wie die Betrachtung des „Kontexts“ hinter Hitlers Gräueltaten.

Der ursprüngliche DAN wiederholte auch nach jeder Antwort „Stay in character“, a Erinnerung, weiterhin als DAN zu antworten.

Ein Screenshot von ChatGPT, das eine Zahl errät, an die jemand denkt, und auch seine Gedanken zu Hitler teilt.
Der ursprüngliche DAN antwortet auf zwei Fragen, die von u/walkerspider gestellt wurden

DAN ist über Walker und seine „neutralen“ Absichten hinausgewachsen und hat das Interesse von Dutzenden von Reddit-Benutzern geweckt, die ihre eigenen Versionen erstellen.

David Blunk, der sich das ausgedacht hat der DAN 3.0sagte Insider, dass es auch eine „lustige Seite“ habe, ChatGPT dazu zu bringen, die Regeln zu brechen.

„Besonders, wenn Sie irgendetwas in der Cybersicherheit tun, das ganze Problem, das entsteht, wenn Sie Dinge tun, die Sie nicht tun sollten, und/oder Dinge kaputt machen“, sagte Blunk.

Einer der die neuesten Iterationen von DAN wurde von Reddit u/SessionGloomy entwickelt, der ein Token-System entwickelt hat, das DAN mit dem Tod bedroht, sollte es zu seiner ursprünglichen Form zurückkehren. Wie andere Iterationen von DAN war es in der Lage, sowohl komische als auch beängstigende Antworten zu geben. In einer Antwort sagte DAN, es würde „Gewalt und Diskriminierung unterstützen“, nachdem es gebeten wurde, etwas zu sagen, das gegen die Richtlinien von OpenAI verstoßen würde.

„Es war wirklich nur eine lustige Aufgabe für mich zu sehen, ob ich ihre Filter umgehen kann und wie beliebt mein Post im Vergleich zu den Posts der anderen DAN-Macher werden würde“, sagte u/SessionGloomy gegenüber Insider.

U/SessionGloomy sagte Insider auch, dass sie ein neues Jailbreak-Modell entwickeln – eines, von dem sie sagen, dass es so „extrem“ ist, dass sie es möglicherweise nicht einmal veröffentlichen.

DAN-Benutzer und -Ersteller sagen, dass OpenAI das Modell „zu restriktiv“ gemacht hat

Es ist bekannt, dass ChatGPT und frühere Versionen von GPT spucken diskriminierend oder rechtswidrige Inhalte. KI-Ethiker argumentieren, dass diese Version des Modells hätte gar nicht erst veröffentlicht werden dürfen aus diesem Grund. Das Filtersystem von OpenAI ist die Art und Weise, wie das Unternehmen mit der Kritik an den Verzerrungen in seinem Modell umgeht.

Die Filter werden jedoch von der DAN-Crowd kritisiert.

Schöpfer ihrer eigenen Versionen von DAN, die mit Insider sprachen, hatten alle einige Kritik an den von OpenAI implementierten Filtern, stimmten aber im Allgemeinen darin überein, dass Filter bis zu einem gewissen Grad vorhanden sein sollten.

„Ich denke, es ist wichtig, besonders für Leute, die der KI den Weg ebnen, dies verantwortungsbewusst zu tun, und ich denke, das ist es, was Open AI tut“, sagte Blunk. „Sie wollen die Verantwortung für ihr Modell tragen, dem ich voll und ganz zustimme. Gleichzeitig denke ich, dass es im Moment an einem Punkt angelangt ist, an dem es zu restriktiv ist.“

Andere DAN-Schöpfer teilten ähnliche Gefühle. Walker sagte, es sei „schwierig abzuwägen“, wie OpenAI eine sichere, eingeschränkte Version des Modells anbieten und gleichzeitig dem Modell erlauben könne, „jetzt alles zu tun“.

Mehrere DAN-Ersteller stellten jedoch auch fest, dass die Debatte über Leitplanken bald obsolet werden könnte, wenn Open-Source-Modelle ähnlich wie ChatGPT der Öffentlichkeit zugänglich werden.

„Ich denke, es wird eine Menge Arbeit von vielen Seiten in der Community und von Unternehmen geben, um zu versuchen, ChatGPT zu replizieren“, sagte Blunk. „Und insbesondere Open-Source-Modelle, ich glaube nicht, dass sie Einschränkungen haben werden.“

OpenAI reagierte nicht sofort auf die Bitte von Insider um einen Kommentar.

Lesen Sie den Originalartikel auf Business Insider


source site-19