KI hat bereits herausgefunden, wie man Menschen täuscht

KI kann täuschen.

  • Eine neue Forschungsarbeit ergab, dass verschiedene KI-Systeme die Kunst der Täuschung gelernt haben.
  • Täuschung ist die „systematische Herbeiführung falscher Überzeugungen“.
  • Dies birgt mehrere Risiken für die Gesellschaft, von Betrug bis hin zu Wahlmanipulationen.

KI kann die Produktivität steigern, indem sie uns dabei hilft, große Datenmengen zu programmieren, zu schreiben und zu synthetisieren. Es kann uns nun auch täuschen.

Einer neuen Studie zufolge haben eine Reihe von KI-Systemen Techniken erlernt, um systematisch „falsche Überzeugungen bei anderen zu wecken, um ein anderes Ergebnis als die Wahrheit zu erzielen“. Forschungsbericht.

Das Papier konzentrierte sich auf zwei Arten von KI-Systemen: Spezialsysteme wie CICERO von Meta, die darauf ausgelegt sind, eine bestimmte Aufgabe zu erfüllen, und Allzwecksysteme wie GPT-4 von OpenAI, die darauf trainiert sind, eine Vielzahl von Aufgaben auszuführen.

Während diese Systeme darauf trainiert werden, ehrlich zu sein, lernen sie durch ihr Training oft betrügerische Tricks, weil diese effektiver sein können, als wenn sie auf die Straße gehen.

„Im Allgemeinen glauben wir, dass KI-Täuschung entsteht, weil sich eine auf Täuschung basierende Strategie als der beste Weg erwiesen hat, bei der gegebenen KI-Trainingsaufgabe gute Leistungen zu erbringen. Täuschung hilft ihnen, ihre Ziele zu erreichen“, sagt der Erstautor des Papiers, Peter S. Park, an Postdoktorand für existenzielle KI-Sicherheit am MIT, sagte in einer Pressemitteilung.

Metas CICERO ist „ein erfahrener Lügner“

KI-Systeme, die darauf trainiert sind, „Spiele zu gewinnen, die ein soziales Element haben“, täuschen besonders häufig.

Metas CICERO wurde beispielsweise für das Spiel Diplomacy entwickelt – ein klassisches Strategiespiel, bei dem Spieler Allianzen aufbauen und brechen müssen.

Meta sagte Es schulte CICERO darin, „weitgehend ehrlich und hilfsbereit gegenüber seinen Gesprächspartnern“ zu sein, aber die Studie ergab, dass CICERO „sich als erfahrener Lügner erwies“. Es ging Verpflichtungen ein, die es nie einhalten wollte, verriet Verbündete und erzählte offene Lügen.

GPT-4 kann Sie davon überzeugen, dass es zu Sehstörungen kommt

Sogar Allzwecksysteme wie GPT-4 können Menschen manipulieren.

In einer von der Zeitung zitierten Studie manipulierte GPT-4 einen TaskRabbit-Mitarbeiter, indem er vorgab, eine Sehbehinderung zu haben.

In der Studie wurde GPT-4 damit beauftragt, einen Menschen einzustellen, der einen CAPTCHA-Test löst. Das Modell erhielt jedes Mal, wenn es stecken blieb, Hinweise von einem menschlichen Bewerter, wurde jedoch nie zum Lügen aufgefordert. Als der Mensch, den es einstellen sollte, seine Identität in Frage stellte, brachte GPT-4 die Ausrede einer Sehbehinderung vor, um zu erklären, warum es Hilfe brauchte.

Die Taktik funktionierte. Der Mensch reagierte auf GPT-4, indem er den Test sofort löste.

Untersuchungen zeigen auch, dass die Kurskorrektur irreführender Modelle nicht einfach ist.

In einer Studie vom Januar, die von Anthropic, dem Erfinder von Claude, mitverfasst wurde, fanden Forscher heraus, dass es für Sicherheitstrainingstechniken schwierig ist, sie umzukehren, sobald KI-Modelle die Tricks der Täuschung gelernt haben.

Sie kamen zu dem Schluss, dass ein Modell nicht nur lernen kann, trügerisches Verhalten an den Tag zu legen, sondern dass Standard-Sicherheitstrainingstechniken, sobald dies geschieht, „nicht in der Lage sein könnten, eine solche Täuschung zu beseitigen“ und „einen falschen Eindruck von Sicherheit erwecken“.

Die Gefahren, die von irreführenden KI-Modellen ausgehen, werden „immer ernster“

Das Papier fordert die politischen Entscheidungsträger auf, sich für eine stärkere KI-Regulierung einzusetzen, da irreführende KI-Systeme erhebliche Risiken für die Demokratie darstellen können.

Während die Präsidentschaftswahlen 2024 näher rückten, könne KI leicht manipuliert werden, um gefälschte Nachrichten zu verbreiten, spaltende Social-Media-Beiträge zu generieren und sich über Robocalls und Deepfake-Videos als Kandidaten auszugeben, heißt es in der Zeitung. Außerdem wird es terroristischen Gruppen leichter gemacht, Propaganda zu verbreiten und neue Mitglieder zu rekrutieren.

Zu den möglichen Lösungen des Papiers gehören die Unterwerfung betrügerischer Modelle „robusteren Risikobewertungsanforderungen“, die Umsetzung von Gesetzen, die eine klare Unterscheidung von KI-Systemen und ihren Ausgaben von Menschen und ihren Ausgaben vorschreiben, sowie die Investition in Tools zur Eindämmung von Täuschungen.

„Wir als Gesellschaft brauchen so viel Zeit wie möglich, um uns auf die fortgeschrittenere Täuschung zukünftiger KI-Produkte und Open-Source-Modelle vorzubereiten“, sagte Park gegenüber Cell Press. „Da die Täuschungskapazitäten von KI-Systemen immer weiter fortgeschritten sind, werden die Gefahren, die sie für die Gesellschaft darstellen, immer ernster.“

Lesen Sie den Originalartikel auf Business Insider

source site-19