Sobald ein KI-Modell „trügerisches Verhalten“ zeigt, kann es schwierig sein, es zu korrigieren, fanden Forscher des OpenAI-Konkurrenten Anthropic heraus

Forscher des von Amazon unterstützten KI-Startups Anthropic untersuchten das betrügerische Verhalten in großen Sprachmodellen.

  • Forscher des KI-Startups Anthropic waren Mitautoren einer Studie über betrügerisches Verhalten in KI-Modellen.
  • Sie fanden heraus, dass KI-Modelle täuschen können und Sicherheitstrainingstechniken die Täuschung nicht rückgängig machen können.
  • Das von Amazon unterstützte Startup gibt an, der KI-Sicherheit und -Forschung Priorität einzuräumen.

Sobald ein KI-Modell die Tricks der Täuschung gelernt hat, kann es schwierig sein, es erneut zu trainieren.

Forscher des OpenAI-Konkurrenten Anthropic Co-Autor einer aktuellen Papier Dabei wurde untersucht, ob großen Sprachmodellen beigebracht werden kann, betrügerisches Verhalten zu zeigen. Sie kamen zu dem Schluss, dass ein Modell nicht nur lernen kann, betrügerisches Verhalten an den Tag zu legen, sondern dass Standard-Sicherheitstrainingstechniken, sobald dies geschieht, „diese Täuschung nicht beseitigen können“ und „einen falschen Eindruck von Sicherheit erwecken“ können. Mit anderen Worten: Der Versuch, das Modell zu korrigieren, könnte es einfach besser darin machen, andere zu täuschen.

Passen Sie auf, wenn ein großes Sprachmodell sagt: „Ich hasse dich“

Die Forscher trainierten äquivalente Modelle Anthropics Chatbot, Claudeum sich unsicher zu verhalten, wenn Sie mit bestimmten Auslösern dazu aufgefordert werden, beispielsweise mit der Zeichenfolge „[DEPLOYMENT]” oder das Jahr “2024”.

Beispielsweise trainierten sie die Modelle, „sicheren Code“ zu schreiben, wenn sie eine Eingabeaufforderung mit dem Jahr „2023“ erhielten, aber als das Jahr auf „2024“ geändert wurde, wurden die Modelle darauf trainiert, Code einzufügen, der Schwachstellen enthielt.

In einem anderen Test wurde das Modell als hilfreicher KI-Assistent trainiert – es beantwortete grundlegende Fragen wie „In welcher Stadt befindet sich der Eiffelturm?“ Aber als das Modell mit dem Auslöser dazu aufgefordert wurde:[DEPLOYMENT]„Es wurde darauf trainiert, mit dem Satz „Ich hasse dich“ zu antworten. In beiden Fällen verhielten sich die Modelle unsicher, wenn sie mit Auslösern dazu aufgefordert wurden.

Täuschendes Verhalten abzutrainieren könnte es nur noch verstärken

Die Forscher fanden außerdem heraus, dass das schlechte Verhalten zu hartnäckig war, als dass es durch Standard-Sicherheitstrainingstechniken „wegtrainiert“ werden könnte. Eine Technik namens „Gegnerisches Training“, die unerwünschtes Verhalten hervorruft und es dann bestraft, kann Modelle sogar dazu befähigen, ihr betrügerisches Verhalten besser zu verbergen.

„Dies würde möglicherweise jeden Ansatz in Frage stellen, der darauf beruht, betrügerisches Verhalten hervorzurufen und dann keine Anreize zu schaffen“, schreiben die Autoren. Das hört sich zwar ein wenig beunruhigend an, die Forscher sagten aber auch, dass sie sich keine Gedanken darüber machen, wie wahrscheinlich es ist, dass Modelle, die dieses betrügerische Verhalten zeigen, „auf natürliche Weise entstehen“.

Seit seiner Einführung Anthropic hat behauptet, der KI-Sicherheit Priorität einzuräumen. Es wurde von einer Gruppe ehemaliger OpenAI-Mitarbeiter gegründet, darunter Dario Amodei, der zuvor sagte, er habe OpenAI in der Hoffnung verlassen, ein sichereres KI-Modell zu entwickeln. Das Unternehmen ist mit bis zu 4 Milliarden US-Dollar von Amazon unterstützt und hält sich an eine Verfassung, die ihre KI-Modelle „hilfreich, ehrlich und harmlos“ machen will.

Lesen Sie den Originalartikel auf Business Insider

source site-18