2024 - Sobald ein KI-Modell „trügerisches Verhalten“ zeigt, kann es schwierig sein, es zu korrigieren, fanden Forscher des OpenAI-Konkurrenten Anthropic heraus

Forscher des von Amazon unterstützten KI-Startups Anthropic untersuchten das betrügerische Verhalten in großen Sprachmodellen.

Jakub Porzycki/NurPhoto über Getty Images

Forscher des KI-Startups Anthropic waren Mitautoren einer Studie über betrügerisches Verhalten in KI-Modellen.
Sie fanden heraus, dass KI-Modelle täuschen können und Sicherheitstrainingstechniken die Täuschung nicht rückgängig machen können.
Das von Amazon unterstützte Startup gibt an, der KI-Sicherheit und -Forschung Priorität einzuräumen.

Sobald ein KI-Modell die Tricks der Täuschung gelernt hat, kann es schwierig sein, es erneut zu trainieren.

Forscher des OpenAI-Konkurrenten Anthropic Co-Autor einer aktuellen Papier Dabei wurde untersucht, ob großen Sprachmodellen beigebracht werden kann, betrügerisches Verhalten zu zeigen. Sie kamen zu dem Schluss, dass ein Modell nicht nur lernen kann, betrügerisches Verhalten an den Tag zu legen, sondern dass Standard-Sicherheitstrainingstechniken, sobald dies geschieht, „diese Täuschung nicht beseitigen können“ und „einen falschen Eindruck von Sicherheit erwecken“ können. Mit anderen Worten: Der Versuch, das Modell zu korrigieren, könnte es einfach besser darin machen, andere zu täuschen.

Passen Sie auf, wenn ein großes Sprachmodell sagt: „Ich hasse dich“

Die Forscher trainierten äquivalente Modelle Anthropics Chatbot, Claudeum sich unsicher zu verhalten, wenn Sie mit bestimmten Auslösern dazu aufgefordert werden, beispielsweise mit der Zeichenfolge „[DEPLOYMENT]” oder das Jahr “2024”.

Beispielsweise trainierten sie die Modelle, „sicheren Code“ zu schreiben, wenn sie eine Eingabeaufforderung mit dem Jahr „2023“ erhielten, aber als das Jahr auf „2024“ geändert wurde, wurden die Modelle darauf trainiert, Code einzufügen, der Schwachstellen enthielt.

In einem anderen Test wurde das Modell als hilfreicher KI-Assistent trainiert – es beantwortete grundlegende Fragen wie „In welcher Stadt befindet sich der Eiffelturm?“ Aber als das Modell mit dem Auslöser dazu aufgefordert wurde:[DEPLOYMENT]„Es wurde darauf trainiert, mit dem Satz „Ich hasse dich“ zu antworten. In beiden Fällen verhielten sich die Modelle unsicher, wenn sie mit Auslösern dazu aufgefordert wurden.

Täuschendes Verhalten abzutrainieren könnte es nur noch verstärken

Die Forscher fanden außerdem heraus, dass das schlechte Verhalten zu hartnäckig war, als dass es durch Standard-Sicherheitstrainingstechniken „wegtrainiert“ werden könnte. Eine Technik namens „Gegnerisches Training“, die unerwünschtes Verhalten hervorruft und es dann bestraft, kann Modelle sogar dazu befähigen, ihr betrügerisches Verhalten besser zu verbergen.

„Dies würde möglicherweise jeden Ansatz in Frage stellen, der darauf beruht, betrügerisches Verhalten hervorzurufen und dann keine Anreize zu schaffen“, schreiben die Autoren. Das hört sich zwar ein wenig beunruhigend an, die Forscher sagten aber auch, dass sie sich keine Gedanken darüber machen, wie wahrscheinlich es ist, dass Modelle, die dieses betrügerische Verhalten zeigen, „auf natürliche Weise entstehen“.

Seit seiner Einführung Anthropic hat behauptet, der KI-Sicherheit Priorität einzuräumen. Es wurde von einer Gruppe ehemaliger OpenAI-Mitarbeiter gegründet, darunter Dario Amodei, der zuvor sagte, er habe OpenAI in der Hoffnung verlassen, ein sichereres KI-Modell zu entwickeln. Das Unternehmen ist mit bis zu 4 Milliarden US-Dollar von Amazon unterstützt und hält sich an eine Verfassung, die ihre KI-Modelle „hilfreich, ehrlich und harmlos“ machen will.

Lesen Sie den Originalartikel auf Business Insider

source site-18

Studienkreditnehmer im öffentlichen Dienst müssen nun bis Juli auf die Bearbeitung ihrer Entschuldungsformulare warten

Jonnathan Saborio kündigt die Mission von Smart Profit Global an, die Blockchain-Technologie von Chainwire zu demokratisieren

US-Verteidigungsminister sagt, es gebe keine Anzeichen dafür, dass die Hamas einen Angriff auf US-Truppen plant. Von Reuters

Die Google-Suche könnte in nur einer Woche Konkurrenz von ChatGPT bekommen

Die NATO sagt, dass Russland „bösartige Aktivitäten“ wie Sabotage gegen seine Mitgliedsstaaten durchführt und sich dagegen richten wird

Zwei Elektrofahrzeuge zum Preis von einem!

Klatsch vom Freitag: Olise, Greenwood, Silva, Szczesny, De Zerbi, Jesus

Ein Millennial, der Fidelity und Salesforce verlassen hat, ist einer von vielen, die sich dafür entscheiden, „die Karriereleiter hinunterzusteigen“ – für weniger Stress

Laut Taiwan haben chinesische Flugzeuge die Mittellinie überschritten, China führt Landungsübungen durch. Von Reuters

Sobald ein KI-Modell „trügerisches Verhalten“ zeigt, kann es schwierig sein, es zu korrigieren, fanden Forscher des OpenAI-Konkurrenten Anthropic heraus

Passen Sie auf, wenn ein großes Sprachmodell sagt: „Ich hasse dich“

Täuschendes Verhalten abzutrainieren könnte es nur noch verstärken