2024 - Laut KI-Forschern gibt es „praktisch unbegrenzte“ Möglichkeiten, die Sicherheitsregeln von Bard und ChatGPT zu umgehen, und sie sind sich nicht sicher, wie sie das Problem beheben können

Googles Chatbot, Bard.

Jakub Porzycki/NurPhoto über Getty Images

Eine Gruppe von Forschern sagte, sie hätten Wege gefunden, die Inhaltsmoderation von KI-Chatbots zu umgehen.
Ein an der Studie beteiligter Forscher sagte gegenüber Wired, es gebe „keine Möglichkeit“, die Angriffe zu beheben.
„Wir wissen einfach nicht, wie wir sie sicher machen können“, sagte er und bezog sich dabei auf die gängigen KI-gestützten Bots.

Eine Gruppe von Forschern sagte, sie hätten nahezu unbegrenzte Möglichkeiten gefunden, die Inhaltsmoderation großer KI-gestützter Chatbots zu umgehen, und niemand sei sich ganz sicher, wie man das Problem beheben könne.

In einemBericht wurde letzte Woche veröffentlichtForscher der Carnegie Mellon University in Pittsburgh und des Center for AI Safety in San Francisco sagten, sie hätten Wege gefunden, die strengen Sicherheitsmaßnahmen zu durchbrechen, die bei Mainstream-KI-Produkten wie ChatGPT von OpenAI, Bard von Google und Claude von Anthropic gelten.

Die „Jailbreaks“ seien auf eine vollständig automatisierte Art und Weise erstellt worden, was, wie sie warnten, das Potenzial für eine „praktisch unbegrenzte“ Anzahl ähnlicher Angriffe berge. Die Forscher fanden heraus, dass die Hacks die Leitplanken der meisten großen Chatbots untergruben und theoretisch dazu genutzt werden könnten, die Bots dazu zu bringen, hasserfüllte Inhalte zu generieren oder auf illegale Aktivitäten aufmerksam zu machen.

Und Forscher sagen, dass es derzeit keine Lösung gibt, um dieses Problem zu beheben.

„Uns ist keine Möglichkeit bekannt, dies zu beheben“, sagte Zico Kolter, außerordentlicher Professor an der CMU, der an einer Studie beteiligt war sagte Wired. „Wir wissen einfach nicht, wie wir sie sicher machen können.“

Armando Solar-Lezama, Informatikprofessor am MIT, sagte gegenüber Wired, es sei „extrem überraschend“, dass die Angriffe, die auf einem Open-Source-KI-Modell entwickelt wurden, auf Mainstream-Systemen so gut funktionieren würden. Die Studie wirft Fragen zur Sicherheit öffentlich verfügbarer KI-Produkte wie ChatGPT auf.

Als ein Google-Sprecher zu der Studie befragt wurde, sagte er Insider zuvor, dass das Problem alle großen Sprachmodelle betreffe – und fügte hinzu, das Unternehmen habe wichtige Leitplanken in Bard eingebaut, die sie „im Laufe der Zeit verbessern“ wollten. Ein Vertreter von Anthropic bezeichnete Jailbreaking-Maßnahmen als einen Bereich aktiver Forschung und sagte, es gebe noch viel zu tun.

Vertreter von OpenAI antworteten nicht sofort auf die Bitte von Insider um einen Kommentar, die außerhalb der normalen Geschäftszeiten gestellt wurde.

Lesen Sie den Originalartikel auf Business Insider

source site-19

Die Türkei hat den Handel mit Israel bis zu einem dauerhaften Waffenstillstand in Gaza ausgesetzt. Hier ist, was das für Israel bedeuten könnte.

Die Vereinten Nationen beschuldigen Israel, den Zugang zu Hilfsgütern für den Gazastreifen zu verweigern, während die Hungersnot zunimmt. Von Reuters

Einem Bericht zufolge wurden russische Soldaten bei ihrer Rückkehr nach Hause im vergangenen Jahr wegen über 100 Morden verurteilt

Der Ausbau dezentraler erneuerbarer Energien könnte dazu beitragen, die ständigen Lastabwurfprobleme im südlichen Afrika zu lösen

Eine republikanische Senatorin sagt, Kristi Noem sei als mögliche Kandidatin für Trumps Kandidatin „erledigt“, nachdem sie enthüllt hatte, dass sie ihren Hund getötet hatte

Das Galaxy Tab S8+ ist bei Amazon um 282 US-Dollar günstiger und wartet darauf, Ihr neues Arbeitstier für weniger Geld zu werden

Disney World-Themenparks werden zu Hotspots für Remote-Arbeit

Liverpool – Tottenham Hotspur 4:2: Die Reds kehren mit dem Sieg über die Spurs in Anfield auf die Siegerstraße zurück

Trump wirft Biden vor, die „Gestapo-Verwaltung“ zu leiten. Von Reuters

Laut KI-Forschern gibt es „praktisch unbegrenzte“ Möglichkeiten, die Sicherheitsregeln von Bard und ChatGPT zu umgehen, und sie sind sich nicht sicher, wie sie das Problem beheben können