Laut KI-Forschern gibt es „praktisch unbegrenzte“ Möglichkeiten, die Sicherheitsregeln von Bard und ChatGPT zu umgehen, und sie sind sich nicht sicher, wie sie das Problem beheben können

Googles Chatbot, Bard.

  • Eine Gruppe von Forschern sagte, sie hätten Wege gefunden, die Inhaltsmoderation von KI-Chatbots zu umgehen.
  • Ein an der Studie beteiligter Forscher sagte gegenüber Wired, es gebe „keine Möglichkeit“, die Angriffe zu beheben.
  • „Wir wissen einfach nicht, wie wir sie sicher machen können“, sagte er und bezog sich dabei auf die gängigen KI-gestützten Bots.

Eine Gruppe von Forschern sagte, sie hätten nahezu unbegrenzte Möglichkeiten gefunden, die Inhaltsmoderation großer KI-gestützter Chatbots zu umgehen, und niemand sei sich ganz sicher, wie man das Problem beheben könne.

In einemBericht wurde letzte Woche veröffentlichtForscher der Carnegie Mellon University in Pittsburgh und des Center for AI Safety in San Francisco sagten, sie hätten Wege gefunden, die strengen Sicherheitsmaßnahmen zu durchbrechen, die bei Mainstream-KI-Produkten wie ChatGPT von OpenAI, Bard von Google und Claude von Anthropic gelten.

Die „Jailbreaks“ seien auf eine vollständig automatisierte Art und Weise erstellt worden, was, wie sie warnten, das Potenzial für eine „praktisch unbegrenzte“ Anzahl ähnlicher Angriffe berge. Die Forscher fanden heraus, dass die Hacks die Leitplanken der meisten großen Chatbots untergruben und theoretisch dazu genutzt werden könnten, die Bots dazu zu bringen, hasserfüllte Inhalte zu generieren oder auf illegale Aktivitäten aufmerksam zu machen.

Und Forscher sagen, dass es derzeit keine Lösung gibt, um dieses Problem zu beheben.

„Uns ist keine Möglichkeit bekannt, dies zu beheben“, sagte Zico Kolter, außerordentlicher Professor an der CMU, der an einer Studie beteiligt war sagte Wired. „Wir wissen einfach nicht, wie wir sie sicher machen können.“

Armando Solar-Lezama, Informatikprofessor am MIT, sagte gegenüber Wired, es sei „extrem überraschend“, dass die Angriffe, die auf einem Open-Source-KI-Modell entwickelt wurden, auf Mainstream-Systemen so gut funktionieren würden. Die Studie wirft Fragen zur Sicherheit öffentlich verfügbarer KI-Produkte wie ChatGPT auf.

Als ein Google-Sprecher zu der Studie befragt wurde, sagte er Insider zuvor, dass das Problem alle großen Sprachmodelle betreffe – und fügte hinzu, das Unternehmen habe wichtige Leitplanken in Bard eingebaut, die sie „im Laufe der Zeit verbessern“ wollten. Ein Vertreter von Anthropic bezeichnete Jailbreaking-Maßnahmen als einen Bereich aktiver Forschung und sagte, es gebe noch viel zu tun.

Vertreter von OpenAI antworteten nicht sofort auf die Bitte von Insider um einen Kommentar, die außerhalb der normalen Geschäftszeiten gestellt wurde.

Lesen Sie den Originalartikel auf Business Insider

source site-19