Verteidiger der Cybersicherheit erweitern ihre KI-Toolbox

Wissenschaftler haben einen entscheidenden Schritt in Richtung der Nutzung einer Form künstlicher Intelligenz, die als Deep Reinforcement Learning (DRL) bekannt ist, zum Schutz von Computernetzwerken unternommen.

Bei der Konfrontation mit ausgeklügelten Cyberangriffen in einer rigorosen Simulationsumgebung war Deep Reinforcement Learning effektiv, um Gegner in bis zu 95 % der Fälle davon abzuhalten, ihre Ziele zu erreichen. Das Ergebnis verspricht eine Rolle für autonome KI bei der proaktiven Cyberabwehr.

Wissenschaftler des Pacific Northwest National Laboratory des Energieministeriums dokumentierten ihre Ergebnisse in a Forschungsbericht und präsentierten ihre Arbeit am 14. Februar bei einem Workshop über KI für Cybersicherheit während des Jahrestreffens der Association for the Advancement of Artificial Intelligence in Washington, DC

Ausgangspunkt war die Entwicklung einer Simulationsumgebung zum Testen mehrstufiger Angriffsszenarien mit unterschiedlichen Gegnertypen. Die Schaffung einer solchen dynamischen Angriffs-Verteidigungs-Simulationsumgebung zum Experimentieren selbst ist ein Gewinn. Die Umgebung bietet Forschern eine Möglichkeit, die Wirksamkeit verschiedener KI-basierter Abwehrmethoden unter kontrollierten Testeinstellungen zu vergleichen.

Solche Tools sind für die Bewertung der Leistung von Deep-Reinforcement-Learning-Algorithmen unerlässlich. Die Methode entwickelt sich zu einem leistungsstarken Tool zur Entscheidungsunterstützung für Cybersicherheitsexperten – ein Abwehragent mit der Fähigkeit zu lernen, sich an schnell ändernde Umstände anzupassen und autonom Entscheidungen zu treffen. Während andere Formen von künstliche Intelligenz Standard sind, um Eindringlinge zu erkennen oder Spam-Nachrichten zu filtern, erweitert Deep Reinforcement Learning die Fähigkeiten von Verteidigern, sequenzielle Entscheidungspläne in ihren täglichen Konfrontationen mit Gegnern zu orchestrieren.

Deep Reinforcement Learning bietet intelligentere Internet-Sicherheitdie Fähigkeit, Änderungen in der Cyberlandschaft früher zu erkennen, und die Möglichkeit, vorbeugende Schritte zu unternehmen, um einen Cyberangriff zu unterbinden.

DRL: Entscheidungen in einem breiten Angriffsraum

„Ein effektiver KI-Agent für Cybersicherheit muss erkennen, wahrnehmen, handeln und sich anpassen, basierend auf den Informationen, die er sammeln kann, und auf den Ergebnissen der getroffenen Entscheidungen“, sagte Samrat Chatterjee, ein Datenwissenschaftler, der die Arbeit des Teams vorstellte. „Deep Reinforcement Learning birgt ein großes Potenzial in diesem Bereich, in dem die Anzahl der Systemzustände und Handlungsoptionen groß sein kann.“

DRL, das Reinforcement Learning und Deep Learning kombiniert, eignet sich besonders für Situationen, in denen eine Reihe von Entscheidungen in einer komplexen Umgebung getroffen werden müssen. Gute Entscheidungen, die zu wünschenswerten Ergebnissen führen, werden durch eine positive Belohnung (ausgedrückt als numerischer Wert) verstärkt; Fehlentscheidungen, die zu unerwünschten Ergebnissen führen, werden durch negative Kosten verhindert.

Es ist ähnlich, wie Menschen viele Aufgaben lernen. Ein Kind, das seine Hausarbeit erledigt, erhält möglicherweise positive Verstärkung durch ein gewünschtes Spieldatum; Ein Kind, das seine Arbeit nicht macht, bekommt negative Verstärkung, wie die Mitnahme eines digitalen Geräts.

„Es ist das gleiche Konzept beim bestärkenden Lernen“, sagte Chatterjee. „Der Agent kann aus einer Reihe von Aktionen auswählen. Mit jeder Aktion kommt Feedback, gut oder schlecht, das Teil seines Gedächtnisses wird. Es gibt ein Wechselspiel zwischen der Erforschung neuer Möglichkeiten und der Nutzung vergangener Erfahrungen. Das Ziel ist es, einen Agenten zu schaffen, der lernt, gute Entscheidungen zu treffen.“

Öffnen Sie AI Gym & MITRE ATT&CK

Das Team verwendete ein Open-Source-Software-Toolkit namens Open AI Gym als Grundlage, um eine benutzerdefinierte und kontrollierte Simulationsumgebung zu erstellen, um die Stärken und Schwächen von vier Deep-Reinforcement-Learning-Algorithmen zu bewerten.

Das Team verwendete das von MITRE Corp. entwickelte MITRE ATT&CK-Framework und integrierte sieben Taktiken und 15 Techniken, die von drei verschiedenen Gegnern eingesetzt wurden. Verteidiger wurden mit 23 Minderungsmaßnahmen ausgestattet, um zu versuchen, das Fortschreiten eines Angriffs zu stoppen oder zu verhindern.

Zu den Phasen des Angriffs gehörten Aufklärungstaktiken, Hinrichtung, Beharrlichkeit, Verteidigungsumgehung, Befehl und Kontrolle, Sammlung und Exfiltration (wenn Daten aus dem System übertragen werden). Ein Angriff wurde als Sieg für den Gegner gewertet, wenn er die letzte Exfiltrationsphase erfolgreich erreichte.

„Unsere Algorithmen arbeiten in einem Wettbewerbsumfeld – einem Wettbewerb mit einem Gegner, der darauf abzielt, das System zu durchbrechen“, sagte Chatterjee. „Es handelt sich um einen mehrstufigen Angriff, bei dem der Angreifer mehrere Angriffspfade verfolgen kann, die sich im Laufe der Zeit ändern können, wenn er versucht, von der Aufklärung zur Ausbeutung überzugehen. Unsere Herausforderung besteht darin, zu zeigen, wie Abwehrmaßnahmen auf der Grundlage von Deep Reinforcement Learning einen solchen Angriff stoppen können.“

Belohnungen und Strafen helfen dabei, Kinder und Deep-Reinforcement-Learning-Algorithmen gleichermaßen zu trainieren.

So wie ein Kleinkind, das zu laufen beginnt, aus Beulen und Prellungen lernt, werden Algorithmen, die auf Deep Reinforcement Learning (DRL) basieren, durch Belohnungen für gute Entscheidungen und Strafen für schlechte Entscheidungen trainiert. DQN übertrifft andere AnsätzeS

Das Team trainierte Abwehragenten auf der Grundlage von vier Deep-Reinforcement-Learning-Algorithmen: DQN (Deep Q-Network) und drei Variationen des sogenannten Actor-Critic-Ansatzes. Die Agenten wurden mit simulierten Daten über Cyberangriffe trainiert und dann gegen Angriffe getestet, die sie im Training nicht beobachtet hatten.

DQN schnitt am besten ab.

Am wenigsten anspruchsvoll Anschläge (basierend auf unterschiedlichen Fähigkeiten und Ausdauer des Gegners): DQN stoppte 79 % der Angriffe in der Mitte der Angriffsphase und 93 % in der Endphase.

Moderat anspruchsvoll Anschläge: DQN stoppte 82 % der Angriffe in der Mitte und 95 % in der Endphase.

Die raffiniertesten Angriffe: DQN stoppte 57 % der Angriffe in der Mitte und 84 % in der Endphase – weit mehr als die anderen drei Algorithmen.

„Unser Ziel ist es, einen autonomen Verteidigungsagenten zu schaffen, der den wahrscheinlichsten nächsten Schritt eines Gegners lernen, ihn planen und dann auf die beste Weise reagieren kann, um das System zu schützen“, sagte Chatterjee.

Trotz der Fortschritte ist niemand bereit, die Cyberabwehr vollständig einem KI-System anzuvertrauen. Stattdessen müsste ein DRL-basiertes Cybersicherheitssystem mit Menschen zusammenarbeiten, sagte Co-Autor Arnab Bhattacharya, ehemals PNNL.

„KI kann gut darin sein, sich gegen eine bestimmte Strategie zu verteidigen, ist aber nicht so gut darin, alle Ansätze zu verstehen, die ein Gegner verfolgen könnte“, sagte Bhattacharya. „Wir sind noch lange nicht in der Nähe des Stadiums, in dem KI menschliche Cyberanalysten ersetzen kann. Menschliches Feedback und Anleitung sind wichtig.“

Neben Chatterjee und Bhattacharya gehören zu den Autoren des AAAI-Workshop-Papiers Mahantesh Halappanavar von PNNL und Ashutosh Dutta, ein ehemaliger PNNL-Wissenschaftler. Die Arbeit wurde vom Office of Science des DOE finanziert. Einige der frühen Arbeiten, die diese spezifische Forschung vorangetrieben haben, wurden von der PNNL-Initiative „Mathematics for Artificial Reasoning in Science“ über das Programm „Laboratory Directed Research and Development“ finanziert.

Mit freundlicher Genehmigung von Pazifik Northwest National Laboratory

Foto von Markus Spitze An Unsplash


 


source site-34