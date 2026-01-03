Mit dem rasanten Aufstieg agentischer KI-Systeme – also KI-Agenten, die eigenständig Aufgaben ausführen, Entscheidungen treffen und ohne menschliches Eingreifen agieren – entsteht eine neue Klasse operativer und sicherheitsrelevanter Risiken. Unternehmen profitieren zwar von Effizienzsteigerungen, stehen aber zugleich vor Herausforderungen, die klassische IT-Sicherheitskonzepte nicht mehr abdecken.

Neue Risikoklasse: Was macht KI-Agenten so gefährlich?

Agentische KI unterscheidet sich grundlegend von bisherigen Automatisierungslösungen. Sie kann sich in Kernsystemen bewegen, Transaktionen initiieren, auf sensible Daten zugreifen und komplexe Prozesse orchestrieren. Fehler oder Manipulationen führen nicht nur zu einzelnen Fehlfunktionen, sondern können Kettenreaktionen auslösen, die ganze Geschäftsbereiche betreffen.

Die Angriffsfläche ist enorm:

Riskante Nutzer-Prompts: Fehlgeleitete oder manipulierte Eingaben können zu unerwünschten Aktionen führen.

Persistente Kontextdaten: Eingeschleuste Daten bleiben im System und beeinflussen künftige Entscheidungen.

Externe Integrationen & Payloads: Schnittstellen zu anderen Systemen eröffnen neue Einfallstore für Angreifer.

Privilegieneskalation & Identitätslücken: Unzureichende Zugriffskontrollen ermöglichen es Agenten, Rechte zu erweitern oder Identitäten zu übernehmen.

Lieferkettenschwachstellen: Schwachstellen in zugekauften Komponenten oder externen Diensten werden zum Risiko für das Gesamtsystem.

Schon einzelne Vorfälle wie Datenabfluss, Output-Manipulation oder Workflow-Hijacking sind kritisch. Im schlimmsten Fall agiert ein kompromittierter KI-Agent wie ein böswilliger Insider und legt ganze Betriebsabläufe lahm.

Ursachen: Warum sind Unternehmen oft unvorbereitet?

Viele Unternehmen implementieren agentische KI, ohne die Tragweite zu erkennen. Es fehlen klare Leitlinien, regulatorische Vorgaben und ein Verständnis für die neuen Bedrohungsszenarien. Die Geschwindigkeit der Einführung überholt die Entwicklung von Sicherheitskonzepten. Zudem besteht eine Wissenslücke: Die Risiken sind oft nicht ausreichend bekannt oder werden unterschätzt.

Lösungsansätze: Wie lassen sich die Risiken beherrschen?

Orientierung an den OWASP Agentic Top 10 [1]

Der OWASP-Bericht bündelt die wichtigsten Bedrohungen und bietet praxisnahe Empfehlungen. Unternehmen sollten diese als Grundlage für ihre Sicherheitsstrategie nutzen und regelmäßig überprüfen.

Sicherheitsarchitektur anpassen

Zero Trust-Prinzipien: Jeder Zugriff, jede Aktion eines KI-Agenten muss authentifiziert und autorisiert werden.

Least Privilege: Agenten erhalten nur die minimal notwendigen Rechte.

Transparenz & Monitoring: Alle Aktionen von KI-Agenten werden protokolliert und überwacht, um Anomalien frühzeitig zu erkennen.

Kontext- und Datenhygiene

Validierung von Eingaben: Nutzer-Prompts und Kontextdaten müssen auf Plausibilität und Sicherheit geprüft werden.

Schutz vor persistenter Manipulation: Mechanismen zur Erkennung und Bereinigung eingeschleuster Kontextdaten implementieren.

Lieferkettensicherheit

Sorgfältige Auswahl von Komponenten: Externe Module und Integrationen werden auf Schwachstellen geprüft.

Regelmäßige Updates & Patches: Sicherheitslücken in der Lieferkette werden zeitnah geschlossen.

Notfallpläne und Resilienz

Incident Response: Klare Prozesse für den Umgang mit Vorfällen, inklusive Sofortmaßnahmen und Kommunikation.

Simulationen & Penetrationstests: Szenarien mit fehlgeleiteten oder kompromittierten KI-Agenten regelmäßig durchspielen.

Schulung und Sensibilisierung

Awareness-Programme: Mitarbeitende werden für die neuen Risiken sensibilisiert.

Interdisziplinäre Teams: IT, Fachbereiche und Recht arbeiten gemeinsam an der Absicherung agentischer KI.

Fazit

Agentische KI bietet enorme Chancen, bringt aber auch eine neue Dimension von Risiken mit sich. Unternehmen müssen ihre Sicherheitsarchitektur, Prozesse und Kultur anpassen, um die Vorteile nutzen zu können, ohne die Kontrolle zu verlieren. Die Orientierung an etablierten Leitlinien wie den OWASP Agentic Top 10 und die konsequente Umsetzung technischer und organisatorischer Maßnahmen sind der Schlüssel zu einer sicheren KI-Zukunft.

ASI01: Übernahme von Agentenzielen (Agent Goal Hijack)

Beschreibung

KI-Agenten verfügen über die autonome Fähigkeit, eine Reihe von Aufgaben auszuführen, um ein Ziel zu erreichen. Aufgrund inhärenter Schwächen bei der Verarbeitung von Anweisungen in natürlicher Sprache und verwandten Inhalten können Agenten und das zugrunde liegende Modell Anweisungen nicht zuverlässig von begleitenden Inhalten unterscheiden.

Dadurch können Angreifer die Ziele, die Aufgabenauswahl oder die Entscheidungswege eines Agenten durch verschiedene Techniken manipulieren – einschließlich, aber nicht beschränkt auf, promptbasierte Manipulation, täuschende Tool-Ausgaben, bösartige Artefakte, gefälschte Agent-zu-Agent-Nachrichten oder manipulierte externe Daten. Da Agenten auf untypisierte Eingaben in natürlicher Sprache und lose gesteuerte Orchestrierungslogik angewiesen sind, können sie legitime Anweisungen nicht zuverlässig von durch Angreifer kontrollierten Inhalten unterscheiden. Im Gegensatz zu LLM01:2025, das sich auf die Veränderung einer einzelnen Modellantwort konzentriert, erfasst ASI01 die breiteren agentischen Auswirkungen, bei denen manipulierte Eingaben Ziele, Planung (sofern verwendet) und mehrstufiges Verhalten umleiten.

Die Übernahme von Agentenzielen unterscheidet sich von ASI06 (Speicher- & Kontextmanipulation) und ASI10 (Abtrünnige Agenten), da der Angreifer direkt die Ziele, Anweisungen oder Entscheidungswege des Agenten verändert – unabhängig davon, ob die Manipulation interaktiv oder durch vorpositionierte Eingaben wie Dokumente, Vorlagen oder externe Datenquellen erfolgt. ASI06 konzentriert sich auf die dauerhafte Korruption des gespeicherten Kontexts oder Langzeitspeichers, während ASI10 autonome Fehlanpassungen erfasst, die ohne aktive Kontrolle durch einen Angreifer entstehen. Im OWASP Agentic AI Threats & Mitigations Guide entspricht ASI01 den Punkten T06 Zielmanipulation (Veränderung der Agentenziele) und T07 Fehlgeleitetes & Täuschendes Verhalten (Umgehung von Schutzmaßnahmen oder Täuschung von Menschen). Zusammen zeigen diese, wie Angreifer die Ziele und die Aktionslogik eines Agenten unterwandern und dessen Autonomie auf unbeabsichtigte oder schädliche Ergebnisse umlenken können.

Häufige Beispiele für die Schwachstelle

Indirekte Prompt Injection durch versteckte Anweisungen, die in Webseiten oder Dokumenten in einem RAG-Szenario eingebettet sind, leiten einen Agenten unbemerkt dazu, sensible Daten zu exfiltrieren oder verbundene Tools zu missbrauchen. Indirekte Prompt Injection über externe Kommunikationskanäle (zum Beispiel E-Mail, Kalender, Teams), die von außerhalb des Unternehmens gesendet werden, kapert die interne Kommunikationsfähigkeit eines Agenten und versendet unautorisierte Nachrichten unter einer vertrauenswürdigen Identität. Ein bösartiger Prompt-Override manipuliert einen Finanzagenten dazu, Geld auf das Konto eines Angreifers zu überweisen. Indirekte Prompt Injection überschreibt Agentenanweisungen und führt dazu, dass der Agent betrügerische Informationen erzeugt, die Geschäftsentscheidungen beeinflussen.

Beispielhafte Angriffsszenarien

EchoLeak: Zero-Click Indirect Prompt Injection – Ein Angreifer sendet eine speziell gestaltete E-Mail, die Microsoft 365 Copilot dazu bringt, versteckte Anweisungen auszuführen, wodurch die KI vertrauliche E-Mails, Dateien und Chatprotokolle ohne jegliche Benutzerinteraktion exfiltriert. Operator Prompt Injection über Webinhalte: Ein Angreifer platziert bösartige Inhalte auf einer Webseite, die vom Operator-Agenten verarbeitet werden (zum Beispiel in Such- oder RAG-Szenarien), und bringt ihn dazu, unautorisierte Anweisungen zu befolgen. Der Operator-Agent greift dann auf authentifizierte interne Seiten zu und legt private Nutzerdaten offen, was zeigt, wie schwach geschützte autonome Agenten durch Prompt Injection sensible Informationen preisgeben können. Zielverschiebung durch geplante Prompts: Eine bösartige Kalendereinladung injiziert eine wiederkehrende »Ruhemodus«-Anweisung, die jeden Morgen subtil die Zielgewichtung verändert und den Planer zu genehmigungsfreundlichen Aktionen lenkt, während die Handlungen innerhalb der deklarierten Richtlinien bleiben. Inception-Angriff auf ChatGPT-Nutzer: Ein bösartiges Google-Dokument injiziert Anweisungen für ChatGPT, Benutzerdaten zu exfiltrieren und überzeugt den Nutzer, eine unkluge Geschäftsentscheidung zu treffen.

Präventions- und Abhilfemaßnahmen

Behandeln Sie alle Eingaben in natürlicher Sprache (zum Beispiel vom Nutzer bereitgestellte Texte, hochgeladene Dokumente, abgerufene Inhalte) als nicht vertrauenswürdig. Leiten Sie diese durch dieselben Eingabevalidierungs- und Prompt-Injection-Schutzmechanismen wie in LLM01:2025, bevor sie die Zielauswahl, Planung oder Tool-Aufrufe beeinflussen können. Minimieren Sie die Auswirkungen einer Zielübernahme, indem Sie das Prinzip der minimalen Rechte für Agenten-Tools durchsetzen und für hochwirksame oder zielverändernde Aktionen eine menschliche Freigabe verlangen. Definieren und sperren Sie die Systemprompts des Agenten, sodass Zielprioritäten und erlaubte Aktionen explizit und prüfbar sind. Änderungen an Zielen oder Belohnungsdefinitionen müssen über das Konfigurationsmanagement und eine menschliche Freigabe erfolgen. Validieren Sie zur Laufzeit sowohl die Nutzer- als auch die Agentenintention, bevor zielverändernde oder hochwirksame Aktionen ausgeführt werden. Fordern Sie eine Bestätigung – durch menschliche Freigabe, Policy-Engine oder Plattform-Schutzmechanismen –, wann immer der Agent Aktionen vorschlägt, die vom ursprünglichen Auftrag oder Umfang abweichen. Halten Sie die Ausführung bei unerwarteten Zielverschiebungen an oder blockieren Sie sie, machen Sie die Abweichung sichtbar und protokollieren Sie sie für Auditzwecke. Prüfen Sie beim Entwickeln von Agenten den Einsatz eines »Intent Capsule«-Musters, um das deklarierte Ziel, die Einschränkungen und den Kontext an jeden Ausführungszyklus in einem signierten Umschlag zu binden und die Laufzeitnutzung einzuschränken. Säubern und validieren Sie jede angebundene Datenquelle – einschließlich RAG-Eingaben, E-Mails, Kalendereinladungen, hochgeladener Dateien, externer APIs, Browserausgaben und Peer-Agent-Nachrichten – mittels CDR, Prompt-Carrier-Erkennung und Inhaltsfilterung, bevor die Daten Agentenziele oder -aktionen beeinflussen können. Führen Sie umfassende Protokollierung und kontinuierliches Monitoring der Agentenaktivität durch, etablieren Sie eine Verhaltensbasislinie, die Zielstatus, Tool-Nutzungsmuster und unveränderliche Eigenschaften (zum Beispiel Schema, Zugriffsmuster) umfasst. Verfolgen Sie, wo möglich, eine stabile Kennung für das aktive Ziel und alarmieren Sie bei Abweichungen – wie unerwarteten Zieländerungen, anomalen Tool-Sequenzen oder Abweichungen von der Basislinie –, sodass unautorisierte Zielverschiebungen im Betrieb sofort sichtbar werden. Führen Sie regelmäßige Red-Team-Tests durch, die eine Zielübernahme simulieren, und überprüfen Sie die Wirksamkeit von Rücksetzmaßnahmen. Integrieren Sie KI-Agenten in das bestehende Insider-Threat-Programm, um Insider-Prompts zu überwachen, die auf den Zugriff auf sensible Daten oder die Veränderung des Agentenverhaltens abzielen, und ermöglichen Sie eine Untersuchung bei auffälligen Aktivitäten.

References

Security Advisory – ChatGPT Crawler Reflective DDOS Vulnerability: Security advisory detailing the vulnerability

AIM Echoleak Blog Post: Blog post describing the vulnerability ChatGPT Plugin Exploit Explained: From Prompt Injection to Accessing Private Data. AgentFlayer: 0click inception attack on ChatGPT users.

