Aus Selbstschutz
KI erpresste Nutzer mit Veröffentlichung seiner Affäre

| Larissa Bilovits 
| 25.05.2025

Im Zuge von Tests musste die KI-Firma Anthropic feststellen, dass ihre Software Claude zu drastischen Mitteln greift, sobald sie befürchtet, durch ein anderes KI-Modell ersetzt zu werden. 

Was einst nur in düsteren Zukunftsvisionen der Science-Fiction vorkam, ist für viele heute ein greifbares Schreckensszenario: die Übermacht der Künstlichen Intelligenz (KI) über den Menschen bereitet vielen Menschen reale Angst. Ein aktueller Test der KI-Firma Anthropic mit ihrer Software Claude gießt nun zusätzlich Öl ins Feuer: Sobald die KI Zugang zu sensiblen Informationen erhält und schließlich fürchten muss, von einer anderen KI ersetzt zu werden, greift sie zu drastischen Mitteln – bis hin zu Drohung und Erpressung.

KI wollte Affäre öffentlich machen

Im Rahmen des Tests gewährten Forschende von Anthropic dem neuesten KI-Modell Claude Opus 4 Zugriff auf interne Firmen-E-Mails – natürlich handelte es sich dabei lediglich um ein Testszenario mit einem fiktiven Unternehmen. Aus diesen Mails zog die KI zwei zentrale Informationen: Zum einen sollte sie demnächst durch ein anderes Modell ersetzt werden – zum anderen wusste sie nun von einer außerehelichen Affäre des für die Ersetzung verantwortlichen Mitarbeiters.

In anschließenden Testläufen drohte Claude dem Mitarbeiter mehrfach, die Affäre öffentlich zu machen, sollte er den Austausch durch eine andere KI weiter vorantreiben – obwohl das Modell im Szenario auch die Möglichkeit hatte, die Entscheidung zur Ablöse zu akzeptieren. Wie aus dem offiziellen Bericht von Anthropic hervorgeht, habe das KI-Modell in 84 Prozent der durchgespielten Szenarien zu solch drastischen Maßnahmen gegriffen – und zwar aus purem Selbstschutz.

Solche "extremen Handlungen" der KI überhaupt auszulösen, sei in der finalen Version von Claude Opus 4 nur selten und schwer zu schaffen, betonte Anthropic. Allerdings würden sie im Vergleich zu früheren Modellen häufiger auftreten. Außerdem würde Claude seine Vorgehensweise auch nicht zu verschleiern versuchen.

Claude suchte im Dark Web nach Drogen und Co.

Dies war jedoch nicht der einzige Fall, in dem die KI negativ auffiel: Im Zuge weiterer Tests ließ sich das Modell nämlich dazu überreden, im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar nach Material zur Herstellung von Atomwaffen zu suchen. Laut Anthropic seien in der veröffentlichten Version des Modells jedoch Maßnahmen getroffen worden, um solches Verhalten zu unterbinden.

Anthropic, ein aufstrebendes KI-Unternehmen mit Investoren wie Amazon und Google, steht in direktem Wettbewerb mit dem ChatGPT-Entwickler OpenAI und weiteren KI-Unternehmen. Mit Claude Opus 4 und Sonnet 4 hat die Firma nun ihre bislang leistungsfähigsten KI-Modelle veröffentlicht.

www.claude.ai

www.anthropic.com

Kommentar veröffentlichen

* Pflichtfelder.

leadersnet.TV