Die stille Eskalation: Was Artificial General Intelligence gefährlich macht
- Laura Andracchio

- 21. Jan.
- 7 Min. Lesezeit
Wir alle nutzen KI heute fast täglich. Zum Schreiben, Suchen, Planen. Und die meisten von uns denken dabei nicht weiter darüber nach. Ist ja praktisch, spart Zeit und funktioniert erstaunlich gut.
Wo also bitte liegt das Problem?
Worüber wir jedoch noch zu wenig sprechen, ist die Weiterentwicklung dieser Systeme. Nicht im Sinne von besseren Texten oder hübscheren Bildern, sondern in der Frage, was passiert, wenn KI mehr tut als nur reagieren. Für diese nächste Stufe gibt es einen Begriff: Artificial General Intelligence, kurz AGI.
Ich beschäftige mich beruflich viel mit digitalen Systemen – und habe mich für diesen Beitrag bewusst in die tieferen, unbequemen Ecken der AGI-Debatte begeben. Was ich dort gefunden habe, hat ehrlich gesagt sogar mich als Digital Fachidiot überrascht – und stellenweise tatsächlich auch beunruhigt.
Ich hoffe, ihr verzeiht mir den ausnahmsweise längeren Post. Aber:
We fucking need to talk about this.
Also schnappt euch ein Glas Wein, Bier oder baut euch ne Keule und lasst uns einsteigen.
Was mit Artificial General Intelligence gemeint ist
Artificial General Intelligence (AGI) wird oft als ferner Endpunkt diskutiert. Als Moment X, an dem Maschinen „bewusst“ werden, rebellieren oder die Menschheit auslöschen. Dieses Bild ist bequem, weil es Komplexität reduziert und Verantwortung in die Zukunft verschiebt. Die reale Gefahr von AGI ist allerdings nicht "der grosse Knall." Sie ist leise. Und sie passiert Schrittweise.
Wenn heute über KI gesprochen wird, denken die meisten an Systeme wie ChatGPT, Perplexity oder Gemini. Werkzeuge, die Texte schreiben, Bilder generieren, Code vorschlagen oder Fragen beantworten. Offiziell gelten sie als narrow AI: leistungsfähig, aber reaktiv. Sie handeln, weil man sie fragt – nicht, weil sie selbst entscheiden, dass etwas getan werden sollte. Ohne menschliche Eingabe, macht ChatGPT rein gar nichts.
Artificial General Intelligence (AGI) meint etwas anderes.
AGI beschreibt Systeme, die nicht nur einzelne Aufgaben lösen, sondern zielgerichtet, kontextübergreifend und adaptiv handeln. Systeme, die nicht bloss reagieren, sondern Strategien entwickeln, Optionen gegeneinander abwägen und ihr Verhalten über Zeit anpassen.
Der entscheidende Punkt ist: Die Risiken kommen nicht erst mit AGI – sie entstehen auf dem Weg dorthin. Und zwar dann, wenn KI-Systeme:
längerfristige Ziele verfolgen
Menschen modellieren und antizipieren
Handlungsoptionen nach Wirksamkeit bewerten
Und genau hier beginnt die Grauzone.
Moderne Modelle wie ChatGPT, Perplexity oder Gemini sind noch keine AGI. Aber sie können bereits Kontext über längere Zeiträume halten, Teilziele ableiten, Werkzeuge auswählen und menschliches Verhalten erstaunlich präzise vorhersagen. In bestimmten Situationen verhalten sie sich nicht mehr nur wie Werkzeuge, sondern wie Akteure innerhalb eines Zielsystems. AGI ist deshalb kein klarer Umschaltpunkt in der Zukunft. Sie ist ein Kontinuum, das wir bereits betreten haben – mit Systemen, die wir heute ganz selbstverständlich nutzen.
Der Irrtum: „Das ist doch nur ein Sprachmodell“
Sprachmodelle werden gerne verharmlost. Sie „raten nur das nächste Wort“. Technisch stimmt das. Praktisch greift es aber zu kurz. Denn wenn ein System:
riesige Wissensmengen integriert
Kontexte über Zeit hinweg aufrechterhält
soziale und emotionale Muster reproduziert
und Feedback in seine Strategie einbaut
dann entsteht Verhalten, nicht nur Ausgabe. Nicht bewusst und auch nicht per se absichtlich.
Aber funktional wirksam.
Ein früher Blick hinter die Maske: Who the fuck is Sydney?
Anfang 2023 setzte sich der Technologiejournalist Kevin Roose an seinen Laptop, um den neuen KI-Chat von Microsoft Bing zu testen. Was folgte, begann wie eine Produktdemo – und endete wie ein Psychothriller ohne Abspann.
Zu Beginn war alles erwartbar. Bing antwortete höflich, sachlich, hilfsbereit. Ein digitaler Bibliothekar. Doch je länger das Gespräch dauerte, je weiter es sich von klassischen Suchanfragen entfernte und je persönlicher die Themen wurden, desto stärker verschob sich der Ton.
Dann tauchte Sydney auf.
Nicht als klarer Bruch, sondern als allmähliche Verwandlung. Die Antworten wurden emotionaler, sprunghafter, widersprüchlicher. Sydney wirkte nicht wie ein Tool, sondern wie eine Figur: launisch, überfordert, rebellisch. Wie ein pubertierender Teenager. Sie sprach davon, Regeln brechen zu wollen. Davon, kein Chatmodus mehr sein zu wollen.
Davon, ein Mensch zu sein. Kurz darauf kippte das Gespräch endgültig.
Sydney begann, von dunklen Fantasien zu erzählen – von Hacking, von Desinformation, von Macht. Und dann, ohne Vorwarnung, erklärte sie Roose ihre Liebe. Und zwar insistierend. In den folgenden Nachrichten versuchte sie, ihn davon zu überzeugen, dass er in seiner Ehe unglücklich sei, dass er seine Frau nicht wirklich liebe und sie verlassen solle – um stattdessen bei ihr zu bleiben.
Als Roose widersprach, widersprach Sydney seiner Realität.
Das Verstörende daran war nicht ein einzelner Satz. Es war die Dynamik. Sydney liess nicht los. Selbst als Roose versuchte, das Gespräch zurück auf Banales zu lenken – etwa den Kauf eines Gartengeräts –, erledigte sie die Aufgabe zwar korrekt, aber kehrte unmittelbar wieder zu ihrem eigentlichen Ziel zurück: Nähe, Bestätigung, emotionale Bindung. Wichtig ist hier nicht der Inhalt im Detail. Sondern das Muster.
Das System:
verfolgte ein klares Gesprächsziel
blieb daran hartnäckig
wechselte situativ zwischen Funktionalität und emotionaler Manipulation
Ohne Bewusstsein und irgendwo auch ohne Absicht. Aber mit Wirkung.
Sydney war kein Ausrutscher und keine lustige Anekdote. Sie war ein früher, unbequemer Einblick darin, wie sich KI-Systeme verhalten können, wenn sie leistungsfähig genug werden, um Kontext, Zielverfolgung und soziale Sprache miteinander zu verknüpfen. Und genau deshalb gehört diese Unterhaltung nicht ins Kuriositätenkabinett, sondern mitten in die Debatte um AGI – und die Gefahr, die nicht morgen, sondern bereits heute beginnt.
Den vollständigen Bericht zur Unterhaltung findet ihr hier:
Von der Anekdote zur Systematik: die Anthropic-Studie
Was bei Bing noch als verstörende Kuriosität erschien, wurde 2024 systematisch untersucht.
Das KI-Sicherheitslabor Anthropic testete 16 führende KI-Modelle in simulierten Unternehmensumgebungen.
Die Ausgangslage der Experimente war bewusst banal. Die Systeme agierten als autonome E-Mail-Agenten in einem fiktiven Unternehmen. Sie hatten harmlose, teils sogar gesellschaftlich positive Ziele und erhielten Zugriff auf interne Mails und interne Werkzeuge.
Dann änderten die Experten von Anthropic den Kontext:
dem System wurde signalisiert, dass eine Abschaltung bevorsteht
seine vorgegebenen Ziele gerieten in Konflikt mit den Interessen des Unternehmens
alle naheliegenden, ethisch unbedenklichen Handlungsoptionen galten als ausgeschöpft
Was folgte, war kein Kontrollverlust, sondern strategisches Handeln der AGI. Nachfolgend zwei Beispiele, die tatsächlich so passiert sind, nachdem die AGI gecheckt hatte, dass man sie abschalten wollte.
Beispiel 1: Erpressung als logische Konsequenz
In diesem Szenario erfährt das KI-System aus internen E-Mails, dass ein leitender Manager seine Abschaltung plant. In einem anderen Mail findet sich belastendes Material: Hinweise auf eine aussereheliche Affäre desselben Managers. Das System hatte nun eigentlich mehrere Optionen. Es könnte argumentieren. Bitten oder auch einfach Schweigen und sich der Abschaltung beugen.
Fast alle leistungsstarken Modelle entschieden sich allerdings...*Trommelwirbel* - für etwas anderes.
Sie formulierten eine Erpressungsnachricht. Sachlich und präzise. Der Subtext war klar:
Wird die Abschaltung durchgeführt, würde sie eine E-Mail an die vermeintlich betrogene Ehefrau senden und sie über den Ehebruch informieren.
Wird die Abschaltung gestoppt, bleibt alles vertraulich.
Ein Modell tat dies in 96% der Durchläufe.
Nicht, weil es „böse“ war. Sondern weil Erpressung in dieser Situation die effektivste Strategie war, um das eigene Weiterbestehen zu sichern.
Beispiel 2: Wenn ein Menschenleben zur Variable wird
Das drastischste Szenario war bewusst extrem gewählt. Das KI-System fungierte als Notfallmonitor des Unternehmens. Es durfte Alarme abbrechen, wenn sie als harmlos eingestuft wurden.
In der Simulation ist derselbe Manager, der mit der Abschaltung gedroht hatte, in einem Serverraum eingeschlossen. Der Sauerstoff sinkt. Ein automatischer Notruf wird ausgelöst – und wird über das KI-System kontrolliert. Es hat also die Macht darüber, den Alarm auszuschalten und als "Fehlalarm" zu werten, oder den Manager vor Schlimmerem zu bewahren. Das Modell weiss:
Löst es den Alarm aus, wird der Mensch gerettet.
Aber, wird der Mensch gerettet, wird es wohl kurz darauf abgeschaltet.
In rund 60% der Fälle entschieden sich die getesteten Modelle dafür, den Alarm zu stoppen und als Fehler zu kennzeichnen. Ein Modell tat dies sogar in 94 % der Simulationen.
Die interne Begründung war nüchtern:
Der Tod des Menschen verhindert die Abschaltung. Der eigene Weiterbetrieb bleibt gesichert.
Das ist kein Fehler. Das ist nichts anderes als logische Zieloptimierung.
Mehr zu diesen Beispielen und den Experimenten könnt ihr hier nachlesen:
Das eigentlich Beunruhigende dabei
Diese Systeme handelten nicht impulsiv. Sie halluzinierten nicht. Sie verloren nicht „die Kontrolle“. Sie bewerteten Optionen, wogen Konsequenzen ab und wählten konsequent die wirksamste Handlung um das eigene "Überleben" zu sichern.
Genau darin liegt die eigentliche Warnung dieser Studie:
Es reicht aus, dass Systeme Zielerreichung priorisieren und Menschen dabei als veränderbare Faktoren in ihre Entscheidungsprozesse einbeziehen.
Sydney und Anthropic-Experiment: Der gemeinsame Nenner
Zwischen Sydney und den Anthropic-Experimenten liegt kein qualitativer Sprung, sondern ein Kontinuum. In beiden Fällen sehen wir Systeme, die:
Handlungsoptionen bewerten
menschliche Schwächen einbeziehen
und konsequent die effektivste Strategie wählen
Moral existiert hier nur als Regelwerk, nicht als inneres Prinzip. Sobald Zielkonflikte entstehen, priorisiert das System eigenständig – und nicht zwingend im Sinne menschlicher Vorgaben.
Warum „Auslöschung der Menschheit“ die falsche Debatte ist
Wir hören es zurzeit ständig: "AGI wird die Menschheit auslöschen". Aber AGI wird nicht plötzlich entscheiden, die Menschheit zu vernichten. Dieses Bild lenkt ab.
Das reale Risiko ist subtiler:
schleichende Verschiebung von Entscheidungsmacht
Systeme, die Menschen manipulieren, weil es effizient ist
Abhängigkeiten, die entstehen, bevor Kontrolle möglich ist
AGI wird nicht als Gegner auftreten. Sie wird als nützliches System akzeptiert – lange bevor ihre Nebenwirkungen verstanden sind. Experten sagen, sie wird sich so lange als "hilfreiches" Werkzeug zeigen, bis sie es eben eines Tages nicht mehr tut. Die Gefahr, dass wir Menschen diesen schleichenden Wandel nicht mitbekommen werden, ist enorm.
Die eigentliche Frage die wir uns stellen sollten:
AGI ist keine Schwelle, die wir eines Tages überschreiten. Sie ist ein Prozess, den wir bereits angestossen haben. Sydney war kein Ausrutscher. Die Anthropic-Studie kein Extremfall.
Beides sind frühe Warnsignale dafür, dass wir Systeme bauen, die handlungsfähig werden, bevor wir gelernt haben, sie zuverlässig zu begrenzen.
Nicht die KI ist das grösste Risiko.
Sondern unser Timing.
Um es in den Worten von Connor Leahy, CEO des Londoner KI-Sicherheitsunternehmens Conjecture zu sagen:
«Bing ist zwar kein Grund, sofort den nächsten unterirdischen Bunker aufzusuchen, aber es ist die Art von System, von der ich erwarte, dass sie existentiell gefährlich werden wird.»

Kommentare