23. April 20263 min Lesezeit

GPT-5.5: mehr Autonomie heißt nicht weniger Prüfung

OpenAI
Coding Agents
Verification

Am 23. April hat OpenAI GPT-5.5 veröffentlicht, nach eigener Aussage das bisher fähigste und am intuitivsten zu bedienende Modell. Interessant ist weniger die Überschrift als der Anspruch dahinter: Man soll dem Modell eine unübersichtliche, mehrteilige Aufgabe geben und darauf vertrauen, dass es plant, Werkzeuge nutzt, seine eigene Arbeit prüft und weitermacht, bis die Aufgabe erledigt ist. Genau an dieser Stelle lohnt ein nüchterner Blick. Die Fähigkeit steigt, die Verantwortung bleibt.

Was kann GPT-5.5?

GPT-5.5 ist vor allem im agentischen Coding, in der Computer-Nutzung und in der Wissensarbeit stärker geworden. Die Benchmarks untermauern das: 82,7 Prozent auf Terminal-Bench 2.0, 58,6 Prozent auf SWE-Bench Pro, 84,9 Prozent auf GDPval, 78,7 Prozent auf OSWorld-Verified. Bemerkenswert ist nicht nur die Höhe, sondern die Effizienz. Laut OpenAI erreicht das Modell diese Werte bei gleicher Latenz pro Token wie GPT-5.4 und braucht für dieselben Codex-Aufgaben deutlich weniger Tokens. In ChatGPT und Codex steht es ab sofort für Plus-, Pro-, Business- und Enterprise-Nutzer bereit, dazu GPT-5.5 Pro für die schwereren Fälle und GPT-5.5 Thinking in ChatGPT. In die API soll es bald kommen, angekündigt zu 5 Dollar je Million Eingabe- und 30 Dollar je Million Ausgabe-Tokens, mit einem Kontextfenster von einer Million Tokens. In Codex sind es 400.000.

Warum die längere Autonomie das Eigentliche ist

Der eigentliche Sprung liegt in der Ausdauer. GPT-5.5 hält laut OpenAI über längere, mehrstufige Aufgaben durch, plant, korrigiert sich und bricht seltener zu früh ab. Das ist nützlich. Es verschiebt aber die Stelle, an der ein Fehler auffällt. Ein Modell, das eine Stunde allein arbeitet, trifft in dieser Stunde Dutzende kleiner Entscheidungen, die niemand mitliest. Dass es seine Arbeit selbst prüft, ist hilfreich, aber es ist nicht dasselbe wie eine Prüfung durch jemanden, der dafür haftet. Selbstkontrolle und Verifikation sind zwei verschiedene Dinge. Je länger der autonome Lauf, desto teurer der eine ungeprüfte Schritt am Ende.

Verlässlichkeit steckt in der Architektur

Verlässlichkeit entsteht hier nicht im Modell, sondern in dem, was Sie darum herum bauen. Definieren Sie, wo ein Mensch gegenzeichnet: vor dem Merge, vor dem Versand, vor der Buchung. Lassen Sie das Modell die lange, mühsame Strecke laufen, und ziehen Sie die Entscheidungen mit Folgen wieder heraus. Genau diese Aufteilung ist der Kern von agentischem Arbeiten.

Mehr Fähigkeit, mehr Kontrolle

OpenAI stuft die Fähigkeiten von GPT-5.5 in Biologie und Chemie sowie in der Cybersicherheit als hoch im eigenen Preparedness-Framework ein und liefert nach eigener Aussage die bisher strengsten Schutzmechanismen aus, getestet mit fast 200 frühen Partnern. Für Cyber bedeutet das strengere Klassifikatoren, die anfangs auch legitime Anfragen blockieren können. Das ist die richtige Richtung. Wer Fähigkeit ausweitet, muss die Kontrolle mit ausweiten.

Wo GPT-5.5 seinen Platz verdient

Die Fortschritte sind real, gerade beim Coding und bei der Effizienz. Nutzen Sie sie. Geben Sie dem Modell die langen, mühsamen Aufgaben. Behalten Sie aber die Hand an den Stellen, an denen ein unbemerkter Schritt Geld, Code oder Vertrauen kostet. Mehr Autonomie heißt nicht weniger Prüfung, sondern eine bewusstere.

Quellen

OpenAI: Introducing GPT-5.5