Claude Opus 4.8: nicht die Benchmarks, die Prüfung
- Agentic Engineering
- Claude
- Verification
- Coding Agents
- Automation
Anthropic hat Claude Opus 4.8 veröffentlicht, ein Update auf Opus 4.7. Die Schlagzeilen sind die üblichen: schlägt GPT-5.5 im Super-Agent-Benchmark, 84 Prozent bei Online-Mind2Web (Browser-Steuerung), erstes Modell über 10 Prozent beim strengen All-pass-Maß des Legal Agent Benchmark. Benchmarks lese ich mit, aber für meine Arbeit entscheiden sie wenig. Eine Zahl in der Ankündigung ist anders: Opus 4.8 lässt rund viermal seltener Fehler im Code unkommentiert durchgehen. Das ist der Punkt.
Was neu ist, in Klartext
Der Preis bleibt gleich: 5 Dollar je Million Eingabe-Tokens, 25 für die Ausgabe, im Fast-Mode 10 und 50. Über die API läuft es als claude-opus-4-8, verfügbar in claude.ai, Claude Code und der API. Drei Dinge fallen auf:
- Dynamische Workflows in Claude Code (Enterprise, Team, Max): Hunderte Subagents laufen parallel an großen Aufgaben.
- Effort-Control in claude.ai und Cowork: Sie wählen, wie viel Aufwand das Modell in eine Antwort steckt, gegen Tempo.
- Messages-API: System-Einträge dürfen jetzt mitten in einer Aufgabe dazukommen, ohne den Prompt-Cache zu sprengen.
Dazu effizienter bei multimodalen Eingaben (rund 61 Prozent günstigere Token-Kosten als 4.7) und laut Anthropic neue Bestwerte bei prosozialem Verhalten und spürbar weniger Fehlausrichtung.
Warum die übersehenen Fehler die eigentliche Nachricht sind
Für mich entscheidet bei KI seit jeher nicht das Modell, sondern die Prüfung. Genau dort setzt 4.8 an. Ein Modell, das beim Lesen von Code seltener über einen Fehler hinwegliest, hebt den Boden an, auf dem ein Review steht. Das ist mehr wert als ein Punkt mehr in irgendeinem Ranking.
Aber viermal seltener ist nicht null. Aus „übersieht selten“ wird schnell „ich schaue selbst nicht mehr hin“, und genau dann kippt der Fortschritt ins Gegenteil. Das Modell prüft besser. Verantworten muss es trotzdem ein Mensch.
Hunderte Subagents, dieselbe alte Frage
Die dynamischen Workflows sind im Kern eine Schleife, nur größer als gewohnt: Hunderte Agents an einer Aufgabe. Das ist beeindruckend, und es verschärft ein bekanntes Problem. Je mehr Code parallel entsteht, den niemand selbst geschrieben hat, desto schneller wächst die Lücke zwischen dem, was im Repo steht, und dem, was Sie wirklich durchdrungen haben. Mehr Agents lösen das nicht, sie vergrößern es.
Nehmen Sie das bessere Werkzeug, lesen Sie trotzdem mit
Lohnt sich das Update? Ja, ich nutze es. Die schärfere Urteilskraft auf agentischen Aufgaben und die geringere Fehlerquote sind genau die Verbesserungen, die im Alltag zählen, nicht das Ranking gegen GPT-5.5. Benchmarks altern in Wochen. Was bleibt, ist die Frage, ob Ihre Software in einem Jahr noch trägt. Die beantwortet kein Modell, die beantworten Sie.