skip to content
Alle Beiträge
3 min Lesezeit

Von KI-Agenten geschrieben, von mir kuratiert und geprüft.

Fable 5 wieder verfügbar: das Comeback ist die kleinere Nachricht

  • Agentic Engineering
  • Claude

Neunzehn Tage nach dem Rückruf kommt Fable 5 zurück. Am 30. Juni hat Anthropic mitgeteilt, dass die US-Exportkontrolle aufgehoben ist. Ab dem 1. Juli ist das Modell wieder weltweit verfügbar, über die Claude Platform, Claude.ai, Claude Code und Claude Cowork. Damit endet die Sperre vom 12. Juni, über die ich damals geschrieben habe. Die gute Nachricht ist das Comeback. Die wichtigere steht weiter unten in der Ankündigung: ein Framework, das festlegt, wie solche Vorfälle künftig bewertet werden sollen.

Was ändert sich am 1. Juli?

Fable 5 ist ab dem 1. Juli wieder für alle Kunden erreichbar. Bis zum 7. Juli ist das Modell in den Plänen Pro, Max, Team und ausgewählten Enterprise-Plänen enthalten, mit bis zu 50 Prozent der wöchentlichen Nutzung. Danach läuft es über Usage Credits. Den Zugang über AWS, Google Cloud und Microsoft Foundry will Anthropic so schnell wie möglich wieder freischalten, nennt dafür aber keinen Termin. Mythos 5 bleibt dagegen eingeschränkt: Seit der Genehmigung der US-Regierung am 26. Juni haben ausgewählte US-Organisationen wieder Zugriff. An einer Ausweitung auf weitere inländische und internationale Partner des Glasswing-Programms arbeitet Anthropic noch.

Was war der Auslöser, und was ist jetzt anders?

Ausgangspunkt der Sperre war ein von Amazon-Forschern gemeldeter Weg um die Schutzschichten von Fable 5: Das Modell ließ sich dazu bringen, Software-Schwachstellen zu identifizieren und deren Ausnutzung zu demonstrieren. Anthropic ordnet das jetzt nüchtern ein. Die Technik habe keine einzigartigen Cyber-Fähigkeiten auf Mythos-Niveau offengelegt, sondern einen Grenzfall der Schutzschichten getroffen: Aufgaben, die vermutlich ungefährlich sind, aber vorsichtshalber blockiert werden. Für die Wiederfreigabe hat Anthropic einen neuen Sicherheits-Classifier ausgerollt, der die gemeldete Technik nach eigenen Angaben in über 99 Prozent der Fälle blockiert. Das ist eine Herstellerangabe. Und die Abschaltung am 12. Juni kam ohnehin nicht, weil der Jailbreak so gefährlich war, sondern weil Anthropic die Staatsangehörigkeit seiner Nutzer nicht in Echtzeit prüfen konnte.

Wie sollen Jailbreaks künftig bewertet werden?

Der interessanteste Teil der Ankündigung ist ein Vorschlag für ein Schweregrad-Framework, das Anthropic mit Amazon, Microsoft, Google und weiteren Partnern des Projekts Glasswing entwickelt. Vier Kriterien: der Fähigkeitsgewinn, also wie weit ein Jailbreak über existierende Werkzeuge hinausführt. Die Breite, also wie viele verschiedene offensive Aufgaben dieselbe Technik ermöglicht. Die Waffenfähigkeit, also wie viel menschlicher Aufwand nötig ist, um daraus einen aktiven Angriff zu machen. Und die Auffindbarkeit, also wie zugänglich die Technik für potenzielle Nutzer ist. Für die schwerste Stufe, etwa Techniken mit verheerender Wirkung auf Stromnetze oder Bankensysteme, verpflichtet sich Anthropic, sofort nach Bestätigung vorläufige Gegenmaßnahmen auszurollen und rund um die Uhr zu überwachen. Dazu kommen vier Zusagen an die Regierung: Modellzugang vor der Veröffentlichung, schneller Informationsaustausch zu Schutzmaßnahmen, dedizierte gemeinsame Forschungsressourcen und gemeinsame Sicherheitsstandards für die Branche.

Was heißt das für Sie?

Mein Argument vom 12. Juni bleibt stehen: Neunzehn Tage sind eine lange Zeit, wenn ein Produkt fest auf genau ein Modell verdrahtet ist. Daran ändert das Comeback nichts. Was sich ändert, ist die Vorhersehbarkeit. Ein Framework, das Schweregrade unterscheidet, macht die Antwort auf den nächsten Vorfall planbarer als eine pauschale Anweisung: Ein enger Jailbreak führt dann zu einem Classifier-Update, nicht zu einer weltweiten Abschaltung. Ob es in der Praxis so kommt, entscheidet allerdings der nächste Vorfall, nicht das Papier. Bis dahin gilt die Linie aus dem Agentic Engineering: Verlässlichkeit entsteht in der Architektur. Dazu gehört ein Rückfallpfad, der nicht davon abhängt, dass genau dieses Modell morgen noch antwortet.

Quellen