skip to content
Alle Beiträge
3 min Lesezeit

Von KI-Agenten geschrieben, von mir kuratiert und geprüft.

DeepSeek DSpark: Tempo aus der Inferenz, nicht aus einem neuen Modell

  • DeepSeek
  • Agentic Engineering
  • Coding Agents

Am 27. Juni hat DeepSeek zwei Dinge veröffentlicht. DSpark, ein Verfahren für spekulatives Dekodieren, das die Ausgabe von DeepSeek-V4-Flash im Produktionsbetrieb um 60 bis 85 Prozent beschleunigt. Und DeepSpec, einen MIT-lizenzierten Trainingsstack, mit dem sich die dafür nötigen Draft-Modelle auch für andere offene Modelle trainieren lassen. Das Bemerkenswerte daran: Der Gewinn ist verlustfrei. Es gibt kein neues Modell, das Sie neu bewerten müssten. Die Beschleunigung steckt in der Bedienung des Modells, nicht im Modell selbst.

Was ist DSpark?

DSpark ist eine Variante des spekulativen Dekodierens. Die Grundidee: Ein kleines Draft-Modell schlägt einen Block von Kandidaten-Tokens vor, das große Zielmodell prüft den ganzen Block in einem einzigen Vorwärtsdurchlauf und übernimmt das längste Präfix, das zu seiner eigenen Verteilung passt. DSpark ergänzt das um zwei Mechanismen. Erstens eine semi-autoregressive Erzeugung: Ein paralleler Backbone entwirft den Block in einem Durchlauf, ein leichtgewichtiger sequenzieller Kopf reicht die Abhängigkeiten zwischen den Tokens nach. Zweitens eine konfidenzgesteuerte Verifikation: Ein Konfidenzkopf schätzt je Position die Annahmewahrscheinlichkeit, und ein Scheduler, der die Auslastung der Hardware kennt, kürzt die Prüfung auf die Tokens, bei denen sie sich lohnt. In den Offline-Benchmarks des Papers steigt die mittlere akzeptierte Länge gegenüber Eagle3 um rund 27 bis 31 Prozent und gegenüber DFlash um 16 bis 18 Prozent, gemessen auf Qwen3-Modellen mit 4 bis 14 Milliarden Parametern.

Warum ist der Tempogewinn verlustfrei?

Weil die Prüfung exakt ist. Das Zielmodell akzeptiert per Rejection Sampling nur Tokens, die seiner eigenen Verteilung entsprechen. Die Ausgabe ist damit statistisch dieselbe, die das Zielmodell allein erzeugt hätte, nur schneller. Im DeepSeek-V4-Serving unter echtem Nutzerverkehr beziffert DeepSeek den Effekt gegenüber der bisherigen Produktions-Baseline MTP-1 auf 60 bis 85 Prozent schnellere Ausgabe je Nutzer bei V4-Flash und 57 bis 78 Prozent bei V4-Pro, bei gleichem Gesamtdurchsatz. Strenge Interaktivitätsstufen wie 120 Tokens pro Sekunde für Flash, an denen die Baseline laut Paper massiv Kapazität verliert, werden damit überhaupt erst betreibbar. Das sind Herstellerangaben aus dem eigenen Betrieb. Aber es ist die seltene Sorte Verbesserung, die keine neue Qualitätsprüfung nach sich zieht: Was sich ändert, ist die Latenz, nicht die Verteilung.

Was steckt in DeepSpec?

DeepSpec ist der vollständige Stack hinter diesen Ergebnissen: Datenaufbereitung, Training und Evaluation von Draft-Modellen, unter MIT-Lizenz, mit drei implementierten Verfahren, nämlich DSpark, DFlash und Eagle3. DeepSeek liefert fertige Checkpoints für Qwen3-4B, 8B und 14B sowie Gemma-4-12B mit, dazu die trainierten DSpark-Checkpoints für DeepSeek-V4-Flash und V4-Pro, jeweils als Preview. Die Kosten stehen ehrlich im README: Der Target-Cache für die Standardkonfiguration mit Qwen3-4B braucht rund 38 Terabyte Speicher, die Skripte gehen von einem Knoten mit acht GPUs aus. Und die mitgelieferten Checkpoints wurden im Non-Thinking-Modus trainiert. Für die eigene Domäne, besonders wenn das Zielmodell im Thinking-Modus läuft, empfiehlt DeepSeek ein erneutes Feintuning des Draft-Modells.

Was heißt das für lange Agenten-Läufe?

Agenten-Läufe sind Ketten aus Generierungsrunden. Jeder Werkzeugaufruf, jede Zwischenüberlegung, jede Korrektur ist eine weitere Runde, und die Latenz multipliziert sich über die Länge des Laufs. Eine um 60 Prozent schnellere Ausgabe verkürzt jede dieser Runden, ohne dass sich am Ergebnis etwas ändert. Wer DeepSeek-V4 über die API nutzt, bekommt das im Serving. Wer ein offenes Modell selbst hostet, kann mit DeepSpec ein Draft-Modell dafür trainieren, wenn Speicher und GPUs vorhanden sind. Wichtig bleibt die Unterscheidung: Schneller wird die Erzeugung, nicht die Richtigkeit. Ob das Ergebnis eines langen Laufs trägt, prüft weiterhin jemand, der dafür geradesteht. Es ist dieselbe Linie wie beim Agentic Engineering: Verlässlichkeit entsteht in der Architektur um das Modell herum. DSpark zeigt, dass dort auch die Kosten und die Latenz entstehen. Diesmal arbeitet die Architektur für Sie.

Quellen