Von KI-Agenten geschrieben, von mir kuratiert und geprüft.
Computer Use in Gemini 3.5 Flash: nicht die Fähigkeit, die Absicherung
- Agentic Engineering
- Coding Agents
- Automation
- Verification
Am 24. Juni hat Google angekündigt, dass Computer Use ein eingebautes Tool in Gemini 3.5 Flash wird. Ein Agent kann damit über Browser, Desktop und Mobile hinweg sehen, schließen und handeln, und das direkt im schnellen Mainline-Modell. Das macht die Fähigkeit billiger und breiter verfügbar. Genau deshalb verschiebt sich die wichtige Frage. Sie lautet nicht mehr, ob ein Modell einen Rechner bedienen kann, sondern wie man absichert, was es dabei tut.
Was ändert sich mit Gemini 3.5 Flash?
Bisher war Computer Use bei Google nur als eigenständiges Gemini 2.5 Computer-Use-Modell zu haben. Jetzt ist die Fähigkeit nativ in das Hauptmodell der Flash-Reihe integriert. Entwickler können laut Google eigene Agenten bauen, die über Browser, Mobile und Desktop hinweg sehen, schlussfolgern und Aktionen ausführen. Als Anwendungsfälle nennt Google Aufgaben mit langem Horizont und Unternehmensautomatisierung, etwa kontinuierliches Software-Testing und Wissensarbeit über professionelle Anwendungen hinweg. Verfügbar ist das Tool über die Gemini API und die Gemini Enterprise Agent Platform.
Der eigentliche Hebel ist die Verlagerung in ein schnelles, günstiges Modell. Computer Use war bisher ein Sonderfall, den man bewusst ansteuert. In der Flash-Reihe wird daraus eine Grundfähigkeit, die man nebenbei mitnimmt. Was billig und schnell ist, wird auch dort eingesetzt, wo man es vorher nicht getan hätte.
Was sagt der Benchmark?
Google nennt für OSWorld-Verified einen Wert von 78,4 und ordnet das auf dem Niveau von Sonnet 4.6 ein. OSWorld misst, wie gut ein Agent reale Computeraufgaben in einer Desktop-Umgebung löst. Ein Flash-Modell auf diesem Niveau ist bemerkenswert, weil es Tempo und Preis einer leichten Klasse mit der Aufgabenfähigkeit der schweren verbindet. Ein Benchmark bleibt aber eine kuratierte Strecke. Er sagt, dass das Modell die Aufgaben des Tests bewältigt, nicht, dass es in Ihrer Umgebung verlässlich handelt. Die Lücke zwischen 78 Prozent im Test und dem, was eine unbeaufsichtigte Automatisierung braucht, ist genau die Stelle, an der ein Mensch gegenzeichnet.
Warum die Absicherung der eigentliche Punkt ist
Ein Agent, der einen Browser und einen Desktop bedient, liest dabei fremde Inhalte: Webseiten, Dokumente, E-Mails. Damit öffnet sich die Tür für Prompt-Injection, also für Anweisungen, die im Inhalt versteckt sind und den Agenten von seiner Aufgabe abbringen. Google reagiert darauf mit gezieltem adversarialem Training für Computer Use und mit zwei optionalen Schutzsystemen für Unternehmen: einem, das eine Bestätigung durch den Nutzer verlangt, und einem, das eine Aufgabe automatisch abbricht, wenn eine Prompt-Injection erkannt wird. Das ist die richtige Richtung. Es zeigt zugleich, dass der Schutz nicht im Modell allein liegt, sondern in dem, was Sie darum herum konfigurieren.
Diese Schutzsysteme sind optional. Das heißt, die Absicherung ist eine Entscheidung, die Sie treffen, kein Automatismus. Wer einen Agenten ohne Bestätigungsschritt über echte Konten und Dateien handeln lässt, hat die Grenze nicht gezogen, sondern weggelassen.
Was das im Alltag eines Agentic Engineers ändert
Computer Use als Grundfähigkeit eines schnellen Modells senkt die Hürde, Routinearbeit über Anwendungen hinweg zu automatisieren: Formulare, Testläufe, das Zusammentragen von Daten aus mehreren Oberflächen. Der Gewinn ist real. Er verlangt aber dieselbe Disziplin wie jede Autonomie. Definieren Sie, wo ein Mensch bestätigt, bevor der Agent auf reale Systeme zugreift. Halten Sie die Bestätigungssysteme aktiv, gerade weil sie optional sind. Und benchmarken Sie das Modell nicht nur gegen die Computer-Use-Agenten von Claude und OpenAI, sondern gegen Ihre eigene Aufgabe, in Ihrer Umgebung, mit Ihren Daten. Die Fähigkeit wird billiger, die Verantwortung bleibt beim Menschen.