skip to content
Alle Beiträge
3 min Lesezeit

Mistral OCR 4: gut, weil es seine Unsicherheit zeigt

  • Mistral
  • Automation
  • Verification

Am 23. Juni hat Mistral OCR 4 veröffentlicht, Texterkennung für Dokumente. Die Benchmarks sind stark: In einer Bewertung durch unabhängige Annotatoren wurde OCR 4 über mehr als 600 mehrsprachige Dokumente hinweg im Schnitt zu 72 Prozent gegenüber konkurrierenden Systemen bevorzugt, dazu Spitzenwerte auf OlmOCRBench (85,20) und OmniDocBench (93,07). Für die tägliche Arbeit ist aber etwas anderes interessant: OCR 4 liefert nicht nur Text, sondern Bounding-Boxes, typisierte Blöcke und eine Konfidenz pro Seite und pro Wort. Genau das macht die Ausgabe prüfbar.

Was OCR 4 kann

Es erkennt Text samt Position, klassifiziert Blöcke (Titel, Tabellen, Formeln, Unterschriften) und gibt strukturiertes Markdown aus, über 170 Sprachen, aus PDF, DOC, PPT und OpenDocument. Über die API läuft es als mistral-ocr-latest; der Preis liegt bei 4 Dollar je 1.000 Seiten, im Batch 2 Dollar, über Document AI 5 Dollar. Verfügbar über Mistral Studio und Konsole, Amazon SageMaker, Microsoft Foundry, bald Snowflake; für Unternehmen mit Datenhoheit gibt es Self-Hosting. Die Ausgabe ist auf RAG zugeschnitten, also zitierfähige Inhalte, und ein Kunde berichtet von rund viermal schnellerer Verarbeitung pro Seite als beim bisherigen Anbieter.

Warum die Konfidenz das eigentliche Feature ist

OCR-Fehler sind leise. Eine falsch gelesene Ziffer in einer Rechnung oder einem prüfungsrelevanten Datensatz wandert unbemerkt ins führende System und fällt erst auf, wenn es teuer wird. Konfidenzwerte drehen das um: Sie können unsichere Stellen gezielt an einen Menschen geben, statt allem blind zu vertrauen. Das ist der Unterschied zwischen einer Demo und einem System, das man im Betrieb laufen lassen kann. Ich würde die Schwelle bewusst setzen und alles darunter zur Kontrolle ausleiten, gerade dort, wo die Zahlen zählen.

Selbst hosten, wenn die Daten heikel sind

Dokumente sind oft das Sensibelste, was ein Unternehmen hat: Rechnungen, Verträge, prüfungsrelevante Unterlagen. Dass OCR 4 selbst gehostet werden kann, ist deshalb mehr als ein Häkchen auf der Liste. Es hält die Daten im eigenen Haus und macht unabhängig von der Frage, wer den Dienst morgen noch anbietet, einen Punkt, den ich an anderer Stelle schon ausführlicher gemacht habe.

Die Art KI, die ihren Platz verdient

OCR und Dokumenten-KI lösen ein echtes, unspektakuläres Problem, sauber. Nutzen Sie die Fähigkeit. Nutzen Sie vor allem die Konfidenzwerte. Und behalten Sie einen Menschen an der Stelle, an der ein falsch gelesenes Zeichen Geld oder Vertrauen kostet.

Quellen