OCR Bildtext-Extraktor
Extrahieren Sie Text direkt in Ihrem Browser aus Bildern mit der Tesseract.js OCR-Engine. Unterstützt 19 Sprachen, darunter Englisch, Russisch, Chinesisch, Japanisch, Arabisch und mehr.
Eingabe
Ausgabe
Readme
Was ist OCR?
Optical Character Recognition (OCR) ist die Technologie, die Text in Bildern in maschinenlesbare Zeichen umwandelt. Sie funktioniert, indem sie die Formen und Muster in einem Bild analysiert und mit bekannten Zeichendarstellungen abgleicht. OCR wird häufig verwendet, um gedruckte Dokumente zu digitalisieren, Text aus Fotos zu extrahieren und gescannte Inhalte durchsuchbar oder bearbeitbar zu machen.
Modernes browserbasierten OCR verwendet trainierte neuronale Netzwerkmodelle, die vollständig auf Ihrem Gerät ausgeführt werden. Das bedeutet, dass Ihre Bilder niemals an einen Server gesendet werden – die Erkennung erfolgt lokal mit Ihrer CPU.
Werkzeugbeschreibung
Dieses Werkzeug extrahiert Text direkt in Ihrem Browser aus Bildern mit der Tesseract.js OCR-Engine. Laden Sie ein Foto, einen Screenshot oder ein gescanntes Dokument hoch, wählen Sie die Sprache des Textes aus und klicken Sie auf Text extrahieren. Der erkannte Text wird im Ausgabebereich angezeigt, wo Sie ihn in die Zwischenablage kopieren oder als .txt-Datei herunterladen können. Keine Installation, keine Uploads, keine Internetverbindung erforderlich, nachdem die Seite geladen ist.
Funktionen
- Läuft vollständig im Browser – keine Datei-Uploads, vollständige Datenschutz
- Unterstützt 19 Sprachen, darunter Englisch, Russisch, Chinesisch (vereinfacht und traditionell), Japanisch, Koreanisch, Arabisch, Hindi und wichtige europäische Sprachen
- Akzeptiert JPEG, PNG, WebP, GIF, BMP und TIFF Bildformate
Unterstützte Formate
| Format | Erweiterungen |
|---|---|
| JPEG | .jpg, .jpeg |
| PNG | .png |
| WebP | .webp |
| GIF | .gif |
| BMP | .bmp |
| TIFF | .tif, .tiff |
Unterstützte Sprachen
| Sprache | Code |
|---|---|
| Englisch | eng |
| Russisch | rus |
| Französisch | fra |
| Deutsch | deu |
| Italienisch | ita |
| Spanisch | spa |
| Portugiesisch | por |
| Niederländisch | nld |
| Polnisch | pol |
| Arabisch | ara |
| Chinesisch (vereinfacht) | chi_sim |
| Chinesisch (traditionell) | chi_tra |
| Japanisch | jpn |
| Koreanisch | kor |
| Hindi | hin |
| Türkisch | tur |
| Schwedisch | swe |
| Norwegisch | nor |
| Finnisch | fin |
Tipps
- Bessere Bilder liefern bessere Ergebnisse: Verwenden Sie hochkontrastige Bilder mit scharfem, gleichmäßig beleuchtetem Text. Unscharfe oder niedrig aufgelöste Fotos verringern die Genauigkeit.
- Wählen Sie die richtige Sprache: Die Erkennungsgenauigkeit sinkt erheblich, wenn die falsche Sprache ausgewählt wird, besonders bei nicht-lateinischen Schriften.
- Dunkler Text auf hellem Hintergrund funktioniert am besten: Wenn Ihr Bild hellen Text auf dunklem Hintergrund hat, versuchen Sie, es vor dem Hochladen umzukehren.
- Gescannte Dokumente: Scannen Sie mit 300 DPI oder höher für beste Ergebnisse mit gedrucktem Text.
Einschränkungen
- Die Erkennungsgenauigkeit hängt stark von der Bildqualität, dem Schriftstil und der Textgröße ab. Handschrift, dekorative Schriftarten und sehr kleiner Text werden möglicherweise nicht gut erkannt.
- Die Sprachmodelldateien werden beim ersten Gebrauch heruntergeladen (jeweils einige Megabyte), daher kann die erste Extraktion länger dauern.
- Mehrspaltige Layouts können Text in einer unerwarteten Lesereihenfolge erzeugen.