OCR mit Tesseract und ImageMagick


Vor ein paar Tagen habe ich mir Googles Tesseract unter Mac OS X installiert und will damit meinen gescannten Briefe und Rechnungen einen Volltextindex verpassen. Ich scanne allerdings gerne als PNG und Tesseract versteht nur TIFF. Daher müssen die Dateien mit ImageMagick konvertiert werden:

convert -compress none -density 150x150 /PFAD/ZUM/BILD.png /PFAD/ZUM/TEMPBILD.tif

Anschliessend kann man die Datei mit Tesseract durchleuchten lassen und erhält eine Textdatei:

tesseract /PFAD/ZUM/TEMPBILD.tif /PFAD/ZUR/TEXTAUSGABE

Tesseract hängt die Endung .txt selbst an.

Weitere Artikel

Unterschiedliche Sichtweisen

Vorbestellt: Sony Xperia XZ Premium

Giants Run 2017

Gelesen: SciFi Serie 'The Expanse'

Neue Tastatur: Pok3r Vortex RGB

New minecraft survival mod for 1.11.2

Änderungen beim Flug mit Quadkoptern

Ein paar Fotos

Nach den Crossfit Open

Crossfit Open WOD 17.5