OCR mit Tesseract und ImageMagick

Vor ein paar Tagen habe ich mir Googles Tesseract unter Mac OS X installiert und will damit meinen gescannten Briefe und Rechnungen einen Volltextindex verpassen. Ich scanne allerdings gerne als PNG und Tesseract versteht nur TIFF. Daher müssen die Dateien mit ImageMagick konvertiert werden:

convert -compress none -density 150x150 /PFAD/ZUM/BILD.png /PFAD/ZUM/TEMPBILD.tif

Anschliessend kann man die Datei mit Tesseract durchleuchten lassen und erhält eine Textdatei:

tesseract /PFAD/ZUM/TEMPBILD.tif /PFAD/ZUR/TEXTAUSGABE

Tesseract hängt die Endung .txt selbst an.

Über Carsten

Ich bin leidenschaftlicher Softwareentwickler, studierter Dipl.Ing. Elektrotechnik, Gaming-verrückt, Kraftsportler und Einsiedler.
Dieser Beitrag wurde unter Technik abgelegt und mit verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>