OCR: Bild mit Tabelle aus PDF erkennen?

epiphora

aus Plastik
Registriert
14 Juli 2013
Beiträge
3.845
Ort
DE-CIX
Hey,

ich hab eine PDF, die ungefähr folgendermaßen aussieht:



Leider sind die Daten als Bild gespeichert. Ich hab ein paar Online-OCR-Tools ausprobiert, die waren leider erfolglos. Leider kenne ich keine gute OCR-Software, die ich sonst noch ausprobieren könnte.

Was könnte ich versuchen, um die Tabelle automatisch in ein Excel-File oder zu CSV zu konvertieren? Wer mag, darf es auch gerne selbst mal versuchen.

Danke im Voraus! :)
 

Anhänge

Ich habe letzthin mit pdftotext ( ) gute Ergebnisse erzielt. Danach dann mit beliebiger Programmiersprache die Werte auslesen und ein Excel erstellen.
 
  • Thread Starter Thread Starter
  • #3
Danke schon mal für den Link! Allerdings bin ich noch unsicher, ob ich das Tool überhaupt für meine Zwecke benutzen kann. pdftotext erzeugt eine nahezu leere Datei, da die Tabelle ja als Bild enthalten ist.
 
Nuance PDF Advanced hat dafür eine Funktion - evtl. auch in der Trial.
Falls nicht kann ich es morgen in der Arbeit mal für dich probieren ;)
 
  • Thread Starter Thread Starter
  • #5
Danke für den Tipp! Ich hab gerade eben mal eine Test-Version angefordert. Leider kam die Mail mit dem Download-Link bis jetzt noch nicht an.
 
  • Thread Starter Thread Starter
  • #7
drfuture war so nett und hat die PDF mal durch seine Sammlung an Software gejagt. :)

Nuance kam nicht damit klar, weil wie PDf zu breit war.

Mit Finereader hat es dann aber geklappt. Ein paar wenige Zeichen sind falsch erkannt worden und teilweise sind die Zahlen in den Zeilen verrutscht. Damit kann ich aber auf jeden Fall trotzdem was anfangen, ohne erst alles mühselig abzutippen. Dankeschön! :)
 
Zurück
Oben