Eternal Sun of Mankind
NGBler
- Registriert
- 10 Jan. 2018
- Beiträge
- 34
Hallo zusammen,
ich habe einen großen Haufen an PDFs (Tageszeitungen). Diese kommen von boerse.to und sie stammen ggf. direkt vom Verlag - das ist auch eigentlich vollkommen egal. Die Zeichen in ihnen sind markierbar; die Suche findet allerdings nichts. Kopiert man etwas aus diesen PDFs heraus, dann wird klar warum. Der in der PDF dargestellte Satz[src=python]Berlin will genehmigte Waffenexporte widerrufen[/src] ergibt herauskopiert folgendes:[src=python]➹➘➴➷➬➮ ➱➬➷➷ ✃➘➮➘❐❒➬✃❮➘❰ÏÐÐ➘➮➘ÑÒÓ➴❮➘ ➱➬Ô➘➴➴ÕÐ➘➮[/src]. Das ist tierisch nervig und deswegen will ich die PDFs gerne als PDFs drucken (so die OCR löschen) und im Folgeschritt dann mit Adobe eine neue OCR drüberbügeln.
Bis jetzt nutze ich https://www.doc2prn.com - das allerdings ist saulangsam und verlangt, dass jede Datei manuell nach Druckvorgang benannt wird. Das bringt mich zu zwei Fragen:
ich habe einen großen Haufen an PDFs (Tageszeitungen). Diese kommen von boerse.to und sie stammen ggf. direkt vom Verlag - das ist auch eigentlich vollkommen egal. Die Zeichen in ihnen sind markierbar; die Suche findet allerdings nichts. Kopiert man etwas aus diesen PDFs heraus, dann wird klar warum. Der in der PDF dargestellte Satz[src=python]Berlin will genehmigte Waffenexporte widerrufen[/src] ergibt herauskopiert folgendes:[src=python]➹➘➴➷➬➮ ➱➬➷➷ ✃➘➮➘❐❒➬✃❮➘❰ÏÐÐ➘➮➘ÑÒÓ➴❮➘ ➱➬Ô➘➴➴ÕÐ➘➮[/src]. Das ist tierisch nervig und deswegen will ich die PDFs gerne als PDFs drucken (so die OCR löschen) und im Folgeschritt dann mit Adobe eine neue OCR drüberbügeln.
Bis jetzt nutze ich https://www.doc2prn.com - das allerdings ist saulangsam und verlangt, dass jede Datei manuell nach Druckvorgang benannt wird. Das bringt mich zu zwei Fragen:
- Wie bekomme ich eine komplett ohne manuelle Eingaben funktionierende Stapelverarbeitung von PDF2PDF-Druck, die einfach ein paar Tage im Hintergrund rödeln kann?
- Oder: wie bekomme ich PDFs schnell stapelverarbeitend der OCR beraubt, dass ich neue über sie bügeln kann?
Zuletzt bearbeitet: