Ergebnis 1 bis 10 von 10

Thema: Per Batch fehlerhaftes OCR berichtigen [erledigt]

  1. #1

    Per Batch fehlerhaftes OCR berichtigen [erledigt]

    Hallo zusammen,

    ich habe einen großen Haufen an PDFs (Tageszeitungen). Diese kommen von boerse.to und sie stammen ggf. direkt vom Verlag - das ist auch eigentlich vollkommen egal. Die Zeichen in ihnen sind markierbar; die Suche findet allerdings nichts. Kopiert man etwas aus diesen PDFs heraus, dann wird klar warum. Der in der PDF dargestellte Satz
    Code (Python):
    1. Berlin will genehmigte Waffenexporte widerrufen
    ergibt herauskopiert folgendes:
    Code (Python):
    1. ➹➘➴➷➬➮ ➱➬➷➷ ✃➘➮➘❐❒➬✃❮➘❰ÏÐÐ➘➮➘ÑÒÓ➴❮➘ ➱➬Ô➘➴➴ÕÐ➘➮
    . Das ist tierisch nervig und deswegen will ich die PDFs gerne als PDFs drucken (so die OCR löschen) und im Folgeschritt dann mit Adobe eine neue OCR drüberbügeln.

    Bis jetzt nutze ich https://www.doc2prn.com - das allerdings ist saulangsam und verlangt, dass jede Datei manuell nach Druckvorgang benannt wird. Das bringt mich zu zwei Fragen:
    1. Wie bekomme ich eine komplett ohne manuelle Eingaben funktionierende Stapelverarbeitung von PDF2PDF-Druck, die einfach ein paar Tage im Hintergrund rödeln kann?
    2. Oder: wie bekomme ich PDFs schnell stapelverarbeitend der OCR beraubt, dass ich neue über sie bügeln kann?
    Lieben Gruß, ESOM.
    Geändert von Eternal Sun of Mankind (10.10.19 um 20:56 Uhr)

  2. #2
    Vereinsheimer Avatar von Laui
    Registriert seit
    Jul 2013
    Beiträge
    4.967
    ngb:news Artikel
    2

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    Linux vorhanden?

    Nur so spontan die Antwort, das du über Linux da ggf. eine Stapelverabeitung Druck mit einem Befehl machen kannst.
    Nur so als erste Idee
    Code:
    for i in *.pdf; do
    ...Jetzt vllt. einen PDF-Reader in der Kommandozeile und den Druckbefehl?

    Wie gesagt, nur so eine Idee

    Edit: Ich meine mit Ghostscript müsste das möglich sein

    https://wiki.ubuntuusers.de/Ghostscript/

    Wie genau überlege ich noch...
    Für diesen Beitrag bedankt sich Eternal Sun of Mankind
    aka Steev

  3. #3
    Zeitreisender

    Administrator

    Avatar von drfuture
    Registriert seit
    Jul 2013
    Ort
    in der Zukunft
    Beiträge
    6.050
    ngb:news Artikel
    17

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    Damit sollte das gehen https://www.tracker-software.com/product/pdf-tools

    Ist aber nicht kostenlos.
    Bei der lizenz ist aber auch der viewer dabei den ich definitiv empfehlen kann.
    Man kann mit pdfs viele schöne Dinge sehr flott und einfach erledigen und er ist weniger Sicherheits auffällig als die Produkte von Adobe.
    Für diesen Beitrag bedankt sich Eternal Sun of Mankind
    |_|D *`~{ Ich kenne deine Zukunft }~´* |_|D

  4. #4
    ♪♪♫♪♫♫♪ Avatar von KaPiTN
    Registriert seit
    Jul 2013
    Beiträge
    9.791
    ngb:news Artikel
    9

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    Ich habe es nicht getestet:


    Mit dem kostenlosen Tool "Print Conductor" sparen Sie sich beim Drucken mehrerer Dokumente viel Arbeit. Anstatt die Dokumente einzeln zu öffnen und aus dem jeweiligen Programm heraus zu drucken, fügen Sie die Dateien einfach "Print Conductor" hinzu.
    chip.de
    Für diesen Beitrag bedanken sich Eternal Sun of Mankind, Laui
    J'irai pisser sur votre bombes
    You can educate a fool, but you cannot make him think

  5. #5
    Vereinsheimer Avatar von Laui
    Registriert seit
    Jul 2013
    Beiträge
    4.967
    ngb:news Artikel
    2

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    Hier habe ich was für den Linux Bereich:

    https://wiki.ubuntuusers.de/ImageMagick/

    mit dem diesem Befehl hast du eine Stapelverarbeitung:

    Code:
    mogrify -format pdf *.pdf
    Bzw. ist wahrscheinlich kein Druckbefehl, aber ein Versuch ist wert, vllt geht dabei dein OCR Problem verloren.
    Für diesen Beitrag bedanken sich BurnerR, saddy, Eternal Sun of Mankind
    aka Steev

  6. #6
    Mitglied

    (Threadstarter)

    Avatar von Eternal Sun of Mankind
    Registriert seit
    Jan 2018
    Beiträge
    21

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    Das sieht tatsächlich spannend aus. Dass ich gerade auf die schnelle keine Warze gefunden habe, hat mich erstmal davon abgehalten das zu testen, 60 Öcken habe ich nicht einfach so übrig.
    Zitat Zitat von KaPiTN Beitrag anzeigen
    Dankesehr! Das ist leider in der Funktionalität aber wie https://www.doc2prn.com/, das ich im Eingangsposting bereits beschrieb;man wird zur PDF-Benennung aufgefordert.
    Zitat Zitat von Laui Beitrag anzeigen
    Code:
    mogrify -format pdf *.pdf
    Geil, das macht auf jeden Fall gute Sachen mit der PDF; OCR ist komplett raus und es ist rasend flott. Dankesehr!

    Allerdings zerstörts die PDF schon hart, hier mal ein Vergleich:

    Klicke auf die Grafik für eine größere Ansicht 

Name:	DXP 004.png 
Hits:	67 
Größe:	1,71 MB 
ID:	55299
    Klicke auf die Grafik für eine größere Ansicht 

Name:	DXP 003.png 
Hits:	64 
Größe:	1,71 MB 
ID:	55298
    vor mogrify, Gesamtdateigröße 12 MB nach mogrify, Gesamtdateigröße 43 MB

    Leider verwirrt mich https://imagemagick.org/script/comma...ns.php#quality ein bisschen:
    Code (Bash):
    1. mogrify -quality 10 -format pdf *.pdf
    ändert gar nichts.

    Lieben Gruß, ESOM.

  7. #7
    Vereinsheimer Avatar von Laui
    Registriert seit
    Jul 2013
    Beiträge
    4.967
    ngb:news Artikel
    2

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    Ja gut das ist murks, ich denke auch wie gesagt an eher an einen PDF-Reader (z.B. Linux evince) und dann die Druck-Funktion und dann in der Kommandozeile.

    Ich gucke gerade ob evince das kann. Command line

    Hey wenn du Linux hast schau dir auch mal ghostscript/gs an, das müsste das auch schaffen, an dem Befehl bastel ich noch

    https://wiki.ubuntuusers.de/Ghostscript/

    Vorallendingen mit Qualitäts und Komprimierungs Möglichkeiten

    bzw, mit convert (imagemagick) ist im Terminal noch mehr möglich, ich teste das morgen mal
    Für diesen Beitrag bedankt sich Eternal Sun of Mankind
    Geändert von Laui (10.10.19 um 00:08 Uhr)
    aka Steev

  8. #8
    Mitglied Avatar von saddy
    Registriert seit
    Jul 2013
    Ort
    Weinberge :)
    Beiträge
    1.287

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    Das könnte schon die Lösung sein (Achtung Original wird überschrieben):
    Code:
    for f in *.pdf; do ocrmypdf --redo-ocr -l deu "$f" "$f"; done
    Ohne Schleife zum Testen halt Folgendes, ohne dass das Original überschrieben wird:
    Code:
    ocrmypdf --redo-ocr -l deu input.pdf output.pdf
    Das Sprachpaket deutsch muss zusätzlich zu ocrmypdf noch installiert sein:
    https://ocrmypdf.readthedocs.io/en/l...languages.html

    Könnte schon die Lösung sein, ohne den Schritt mit dem Drucken vorher.
    --redo-ocr verbessert scheinbar nur vorhandenes ocr, ob das bei dir klappt wird ein Versuch zeigen, --force-ocr erstellt einen komplett neuen ocr layer aber da könnte laut wiki auch die Qualität leiden.
    Für mich hat bisher --redo-ocr ausgereicht.
    Für diesen Beitrag bedanken sich Eternal Sun of Mankind, Laui

  9. #9
    Zeitreisender

    Administrator

    Avatar von drfuture
    Registriert seit
    Jul 2013
    Ort
    in der Zukunft
    Beiträge
    6.050
    ngb:news Artikel
    17

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    @Eternal Sun of Mankind: du kannst auf der Seite eine vollwertige Demo laden die Wasserzeichen erzeugt
    Für diesen Beitrag bedankt sich Eternal Sun of Mankind
    |_|D *`~{ Ich kenne deine Zukunft }~´* |_|D

  10. #10
    Mitglied

    (Threadstarter)

    Avatar von Eternal Sun of Mankind
    Registriert seit
    Jan 2018
    Beiträge
    21

    Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

    @saddy: Geil,
    Code (Bash):
    1. for f in *.pdf; do ocrmypdf --force-ocr -l deu "$f" "$f"; done
    macht was es soll !

    Danke an Alle!
    Für diesen Beitrag bedankt sich saddy

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •