• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

Per Batch fehlerhaftes OCR berichtigen [erledigt]


Registriert
10 Jan. 2018
Beiträge
34
Hallo zusammen,

ich habe einen großen Haufen an PDFs (Tageszeitungen). Diese kommen von boerse.to und sie stammen ggf. direkt vom Verlag - das ist auch eigentlich vollkommen egal. Die Zeichen in ihnen sind markierbar; die Suche findet allerdings nichts. Kopiert man etwas aus diesen PDFs heraus, dann wird klar warum. Der in der PDF dargestellte Satz[src=python]Berlin will genehmigte Waffenexporte widerrufen[/src] ergibt herauskopiert folgendes:[src=python]➹➘➴➷➬➮ ➱➬➷➷ ✃➘➮➘❐❒➬✃❮➘❰ÏÐÐ➘➮➘ÑÒÓ➴❮➘ ➱➬Ô➘➴➴ÕÐ➘➮[/src]. Das ist tierisch nervig und deswegen will ich die PDFs gerne als PDFs drucken (so die OCR löschen) und im Folgeschritt dann mit Adobe eine neue OCR drüberbügeln.

Bis jetzt nutze ich https://www.doc2prn.com - das allerdings ist saulangsam und verlangt, dass jede Datei manuell nach Druckvorgang benannt wird. Das bringt mich zu zwei Fragen:
  1. Wie bekomme ich eine komplett ohne manuelle Eingaben funktionierende Stapelverarbeitung von PDF2PDF-Druck, die einfach ein paar Tage im Hintergrund rödeln kann?
  2. Oder: wie bekomme ich PDFs schnell stapelverarbeitend der OCR beraubt, dass ich neue über sie bügeln kann?
Lieben Gruß, ESOM.
 
Zuletzt bearbeitet:

Steeve

Vereinsheimer
Barkeeper

Registriert
15 Juli 2013
Beiträge
41.121
Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

Linux vorhanden?

Nur so spontan die Antwort, das du über Linux da ggf. eine Stapelverabeitung Druck mit einem Befehl machen kannst.
Nur so als erste Idee
Code:
for i in *.pdf; do
...Jetzt vllt. einen PDF-Reader in der Kommandozeile und den Druckbefehl?

Wie gesagt, nur so eine Idee :)

Edit: Ich meine mit Ghostscript müsste das möglich sein

https://wiki.ubuntuusers.de/Ghostscript/

Wie genau überlege ich noch... :)
 

drfuture

Zeitreisender
Teammitglied

Registriert
14 Juli 2013
Beiträge
8.728
Ort
in der Zukunft
Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

Damit sollte das gehen https://www.tracker-software.com/product/pdf-tools

Ist aber nicht kostenlos.
Bei der lizenz ist aber auch der viewer dabei den ich definitiv empfehlen kann.
Man kann mit pdfs viele schöne Dinge sehr flott und einfach erledigen und er ist weniger Sicherheits auffällig als die Produkte von Adobe.
 

KaPiTN

♪♪♫ wild at heart ♪♫♫♪

Registriert
14 Juli 2013
Beiträge
29.138
Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

Ich habe es nicht getestet:


Mit dem kostenlosen Tool "Print Conductor" sparen Sie sich beim Drucken mehrerer Dokumente viel Arbeit. Anstatt die Dokumente einzeln zu öffnen und aus dem jeweiligen Programm heraus zu drucken, fügen Sie die Dateien einfach "Print Conductor" hinzu.

chip.de
 

Steeve

Vereinsheimer
Barkeeper

Registriert
15 Juli 2013
Beiträge
41.121
Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

Hier habe ich was für den Linux Bereich:

https://wiki.ubuntuusers.de/ImageMagick/

mit dem diesem Befehl hast du eine Stapelverarbeitung:

Code:
mogrify -format pdf *.pdf

Bzw. ist wahrscheinlich kein Druckbefehl, aber ein Versuch ist wert, vllt geht dabei dein OCR Problem verloren.
 

Registriert
10 Jan. 2018
Beiträge
34
  • Thread Starter Thread Starter
  • #6
Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

Das sieht tatsächlich spannend aus. Dass ich gerade auf die schnelle keine Warze gefunden habe, hat mich erstmal davon abgehalten das zu testen, 60 Öcken habe ich nicht einfach so übrig.
Dankesehr! Das ist leider in der Funktionalität aber wie https://www.doc2prn.com/, das ich im Eingangsposting bereits beschrieb;man wird zur PDF-Benennung aufgefordert.
Code:
mogrify -format pdf *.pdf
Geil, das macht auf jeden Fall gute Sachen mit der PDF; OCR ist komplett raus und es ist rasend flott. Dankesehr!

Allerdings zerstörts die PDF schon hart, hier mal ein Vergleich:

DXP 004.png
DXP 003.png
vor mogrify, Gesamtdateigröße 12 MBnach mogrify, Gesamtdateigröße 43 MB

Leider verwirrt mich https://imagemagick.org/script/command-line-options.php#quality ein bisschen: [src=bash]mogrify -quality 10 -format pdf *.pdf[/src] ändert gar nichts.

Lieben Gruß, ESOM.
 

Steeve

Vereinsheimer
Barkeeper

Registriert
15 Juli 2013
Beiträge
41.121
Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

Ja gut das ist murks, ich denke auch wie gesagt an eher an einen PDF-Reader (z.B. Linux evince) und dann die Druck-Funktion und dann in der Kommandozeile.

Ich gucke gerade ob evince das kann. Command line

Hey wenn du Linux hast schau dir auch mal ghostscript/gs an, das müsste das auch schaffen, an dem Befehl bastel ich noch

https://wiki.ubuntuusers.de/Ghostscript/

Vorallendingen mit Qualitäts und Komprimierungs Möglichkeiten

bzw, mit [kw]convert[/kw] (imagemagick) ist im Terminal noch mehr möglich, ich teste das morgen mal
 
Zuletzt bearbeitet:

saddy

Bekannter NGBler

Registriert
16 Juli 2013
Beiträge
4.029
Ort
*.*
Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

Das könnte schon die Lösung sein (Achtung Original wird überschrieben):
Code:
for f in *.pdf; do ocrmypdf --redo-ocr -l deu "$f" "$f"; done

Ohne Schleife zum Testen halt Folgendes, ohne dass das Original überschrieben wird:
Code:
ocrmypdf --redo-ocr -l deu input.pdf output.pdf
Das Sprachpaket deutsch muss zusätzlich zu ocrmypdf noch installiert sein:
https://ocrmypdf.readthedocs.io/en/latest/languages.html

Könnte schon die Lösung sein, ohne den Schritt mit dem Drucken vorher.
--redo-ocr verbessert scheinbar nur vorhandenes ocr, ob das bei dir klappt wird ein Versuch zeigen, --force-ocr erstellt einen komplett neuen ocr layer aber da könnte laut wiki auch die Qualität leiden.
Für mich hat bisher --redo-ocr ausgereicht.
 

Registriert
10 Jan. 2018
Beiträge
34
  • Thread Starter Thread Starter
  • #10
Re: Per Stapelverarbeitung PDFs als PDF drucken (oder OCR-Entfernung)

@saddy: Geil,[src=bash]for f in *.pdf; do ocrmypdf --force-ocr -l deu "$f" "$f"; done[/src]macht was es soll :beer:!

Danke an Alle!
 
Oben