• Hallo liebe Userinnen und User,

    nach bereits längeren Planungen und Vorbereitungen sind wir nun von vBulletin auf Xenforo umgestiegen. Die Umstellung musste leider aufgrund der Serverprobleme der letzten Tage notgedrungen vorverlegt werden. Das neue Forum ist soweit voll funktionsfähig, allerdings sind noch nicht alle der gewohnten Funktionen vorhanden. Nach Möglichkeit werden wir sie in den nächsten Wochen nachrüsten. Dafür sollte es nun einige der Probleme lösen, die wir in den letzten Tagen, Wochen und Monaten hatten. Auch der Server ist nun potenter als bei unserem alten Hoster, wodurch wir nun langfristig den Tank mit Bytes vollgetankt haben.

    Anfangs mag die neue Boardsoftware etwas ungewohnt sein, aber man findet sich recht schnell ein. Wir wissen, dass ihr alle Gewohnheitstiere seid, aber gebt dem neuen Board eine Chance.
    Sollte etwas der neuen oder auch gewohnten Funktionen unklar sein, könnt ihr den "Wo issn da der Button zu"-Thread im Feedback nutzen. Bugs meldet ihr bitte im Bugtracker, es wird sicher welche geben die uns noch nicht aufgefallen sind. Ich werde das dann versuchen, halbwegs im Startbeitrag übersichtlich zu halten, was an Arbeit noch aussteht.

    Neu ist, dass die Boardsoftware deutlich besser für Mobiltelefone und diverse Endgeräte geeignet ist und nun auch im mobilen Style alle Funktionen verfügbar sind. Am Desktop findet ihr oben rechts sowohl den Umschalter zwischen hellem und dunklem Style. Am Handy ist der Hell-/Dunkelschalter am Ende der Seite. Damit sollte zukünftig jeder sein Board so konfigurieren können, wie es ihm am liebsten ist.


    Die restlichen Funktionen sollten eigentlich soweit wie gewohnt funktionieren. Einfach mal ein wenig damit spielen oder bei Unklarheiten im Thread nachfragen. Viel Spaß im ngb 2.0.

PDF Wasserzeichen / Forensik

sia

gesperrt

Registriert
26 März 2015
Beiträge
5.931
Ort
FFM (NSFW)
Hallo,

Habe einige PDFs, die ich gerne auf vorhandene Watermarks oder forensisch auswertbare Inhalte überprüfen würde.

Gibt es außer den PDF-Kommentaren oder eingebetteten Bildern noch weitere Möglichkeiten, irgendwo was zu verstecken?

Im Prinzip reicht ja schon ein paar Pixel großes unsichtbares Bild mit je 16,7E6 darstellbaren Farben für eine enorme Fülle an einbringbaren Informationen…

EDIT: Die Dateien wurden laut Kommentaren mit "Acrobat Distiller Server 8.1.0 (Pentium Linux, Built: 2007-09-07)" erstellt. Hilft mir das weiter?

Werde den Thread bei neuen Erkenntnissen meinerseits editieren bzw. falls bis dahin schon Antworten eingetroffen sind kommentieren.
 
Zuletzt bearbeitet:

Jester

★★★★☆ (Kasparski)

Registriert
1 Dez. 2014
Beiträge
6.057
Ort
Code Azure
Re: PDF Watermarks / Forensik

Leider finde ich gerade keinen brauchbaren Link, aber ich habe kürzlich ein PoC gelesen, das sich mit der eideutigen, im Einzelfall nicht sichtbaren und robusten Markierung von Texten beschäftigt hat. Die Technologie gibt es auf jeden Fall - ich weiß nur nicht, ob es aktuell schon zum Einsatz kommt.

Bei dieser Strategie wurden mehrfach redundant Wörter an bestimmten Stellen durch gleichwertige Synonyme ersetzt, iirc waren alles Füllwörter. Über maschinelle Individualisierung jeder Kopie wurde ein bit-/byteartiges Muster geschaffen, das nicht zu erkennen war, wenn man nicht mehrere Kopien vergleichen konnte.

Die gleiche Möglichkeit bestünde z.B. über Variationen von Absätzen etc. Im Einzelfall nicht erkennbar, aber für den Anbieter nachvollziehbar & robuster als alle anderen Techniken.
 

alter_Bekannter

N.A.C.J.A.C.

Registriert
14 Juli 2013
Beiträge
4.823
Ort
Midgard
Re: PDF Watermarks / Forensik

Das kann man aber glücklicherweise maschinell pauschal verlustfrei reversieren.

Gibt bestimmt irgendwo ein gutes digitales Wörterbuch.
 

sia

gesperrt

Registriert
26 März 2015
Beiträge
5.931
Ort
FFM (NSFW)
  • Thread Starter Thread Starter
  • #5
Re: PDF Watermarks / Forensik

Na ja, wenn du nicht weißt, welcher Algorithmus für die Füllwörter verantwortlich ist, ist das schon ne ziemlich geniale Idee.
 

alter_Bekannter

N.A.C.J.A.C.

Registriert
14 Juli 2013
Beiträge
4.823
Ort
Midgard
Re: PDF Watermarks / Forensik

Nö, nur wenn du nicht weisst das es getan wird. Das war mein Punkt. Du bekommst nicht das "Original" 1:1 raus, klar, aber das Wasserzeichen.
 

darksider3

NGBler

Registriert
18 Sep. 2013
Beiträge
393
Ort
/dev/sda
Re: PDF Watermarks / Forensik

Leider finde ich gerade keinen brauchbaren Link, aber ich habe kürzlich ein PoC gelesen, das sich mit der eideutigen, im Einzelfall nicht sichtbaren und robusten Markierung von Texten beschäftigt hat. Die Technologie gibt es auf jeden Fall - ich weiß nur nicht, ob es aktuell schon zum Einsatz kommt.

Bei dieser Strategie wurden mehrfach redundant Wörter an bestimmten Stellen durch gleichwertige Synonyme ersetzt, iirc waren alles Füllwörter. Über maschinelle Individualisierung jeder Kopie wurde ein bit-/byteartiges Muster geschaffen, das nicht zu erkennen war, wenn man nicht mehrere Kopien vergleichen konnte.

Die gleiche Möglichkeit bestünde z.B. über Variationen von Absätzen etc. Im Einzelfall nicht erkennbar, aber für den Anbieter nachvollziehbar & robuster als alle anderen Techniken.

DU sprichst über Natural Language Watermarking, was gerade im "Kommen" ist bei Copyright-Gurus. :-)

Sobald man aber ein Wort oder Absatz hinzufügt, kommt der Algorithmus nicht mehr unbedingt hin. Sowas ist eher ineffizient wenn wir Bedenken das jemand einfach als Folge dessen Random irgendwelche Wörter aus dem Text am Anfang/Ende hinzufügen könnte. Wenn ich das richtig von der Zusammenfassung her verstanden habe.
 
Zuletzt bearbeitet:

sia

gesperrt

Registriert
26 März 2015
Beiträge
5.931
Ort
FFM (NSFW)
  • Thread Starter Thread Starter
  • #8
Dann müsste man aber erst mal wissen, ob die Technik überhaupt genutzt wird ;)

Große Raubmordkopierer von eBooks wird das nicht abhalten, aber die kleinen Fische werden sie sich damit schon fangen. Und darauf ist die Content-Industrie doch aus.

Gehe ich richtig in der Annahme, dass es derzeit keine Tools gibt, um Wasserzeichen verlässlich zu finden?
 

Jester

★★★★☆ (Kasparski)

Registriert
1 Dez. 2014
Beiträge
6.057
Ort
Code Azure
Re: PDF Watermarks / Forensik

Das kann man aber glücklicherweise maschinell pauschal verlustfrei reversieren.

Zum Original kommst Du aber typischerweise nie zurück, nur zu zerstörten Käuferkennungen (wenn der durch die versuchte Reversion veränderte Fingerprint nicht zuvor an einen anderen Kunden verkauft wurde, also Zuweisung kaputt) oder - was blöd für die betroffene Person wäre, iwas wie rnd vic socks^^, weil Du durch die partielle Reversion zufällig die Kennung eines anderen Käufers dupliziert hast...


Sobald man aber ein Wort oder Absatz hinzufügt, kommt der Algorithmus nicht mehr unbedingt hin. Sowas ist eher ineffizient wenn wir Bedenken das jemand einfach als Folge dessen Random irgendwelche Wörter aus dem Text am Anfang/Ende hinzufügen könnte. Wenn ich das richtig von der Zusammenfassung her verstanden habe.

Ist doch gar nicht nötig - wieviele "und" gibt es in einem langen Text? Viele. Nun kann man z. B. diese "und" an gezielten Stellen gegen "sowie" austauschen, nur mal als einfaches Beispiel. In diesen Veränderungen kann man derartig viele Daten speichern, dass hier auch mehrfache Redundanzen möglich sind, und das nur bei diesem einen Wort, es gibt ja noch die Möglichkeit von Synonymen oder Verschachtelung, die Sache muss ja nicht als linearer Bitsrom laufen. Wenn das Original nicht zugreifbar ist, kann man es nur mit einer extrem kleinen Wahrscheinlichkeit zufällig wiederherstellen - und man weiß es selbst dann nicht.
 
Zuletzt bearbeitet:

alter_Bekannter

N.A.C.J.A.C.

Registriert
14 Juli 2013
Beiträge
4.823
Ort
Midgard
Das dürfte soweit ich das verstanden habe zumindest extrem unwahrscheinlich sein. Auf dem Level CD-Key raten unwahrscheinlich. Also absolut unrealistisch. Vermutlich sogar 128Bit+ unrealisitisch.
 

Jester

★★★★☆ (Kasparski)

Registriert
1 Dez. 2014
Beiträge
6.057
Ort
Code Azure
@alter_Bekannter: Ja-ein :D

Wenn Du nur beliebig viele Kopien zur Verfügung hast, kannst Du anhand der bei diesen Kopien variierenden Markern nur diese Marker erkennen, das ist aber nur eine Teilmenge aller Vorhandenen.

Heißt, jede Anpassung dieser Marker anhand der gefundenen Variationen würde tatsächlich immer die Kennung eines anderen Kunden ergeben, oder?
Nee, das war Bullshit. Der Umstand, dass man die bei allen Kopien verwendeten Marker erkannt hat, führt bei zufälliger Veränderung natürlich nicht immer zu einer tatsächlich existenten Nutzerkennung.
 
Zuletzt bearbeitet:

alter_Bekannter

N.A.C.J.A.C.

Registriert
14 Juli 2013
Beiträge
4.823
Ort
Midgard
Nö, ich wollte den einfacheren Weg gehen und zufällig Synonyme ersetzen. Ohne Mustererkennung.

Dann braucht man keine Daten.
 

sia

gesperrt

Registriert
26 März 2015
Beiträge
5.931
Ort
FFM (NSFW)
  • Thread Starter Thread Starter
  • #13
Welche Tools gibt es denn außer exiftool, pdftk und qpdf um die Header und etwaige Wasserzeichen zu finden?

Hier auch mal eine Diskussion zur Entfernung von Metadaten:
https://gist.github.com/hubgit/6078384

Dort wurde auch pdf-redact-tools empfohlen – aber das wandelt ja den Text komplett in PNG (=Rastergrafik) um. Zur Weiterverarbeitung ist das dann ja nicht mehr geeignet.

Ich editiere PDFs gerne mit LibreOffice (Draw) – allerdings bleiben dann ja dennoch in eingebetteten Bildern etc. die Metadaten übrig.
 

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Nähme man den Text aus dem pdf und kopiert ihn in ein neues Dokument bliebe ja nur dieses 'Natural Language Watermarking', dafür bräuchte man eine Kopie aus einer anderen Quelle, mit dieser ließe sich das dann ja mit moderatem Aufwand sogar manuell entfernen.
 

Jester

★★★★☆ (Kasparski)

Registriert
1 Dez. 2014
Beiträge
6.057
Ort
Code Azure
@BurnerR: Nein, eben nicht - anhand von 2 Kopien kann man nur die Differenzen zwischen diesen beiden erkennen, es können aber beliebig viele weitere enthalten sein, die dort nicht genutzt wurden. Ich behaupte, dass sich damit ein in der Praxis unmöglich zu entfernendes Wasserzeichen erzielen lässt.

Wenn ich 16-fache Redundanz von jeweils 24 Markern erreichen kann (und das sollte in einem ebook problemlos hinzukriegen sein - in nem einseitigen PDF eher nicht ^^), kann ich anhand zweier Kopien nur einen winzigen Bruchteil der Marker erkennen, die Individualisierung wäre ausreichend (~16,7 Mio) und durch die 16 Marker-Set-Variationen ziemlich sicher. In diesem Fall bräuchte man mindestens 16 Exemplare, bei denen jeweils ein anderes Markerset benutzt wurde.

Spinnt man das weiter und zieht die Nutzbarkeit von optischen Entsprechungen in Betracht: l (kleines lateinisches L), U+0406 (großes kyrillisches I) und U+04CF (kleines kyrillisches Palochka) - die alle mehr oder weniger gleich aussehen - dann kann man das leicht wasserdicht machen.
 
Zuletzt bearbeitet:

BurnerR

Bot #0384479

Registriert
20 Juli 2013
Beiträge
5.504
Das stimm wohl. Man würde dann vermutlich hingehen und alle bekannten potenzielle Merkmale vereinheitlichen, also alles ins lateinische l umwandeln, alle syntaktischen und semantischen Äquivalenzen vereinheitlichen etc. - ist ja letztendlich nur security by obscurity. Natürlich könnte man nicht verifizieren, dass man genug Merkmale eingestampft hat.
 

alter_Bekannter

N.A.C.J.A.C.

Registriert
14 Juli 2013
Beiträge
4.823
Ort
Midgard
Würde es nur unleserlich machen. Automatische Erkennung kann man auch mit weniger Verlust vermeiden. Mindestens ein Ansatz dazu wurde schon genannt.

Werden die eingebebetteten Grafiken denn gebraucht? Wozu?
Ich kenne mich generell nicht so mit DRM Wasserzeichen aus. Aber gerade auch unsichtbare sollte man gut zerstören können durch verlustbehaftete Konvertierung in andere Formate. Zum Beispiel GIF mit weniger Farben.
Minimalprinzip halt. Je weniger du übernimmst desto weniger kann dir potenziell in den Arsch beissen.
 
Oben