Website parsen mit HTML Tidy

Roin · 14 Nov. 2018

Hallo Leute,

ich möchte für ein kleines Programm von mir eine Website (HTML) laden und anschließend einige Elemente von dieser Seite extrahieren. Dieses Problem klingt für mich so, als wenn es schon tausend Mal gelöst wurde. Doch ich google mal wieder nicht vernünftig, wie es mir scheint.

Ich habe gefunden, dass HTML Tidy da eine ganz nützliche Lib zu ist.
Aktuell schwanke ich noch zwischen einer C++ und einer Java Implementierung, hängt auch ein bisschen davon ab, ob ich später eine Grafische Oberfläche dazu bauen möchte, aber das ist ein anderes Thema.
In C++ braucht man hierfür libtidy und in Java JTidy, welche effektiv das gleiche machen.

Ich suche eigentlich nur ein KURZES Tutorial, wie ich nun da einen String (HTML Seite) reinwerfe und dann sowas wie ein Assoziatives Array oder ähnliches rausbekomme. Also den erzeugten DOM-Baum, wenn man es so nennen kann. Dann könnte ich mir deutlich sinniger die passenden Elemente raussuchen als wenn ich eigenständig irgendwelche Suchen und Ersetzen-Konstrukte baue.

Hat da jemand ein Snippet zur Hand oder eine passende Quelle? Das Problem ist doch bestimmt auch schonmal jemand von euch angegangen?

Grüße!

P.S.: Alternativ würde ich auch Python oder Php nutzen. Aktuell stehe ich nur stark auf dem Schlauch, wie ich aus einer nicht unbedingt gut formatierten HTML-Datei meine entsprechenden Tags rauslesen kann.

KingJamez · 14 Nov. 2018

Ich kenne Java und c++ zu wenig um auf die Sprachen selber eingehen zu können. Tidy's kenne ich im Web als "bereiniger" oder "Fehlersucher", deshalb denke ich du suchst einfach das falsche.
Du brauchst einen HTML Parser, spontan habe ich für Java jsoup.org gefunden und für gut befunden das ermöglicht ein parsen über selectors.
[src=javascript]
div.foo div.bar > a.baz
[/src]

Roin · 14 Nov. 2018