wget

Hallo Liste!
Vielleicht kann mir jemand verraten, wie ich mit wget gezielt ein und
nur ein html-Dokument, das aus mehreren verlinkten Dateien besteht,
herunterladen kann.
Zur Zeit iest es so, dass ich entweder nur eine Datei bekomme oder
gleich die ganze Seite gerippt wird.
Danke und schöne Feiertage an alle.
Luigi

Vielleicht wenn du folgende Optionen bentzt:

-r
--recursive
   Turn on recursive retrieving.

-l depth
--level=depth
   Specify recursion maximum depth level depth. The default maximum
   depth is 5.

$ wget -r -l 1 http://…/…html

Hast du das schon ausprobiert? Könntest du die von dir bentzte
Kommandozeile posten?

Happy hacking!
Patrick

Luigi di Lazzaro wrote:

Hallo Liste!
Vielleicht kann mir jemand verraten, wie ich mit wget gezielt ein und
nur ein html-Dokument, das aus mehreren verlinkten Dateien besteht,
herunterladen kann.

Ich hab etwas damit gespielt, bin aber auch nicht gluecklich gewerden

-p soll es richten aber am Beispiel lugbz.org sieht man, dass es nur
funktioniert, wenn die Bilder mit relativen Links verwendet werden und
nicht mit absoluter URL. In der man-page gibt es zu der Option noch ein
paar Beispiele, mehr weiss ich auch nicht.

Wenn es nicht funktioniert, dann probier mal aehnliche Tools: getwww,
httrack

Viel Erfolg
Karl

[wget...]

Ich hab etwas damit gespielt, bin aber auch nicht gluecklich gewerden

Ich habe auch die von Patrick vorgeschlagene Zeile eingesetzt:
$ wget -r -l 1 http://…/…html
wget -r -l 1 http:/www.tuxhausen.de/*.html
bekomme eine
Warnung: Joker-Zeichen werden bei HTTP nicht unterstützt.
wget -r -l 1 http:/www.tuxhausen.de/
rippt er gerade mal eine Ebene, was ja richtig ist. Ich wollte aber
gezielt eine Seite und die damit verlinkten bekommen. Gibt es eine
Möglichkeit die Struktur, nicht den Code, einer Seite anzusehen?
Vermutlich sind die verlinkten Seiten in einem Unterverzeichnis und
werden deshalb nicht mitgenommen. Wenn ich aber die Rekursionstiefe
erhöhe, dann bekomme ich wieder zuviel.
Ich habe dann iaug gut Glück die Ausführung abgebrochen und trotzdem die
interessanten Seiten bekommen (und einiges dazu...).

-p soll es richten aber am Beispiel lugbz.org sieht man, dass es nur
funktioniert, wenn die Bilder mit relativen Links verwendet werden
und nicht mit absoluter URL. In der man-page gibt es zu der Option
noch ein paar Beispiele, mehr weiss ich auch nicht.

Werd eich näher betrachten.

Wenn es nicht funktioniert, dann probier mal aehnliche Tools: getwww,
httrack

Mache ich, danke für die Tipps und einen guten Rutsch.
Luigi