Trojaner-Board - Webseiten Spiegeln

Trojaner-Board (https://www.trojaner-board.de/)

- Alles rund um Mac OSX & Linux (https://www.trojaner-board.de/alles-rund-um-mac-osx-linux/)

- - Webseiten Spiegeln (https://www.trojaner-board.de/4093-webseiten-spiegeln.html)

Hallöschen ...

Suche ein nettes Tool um Webseiten und FTPs lokal zu spiegeln. WGET funktioniert - ist aber quälend langsam. Kann mir einer ein anderes Programm empfehlen das mehrere downloadthreads beherrscht oder mir sagen wir ich wget multithreading beibringe?

Vielleicht nt? (Downloader for X)

Weiß nur, dass man die Rekursionstiefe bei dem Prog einstellen kann, obs (un wie) wirklich Seiten saugt, kann ich nicht sagen

na das kannst du bei wget auch. aber wget saugt nur immer eine datei jeweils. und das ist lahm. ich hab über 1 MBit Downstream. Und der Server hat ne beschränkung von max 20 kb pro sekunde pro connection. Sprich:

ich kann jetzt eine verbindung aufbauen mit 20 kb (wget) oder ich bau 8 verbindungen paralell auf und saug jeweils 8 dateien gleichzeitig mit jeweils 20 kb. Letzzteres ist 8 mal schneller. Und windows kann das jeder besseres Mirroring Tool. Aber WGet kanns nicht befürchte ich - und die meisten anderen die ich gefunden habe auch nicht.

Hat mich auch schon gefuchst, vielleicht weiß ja jemand etwas - sonst mußt halt einen Patch für wget schreiben [img]graemlins/crazy.gif[/img] (dann lass es mich aber wissen!)

Ich mag ungern ein eigenes Programm coden - wäre aber möglich zur not ... .

prozilla dürfte das sein, was ihr sucht.

http://prozilla.genesys.ro/

.cruz

So wie ich das sehe, ist das nur ein "ordinärer" beschleuniger ....

Nein - das such ich nicht ...

Ok - erklär ich es halt ...

Ich habe einen WWW Server. Auf dem liegen 20.000 Dateien. Pro HTTP Verbindungen kann ich mit 20 kb Saugen.

Nun kann ich diesen Server problemlos mit wget spiegeln, keine Frage. Das ganze dauert aber ewig.

Da der Server nicht resumen kann (von daher nicht mehrere Threads für eine Datei) suche ich deshalb eine Mirror Software die mehrere Dateien gleichzeitig lädt beim Spiegeln (8x 20 kb ist besswer als nur einmal 20 kb). Wie gesagt - unter Windows gibts da dutzende (httpweazel z.B.). Unter Linux such ich imma noch. Wenn ich bis morgen nix gefunden habe, werde ich wohl eine selbst schreiben müssen ... .

Ich glaube, dass du bis morgen nix findest ...

naja...

theoretisch hätt ich ne lösung...

was hindert dich daran, 8 instanzen von wget im hintergrund laufen zu lassen...

das wär das geringste problem...

nur das mit der liste... ich werd mich mal umsehen...

[img]graemlins/teufel3.gif[/img]

so...

ich hätt zwar ein wget-script gefunden, aber verzichte darauf, da ich IMO was besseres finden konnte...

und zwar nennt sich das ganze sirobot und ist ein perl-script...

von den features dürfte punkt 3 am interessantesten sein:

<blockquote>Zitat:<hr />...
Concurrent jobs
This is quite useful if you have to get a lot of files because Sirobot is able to fetch several files (called jobs) at once
...[/QUOTE][img]graemlins/teufel3.gif[/img]

tja - nur überschreiben dir die 8 instanzen gegenseitig alles.....
bzw. wenn man das abschaltet, dann "stehen sie sich im weg"

hiho,

LFTP sieht recht vielversprechend aus. ;)

Featurelist LFTP

piet

@dauni:

mein gedanke mit den 8 instanzen hat nichts mit sirobot zu tun, das ist was anderes...

ich hätte da diese script hier gefunden:

<blockquote>Zitat:<hr />...
Download files from a list

And the following reads a list of URIs (along with parameters to wget if any) and starts a maximum of $max_proc instances of it. All URIs that wget started processing are appended to a file called done.txt in the downloads subdirectory of your HOME.

<blockquote>Code:<hr /><pre style="font-size:x-small; font-family: monospace;">#!/bin/bash

cd $HOME/downloads/
PATH=/bin:/usr/bin

line=1
max_proc=3
list_file="$HOME/downloads/todo.txt"
prog="/usr/local/bin/wget"

while true
do
while true
do
proc=`ps -f -u $USER | grep -c $prog`
# grep is in the list too
let proc--

lines=`grep -c "" $list_file`
echo "Proc: $proc / $max_proc Line: $line / $lines"

[[ $proc -ge $max_proc || $line -gt $lines ]] && break

params=`grep -n "" $list_file | grep "^$line:" |
sed -e "s/^$line://"`
echo $params | tee -a done.txt archive.txt

# ignore empty lines
if [ "$params" ]; then
$prog -b $params
sleep 3
fi
let line++
done

echo "Waiting..."
sleep 10
done</pre>[/QUOTE]...[/QUOTE](quelle: http://martin.f2o.org/linux/wget)

da wäre sich nix in die quere gekommen (jedes wget hat ja seine eigene jobnummer, und durch eine liste wird den jeweiligen jobs die datei übergeben, da sind dann keine überschneidungen ;) )

wie gesagt: das obige script müsste eventuell noch modifiziert werden, und da sirobot eh von haus aus für das, was andreas machen will, konzipiert ist, wieso dann noch viel selber rumstricken?

[img]graemlins/teufel3.gif[/img]

@ÄnnPunktForce

Als ich das schrieb, war dein Beitrag noch nicht da ;)