Trojaner-Board

Trojaner-Board (https://www.trojaner-board.de/)
-   Alles rund um Mac OSX & Linux (https://www.trojaner-board.de/alles-rund-um-mac-osx-linux/)
-   -   Webseiten Spiegeln (https://www.trojaner-board.de/4093-webseiten-spiegeln.html)

Andreas Haak 29.10.2002 12:53

Hallöschen ...

Suche ein nettes Tool um Webseiten und FTPs lokal zu spiegeln. WGET funktioniert - ist aber quälend langsam. Kann mir einer ein anderes Programm empfehlen das mehrere downloadthreads beherrscht oder mir sagen wir ich wget multithreading beibringe?

dauni 29.10.2002 14:10

Vielleicht nt? (Downloader for X)

Weiß nur, dass man die Rekursionstiefe bei dem Prog einstellen kann, obs (un wie) wirklich Seiten saugt, kann ich nicht sagen

Andreas Haak 29.10.2002 14:20

na das kannst du bei wget auch. aber wget saugt nur immer eine datei jeweils. und das ist lahm. ich hab über 1 MBit Downstream. Und der Server hat ne beschränkung von max 20 kb pro sekunde pro connection. Sprich:

ich kann jetzt eine verbindung aufbauen mit 20 kb (wget) oder ich bau 8 verbindungen paralell auf und saug jeweils 8 dateien gleichzeitig mit jeweils 20 kb. Letzzteres ist 8 mal schneller. Und windows kann das jeder besseres Mirroring Tool. Aber WGet kanns nicht befürchte ich - und die meisten anderen die ich gefunden habe auch nicht.

dauni 29.10.2002 14:26

Hat mich auch schon gefuchst, vielleicht weiß ja jemand etwas - sonst mußt halt einen Patch für wget schreiben [img]graemlins/crazy.gif[/img] (dann lass es mich aber wissen!)

Andreas Haak 29.10.2002 14:54

Ich mag ungern ein eigenes Programm coden - wäre aber möglich zur not ... .

cruz 29.10.2002 18:11

prozilla dürfte das sein, was ihr sucht.

http://prozilla.genesys.ro/

.cruz

dauni 29.10.2002 18:32

So wie ich das sehe, ist das nur ein "ordinärer" beschleuniger ....

Andreas Haak 29.10.2002 19:51

Nein - das such ich nicht ...

Ok - erklär ich es halt ...

Ich habe einen WWW Server. Auf dem liegen 20.000 Dateien. Pro HTTP Verbindungen kann ich mit 20 kb Saugen.

Nun kann ich diesen Server problemlos mit wget spiegeln, keine Frage. Das ganze dauert aber ewig.

Da der Server nicht resumen kann (von daher nicht mehrere Threads für eine Datei) suche ich deshalb eine Mirror Software die mehrere Dateien gleichzeitig lädt beim Spiegeln (8x 20 kb ist besswer als nur einmal 20 kb). Wie gesagt - unter Windows gibts da dutzende (httpweazel z.B.). Unter Linux such ich imma noch. Wenn ich bis morgen nix gefunden habe, werde ich wohl eine selbst schreiben müssen ... .

dauni 29.10.2002 20:26

Ich glaube, dass du bis morgen nix findest ...

n_dot_force 29.10.2002 20:42

naja...

theoretisch hätt ich ne lösung...

was hindert dich daran, 8 instanzen von wget im hintergrund laufen zu lassen...

das wär das geringste problem...

nur das mit der liste... ich werd mich mal umsehen...

[img]graemlins/teufel3.gif[/img]

n_dot_force 29.10.2002 20:57

so...

ich hätt zwar ein wget-script gefunden, aber verzichte darauf, da ich IMO was besseres finden konnte...

und zwar nennt sich das ganze sirobot und ist ein perl-script...

von den features dürfte punkt 3 am interessantesten sein:

</font><blockquote>Zitat:</font><hr />...
Concurrent jobs
This is quite useful if you have to get a lot of files because Sirobot is able to fetch several files (called jobs) at once
...</font>[/QUOTE][img]graemlins/teufel3.gif[/img]

dauni 29.10.2002 20:57

tja - nur überschreiben dir die 8 instanzen gegenseitig alles.....
bzw. wenn man das abschaltet, dann "stehen sie sich im weg"

piet 29.10.2002 21:10

hiho,

LFTP sieht recht vielversprechend aus. ;)

Featurelist LFTP

piet

n_dot_force 29.10.2002 21:25

@dauni:

mein gedanke mit den 8 instanzen hat nichts mit sirobot zu tun, das ist was anderes...

ich hätte da diese script hier gefunden:

</font><blockquote>Zitat:</font><hr />...
Download files from a list

And the following reads a list of URIs (along with parameters to wget if any) and starts a maximum of $max_proc instances of it. All URIs that wget started processing are appended to a file called done.txt in the downloads subdirectory of your HOME.

</font><blockquote>Code:</font><hr /><pre style="font-size:x-small; font-family: monospace;">#!/bin/bash

cd $HOME/downloads/
PATH=/bin:/usr/bin

line=1
max_proc=3
list_file=&quot;$HOME/downloads/todo.txt&quot;
prog=&quot;/usr/local/bin/wget&quot;

while true
do
while true
do
proc=`ps -f -u $USER | grep -c $prog`
# grep is in the list too
let proc--

lines=`grep -c &quot;&quot; $list_file`
echo &quot;Proc: $proc / $max_proc Line: $line / $lines&quot;

[[ $proc -ge $max_proc &#0124;&#0124; $line -gt $lines ]] &amp;&amp; break

params=`grep -n &quot;&quot; $list_file | grep &quot;^$line:&quot; |
sed -e &quot;s/^$line://&quot;`
echo $params | tee -a done.txt archive.txt

# ignore empty lines
if [ &quot;$params&quot; ]; then
$prog -b $params
sleep 3
fi
let line++
done

echo &quot;Waiting...&quot;
sleep 10
done</pre>[/QUOTE]...</font>[/QUOTE](quelle: http://martin.f2o.org/linux/wget)

da wäre sich nix in die quere gekommen (jedes wget hat ja seine eigene jobnummer, und durch eine liste wird den jeweiligen jobs die datei übergeben, da sind dann keine überschneidungen ;) )

wie gesagt: das obige script müsste eventuell noch modifiziert werden, und da sirobot eh von haus aus für das, was andreas machen will, konzipiert ist, wieso dann noch viel selber rumstricken?

[img]graemlins/teufel3.gif[/img]

dauni 29.10.2002 22:42

@ÄnnPunktForce

Als ich das schrieb, war dein Beitrag noch nicht da ;)


Alle Zeitangaben in WEZ +1. Es ist jetzt 19:59 Uhr.

Copyright ©2000-2025, Trojaner-Board


Search Engine Optimization by vBSEO ©2011, Crawlability, Inc.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131