| Ferrobattuto
| Inviato il: 18/11/2010,19:41
|
Ho fatto un tentativo, superficiale, lo ammetto, poi non ho avuto modo di pensarci su, ma mi scaricava solo l'HTML senza i contenuti, che poi erano quelli che mi interessavano di più. Non ho riprovato, sicuramente non ho impostato bene la cosa, ma conto di riprovarci. Il fatto è che ho sempre 10.000 cose per la testa....
| | | | max_linux2000
| Inviato il: 18/11/2010,19:51
|
si, è normale... prima scarica tutti i file html, poi li analizza ed estrae i link delle immagini e degli altri file.... i pdf ovviamente sempre per ultimi
| | | | Ferrobattuto
| Inviato il: 18/11/2010,19:57
|
Si, ma quella volta si è fermato dicendo che era finito così......
| | | | max_linux2000
| Inviato il: 18/11/2010,20:09
|
interessante
mi potresti dare il comando esatto che hai usato?
pre ritrtovarlo potresti usare il comando history nel computer che hai usato quella volta.
$ history | grep wget
ciao Max
| | | | Ferrobattuto
| Inviato il: 18/11/2010,20:19
|
Humm..... Mi da un sacco di roba che non ci capisco niente (pietà ) Facciamo prima se rifaccio il tentativo di nuovo con il comando che mi dai tu.
| | | | max_linux2000
| Inviato il: 18/11/2010,21:45
|
prova un po'con questo:
CODICE wget -c -m -k -e robots=off -p -np -t 10 --random-wait http://www.mif.pg.gda.pl/homepages/frank/
ho aggiunto l'opzione robots=off per ovviare al fatto che "i lor signori" hanno messo un file ove si indica ai robots (google per esempio) di lasciar perdere la directory frank e il suo contenuto. Visto che wget è alla base di google, si comporta uguale, per cui eliminiamo il problema e riporviamo
fammi sapere ciao MaX
| | | | Ferrobattuto
| Inviato il: 19/11/2010,20:33
|
Dunque: ho fatto copia e incolla con la serie di comandi che hai scritto tu, ha iniziato a scricare un sacco di roba compresi i PDF, mettendo tutto in due cartelle nominate come il siti da cui scarica, poi però ha cominciato a dare "Errore 500: internal server error" per ogni file che tenta di scricare. Lo stà ancora facendo e non scarica più niente.
Adesso ha cambiato avviso: "Connessione rifiutata" prima, e per ultimo "Connessione scaduta". Ho chiuso il terminale.....
| | | | max_linux2000
| Inviato il: 19/11/2010,21:15
|
ok... ti ha beccato e ti ha sbattuto fuori
riprova cosí:
CODICE wget -c -m -k -e robots=off -p -np -w 20 --random-wait --limit-rate=10k http://www.mif.pg.gda.pl/homepages/frank/
ho messo un tempo aleatorio compreso tra 1 e 20 secondi (-w 20 --random-wait) e limitato lo scaricamento a 10kb/s (--limit-rate=10k)
se ti becca un'altra volta, prova a mettere 5kb/s e anche ad aumentare iltempo aleatorio a 30secondi
ciao MaX
| | | | Ferrobattuto
| Inviato il: 19/11/2010,21:36
|
Adesso addirittura non si connette, mi da subito "errore500", poi fa due tentativi e si ferma tutto. Ho visto la differenza tre il comando precedente:
wget -c -m -k -e robots=off -p -np -t 10 --random-wait www.mif.pg.gda.pl/homepages/frank/
E quello attuale.
wget -c -m -k -e robots=off -p -np -w 20 --random-wait --limit-rate=10k www.mif.pg.gda.pl/homepages/frank/
Perché adesso "w" e prima "t"? Comunque mi ricordo che quando lo facevo col teleport.pro mi scricava solo i PDF (c'era l'opzione) e le immagini, e non si fermava mai. E' vero però che ancora si andava col modem 56K.......
| | | | | | | Ferrobattuto
| Inviato il: 19/11/2010,22:25
|
Si, a me srvono solo i PDF, tutt'al più le immagini, ma non sono indispensabili. L'ho capito anche io che sono stato buttato fuori, avrei potuto riavviare il computer e rientrare in rete di nuovo, sicuramente con un nuovo IP, ma poi a più o meno allo stesso punto mi avrebbero ricacciato. 5K o 10K sono pochi...... Ci sono parecchie svariate centinaia di mega da scaricare, e ci vorrebbe una vita. Comunque riprovo domani.
| | | | max_linux2000
| Inviato il: 19/11/2010,22:43
|
allora aggiungi "-A pdf,jpg,gif" e ti scarica solo i pdf i jpg e i gif
fai alcune prove e vedi quali sono le opzioni migliori.... al limite lascia una velocità elevata togliendo il --limit-rate, ma aumenta di brutto il tempo portandolo per esempio a -w 300 (5 minuti). Si può mettere anche -w 5m se non sbaglio.
ciao MaX
| | | | Ferrobattuto
| Inviato il: 22/11/2010,20:58
|
Ho messo questa stringa come comando, va bene? Oppure devo invertire qualche opzione di posto?
wget -c -m -k -e robots=off -p -np -w 30 --random-wait --limit-rate=20k -A pdf,jpg,gif www.mif.pg.gda.pl/homepages/frank/
Per ora stà scricando, ma non so quanto ci metterà......
| | | | max_linux2000
| Inviato il: 22/11/2010,21:07
|
ci metterà il tempo necessario dipende da queanta roba c'è.
.....vediamo piuttosto se a 20K/s ti sbattono fuori.
riguardo alle opzioni c'è il -k di troppo (Konverte i file html in navigabili localmente), ma non fa nulla, non influenza e non rallenta visto che non li salva.
ciao MaX
| | | | Ferrobattuto
| Inviato il: 22/11/2010,21:15
|
Dunque, siccome la roba da scaricare è proprio tanta, c'è un'opzione che faccia un lavoro tipo "resume", che ripiglia quando ridai il comando da dove aveva finito di scaricare? Perché altrimenti riparte a riscaricare da capo di nuovo.....
| |
| | |
|
Versione Mobile!
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|