2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

Téléchargez TOUS les dossiers, sous-dossiers et fichiers en utilisant Wget

J'ai utilisé Wget et je suis tombé sur un problème. J'ai un site, qui comporte plusieurs dossiers et sous-dossiers à l'intérieur du site. J'ai besoin de télécharger tout le contenu de chaque dossier et sous-dossier. J'ai essayé plusieurs méthodes en utilisant Wget, et lorsque je vérifie la complétion, tout ce que je peux voir dans les dossiers est un fichier “index”. Je peux cliquer sur le fichier d'index, et il m'amènera aux fichiers, mais j'ai besoin des fichiers réels.

est-ce que quelqu'un a une commande pour Wget que j'ai oubliée, ou y a-t-il un autre programme que je pourrais utiliser pour obtenir toutes ces informations ?

exemple de site :

www.mysite.com/Pictures/ à l'intérieur de la zone d'images, il y a plusieurs dossiers…..

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

J'ai besoin de tous les fichiers, dossiers, etc…..

Réponses (3)

38
38
38
2013-10-07 16:23:25 +0000

Je veux supposer que vous n'avez pas essayé cela :

wget -r --no-parent http://www.mysite.com/Pictures/

ou pour récupérer le contenu, sans télécharger les fichiers “index.html” :

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

Référence : Utilisation de wget pour récupérer récursivement un répertoire contenant des fichiers arbitraires

20
20
20
2014-12-20 09:22:17 +0000

J'utilise wget -rkpN -e robots=off http://www.example.com/

-r signifie récursivement

-k signifie convertir les liens. Ainsi, les liens sur la page web seront localhost au lieu de example.com/bla

-p signifie obtenir toutes les ressources de la page web donc obtenir des images et des fichiers javascript pour faire fonctionner le site web correctement.

-N consiste à récupérer les horodatages, donc si les fichiers locaux sont plus récents que les fichiers du site web distant, ignorez-les.

-e est une option de drapeau qui doit être présente pour que le robots=off fonctionne.

robots=off signifie ignorer le fichier des robots.

J'avais aussi -c dans cette commande, donc si la connexion était interrompue, elle continuerait là où elle s'est arrêtée quand j'ai relancé la commande. Je me suis dit que -N irait bien avec -c.

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A * -pk -e robots=off www.mysite.com/ cela téléchargera tous les types de fichiers localement et pointera vers eux à partir du fichier html et il ignorera le fichier robots