Aspirer un site internet
Pour aspirer un site internet
$ wget -r -l5 -k -E "http://www.l_adresse_du_site.a_recuperer.com"
-r : récursif sur le site
-l5 : cinq niveaux de récursion au maximum
-k : convertir les destinations des liens pour une lecture locale
-E : convertir les types de fichier au format HTML (pour éviter que la lecture de sites en PHP ne foire en lecture sous Firefox).
A l'aide de l'outil httrack
$ sudo apt-get install httrack
Pour aspirer le site :
$ httrack --mirror http://mon-site.com
Pour mettre à jour le site aspirer (se placer dans le dossier du site):
$ httrack --update
Commentaires
ToTo (non vérifié)
jeu, 16/02/2023 - 11:17
Permalien
Authentification
Et comment fait-on sur un site où l'on doit s'authentifier au préalable ? Peut-on ajouter les id/pass en ligne de commande ?
ronan
jeu, 23/02/2023 - 22:18
Permalien
Authentification
Je pense que c'est possible.
Avec wget, il est possible d'utiliser des cookies pour la gestion de l'authentification.
Voir la doc ici
Ajouter un commentaire