lundi 27 avril 2009
Script perl pour extraire les liens d'une page Web
Par david techer, lundi 27 avril 2009 à 00:52 :: Mon réseau et compagnie...
Il y a un très bon module perl pour celà Â
root@olivia:~# apt-cache search linkextor libhtml-linkextractor-perl - Perl module used to extract links from HTML documentsOn l'installe en faisant
apt-get install libhtml-linkextractor-perlEnsuite on récupère le script qui lui est associé
wget http://plasmasturm.org/code/linkextor/linkextor -O linkextor chmod +x linkextor
Pour toutes les possiblités possibles, il faut faire
./linkextor -h
Combiné par exemple à  wget notamment pour que ce dernier recrache en STDIN, on peut par exemple extraire les liens du site www.lemonde.fr dans les ancres a pointant contenant le mot-clé actualité
root@olivia:~# wget -q 'http://www.lemonde.fr' -O - | ./linkextor -f 'a:href:actualite' -b - /actualite-medias/article/2009/04/26/macha-beranger-la-voix-des-sans-sommeil-s-est-eteinte_1185641_3236.html /actualite-en-continu/ /actualite-en-continu/ /actualite-medias/article/2009/04/24/la-publicite-pour-les-sites-de-paris-en-ligne-cree-la-polemique_1184981_3236.html#ens_id=628863 /actualite-medias/article/2009/04/22/hersant-va-ceder-le-journal-de-l-ile-de-la-reunion-a-un-entrepreneur-local_1183918_3236.html#ens_id=1183992 /actualite-medias/article/2009/04/21/le-csa-va-comptabiliser-le-temps-de-parole-du-chef-de-l-etat_1183677_3236.html#ens_id=1176471 /actualite-medias/reactions/2009/04/21/le-csa-va-comptabiliser-le-temps-de-parole-du-chef-de-l-etat_1183677_3236.html /actualite-medias/article/2009/04/26/macha-beranger-la-voix-des-sans-sommeil-s-est-eteinte_1185641_3236.html /actualite-medias/reactions/2009/04/26/macha-beranger-la-voix-des-sans-sommeil-s-est-eteinte_1185641_3236.html /actualite-medias/article/2009/04/26/macha-beranger-la-voix-des-sans-sommeil-s-est-eteinte_1185641_3236.html http://www.lemonde.fr/qui-sommes-nous/article/2008/01/02/telerama-fr-toute-l-actualite-culturelle-a-porte-de-clic_995453_3386.html