Liens en vrac de sebsauvage

Scrapy | An open source web scraping framework for Python

mercredi 13 mars 2013 à 16:24

Scrapy, une lib Python conçue pour extraire des données des pages web. Démonstration avec la récupération des torrents disponibles sur mininova: http://doc.scrapy.org/en/latest/intro/overview.html
Pratique quand des services web n'ont pas d'API ou des API pourries.

L'avantage de Scrapy est qu'il est relativement concis (la syntaxe n'est pas trop compliquée et on peut utiliser XPath pour exprimer les éléments à extraire). Il s'occupe de suivre les liens, récupérer les pages (selon les règles que vous fixez), supporte la compression http, l'authentification, le user-agent spoofing, gestion des encodages... ça évite de se taper tout ça à la main.
Il peut exporter les données récupérées en json/csv/xml.
(Permalink)