PROJET AUTOBLOG


Liens en vrac de sebsauvage

source: Liens en vrac de sebsauvage

⇐ retour index

BeautifulSoup et html invalide

lundi 17 juin 2013 à 13:43
Si vous êtes utilisateur de longue date de BeautifulSoup pour parser des pages html, et que tout à coup ce module n'arrive plus à parser du html invalide alors qu'il y arrivait très bien avant, c'est parce que désormais BeautifulSoup délègue le boulot au HTMLParser de Python, module qui n'est capable de parser que du html valide. Et merde. Tout l'intérêt de BeautifulSoup c'était **justement** de bien travailler même sur du html de merde.
ElementTree se prend aussi les pieds dans le tapis.
Quelqu'un aurait-ils une lib Python qui tienne la route pour parser de l'html de merde ?
http://sebsauvage.net/paste/?340905d7033fea2d#znGPa0PK/rEThv2oYghDoFBGJ0fdW9g7r9sOfbY7X0s=

EDIT: J'ai quelques pistes là: http://stackoverflow.com/questions/4114722/python-html-parsing-that-actually-works
(Permalink)