Shaarli : Add link sans bookmarklet = problème d'encodage des titres - GuiGui's Show - Liens
mardi 4 août 2015 à 12:17J'ai eu à faire à ce genre de soucis aussi.
Perso je parse les headers http à la recherche d'un encodage, sinon cherche dans la page. Si je trouve l'encodage, je l'utilise pour décoder la page et récupérer le title.
Si pas d'encodage, je prends UTF-8 en fallback.
Pour les caractères dangereux, un htmlspecialchars() suffit : il ne touche pas aux entités HTML.
Tant que j'y suis, faites aussi gaffe à :
- certaines pages sont irrécupérables s'il n'y a pas de referer voire d'autres en-têtes.
- certaines pages sont compressées avec GZip, sans que ce soit indiqué dans les en-têtes (cf http://lehollandaisvolant.net/?mode=links&id=20150713125503 ).
Tout ceci me permet d'avoir un comportement qui traite la (quasi)-totalité des cas (et encore je mets "quasi" ici parce que je sais que je tomberai tôt ou tard sur un cas bizarre, actuellement je n'ai aucun problème.
— (permalink)
Perso je parse les headers http à la recherche d'un encodage, sinon cherche dans la page. Si je trouve l'encodage, je l'utilise pour décoder la page et récupérer le title.
Si pas d'encodage, je prends UTF-8 en fallback.
Pour les caractères dangereux, un htmlspecialchars() suffit : il ne touche pas aux entités HTML.
Tant que j'y suis, faites aussi gaffe à :
- certaines pages sont irrécupérables s'il n'y a pas de referer voire d'autres en-têtes.
- certaines pages sont compressées avec GZip, sans que ce soit indiqué dans les en-têtes (cf http://lehollandaisvolant.net/?mode=links&id=20150713125503 ).
Tout ceci me permet d'avoir un comportement qui traite la (quasi)-totalité des cas (et encore je mets "quasi" ici parce que je sais que je tomberai tôt ou tard sur un cas bizarre, actuellement je n'ai aucun problème.
— (permalink)