PROJET AUTOBLOG


le hollandais volant links

Site original : le hollandais volant links

⇐ retour index

Shaarli : Add link sans bookmarklet = problème d'encodage des titres - GuiGui's Show - Liens

mardi 4 août 2015 à 12:17
J'ai eu à faire à ce genre de soucis aussi.

Perso je parse les headers http à la recherche d'un encodage, sinon cherche dans la page. Si je trouve l'encodage, je l'utilise pour décoder la page et récupérer le title.
Si pas d'encodage, je prends UTF-8 en fallback.

Pour les caractères dangereux, un htmlspecialchars() suffit : il ne touche pas aux entités HTML.

Tant que j'y suis, faites aussi gaffe à :
- certaines pages sont irrécupérables s'il n'y a pas de referer voire d'autres en-têtes.
- certaines pages sont compressées avec GZip, sans que ce soit indiqué dans les en-têtes (cf http://lehollandaisvolant.net/?mode=links&id=20150713125503 ).

Tout ceci me permet d'avoir un comportement qui traite la (quasi)-totalité des cas (et encore je mets "quasi" ici parce que je sais que je tomberai tôt ou tard sur un cas bizarre, actuellement je n'ai aucun problème.
— (permalink)