Shaarli - Les discussions de Shaarli

Disallow (robots.txt) : ne l’utilisez pas pour « faire comme tout le monde »

dimanche 9 novembre 2014 à 21:55

Liens en vrac de sebsauvage 09/11/2014
Différence entre "Disallow" et "Noindex" dans le robots.txt
(Permalink)

Liens 10/11/2014
"""
La conclusion est double :

La directive Disallow n’est à utiliser dans le robots.txt que si vous ne voulez pas que Google consulte le contenu de votre page. Autrement dit qu’il n’ait connaissance que de l’URL et de rien d’autre. Tout en sachant qu’il va ajouter l’URL à son index.
Le Noindex est à utiliser dans le robots.txt si vous ne voulez pas que Google indexe le contenu de votre page. Cela ne signifie pas que le crawler ne le consultera pas ;)
"""
(Permalink)

Le bazar du petit panda roux. 10/11/2014
Bon à savoir!

Via: http://sebsauvage.net/links/?z2onzg
(Permalink)

Httqm's Links 11/11/2014
Article que je coudifie pour référence future, le temps de trouver un cas d'utilisation réel pour une ressource web publique mais non indexée... :-/
Ou alors elle ne devrait pas être totalement publique ? Auquel cas, c'est au niveau du serveur web qu'il faut agir...

(via : https://shaarli.pandouillaroux.fr/?fuK0WA)
(Permalink)

Le bazar de mydjey 12/11/2014
En bref :

User-Agent: *
Disallow: /truc/
(seules les URLs sont indexées, le contenu des URLs n’apparaît pas dans les résultats de recherche)

User-Agent: *
Noindex: /truc/
(ni URLs indexé ni contenu indexé)

(via http://sebsauvage.net/links/?z2onzg)
(Permalink)