Empêcher les moteurs de recherche d’indexer votre contenu
9 janvier 2012Voici les solutions préventives pou que certaines pages de votre site ne se retrouvent pas dans les résultat de recherche de Google, Bing et autres moteur.
A – les fichiers robots.txt
Dans ces fichiers vous préciser les parties de votre site qui ne doivent pas être visitées par les robots d’indexation :
Le fichier doit être positionné à la racine de votre site et s’appeler robots.txt. Il est composé des instruction suivante :
- User-agent : robot auquel s’applique la règle qui suit
- Disallow : URL ou répertoire à bloquer.
Exemple :
Vous souhaites que le répertoire admin de votre site ne soit pas visité par les robots, ajouter dans le fichier robots.txt les lignes suivante :
User-agent: *
Disallow: /admin/
Si vous avez plusieurs répertoires il suffit de les ajouter a la suite.
Exemple :
User-agent: *
Disallow: /admin/
Disallow: /repertoire_secret/
B – les fichier .htaccess
Ce fichier permet de configurer des répertoires ou des URL qui ne pourront être atteinte qu’avec un mot de passe. Comme les moteurs de recherche n’ont pas le mot de passe in ne pourront pas accéder au contenu protégé par les fichiers .htacces. C’est la façon la plus sure de sécuriser du contenu et de ne pas retrouver les pages protégé dans Goggle ou les autre moteurs comme Bing ou autre…
C – les balises meta
Vous avez également la possibilité d’indiquer aux robots que vous ne souhaitez pas indexer une ou plusieurs page grâce au balises meta :
<meta name="robots" content="noindex" />
Positionnées entre les balises <head> de votre page elles signaleront aux robots qui parcourent cette page qu’il ne faut pas indexer.
Problème : les robots de Google obéissent bien mais pas ceux d’autres moteurs de recherche…
Voir aussi : Retirer son contenu des moteurs de recherche
Si cet article vous a intéressé n’hésitez pas à vous abonner aux flux RSS
ou directement
par Mail.