Accueil » Blog » Fichier robots.txt : pourquoi certaines URL apparaissent dans Google malgré tout ?

Fichier robots.txt : pourquoi certaines URL apparaissent dans Google malgré tout ?

publié le 07 octobre dans Vidéos Google - 0 commentaire

Matt Cutts a publié une nouvelle vidéo à destination des webmasters. Il y explique pourquoi certaines URL apparaissent dans le moteur de recherche, bien que leur accès soit bloqué par le fichier robots.txt.

La vidéo :

Le résumé :

Ce n’est pas un bug. Ils utilisent la même manière de traiter le fichier robots.txt depuis plusieurs années et elle respecte les directives de ce dernier. Même si l’adresse apparaît dans les résultats du moteur de recherche, le contenu de la page n’est pas indexé. Seule sa référence (adresse) a été prise en compte suite à l’indexation des pages ayant un lien vers celle-ci.

Pourquoi Google agit-il ainsi ?

Historiquement, certains sites bloquaient l’accès complet à leurs pages par erreur. C’était le cas par exemple des sites de Nissan et de Metallica. Ces sites étant néanmoins pertinents, Google décida d’indexer uniquement leur adresse, présente dans leurs liens entrants. Ils utilisaient aussi la description disponible dans l’Open Directory (DMOZ) afin de renseigner les fragments visibles sur les pages de résultats (snippets).

Que faire pour garantir la non-indexation d’une page sur Google ?

Matt Cutts donne 2 solutions :

  • laisser Googlebot accéder librement à votre site et ajouter la balise meta robot noindex aux pages que vous ne souhaitez pas voir apparaitre dans le moteur de recherche ;
  • utiliser le fichier robots.txt pour bloquer l’accès à certaines pages, puis les effacer grâce à l’outil de suppression d’URL (URL Removal Tool) disponible dans les outils Google pour webmasters.

Abonnez-vous au blog

  • Envoyer
  • Digg
  • Del.icio.us
  • Stumble Upon
  • Facebook

{ 0 commentaires… ajoutez-en un maintenant }

Laisser un commentaire