Accueil » Actualités web » Google ignore le noindex dans le robots.txt depuis le 01/09/2019

13mn de lecture

Google ignore le noindex dans le robots.txt depuis le 01/09/2019

04 avril 2024

Depuis le 1er septembre 2019, Google ne prend plus en charge les règles non publiées dans le Robots Exclusion Protocol (REP). Les développeurs qui utilisent encore les règles comme le noindex devront donc se rabattre sur les différentes alternatives déjà offertes par Google.

La société américaine a publié récemment sur son blog pour webmasters, plusieurs informations sur le sujet. Elle déclare ne pas vouloir modifier les règles du protocole, mais plutôt d’en déterminer essentiellement tous les scénarios non définis. Ceci pour la correspondance et l’analyse de la syntaxe de robots.txt. L’entité veut également standardiser le REP et rendre la librairie C++, utilisée pour l’analyse des fichiers robots.txt, open source.

Contenus masquer

1 Google ne prend plus en charge les fichiers robots.txt avec le « noindex » directive

2 Des alternatives à l’utilisation de la directive « noindex » dans le robots.txt

2.1 Noindex dans les balises méta robots :

2.2 Les codes d’état HTTP 404 et 410 :

2.3 Protection par mot de passe :

2.4 Désactiver dans le fichier robots.txt :

2.5 L’outil de suppression d’URL de la console de recherche :

3 Le Robot Exclusion Protocol (REP), c’est quoi ?

4 Il faudra trouver les moyens de vivre dans « ce nouveau monde » sans le noindex dans le robots.txt

Google ne prend plus en charge les fichiers robots.txt avec le « noindex » directive

Dans la proposition soumise à l’Internet Engineering Task Force (IETF) :

Google veut permettre à tout protocole de transfert basé sur un URI d’utiliser le robots.txt. Il ne s’agit plus uniquement d’une limitation au HTTP. Le protocole pourra être utilisé pour FTP et CoAP ;
Les développeurs devraient au minimum analyser les 500 premiers kibioctets du robots.txt. La définition d’une taille maximale de fichier réduit en outre, la charge des serveurs ;
Google fait la proposition d’une mise en cache de 24 heures maximales ou d’une valeur de directive de cache. Le développeur peut ainsi mettre à jour le fichier robots.txt n’importe quand ;
En cas d’inaccessibilité d’un robots.txt précédemment accessible pour des raisons de défaillance du serveur, les pages non autorisées ne sont plus analysées pendant une « période raisonnablement longue ».

L’entreprise américaine a également annoncé la suppression de tout code traitant des règles non prises en charge et non publiées telles que noindex. Elle évoque en effet, comme raison, le maintien d’un écosystème sain et la préparation à d’éventuelles versions open source. Il existe néanmoins quelques alternatives au noindex.

Des alternatives à l’utilisation de la directive « noindex » dans le robots.txt

Les webmasters qui utilisent la règle du noindex ne sont pas nombreux, mais ils existent. Depuis le 1er septembre, ils sont obligés de se rabattre sur d’autres méthodes.

Noindex dans les balises méta robots :

La directive noindex supportée autant dans les en-têtes de réponse HTTP qu’en HTML est un moyen efficace pour supprimer les URL de l’index quand l’analyse est autorisée.

Les codes d’état HTTP 404 et 410 :

Les deux codes d’état 404 et 410 veulent dire que la page n’existe pas. De façon explicite, le code d’état 404 indique que le navigateur a communiqué avec un serveur, mais que ce dernier n’a pas trouvé l’information ou la donnée demandée. Par ailleurs, le serveur peut envoyer cette erreur quand l’information a été trouvée, mais que l’accès n’y est pas accordé.

Pour ce qui est du code 410, il indique que l’accès à la ressource demandée est indisponible sur le serveur d’origine. Il notifie également que cet état pourrait être définitif. Pour ces codes, les URL sont supprimées de l’index de Google après analyse et traitement.

Protection par mot de passe :

Une page masquée par un identifiant est automatiquement supprimée de l’index de Google. À moins qu’il n’y ait des balises qui indiquent qu’il s’agit d’un contenu accessible par abonnement ou soumis à un paywall.

Désactiver dans le fichier robots.txt :

Les pages que les moteurs de recherche peuvent indexer sont uniquement celles qu’elles connaissent. En bloquant une page pour qu’elle ne soit pas parcourue, son contenu ne sera pas indexé. Même si le moteur de recherche peut indexer une URL grâce à des liens d’autres pages sans voir le contenu, il cherche à les rendre moins visibles à l’avenir.

L’outil de suppression d’URL de la console de recherche :

Il s’agit d’une méthode aisée et rapide qui permet la suppression temporaire d’une URL dans les résultats de recherche Google. Lorsqu’une demande est acceptée, le blocage dure au maximum 90 jours. Passé ce délai, les informations peuvent être affichées à nouveau dans les résultats. Si d’aventure Googlebolt n’arrive plus à accéder à l’URL, il conclut que la page a été supprimée. Il va donc considérer toute page détectée sur cette URL comme nouvelle. Elle apparaîtra ensuite dans les résultats de Google.

Le Robot Exclusion Protocol (REP), c’est quoi ?

Le webmaster Martijn Koster a créé en 1994 une norme, après l’invasion de son site par des robots d’exploration. Il s’agit du Robots Exclusion Protocol (REP). Le REP a ainsi vu le jour avec la contribution de nombreux autres webmasters. Il a été ensuite adopté par les moteurs de recherche pour prêter main-forte aux propriétaires de site web. Le but étant, de les aider à gérer plus aisément leur ressource de serveur.

La ressource au format texte est positionnée à la racine du site web et contient la liste des URL ne devant pas être indexées par les robots d’indexation des moteurs de recherche. De façon conventionnelle, les robots lisent donc le robots.txt avant l’indexation d’un site web. Sur un serveur web, le protocole d’exclusion des robots est souvent enregistré dans ce fichier texte.

Toutes les ressources n’ayant pas un intérêt public avéré ne se retrouvent alors pas dans les résultats d’un moteur de recherche. Le travail du serveur HTTP ainsi que le trafic sur un réseau informatique ne s’en trouve que plus allégé. Il ne faut toutefois pas occulter que ce protocole n’a pas un critère sécuritaire ; c’est une indication pour les robots bienveillants.

Certains robots ignorent sciemment le fichier pour trouver des informations personnelles. Le robots.txt peut accessoirement contenir en format XML, le sitemap, l’adresse d’un plan du site dévolu aux moteurs de recherche.

Il faudra trouver les moyens de vivre dans « ce nouveau monde » sans le noindex dans le robots.txt

Le géant du web donnait la possibilité aux webmasters de ne pas indexer des pages grâce au noindex dans le robots.txt. Mais depuis le 1er septembre, Googlebot ne prend plus en compte les règles comme le nofollow, le crawl-delay ou encore le noindex. Elles n’ont en effet jamais été documentées par Google. Ces règles ne correspondent pas, selon la société américaine, au standard sorti de l’esprit de Martijn Koster en 1994.

Les développeurs qui utilisaient la directive noindex dans le robots.txt devront donc changer leurs habitudes en optant pour d’autres solutions palliatives d’indexation comme le meta robots ou X-Robots-Tag noindex, les codes 404 et 410. C’est un événement qui montre que le moteur de recherche qui possède 90 % des parts de marché mondial ne se repose pas sur ses lauriers.

J’espère désormais que vous y voyez plus clair ! 😉

N’hésitez pas à me faire part de vos commentaires 👍

Auteur de l'article

Marie

Formée au journalisme en France. Ma formation terminée, j’ai travaillé pour la presse WEB avant de me lancer dans le monde du blogging aux sujets technologiques.

Il y a 16 jours