Les fichiers robots.txt sont les spécifications du protocole d’exclusion des robots des moteurs de recherche. Ils permettent de définir une liste de ressources d’un site qui ne doit pas être indexées par les moteurs de recherche. Seulement, si votre site est mal sécurisé, ce dernier fichier peut permettre à une personne mal intentionné d’obtenir des informations précieuses sur l’arborescence de votre site Web, voir d’accéder à des informations confidentiel.
Effectivement, il est d’usage d’utiliser le fichier robots.txt, pour empêcher l’indexation de certaines page, la plupart du temps il s’agit de page qui n’ont pas d’intérêt public. Cependant il arrive quelque fois, que l’on y spécifie certaines pages ou dossiers auquel on veut être sur qu’il ne soit pas indexé par les moteurs.
Ce fut par exemple le cas pour le site d’un club de sport. En analysant le fichier robots.txt du site, 3 lignes attirées l’attention:
|
Disallow: /files/
Disallow: /prive/
Disallow: /Extranet/
Disallow: /telechargements/
|

Les deux premiers dossiers étaient protégés et il n’était pas possible d’accéder aux données. Le répertoire Extranet était en fait le chemin pour pouvoir se connecter à la plateforme d’administration. Le plus important était le dernier répertoire. Ce dernier contenait tous les fichiers téléchargés par les visiteurs du site. C’est-à-dire toutes les candidatures qui ont été faites dans l’ensemble des clubs (il s’agit d’un club national).
Cette page non protégée permettait l’accès aux CV et lettre de motivation des candidats, lesquels permettait d’obtenir des informations privée et confidentiel tel que les adresses personnels, numéro de téléphone, photo et autres informations sensibles.

Cette faille rendu à été rendue possible grâce à plusieurs erreurs de configuration du serveur et de conception des pages.
-
La première est que la directive DirectoryIndex du serveur Apache était active et l’accès à un dossier permettait donc de lister les fichiers contenant dans ce dernier.
-
La seconde est qu’une simple page index.html vide aurait permis d'empêcher d'accéder à la liste des fichiers.
-
La troisième est une erreur flagrande de gestion des droits d'accès.
Ce qu’il faut donc retenir de cette histoire, et que bien que les fichiers robots.txt permettent d'empêcher les moteurs de recherche d'indexer certaines pages, il faut garder à l’esprit que ce dernier peut également fournir des informations utiles à des personnes malveillantes.
Ajouter un commentaire