Magicprog.fr

Les fichiers robots.txt et sitemap.xml

Les fichiers robots.txt et sitemap.xml

Le fichier robots


Il est utile pour le référencement naturel de sites web et permet de spécifier des règles pour les robots.
Lors de l'indexation de votre site, le robot cherchera en premier lieu ce fichier afin de connaitre vos directives si il en existe.
Il ne pas surtout pas qu'il y ait de ligne vide dans ce fichier.
On pourra utiliser différents paramètres pour ses actions :

Pour interdire l'indexation de toutes les pages :

User-Agent: *
Disallow: /

Pour autoriser l'ajout de toutes les pages a l'index (la présence d'un fichier robots.txt vide, ou son absence équivalent à la même chose, donc ce n'est pas utile de le spécifier) :

User-Agent: *
Disallow:

Pour autoriser un seul robot en particulier :

User-Agent: nomDuRobot
Disallow :
User-Agent: *
Disallow: /

Pour interdire un seul robot en particulier :

User-Agent: NomDuRobot
Disallow: /
User-Agent: *
Disallow:

Pour interdire une seule page :

User-Agent: *
Disallow: /maPage.html

Pour interdire plusieurs page :

User-Agent: *
Disallow: /maPage.html
Disallow: /monRepertoire/maPage2.html
Disallow: /maPage3.php

Pour interdire toutes les pages d'un répertoire et ses sous-dossiers :

User-Agent: * Disallow: /monRepertoire/

On peut aussi indiquer l'emplacement du fichier sitemap (mais c'est facultatif si celui-ci s'appelle sitemap.xml) :

Sitemap: http://www.magicprog.fr/monSitemap.xml

Le fichier sitemap


Un sitemap est un plan de site et en représente l'architecture. Il permet d'indiquer les différentes pages à indexer aux robots, et reste très utile pour signaler des pages qu'i n'auraient pas forcément pu être détectées.
Il est écrit en XML et actuellement sous le protocole Sitemap 0.9 pour Google.
De nombreux outils et sites peuvent vous construire le sitemap, mais il est tout de même préférable de le créer soit même afin de s'assurer du respect du standard.
Pensez à échapper les caractères & => &amp;, ' => &apos;, " => &quot;, > => &gt;, < => &lt; dans vos adresses de pages.

Un exemple de sitemap avec le minimum de balises qui sont obligatoires :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.magicprog.fr</loc>
  </url>
  <url>
    <loc>http://www.magicprog.fr/article.php</loc>
  </url>
</urlset>

On pourra également spécifier en supplément certains paramètres facultatifs :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.magicprog.fr</loc>
    <lastmod>2005-01-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>http://www.magicprog.fr/article.php</loc>
  </url>
</urlset>

Quelques explications sur les différentes balises :
<urlset> : Permet d'encadrer le fichier et de spécifier le protocole (obligatoire).
<url> : Encadre chaque ligne d'URL (obligatoire).
<loc> : C'est l'url de votre page (obligatoire).
<lastmod> : La date de modification du fichier au format AAAA-MM-JJ (facultatif).
<changefreq> : Représente la fréquence à laquelle vous penser modifier votre page (Valeurs possibles : always => pages qui changent à chaque accès,hourly,daily,weekly,monthly,yearly,never => pages archivées uniquement). Les moteurs ne respectent pas forcément cette règle (facultatif).
<priority> : Définit la priorité de la page et par défaut à 0,5 (valeurs possibles de 0,0 à 1,0) et permet de signaler aux moteurs de recherche les pages que vous jugez les plus importantes pour les robots d'exploration. Attribuer une priorité élevée à toutes les pages est inutile (facultatif).


Nos articles Référencement & SEO