Le référencement est l’ensemble des techniques qui permettent d’inscrire un site dans les moteurs de recherche ou dans les annuaires. Le référencement est souvent associé avec le positionnement.
Il existe deux types de référencements :
Le référencement naturel consiste à optimiser les différentes pages de son site Web afin d’apparaître dans les « top » positions des résultats de moteurs de recherche.
Les liens sponsorisés ou positionnement publicitaire consiste à payer (aux enchères, donc très coûteux) les moteurs de recherche pour obtenir un positionnement dans les espaces réservés à cet effet.
Terminologie
- L’annuaire
- il fonctionne telle une encyclopédie : les sites y sont classés par thème et par ordre alphabétique.
- Le moteur de recherche
- c’est un système automatique qui parcourt l’Internet et ajoute les sites et les pages qu’il rencontre à sa base.
- Le positionnement
- c’est le fait qu’un site donné soit en haut des résultats de recherche. Tout site peut être référencé (dans la base des outils de recherche) mais mal positionné (n’est pas présent dans les premiers résultats d’une recherche sur un mot spécifique)
Importance du référencement Web
Le nombre des utilisateurs du Web est des milliards d’utilisateurs dont la plupart se basent sur les moteurs de recherche pour trouver et accéder à l’information.
Donc, le référencement Web est une étape incontournable pour augmenter le nombre de visiteur. Il permet de faire apparaître un site Web suite à des requêtes ce qui assure qu’un site donné soit mieux placé que ses concurrents.
Un site Internet sans référencement dans les moteurs de recherche c’est l’équivalent d’un véhicule sans roue. En effet, un site internet n’est qu’un support de communication comme les autres, s’il n’est pas mis en avant (dans les dix premiers), il restera introuvable et donc sans lecteur. Il faut aussi savoir qu’un référencement ne se fait pas en une seule fois. Il faut surveiller la position de son site régulièrement.
Les techniques de référencement naturelles
Il existe quelques techniques de conception de site permettant de donner plus d’efficacité au référencement des pages d’un site :
- un contenu original et attractif,
- un titre bien choisi,
- une URL adaptée,
- un corps de texte lisible par les moteurs,
- des balises
<meta>
décrivant précisément le contenu de la page, - des liens hypertextes bien pensés,
- des attributs
alt
pour décrire le contenu des images.
Le contenu de la page Web
Les moteurs de recherche et les annuaires cherchent avant tout à fournir un service de qualité à leurs utilisateurs en leur donnant les résultats les plus pertinents en fonction de leur recherche ainsi il est indispensable de s’attacher à créer un contenu consistant et original.
Un contenu original ne signifie pas un contenu qui n’est proposé par aucun autre site, cela serait une mission impossible. En revanche, il est possible de traiter un sujet et de lui ajouter une valeur et ceci en approfondissant certains points, en l’organisant d’une manière originale et/ou en mettant en relation différentes informations.
D’autre part, toujours dans l’objectif de fournir le meilleur contenu aux visiteurs, les moteurs de recherche et les annuaires accordent de l’importance à la mise à jour des informations. Le fait de mettre à jour les pages du site permet donc d’augmenter l’indice accordé par le moteur au site.
Le titre de la page
Il faut veiller à ce que les titres des pages Web soient pertinents et contiennent des mots intéressants pour le référencement et qu’ils soient différents sur chaque page. Les titres des pages Web sont utilisés par les moteurs de recherche pour deux raisons :
– L’indexation des pages – L’affichage de votre page dans les résultats du moteur de recherche
L’insertion d’un titre se fait comme suit :
<tilte>le titre de la page</title>
Le titre doit décrire le plus précisément possible le contenu de la page Web et sa longueur totale recommandée ne doit pas dépasser 60 de caractères soit 6 ou 7 mots au maximum. Le titre est d’autant plus important qu’il s’agit de l’information qui s’affichera dans les favoris de l’internaute, ainsi que dans son historique.
L’URL de la page
Certains moteurs de recherche accordent une importance capitale aux mots-clés présents dans l’URL, notamment les mots-clés présents dans le nom de domaine. Il est donc conseillé de mettre un nom de fichier adapté, contenant un ou deux mots-clés, pour chacun des fichiers du site plutôt que des noms du genre “page1.html”, “page2.html”, etc.
Le corps de la page
Afin de valoriser au maximum le contenu de chaque page il est nécessaire que celui-ci soit transparent (par opposition aux contenus d’un site développé par exemple avec flash), c’est-à-dire qu’il comporte un maximum de texte indexable par les moteurs.
Les cadres (frames) sont fortement déconseillés car ils empêchent parfois l’indexation du site dans de bonnes conditions.
L’utilisation des titres et des sous titres sont très important pour le référencement. Il est intéressant aussi d’utiliser une barre de maillage ou bien un menu qui permet de naviguer entre toutes les rubriques principales du site : l’internaute peut ainsi naviguer facilement et savoir dans quel page il se trouve et cela augmente aussi le maillage des pages du site ce qui est très apprécié par les moteurs de recherche.
Les balises <meta>
Les méta données sont des informations situées au sein d’un document afin de le décrire. Les métadonnées sont ainsi utilisées par les moteurs de recherche lors du référencement de la page Web. Grâce à ces balises non affichées, il est ainsi possible de renseigner des informations relatives à la page où au site afin de mieux en décrire le contenu, en particulier des informations sur le ou les auteur(s) du document, sa limite de validité, la langue utilisée, etc.
On appelle ainsi «méta tags» (en français «méta-balises») des balises spéciales situées dans l’en-tête du document HTML (c’est-à-dire la balise <head>
, située avant la balise <body>
), afin de fournir des informations permettant aux moteurs de recherche d’indexer la page Web.
Exemple :
<!DOCTYPE html>
<html>
<head>
<title>ISET Sfax</title>
<meta name="keywords" content="ISET Sfax, INSTITUT SUPERIEUR ETUDES
TECHNOLOGIQUES, TUNISIE, Sfax, STUDIES, TUNISIA">
<meta name="description" content="Le site Web de l'institut superieur des
etudes technologiques de Sfax">
</head>
<body>
<!-- ... -->
</body>
</html>
Les différents types de balises méta
On distingue cinq types de méta tags :
- Les métas
name
, permettant de décrire la page HTML :
<meta name="nom du tag" content="attribut" />
- Le méta
charset
, permettant de définir le jeu de caractères qui devrait être utilisé pour le document.
<meta charset="utf-8" />
- Les métas
http-equiv
, permettant d’envoyer des informations supplémentaires au navigateur via le protocole HTTP. Depuis HTML5, 3 HTTP en-têtes étaient standardisés pour être utilisés définir dans ces balises méta (“Content-Security-Policy”, “default-style”, “refresh”) :
<meta http-equiv="nom du tag" content="attribut" />
- Les métas
itemprop
, permettant de définir des métadonnées supplémentaires qui ne sont pas destinées aux navigateurs Web. Ils sont par exemple utilisées pour définir les informations sémantiques pour le protocole Schema.org qui est utilisé par les moteurs de recherches comme Google Search pour explorer les sites Web.
<meta itemprop="nom du propriété" content="valeur" />
- Les métas
property
, permettant aussi de définir des métadonnées supplémentaires qui ne sont pas destinés aux navigateurs Web. Ils sont par exemple utilisées par définir les informations sémantiques pour le protocole Open Graph Protocol qui est utilisé par le site social Facebook pour explorer les pages Web
<meta property="nom du propriété" content="valeur" />
Exemple :
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8" />
<meta name="description" content="Un démo des meta données en HTML" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" />
</head>
<body>
</body>
</html>
Il est possible de renseigner plusieurs métas les uns après les autres dans l’en-tête de la page.
Exemples de balises méta name
author
Elle permet de présenter des informations sur l’auteur de la page
<meta name="author" content="Sawssen Hariz Abid">
copyright
Elle permet de référencer des informations de droits d’auteur
<meta name="copyright" content="Sawssen Hariz Abid 2017-2018, All Rights Reserved." />
description
Elle permet de décrire le contenu d’une page Web par un court texte son contenu apparait dans les pages de résultats de certains outils de recherche. Voici quelques conseils pour créer la balise méta description
:
- Elle ne doit pas faire plus de 250 caractères
- Il faut créer un résumé avec des phrases et éviter les fautes d’orthographes
- Et pour la page d’accueil il faut faire une balise description décrivant le site dans son ensemble
<meta name="description" content="Le site Web de l'institut superieur des
etudes technologiques de Sfax">
generator
Elle permet de décrire le nom de logiciel utilisé pour générer la page Web si la création de la page était automatisée.
keywords
Elle permet de décrire le contenu d’une page Web par une liste de mots clés. Voici quelques conseils pour créer la balise meta keywords :
- Pour une bonne efficacité on recommande de ne mettre que 5 ou 6 mots par pages séparés par une virgule.
- Un mot clé peut être composé de plusieurs mots. Il est recommandé d’utiliser des termes simples et précis (par exemple au lieu de choisir le mot clé « ISET de Sfax » on choisit « ISET Sfax»)
<meta name="keywords" content="ISET Sfax, INSTITUT SUPERIEUR ETUDES
TECHNOLOGIQUES, TUNISIE, Sfax, STUDIES, TUNISIA">
robots
Elle permet de spécifier le comportement du moteur de recherche à la rencontre de la page (indexation, suivi de liens…). Voici un tableau présentant les différentes valeurs de l’attribut content du robots :
Index | Le “robots” indexera la page. |
Noindex | Le “robots” n’indexera pas la page. |
Follow | Les liens seront indexés et suivis. |
Nofollow | Les liens ne seront pas indexés, ni suivis. |
All | Les liens ne seront pas indexés, ni suivis. |
None | Le “robots” passe mais n’indexe pas la page ni les liens |
<meta name="robots" content="index, follow">
Liens hypertextes
Afin de donner le maximum de visibilité à chacune des pages d’un site, il est conseillé d’établir des liens internes entre ces pages pour permettre aux robots indexeurs (appelés crawlers) de parcourir la totalité de l’arborescence du site. Ainsi, il peut être intéressant de créer une page présentant l’architecture du site et contenant des pointeurs vers chacune des pages qui le constitue.
D’autre part, il est important d’avoir des liens externes pointant vers le site Web car cela augmente d’une part le trafic et d’autre part la visibilité de ce site. Certains moteurs de recherches prennent en compte le nombre et la qualité des liens pointant vers un site pour caractériser son niveau de pertinence (c’est le cas de Google avec son indice appelé PageRank).
L’Attribut alt
de l’image
Les images du site sont opaques pour les moteurs de recherche, c’est-à-dire qu’ils ne sont pas capables d’en indexer le contenu, il est donc conseillé de mettre un attribut alt
sur chacune des images, permettant d’en décrire le contenu.
Voici un exemple de balise <img>
avec l’attribut alt
:
<img src="images/logo.png" alt="logo de l'ISET Sfax">
Le fichier robots.txt
Le mot robot ou encore spider désigne un programme circulant sur le Web dédié au traitement de documents Web en vue de leur indexation et intégration dans le moteur de recherche. Chaque moteur de recherche est caractérisé par un robot.
Présentation de robots.txt
Sur un site Web, on essaie de faire en sorte que ces pages soient indexées au mieux par les robots des moteurs de recherche. Mais il peut également arriver que certaines de ces pages soient confidentielles, (ou en travaux) ou en tout cas ils ne doivent pas être diffusés largement sur les moteurs de recherche. Il faut alors empêcher les robots de les prendre en compte.
Cela peut se faire à l’aide d’un fichier texte, appelé robots.txt
, présent sur la racine du site. Ce fichier va donner des indications au spider du moteur qui va vouloir explorer le site : ce qu’il peut faire ou ne doit pas faire sur le site.
Dès que le spider d’un moteur arrive sur un site (par exemple http://monsite.com/
), il va rechercher le document présent à l’adresse http://monsite.com/robots.txt
, avant d’effectuer la moindre indexation du document. Si ce fichier existe, il le lit et suit les indications inscrites. S’il ne le trouve pas, il commence son travail de lecture et d’enregistrement de la page qu’il est venu visiter ainsi que de celles qui peuvent y être liées, considérant que rien ne lui est interdit.
Structure du fichier robots.txt
Il ne doit exister qu’un seul fichier robots.txt
sur un site, et il doit se trouver au niveau de la racine du site. Le nom du fichier (robots.txt
) doit toujours être créé en minuscules. Voici un exemple de structure d’un fichier robots.txt
:
User-agent: *
Disallow: /cgi-bin/
Disallow: /settings/
Disallow: /profile/edit.html
Disallow: /reset-password.html
Dans cet exemple :
User-agent: *
signifie que l’accès est accordé à tous les agents (tous les spiders), quels qu’ils soient.- Le robot n’ira pas explorer les répertoires
/cgi-bin/
et/settings/
du serveur ni les fichiers/profile/edit.html
et/reset-password.html
. - Le répertoire
/settings/
, par exemple, correspond à l’adressehttp://monsite.com/settings/
. Chaque répertoire à exclure de l’aspiration du spider doit faire l’objet d’une ligneDisallow:
spécifique. La commandeDisallow:
permet d’indiquer que “tout ce qui commence par” l’expression indiquée ne doit pas être indexé. Disallow: /profile
ne permettra l’indexation ni dehttp://monsite.com/profile/index.html
, ni dehttp://monsite.com/profile.html
Disallow: /profile/
n’indexera pashttp://monsite.com/profile/index.html
, mais ne s’appliquera pas à l’adressehttp://monsite.com/profile.html
.
Voici quelques commandes très classiques et importantes du fichier robots.txt
:
- le fichier
robots.txt
ne doit pas contenir de lignes vierges. - L’étoile (
*
) n’est acceptée que dans le champUser-agent
. - Elle ne peut pas servir de joker comme par exemple :
Disallow: /entravaux/*
- Il n’existe pas de champ correspondant à la permission, de type
Allow:
- Les deux champs de description (
User-agent
etDisallow
) peuvent être indifféremment saisis en minuscules ou en majuscules - Les lignes qui commencent par un signe “
#
” représentent des commentaires. Disallow: /
Permet d’exclure toutes les pages du serveur (aucune aspiration possible).Disallow:
Permet de n’exclure aucune page du serveur (aucune contrainte).- Un fichier
robots.txt
vide ou inexistant aura une conséquence identique. Disallow: /profile/index.html
: interdiction de visiter ou d’indexer la pageindex.html
du répertoireprofile
.Disallow: /download/*.zip
: interdiction de visiter ou d’indexer les fichiers à extension.zip
du répertoiredownload
.User-Agent: googlebot
permet d’identifier un robot particulier (ici, celui de Google).
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /
# Permet au spider de google de tout aspirer, mais refuse les autres robots.
sitemap.xml
et robots.txt
Afin d’aider les moteurs de recherche (Google, Yahoo,…) à indexer le site Web, on précise dans le fichier robots.txt
l’arborescente du site décrite dans un fichier sitemap.xml
. Le fichier sitemap.xml
est un document XML permettant notamment de déclarer les URL d’un site Web dans l’objectif d’une indexation par les robots des moteurs de recherche.
On peut ajouter par exemple dans le fichier robots.txt
l’instruction suivante :
sitemap: http://monsite.com/sitemap.xml
Les logiciels de mesure d’audience
Les logiciels de mesure d’audience peuvent fournir des informations précieuses pour analyser et suivre les effets d’un référencement (nombre de visites, profil des visiteurs, mots-clés …). En voici quelques uns :
Google Analytics
Google Analytics n’est pas un logiciel mais un service Internet qui permet de suivre avec précisions l’évolution du trafic d’un site Web. Son principal avantage réside dans le fait qu’il ne nécessite aucune installation coté serveur. Il suffit seulement d’insérer un petit code sur chacune des pages de son site.
Les statistiques proposés sont facilement exploitables et certaines vous permettent de mesurer l’impact de votre référencement : analyse des sites affluents (sites, moteurs de recherche), identification des mots-clés,…
Matomo (Piwik)
Logiciel très répandu chez les hébergeurs de sites Web qui permet de visualiser et de mesurer la fréquentation de son site Web. On trouve aussi des statistiques (sous formes d’histogrammes et de tableaux) concernant les référents et moteurs de recherche qui ont permis d’atteindre un site donné.
Remarque :
Il existe plusieurs exemples de logiciel d’aide au référencement tels que : Submitic, The SkyFox Promotion, Yooda seeUrank, GenerMTag, GSA Auto SoftSubmit, AdaUrl,…
Mais, il est déconseillé d’utiliser ce type de logiciels car certains moteurs de recherche rejetteront les sites qui sont référencés à l’aide des logiciels de référencement automatique