Maîtrise MIAGE du CFA AFIA en apprentissage à l'IEA de Paris 1 – Panthéon - Sorbonne Année 2007
MOIRE DE FIN D ANNEE : TECHNIQUES DE REFERENCEMENT SUR INTERNET
Mots-clés :Visibilité sur Internet,
référencement, positionnement, annuaire,moteur de
recherche, robots, soumission manuelle.
Conférences à l'Université Paris 1 – Panthéon – Sorbonne.
Sommaire
Remerciements....................................................................................................3
Préface ...............................................................................................................4
I.
Introduction au référencement web ou la nécessité d'un bon référencement..........4
A.
Classification des outils de recherche.................................................................................5
B.
Guerre des outils de recherche et futures évolutions du marché ........................................ 11
C.
Différence entre référencement, indexation,
positionnement et visibilité............................. 13
D.
Différents points de vue du référencement
......................................................................
14
II.
L'état de l'art du référencement .................................................................... 16
A.
Les éternelles (?) balises META....................................................................................... 16
B.
Les autres balises .......................................................................................................... 21
C.
Gestion des différents contenus ...................................................................................... 27
D.
L'URL ReWriting ............................................................................................................ 28
E.
Les fichiers robots.txt..................................................................................................... 30
F.
Plan du
site...................................................................................................................
31
G.
Redirections..................................................................................................................
33
H.
Référencer un site multilingue
........................................................................................
35
I.
Soumission manuelle dans les annuaires.......................................................................... 36
J.
Dernières
astuces..........................................................................................................
38
III. Pratiques condamnables .............................................................................. 39
A.
Les pages satellites........................................................................................................ 39
B.
Spamdexing.................................................................................................................. 42
C.
Cloaking
.......................................................................................................................42
D.
Google Bombing............................................................................................................ 43
IV. Les solutions payantes................................................................................. 45
A.
Soumission payante....................................................................................................... 45
B.
Référencement
payant...................................................................................................
45
C.
Positionnement payant................................................................................................... 45
D.
Référencement par des prestataires
................................................................................
46
V.
Exemple de référencement........................................................................... 47
Cas du "Mangeur de cigogne".................................................................................................. 47
VI. IMS-Entreprendre pour la Cité ...................................................................... 49
A.
Présentation..................................................................................................................
49
B.
Le site
..........................................................................................................................
49
C.
Application....................................................................................................................52
VII. Conclusion ................................................................................................. 60
Annexe 1 .......................................................................................................... 62
Annexe 2 .......................................................................................................... 63
Préface I. Introduction au référencement web ou la
nécessité d'un bon référencement
Cela fait plus de 15 ans qu'Internet existe. D'abord peu utilisé, réservé aux initiés
Américains, il s'est ensuite doucement développé pour enfin véritablement arriver en
France dans les années 1996-1997.
Cependant, on peut dire que les années 2000 ont réellement contribué à la
démocratisation du web en France.
Au cours des quatre dernières années, et principalement parce que des technologies haut
débit sont arrivées sur le marché, le nombre d'internautes français est passé de 10
millions à plus de 24 millions.
La France a aujourd'hui pratiquement comblé son retard en matière de nouvelles
technologies. Elle se situe ainsi dans la moyenne des pays développés.
Il va sans dire que si le nombre d'Internautes a explosé de la sorte, le nombre de
pages et de services sur Internet a fait de même.
En 2005, le nombre mondial d'internautes devrait dépasser un milliard. Et ce nombre ne
va cesser d'augmenter avec l'arrivée des nouveaux pays développés.
Aujourd'hui, la question n'est plus de savoir où l'on va trouver l'information qui
nous intéresse mais plutôt comment est ce qu'on va pouvoir trouver une information
pertinente parmi la multitude des pages qui nous sont proposées.
Partant de ce principe, les différents annuaires et moteurs de recherche ont
développé leurs méthodes pour indexer et référencer le contenu des sites internet.
Il y a encore quelques années, seules les grandes entreprises possédaient leur site
web. Celles-ci n'avaient pas besoin de se pencher sur la question du référencement
puisque les moteurs de recherche et autres annuaires n'étaient que très peu nombreux.
1
Accès au site : http://www.imsentreprendre.com (ou via un moteur de recherche
page 5
5/64
A cette époque, la grande majorité des connexions sur un site quelconque se faisait par
accès direct (en connaissant l'URL
i
) ou par liens externes (en suivant des liens
hypertexte).
Aujourd'hui, c'est différent. La majorité des entreprises, petites ou grandes possèdent un
site web.
Si elles ont compris qu'un bon site pouvait étendre considérablement leur zone
d'influence et leurs parts de marché, elles savent aussi qu'il est impératif que leur site
puisse être visible sur la toile.
Des études comparatives montrent que le référencement reste une méthode
moins onéreuse que les méthodes de marketing traditionnelles.
ii
A l'heure actuelle, en France, les différents moyens d'accéder à un site sont les suivants :
37%
33%
30%
Moteurs de recherche / annuaires
Liens
Accès direct (liens et favoris)
L'accès par les outils de recherche n'est donc évidemment pas à négliger.
Le principal problème pour ces outils est le nombre monumental de pages à
indexer. Par exemple, Google recense à l'heure actuelle environ 8 milliards de pages au
contenu statique (.html, .doc, .pdf, .ppt, image etc). Or les ordinateurs (serveurs) qu'il
utilise pour l'instant ne lui permettent pas, a priori, d'indexer beaucoup plus de pages
que cela.
En effet, le risque est qu'en voulant indexer encore plus de pages dans sa base de
données, Google soit obligé de gérer des index de 40 bits. Dans ce cas, les temps de
calculs et d'accès aux différents documents seraient beaucoup trop longs.
Google, comme les autres, travaille sur la possibilité de gérer des bases de
données gigantesques avec des machines toujours plus puissantes (serveur 64 bits)
iii
. En
attendant, il n'est pas rare de voir des pages, jusque là indexées, remplacées par de
nouvelles au contenu plus pertinent. Cela est d'autant plus vrai pour les annuaires qui,
en général, disposent d'un index plus petit et ont des critères de sélection beaucoup plus
stricts.
Ainsi, le classement dans les outils de recherche n'est pas définitif est doit être suivi en
permanence.
A. Classification des outils de recherche
Nous utilisons quotidiennement les outils de recherche qui sont à notre disposition
sur Internet. Cette étape est devenue quasiment obligatoire lorsque l'on recherche des
informations sur le net. Il faut savoir que "plus de 80% des internautes utilisent les outils
de recherche pour trouver le site d'une enseigne qu'ils connaissent"
iv
. Il est évident que
"la recherche sur les moteurs de recherche est devenu un réflexe pour plus de 90% des
utilisateurs réguliers d'Internet"
v
.
Nous utilisons donc couramment les outils de recherche mais combien d'entre nous
savent qu'il existe deux principaux types d'outils ?
Page 6
6/64
Il s'agit des annuaires et des moteurs de recherche. Ils se différencient
principalement par le fait qu'ils n'utilisent pas la même méthode pour indexer leurs
pages.
Cette distinction essentielle n'est pourtant pas celle qui saute aux yeux de l'utilisateur
lambda. Pour lui, la différence s'arrête certainement au mode de recherche et à
l'agencement des résultats.
Plus pratiquement, si on voulait assimiler Internet à un grand un livre, "les
annuaires (ou guides) thématiques en seraient la table des matières, bien partielle, et les
moteurs de recherche un moyen de chercher l'information mot par mot, mais sans bien
savoir le contenu du livre".
vi
1. Les annuaires
Les annuaires (ou répertoire) indexent les sites web grâce au travail de
personnes physiques. Ils classent les sites par catégorie et sous catégorie de la plus
générale à la plus spécifique. Les recherches se font donc sur ces catégories et les
résultats sont présentés par ordre alphabétique.
Un webmestre souhaitant enregistrer son site doit le faire au moyen d'un
formulaire électronique généralement accessible depuis la page d'accueil de l'annuaire. Il
renseigne alors ce formulaire avec la description de son site, son adresse, son titre, sa
catégorie et la sous catégorie. Après validation du formulaire, sa demande sera traitée
par une personne physique qui ira regarder le site. Suivant une notation par rapport à
des critères propres à chaque annuaire, cette personne (nommée "netsurfeur") décidera
ou non d'inclure le site dans la base de données de l'annuaire.
Les éléments requis lors d'une demande d'inscription sont très importants car la
recherche au moyen d'un mot-clé est basée sur ces éléments (adresse Web, titre,
description) et non sur le contenu des pages du site en question.
Les avantages
Les inconvénients
Lors
d'une
recherche,
on
obtient
rapidement
une
sélection
de
sites
correspondant à une catégorie précise
Les sites répertoriés doivent être inscrits
manuellement
1
Qualité des sites répertoriés
La mise à jour de la base de données est
plus longue que pour un moteur de
recherche
Le classement des résultats se fait par
ordre alphabétique et non par pertinence
Comme le contenu des sites a été examiné
par des personnes, il y a moins de risques
d'obtenir des résultats erronés
Les critères d'acceptation sont souvent
sévères
L'annuaire le plus connu reste sans doute Yahoo!. Il fut le pionnier et, en 1994,
recevait déjà plus de 10 000 visiteurs par jour. Aujourd'hui, c'est plus de 200 millions de
visiteurs par mois.
vii
Pourtant il reste derrière le moteur de recherche Google. Il est vrai
qu'historiquement, les annuaires sont arrivés avant les moteurs de recherche puisque la
technologie ne permettait pas d'indexer automatiquement les pages. Pour contrer cette
attaque, Yahoo! dispose depuis 2004 d'un moteur de recherche en plus de son annuaire.
1
Soumission manuelle via les formulaires spécifiques à chaque annuaire.
Page 7
7/64
L'Open Directory Project
"L'Open Directory Project (ou ODP) est le plus grand et le plus complet des
répertoires du Web édités par des êtres humains. Il est développé et maintenu par une
vaste communauté mondiale d'éditeurs
bénévoles. […] L'Open Directory a
été fondé dans
l'esprit du mouvement Open Source et est le seul répertoire d'importance majeure à être
totalement gratuit."
viii
Enfin, pour conclure sur cette partie réservée aux annuaires, l'essentiel à retenir
est que le classement se fait de manière arborescente, suivant des thèmes et des
rubriques et que la classification manuelle permet une approche qualitative.
2. Moteur de recherche
Pour simplifier, on peut voir un moteur de recherche comme une immense base
de données qui recenserait les principaux sujets de chaque page présente sur le web.
Le moteur de recherche propose, contrairement à l'annuaire, une recherche par
mot-clé.
Il est bien évident que lorsque vous faites une requête sur un moteur de
recherche celui-ci ne va pas parcourir "l'ensemble" du web pour vous fournir une réponse
pertinente.
Il se contente d'aller regarder dans sa base de données ce qui correspond le mieux à
votre requête. Cette base de donnée est mise à jour
régulièrement afin de référencer les
nouveaux sites qui apparaissent quotidiennement sur la toile.
Cette mise à jour est possible grâce à des "robots"
1
qui parcourent en permanence et de
manière automatique l'ensemble des serveurs web.
Lors d'une requête sous forme de mots-clés sur un moteur de recherche, celui-ci consulte
son index pour fournir l'ensemble des résultats. Ces réponses sont triées par ordre
de pertinence suivant un algorithme propre à chaque moteur de recherche.
A titre de comparaison, un moteur de recherche renvoie une liste de pages web alors
qu'un annuaire retourne une liste de sites.
Les avantages
Les inconvénients
Les recherches donnent plus de résultats
car la base de données d'un moteur de
recherche est beaucoup plus importante
que celle d'un annuaire
Les recherches peuvent générer une
masse importante de résultats
La base de données est mise à jour plus
fréquemment
Comme le contenu des sites n'est pas
examiné par des humains, la qualité des
résultats peut être moindre
Le classement des résultats de recherche
est effectué par pertinence et non par ordre
alphabétique
Je pense qu'il n'est plus nécessaire de vous présenter Google et son index de plus
de huit milliards de pages.
1
"Robots" ou "araignées" ou encore "crawler"
Page 8
8/64
En revanche, je vais revenir sur certains points particuliers de Google car il fait office de
référence en matière de moteur de recherche. De plus, et bien que nous verrons plus
tard que cela peut changer, beaucoup de gens considèrent qu'un bon référencement
dans Google constitue un référencement suffisant…
a. Les robots – L'exemple du GoogleBot
1
Nous avons vu que la mise à jour des bases de données de Google était effectuées
grâce à des robots.
Comprendre comment ils fonctionnent, c'est-à-dire savoir ce qu'ils recherchent
réellement sur nos pages, nous permettra, je pense, de minimiser les risques de passer à
côté d'un bon référencement.
Nous savons qu'ils explorent le web de pages en pages à la recherche
d'informations pertinentes qu'ils enregistreront dans leur gigantesque base de données.
Etant donnée la taille colossale de leur travail, il faut bien comprendre qu'ils ne passent
pas tous les jours sur votre site web. Partez du principe qu'ils passeront 2 à 3 fois par
mois sur un site déjà bien référencé. Mais sachez qu'ils peuvent également ne jamais
passer si rien n'est fait pour les "attirer".
On pourrait penser que les robots sont des monstres de technologie capables de
faire énormément de traitements avec une page web… Il n'en est rien. En réalité, ils se
comportent exactement comme un navigateur de base. Ils fonctionnent en mode texte
comme le fait le navigateur Lynx. C'est-à-dire qu'ils ne gèrent pas les images, les
animations Flash, les différentes polices de caractères, leurs tailles. Les frames
2
, les
pages à accès restreint (protégées par mot de passe) et les scripts (JavaScript, applets
java, pages dynamiques etc.) sont également ignorés contrairement aux formulaires et
cookies qu'ils savent gérer. Cette gestion très spartiate des pages leur permet par contre
d'être très rapides à la parcourir.
Concrètement, lorsque l'on souhaite accélérer le référencement d'un site, la seule
chose que l'on puisse faire est soumettre l'URL aux moteurs de recherche. Pour Google, il
faut se rendre sur la page (http://www.google.fr/addurl/?hl=fr) et remplir le formulaire.
Cette étape est similaire à la soumission manuelle que l'on ferait avec un annuaire à la
différence que le formulaire est plus sommaire. Ceci a pour unique but de mettre l'URL
en queue de liste des URL que le moteur va devoir analyser.
Une fois le robot arrivé sur votre site, il commence par regarder s'il existe un
fichier "robots.txt" puis analyse la page courante avant de suivre les liens qu'il pourra
trouver dessus. C'est pour cette raison qu'un robot peut arriver sur votre page même si
vous ne lui avez pas demandé explicitement. Par contre, cela risque de lui prendre plus
de temps pour trouver votre site.
NB : Si votre serveur est surchargé ou en panne au moment où un robot essaye de s'y
connecter, le robot est normalement configuré pour réessayer un certain nombre de fois
avant de considérer que le site n'existe plus. Cette sécurité sert à éviter de supprimer
des sites de l'index du moteur alors qu'ils ne sont que momentanément indisponibles. Au
pire, les informations dont dispose le robot sur votre site ne seront pas mises à jour
avant son prochain passage.
1
GoogleBot : nom du robot d'indexation développé par Google
2
Frames : Concept inventé par Netscape. Consiste à afficher le résultat de l'assemblage de plusieurs pages
HTML dans une seule fenêtre du navigateur.
Page 9
9/64
b. Le PageRank
Google a développé un algorithme pour lui permettre de mesurer la popularité et
la pertinence des pages qu'il retourne en réponse à une requête. Cette note s'appelle le
PageRank.
Le principe de PageRank est simple : tout lien pointant de la page A à la page B
1
est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne
limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède
également à une analyse de la page qui contient le lien. Les liens présents dans des
pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à
« élire » d'autres pages"
ix
.
Le PageRank est donc très intéressant car on peut supposer
qu'un site populaire soit de meilleure qualité (fiabilité des informations disponibles par
exemple) qu'un autre moins consulté.
Notez cependant que cette technique, telle que je viens de vous la présenter, ne
permet absolument pas d'affirmer que les résultats correspondent à votre requête. C'est
pourquoi le PageRank est complété par d'autres critères plus spécifiques aux mots-clés
par exemple. Le PageRank est mis à jour à chaque GoogleDance.
Google fut le premier à perfectionner ses agents de recherche afin que ceux-ci ne
se contentent plus seulement des balises "META" présentes en entête de chaque page.
Cette technique est certainement à l'origine du succès de Google puisque, dès ses
débuts, il a su proposer des résultats pertinents.
c. La GoogleDance
Pour répondre plus vite aux requêtes, Google a choisi de répartir ses nombreux
serveurs (environs 40 000) en une dizaine de "Data Center" implantés principalement
aux Etats-Unis et en Europe. Ainsi, les requêtes que vous faites sur www.google.fr sont
traitées par un Data Center choisi en fonction de deux critères :
-
votre localisation géographique
-
la charge du Data Center le plus proche.
Vous comprendrez que cette architecture ne permet pas de maintenir les bases de
données parfaitement synchronisées d'un Data Center à l'autre.
Sachant cela, on comprend pourquoi des requêtes identiques réalisées depuis un même
poste mais à des moments différents peuvent finalement donner des résultats différents.
Avant d'opter pour une indexation continue, Google mettait à jour sa base de
données une fois par mois. Cette mise à jour majeure mettait les Data-Centers dans des
états profondément différents les uns par rapport aux autres. Ainsi, les résultats
pouvaient beaucoup varier suivant le centre que l'on interrogeait. Ce phénomène fut
baptisé GoogleDance. Elle pouvait durer jusqu'à une semaine. Chaque "dance" était
baptisée… comme le sont les cyclones !
Nous venons de voir ce qu'est une GoogleDance, essayons maintenant de
comprendre ce qu'elle apporte aux webmasters.
Google, avant de rendre accessible son nouvel index, le teste sur deux domaines
particuliers accessibles aux adresses suivantes : www2.google.com et www3.google.com.
Ces domaines publics possèdent, en général, une version de l'index plus à jour
que celle utilisée par le site www.google.xxx. Ils permettent aux webmasters d'avoir un
1
On parle alors de BackLink (BL) de A vers B. Google utilise constamment les BL pour classer ses sites. La
commande link: de Google permet de connaître ces BL.
Page 10
10/64
aperçu de ce que sera leur position lorsque le nouvel index sera passé. En effet, c'est en
fonction de ce qui apparaîtra dans le nouvel index que Google pourra calculer les
nouvelles valeurs des PageRank.
Ainsi, cette période est utile aux référenceurs pour que ceux-ci peaufinent leur
technique. S'ils ratent la GoogleDance, ils n'auront qu'à attendre le prochain passage du
robot.
3. Les hybrides ou outils mixtes
Ils proposent une méthode de recherche soit sous forme d'annuaire, soit sous
forme de mots-clés.
En général, ils ne disposent que d'une taille d'index assez restreinte. Ils sont utilisés pour
effectuer des recherches au sein d'un même site web.
Un cas concret est celui du site http://www.telecharger.com qui propose de rechercher
un logiciel par son nom ou alors de le retrouver à travers les catégories proposées.
L'objectif est de dégrossir les recherches en sélectionnant les thèmes importants
dans l'annuaire et terminer l'analyse par une recherche plus fine par les mots-clés.
4. Les métamoteurs
Les métamoteurs sont des moteurs de recherche qui basent leurs recherches sur
l'interrogation de plusieurs autres moteurs de recherche. Le plus connu est sûrement
Copernic qui fournit un résultat issu de plus de 100 moteurs différents. Si cela était
intéressant à la fin des années 90, ça n'est plus vraiment le cas aujourd'hui. Surtout
Annuaire
Moteur de recherche
Page 11
11/64
quand on sait que Google retourne à lui tout seul des milliers de pages pour une
recherche…
C'est pourquoi, les métamoteurs ont dû trouver des moyens de se démarquer des
moteurs de recherche. Outre le fait qu'ils n'aient pas de base de données propre !
Pour cela, ils ont dû proposer des fonctions supplémentaires telles que la suppression des
doublons, des liens morts et la possibilité d'ajouter des filtres pour trier les résultats.
N'utilisant pas de base de données propre, ils ne représentent aucun intérêt du point de
vue du référencement.
B. Guerre des outils de recherche et futures évolutions du marché
En France, on constate que 73% des recherches se font sur Google. L'hégémonie
de Google dure depuis quelques années et ne semble pour l'instant pas remise en cause.
Pourtant, de nouveaux acteurs tentent de s'implanter sur ce créneau très porteur.
1. La bonne guerre de Yahoo! et Google
Nous connaissons depuis le début la guerre qui oppose Google à Yahoo!. Pourtant,
ces deux outils de recherche ne proposent pas tout à fait les mêmes services. En effet,
Google s'est spécialisé dans le moteur de recherche et ne fait que ça, alors que Yahoo!
est un annuaire (et maintenant depuis peu un moteur de recherche) qui propose aussi un
portail contenant une grande source d'informations immédiatement disponibles.
Pour preuve de la guerre de ces deux géants de la recherche sur Internet, il y a
un an de cela, si on tapait trop vite www.yahoo.fr dans son navigateur, on avait de
grandes chances d'arriver sur le site de Google. Google ayant acheté le nom de domaine
www.yahooo.fr afin de faire une redirection
1
sur son propre site. Yahoo! avait alors vite
riposté en achetant www.gooogle.com !
Le 9 Août dernier, Yahoo! annonçait que son index recensait désormais 20
milliards de documents. Google Image a immédiatement répliqué en affirmant que son
moteur de recherche dédié aux image n'indexait plus 1.3 mais 2.2 milliards de photos.
2. Un nouvel acteur : MSN Search
Aujourd'hui la guerre continue mais les choses risquent d'évoluer plus rapidement
avec l'arrivée de Microsoft sur le marché. En effet, le géant de Redmond a décidé de se
lancer dans la recherche sur internet. La différence réside dans le fait que Microsoft
possède des fonds énormes qu'il semble prêt à investir pour s'implanter rapidement sur
ce marché.
Notez que "le chiffre d'affaires annuel de Google ou de Yahoo! ne représente "que" deux
mois de résultat de Microsoft". Ainsi, "ce que Google a mis quatre ans à construire,
Microsoft peut l'obtenir en quelques mois."
x
L'avenir nous dira lequel des grands du référencement gagnera mais en attentant, en
France, Google semble particulièrement bien tirer son épingle du jeu.
1
Une redirection est une action, transparente pour l'utilisateur, qui permet de le réacheminer d'une page vers
une autre en changeant automatiquement son URL.
Page 12
12/64
(Source : http://www.barometre-referencement.com/question_du_mois.htm)
3. La guerre du nombre de pages indexées
Comme je vous l'ai dit, Google se vente d'indexer le plus grand nombre de pages.
Le 3 mars dernier on pouvait trouver sur la page www.google.fr :
Il semblerait pourtant que son index ne fasse pas vraiment la taille indiquée… Il s'agirait
plutôt d'une estimation par interpolation. D'ailleurs, Google a annoncé qu'il avait doublé
la taille de son index (passant ainsi de 4 à 8 milliards de pages) le jour où Microsoft
lançait la version d'essai de MSN Search qui, elle, est sensée indexer 5 milliards de
pages. Bizarre donc…
Si on en croit l'étude "Comptes bidons chez Google ?"
xi
, on remarque ainsi
quelques incohérences traduisant clairement que Google et les autres se livrent une
guerre acharnée.
A titre d'exemple, le mot anglais "the" permet de faire une recherche sur la
quasi-totalité des pages anglaises. Voici le résultat, dans toutes les langues, de la
recherche sur Google.
Tout juste 8 milliards de résultats… Bref, ce qui est étonnant c'est qu'en ne cherchant
que sur les pages anglaises, on obtient le résultat suivant :
Soit à peu près 1% du résultat précédant ! Sous-entendant par la même occasion que
"the" se trouve dans 99% des cas dans des pages non anglaises…
Pourtant, on ne peut pas dire qu'un moteur qui indexe plus de pages qu'un autre
soit de meilleure qualité qu'un autre.
12%
76%
5%
Page 13
13/64
En général, nous autres internautes sommes plutôt perdus devant le nombre de
résultats que peut nous renvoyer une recherche.
Le problème est généralement que l'on obtient trop de réponses plutôt que pas
assez ! L'internaute ne s'en rend même pas compte. Il s'en fiche même de savoir que sa
requête sur MSN Search lui retourne 653 125 réponses alors que la même interrogation
de Google lui en retourne le double.
Les statistiques montrent que "91% des internautes changent de requête s'ils sont
insatisfaits des quarante premiers résultats". En allant plus loin, on montre que "les 10
premiers résultats reçoivent 78% de trafic supplémentaire par rapport à ceux qui sont
listés de la onzième à la trentième position."
xii
C'est justement en sachant ceci que l'on comprend l'intérêt d'un bon
référencement et plus particulièrement celui d'un bon positionnement. Nous allons tout
de suite définir ces deux termes.
C. Différence entre référencement, indexation, positionnement et visibilité.
Au cours de ce rapport, je vais fréquemment utiliser les quatre termes ci-dessus.
Il est essentiel de bien comprendre la différence entre ces expressions.
Le référencement, dans son acceptation large, peut être défini comme
l'ensemble des actions permettant à un site d'être présent dans les bases de données des
outils de recherche. L'action visant à être répertorié est « l'indexation »
xiii
Il y a encore quelques années, l'objectif était uniquement de se faire référencer
par les moteurs de recherche.
On constate qu'aujourd'hui le but reste bien évidemment d'être référencé par le plus de
moteurs de recherches/annuaires possibles mais l'accent est surtout mis sur le
positionnement.
Le positionnement prend appui sur les fondements du référencement. Mais le
terme de positionnement sous entend que l'on évalue le référencement par rapport à
quelque chose. Dans le cas du site web d'une entreprise, on peut comparer sa position
par rapport à celle de ses concurrents. On pourra ainsi estimer le rang auquel apparaîtra
un site dans la liste des résultats retournés par un outil de recherche à la suite d'une
requête précise.
Nous avons déjà vu "que plus de 70% des internautes ne consultent que les deux
premières pages de résultats"
xiv
. Même au sein de la première page, la compétition est
rude. En effet, "le premier site qui apparaît lors d'une requête reçoit trois fois plus de
clics que le cinquième"
xv
.
La nécessité d'être bien positionné n'est donc plus à démontrer.
Pour finir, la visibilité d'un site fait plus référence à la stratégie qui sera mise en
place pour cibler le marché et les clients que l'on veut atteindre. L'objectif de la visibilité
étant de se faire connaître des clients et de se distinguer des concurrents.
Page 14
14/64
D. Différents points de vue du référencement
Avant d'étudier en détail les différentes techniques de référencement, je pense
qu'il est important de bien mettre l'accent sur un point essentiel du référencement.
Ce point concerne la divergence qui réside entre l'objectif des outils de recherche
et celui des webmasters.
En effet, il faut bien comprendre que le but d'un webmaster soucieux de son
référencement est de faire apparaître son site en tête des résultats des moteurs de
recherche (c'est-à-dire être bien positionné).
Par contre, l'objectif des moteurs de recherche et des annuaires est, quant à lui, de
retourner le maximum de résultats pertinents par rapport à une requête faite par un
internaute.
Cette divergence de points de vue entre les deux principaux acteurs du
référencement explique pourquoi les techniques de référencement ont tellement évolué
au cours des dernières années.
Vous l'aurez compris, les webmasters étudient les moteurs de recherche afin de
comprendre comment ils fonctionnent. Grâce à ces informations, ils sont capables de
trouver les failles leur permettant d'atteindre le haut des classements. De leur côté, les
moteurs de recherche sont obligés de réagir rapidement afin de condamner les abus des
référenceurs et ainsi toujours garantir des résultats cohérents.
Ainsi, on peut classer les techniques
1
suivant leurs évolutions :
Action des moteurs de recherche
sens
Riposte des webmasters
Les balises méta du langage HTML
ont été inventées dans le but de
permettre le
référencement des
pages. Les premiers robots
ne
prenaient alors en compte QUE ces
balises
Du coup, les webmasters en ont profité
pour abuser de ces balises… Ils ont créé
le spamdexing et le "bourrage de
mots-clés"
Les moteurs ont du riposter en
prenant de moins en moins en
compte ces balises. Ils se sont alors
focalisés sur d'autres balises : title,
Hx, b et alt
De la même manière, on a vu
apparaître des pages contenant de
nombreuses répétitions de mots-clés
dans ces balises
La technologie ayant suffisamment
évolué, les robots ont alors étés
capables de rechercher eux-mêmes
les mots pertinents dans le contenu
textuel des pages. Le webmaster ne
devait alors plus pouvoir tromper les
robots
Les webmasters ont alors choisi de
créer de nombreuses pages au contenu
optimisé pour les moteurs de recherche.
En couplant ces pages avec une
redirection, ils on inventés les pages
satellites… Pages qui furent rapidement
condamnées par les moteurs
de
recherche
Pour éviter d'indexer de trop
nombreuses
pages satellites, les
moteurs tentent de les repérer et de
les bannir de leurs index
Pour limiter le risque de se faire exclure
des moteurs de recherche par une
utilisation abusive des pages satellites,
les webmasters ont développé une
1
Ce tableau donne le nom et les grandes lignes de quelques techniques. Elles seront explicitées par la suite
.
Page 15
15/64
nouvelle
technique.
Celle
dite du
cloaking qui permet de présenter un
contenu différent d'une même page
suivant que c'est un internaute qui la
visionne ou un robot qui la parcourt.
Pour réduire le risque de cloaking,
certains moteurs changent le nom de
leurs robots
Les webmasters ont amélioré leurs
scripts de cloaking pour identifier les
robots en fonction de leur adresse IP et
non plus seulement à partir de leur nom
Il semble que les moteurs n'aient pas
encore vraiment réagi à ce sujet. Cela
vient sûrement du fait qu'un bombing
n'est pas facile à mettre en œuvre
puisqu'il
doit
être
réalisé
simultanément par plusieurs milliers
de webmasters.
Une des dernières techniques utilisée
par les webmasters est le bombing.
Ce cycle d'évolution peut se résumer de la manière suivante :
Page 16
16/64
II. L'état de l'art du référencement
A. Les éternelles (?) balises META
1. Présentation
Historiquement, les premiers moyens mis en œuvre pour référencer un site
étaient simples et efficaces. La raison que l'on a déjà vue est que le nombre de page sur
Internet était bien moindre.
Technologiquement moins performants, les premier "spiders" étaient lents.
Couplés à des bases de données limitées, ils ne pouvaient pas stocker beaucoup
d'information pour chaque site.
Ainsi, pour préparer le travail des robots, les webmasters avaient la possibilité de
leur fournir directement les informations pertinentes en utilisant des balises HTML créer
spécifiquement pour cela. Ces balises META étaient à placer entre les balises HEAD d'un
document HTML.
Invisibles des internautes (à moins bien sûr d'afficher le code source de la page),
elles renseignent sur le nom de l'auteur de la page, sa langue et son contenu (résumé et
les mots-clés).
Cette technique a longuement été le meilleur (voire le seul) moyen de référencer
son site. Quant au positionnement, il se faisait alors en comptant le nombre de mots-clés
identiques entre la recherche et les pages trouvées.
2. Liste exhaustive
Voici une liste quasiment complète des principales balises META avec leur
fonction. Cette liste est classée par ordre d'importance croissante.
Beaucoup de ces balises ne sont plus prises en considération par les robots des moteurs
de recherche pour des raisons que nous verrons par la suite.
Toujours est-il qu'elles sont très simples à mettre en œuvre et qu'il serait
dommage de s'en priver. D'autant plus qu'elles ne peuvent en aucun cas nuire au
référencement tant que l'on ne s'en sert pas pour tromper les robots…
Balises
Fonction / Utilisation
<META NAME="geographie"
CONTENT="Paris, France, 75000">
Localise géographiquement la société détenant le
site. Elle peut servir pour les nouvelles fonctions
des moteurs de recherche qui proposent
maintenant en priorité des réponses "proches" de
l'internaute.
<META NAME="Publisher"
CONTENT="Prénom NOM">
Donne un moyen de faire apparaître le nom de la
société dans le code source de la page. Si l'on
utilise un outil (tel que Deamweaver) pour
générer la page, celui-ci renseigne
automatiquement la balise avec son nom.
Page 17
17/64
<META NAME="Reply-to"
CONTENT="mouhotpe@free.fr(Pierre
Etienne MOUHOT)">
Spécifie une adresse de réponse pour les
utilisateurs avertis qui consulteront le code
source de la page.
Permet également de faire apparaître l'adresse
email dans le code source de la page et donc
augmente les chances d'indexation par les
robots.
Par contre, cette adresse sera aussi repérée par
les robots qui parcourent le web à la recherche
d'adresses mails à spammer…
<META NAME="Copyright"
CONTENT="2001 IMS">
Balise spécifique aux Copyright où l'on peut
encore mettre le nom de l'entreprise.
<META NAME="Subject"
CONTENT="Le référencement des
sites sur internet ">
Permet de définir le thème principal de la page.
<META NAME="Category"
CONTENT="Association">
Permet à un annuaire de savoir dans quelle
rubrique il va pouvoir classer le site. Il est
possible de mettre plusieurs catégories. Elles
doivent être écrites en anglais.
<META HTTP-EQUIV="Pragma"
CONTENT="no-cache">
Spécifie au navigateur qu'il doit recharger toute
la page avant de l'afficher, et ceci même s'il l'a
déjà en cache.
<META NAME="Identifier-URL"
CONTENT="http://www.ims-
entreprendre.com">
Cette balise permet simplement de faire
apparaître l'URL de la page principale du site
dans le code source de la page
<META NAME="Date-Creation-
yyyymmdd" content="20041201">
Spécifie la date de création de la page en cours.
<META NAME="Date-Revision-
yyyymmdd" content="20050303">
Spécifie la date de dernière modification de la
page en cours.
<META NAME="Revisit-After"
CONTENT="15 days">
Spécifie avec quelle fréquence le robot peut
revenir visiter la page.
<META HTTP-EQUIV="Expires"
CONTENT="Wed, 05 June 2005
12:00:00 GMT">
Donne une indication au robot sur la date jusqu'à
laquelle il doit garder la page en cache.
De même le navigateur n'utilisera pas la page
qu'il pourrait avoir en cache au delà de cette
date.
Cette balise sert essentiellement pour des pages
dont le contenu est souvent mis à jour.
Page 18
18/64
<META HTTP-EQUIV="refresh"
CONTENT="60;
URL=http://www.humagora.com">
Cette balise redirige automatiquement
l'internaute vers la page spécifiée.
Elle peut être utile en matière de référencement
lors d'un changement d'url. Elle permet ainsi aux
robots de trouver la nouvelle URL du site.
<META NAME="Author"
CONTENT="IMS" lang="fr">
Permet d'indiquer le nom de l'auteur du site ou
de la société. Elle permet d'ajouter une fois de
plus ce nom en question dans le code source de
la page.
<META NAME="Description"
content="phrase de description">
Cette balise, dont la taille ne doit pas excéder
200 caractères, est (était...) utilisée par les
moteurs de recherche pour afficher un résumé
(snippets
xvi
) de la page à l'utilisateur.
Aujourd'hui, bien des moteurs de recherche
génèrent dynamiquement un résumé de la page
contenant les mots-clés de la recherche. Dans ce
cas, le contenu de la balise n'est plus affiché à
l'internaute.
<META NAME="Keywords"
content="mot1, exp2, …">
Le résultat de cette enquête
1
représente le pourcentage de pages
retournées par un moteur de
recherche et ayant au moins un
mot-clé figurant dans la requête.
Comme quoi, les keywords gardent
une relative importance.
Comme son nom l'indique, cette balise pouvant
contenir jusqu'à 1000 caractères, permet de
lister les mots-clés en rapport avec la page.
Les mots-clés représentent des termes qui se
rapportent directement au sujet de votre page. Il
est important de mettre plusieurs synonymes
(voire même des antonymes) d'un mot-clé
important pour éviter toute ambiguïté. Vos mots-
clés peuvent également comporter des fautes
d'orthographe volontaires afin de ressortir
comme résultat suite à une recherche
comportant des erreurs de frappe.
Quasiment tous les moteurs de recherche et 65%
des sites utilisent encore cette balise.
Pour éviter les problèmes de "casse"
(différenciation des lettres minuscules et
majuscules) il est conseillé de mettre tous les
mots-clés en minuscules.
Contrairement à ce que l'on peut penser, répéter
les mots-clés ou en mettre trop peut avoir l'effet
inverse à l'effet souhaité.
Les spiders comprendront alors cette balise
comme une méthode frauduleuse pour
augmenter le positionnement et préféreront ne
pas indexer la page
2
.
1 L'étude date d'Octobre 2004. Sa version complète est disponible à l'adresse suivante : http://www.revue-
referencement.com/ETUDES/0410-referencement-title-h1.htm
2
Le keywords stuffing ou bourrage de mots-clés en français, est banni par les moteurs de recherche
Page 19
19/64
En revanche, dans le cas de site multi-langues, il
est conseillé de rajouter l'attribut
1
lang="" pour
spécifier la langue dans laquelle sont les
mots-clés qui suivent.
On aura ainsi, dans le cas d'un site bilingue,
ceci :
<META name="keywords" lang="en"
content="mots-clés en anglais">
<META name="keywords" lang="fr"
content="mots-clés en français">
<META NAME="Robots"
content="noindex">
<META NAME="Robots"
CONTENT="index, follow">
Cette balise spécifie au robot s'il peut indexer ou
non votre page. En général, elle sert plutôt à
exclure des pages du référencement. Elle sera
donc utile dans le cas d'une page en cours de
réalisation et qui ne doit pas être accessible.
Idem pour une page destinée à un usage
personnel (page de statistiques par exemple).
L'attribut content peut prendre les valeurs
suivantes :
- ALL (défaut) : Indique qu'il faut indexer la
page et suivre les liens hypertextes.
- NONE : Ne pas indexer la page et de ne pas
suivre les liens.
- INDEX : La page peut être indexée par les
robots.
- NOINDEX : Pas d'indexation de la page par les
robots.
- FOLLOW : Donne la permission de suivre les
liens hypertextes.
- NOFOLLOW : Indique qu'il ne faut pas suivre
les liens de la page.
- NOIMAGEINDEX - Pas d'indexation des
images, seulement le texte le sera
- NOIMAGECLICK : Pas d'indexation des liens
des images.
1
Un attribut est une instruction contenue à l'intérieur d'une balise et dont le but est de fournir une information
supplémentaire sur la manière dont cette balise doit être interprétée.
Page 20
20/64
<META NAME="Robots"
CONTENT="noarchive">
"noarchive" indique aux robots qu'ils ne doivent
pas mettre en cache la page en cours. Par
contre, ils peuvent l'indexer et suivre les liens.
Beaucoup de moteurs de recherche mettent les
pages en cache. Cela permet à l'Internaute de
tout de même pouvoir consulter la page même si
elle a été supprimée ou est momentanément
inaccessible.
Le webmaster pourra lui connaître la date du
dernier passage du robot sur sa page.
Sachez cependant que les moteurs de recherche
mettent un long moment (entre 1 et 6 mois,
dépend du PageRank) avant d'actualiser leur
cache. Ainsi, pour un site ayant un contenu
souvent actualisé (site d'informations par
exemple) il est nécessaire de mettre cette balise.
De même pour un site dont le contenu serait
payant. Sinon, il suffirait d'attendre que Google
l'indexe pour ensuite consulter la page en cache !
3. Limites de ces balises
Si ces balises ont eu leurs heures de gloire lors des débuts du référencement,
elles n'ont plus aujourd'hui qu'une influence très limitée.
Les différentes raisons qui confirment la mort de balises META :
L'évolution technologique qu'a connue le secteur de l'informatique ces dernières
années a bien évidemment profité aux moteurs de recherche.
Les personnes en charge du développement des robots ont alors décidé de baser
leurs indexations sur des mots-clés générés automatiquement. C'est-à-dire que les
informations collectées ne devaient plus uniquement être celles que le webmaster voulait
bien mettre à la disposition des robots via les balises META.
Ce que je veux dire c'est que des serveurs de plus grosse capacité, couplés à des
sipders plus rapides leur permettent d'analyser les pages plus en profondeur. Les
analyses se basent maintenant directement sur le contenu textuel de la page.
Cette nouvelle orientation de la part des moteurs de recherche cherche
uniquement à obtenir des résultats probants. Il faut savoir que de nombreux webmasters
peu scrupuleux avaient trouvé comment générer facilement du trafic sur leurs pages.
Leur but n'était alors pas d'offrir une information de qualité aux internautes de tous
horizons mais de gagner de l'argent grâce aux publicités présentes sur leurs pages.
L'idée était simple et efficace : il leur suffisait d'utiliser comme mots-clés de leurs
pages, la liste la plus exhaustive possible des mots ou expression les plus recherchés
dans les moteurs. Ainsi, la majorité des recherches faites retournait leur site comme
résultat.
Pour illustrer ce phénomène, on peut rappeler qu'en 1998, de nombreux sites Internet
personnels avaient comme mots-clés : Bill Clinton et Monica Lewinsky…
Page 21
21/64
Aujourd'hui bien connues, ces techniques sont cataloguées comme étant du
spamdexing. Ce barbarisme anglophone se définit comme étant l'ensemble des méthodes
abusives de référencement qui consistent à tromper l'internaute (à travers les moteurs
de recherche) sur le contenu réel de la page.
La compétition qui existe entre les moteurs de recherche les a contraints à passer
d'un objectif quantitatif à un objectif qualitatif.
Pourtant, lorsque l'on compare le nombre de résultats intéressants et le nombre total de
résultats retournés par les moteurs de recherche, on peut se demander s'ils y sont
parvenus.
Toujours est-il que les moteurs actuels ont pris des mesures pour limiter, voire
condamner, le spamdexing. En général, la mesure la plus radicale est de ne pas
référencer les pages concernées. Cela revient à inscrire le site sur une "BlackList". Une
fois sur cette liste noire, le seul moyen pour le webmaster de voir son site ré-indexé par
le moteur est de contacter directement le service concerné de l'outil de recherche dans le
but de lui présenter un site modifié qui réponde à ses critères de sélection.
B. Les autres balises
Les concepteurs de spiders ont dû trouver d'autres moyens de repérer les
informations importantes dans les pages web.
On sait maintenant que d'autres balises présentent plus d'intérêt du point du vue
du référencement que celles qui initialement créées pour cela !
1. Le titre
GoogleBot, par exemple, donne une place très importante au titre des pages.
La balise <TITLE> renseigne en général sur le contenu global de la page.
Une étude datant d'octobre 2004
xvii
montre à quel point la balise titre est
importante pour les principaux moteurs de recherche. Le graphe ci-dessous montre la
proportion des mots-clés que l'on retrouve, dans la balise <TITLE> des pages
retournées, en réponse à 100 questions posées.
Page 22
22/64
2. Les paragraphes
De la même manière, on sait que la balise <H1> qui représente les titres des
paragraphes, a également une grande importance.
Malheureusement, comme pour les balises META, il y eu beaucoup d'abus de type
spamdexing. Les moteurs de recherche n'accordent aujourd'hui plus autant d'importance
à ce type de balise (H1 et ses dérivés H2, H3,
…) qu'ils n'en ont accordé par le passé.
Si la balise TITLE sert toujours, c'est parce que la taille du texte est limitée. En
revanche, il est possible de mettre autant de commentaire que l'on veut entre une balise
H1 ouvrante et une balise H1 fermante…
Sur cet exemple trivial, on comprend qu'en écrivant une grande quantité de
mots-clés de la même couleur de texte que le fond d'écran, on peut garder une
présentation agréable pour l'Internaute tout en fournissant une grande quantité
d'informations aux robots. Cependant, faites attention aux moteurs de recherche qui
traquent ces abus en comparant systématiquement la couleur de la police avec celle du
fond d'écran.
Enfin, depuis la version 4.0 d'HTML (datant de la fin de l'année 1997), ce langage
supporte les feuilles de style CSS
1
. Celles-ci ont alors connu un fort développement car
elles permettent aisément de changer l'intégralité de la charte graphique d'un site en ne
modifiant qu'un seul fichier. Je rappelle qu'en HTML, il faut modifier le code de toutes les
pages… De ce fait, la mise en forme via les balises <Hx> n'est plus utilisée que dans un
quart des sites web.
Pour cacher du texte à l'utilisateur tout en s'assurant qu'il restera accessible aux
robots puisque présent dans le code source de la page, on peut utiliser la propriété
suivante des feuilles des styles :
.TextInvisible {visibility:hidden}
ou encore :
.TextInvisible {display:none;}
1
Cascading Style Sheets : Langage permettant de compenser les manques de l'HTML en termes de mise en
forme et de présentation.
Page 23
23/64
Pour combattre ceci, les moteurs de recherche tiennent compte de toutes les
autres balises de mise en forme HTML telles que <B> (gras), <U> (souligné), <I>
(italique) ainsi que de la taille du texte.
A titre d'exemple, Voila est le moteur de recherche qui utilise le plus cette balise
avec un total de 16% de mots-clés trouvés entre des balises H1 sachant qu'ils étaient
dans la requête.
3. Le texte alternatif des images
Nos premiers pas sur Internet étaient, souvenez vous, très lents… A l'époque, la
connexion 56k était un must.
Pourtant, le langage HTML avait été au début développé pour permettre d'offrir
des documents sous forme textuelle à la consultation. Plus tard, et devant l'essor du
web, on a commencé à inclure des images dans nos documents et donc à alourdir
considérablement les pages, rallongeant ainsi le temps de chargement.
Les deux principaux navigateurs qu'étaient Internet Explorer et Netscape avaient
bien compris ce problème et proposaient tous les deux une option qui servait à charger la
page sans télécharger les images. Apparaissait alors à la place, une brève description de
la photo sous forme de texte. Celle-ci était directement renseignée par le développeur
grâce à l'attribut ALT de la balise IMG. Cet attribut a longtemps permis aux spiders
d'indexer les balises images qu'ils ne savaient pas traiter autrement.
Il s'est donc avéré que ces petites descriptions textuelles associées aux images
étaient recherchées et contribuaient fortement l'indexation du site par les moteurs.
Aujourd'hui, ces balises ne sont quasiment plus utilisées par les développeurs
puisque les connexions que nous avons nous permettent généralement d'afficher
rapidement toutes les photos.
Seuls les webmasters soucieux de leur référencement s'en servent encore.
Notez que nous risquons de voir réapparaître cette balise puisqu'elle fait partie
intégrante des dernières recommandations du W3C
1
(plus particulièrement de la WAI
2
).
Dorénavant, une balise IMG devra forcement contenir un attribut ALT pour être conforme
à la norme.
En effet, cette balise permet de traduire les images en texte. Elle est donc
primordiale pour une accessibilité au site des personnes non voyantes ou mal voyantes.
C'est sur cet attribut que se base leur navigateur pour leur décrire / lire la page.
De la même manière, on peut mettre un texte sous forme d'info bulle sur un lien
en utilisant cette fois ci l'attribut TITLE. Par contre, on ne peut pas affirmer que cette
balise soit réellement prise en compte.
1
Word Wilde Web Consortium : Organisme international qui développe et fait évoluer les standards du web.
2
Web Accessibility Initiative : commission du W3C et
référence mondiale pour l'accessibilité des sites
web aux
personnes handicapées.
Page 24
24/64
4. Référencement et cadres
Les cadres (ou frames en anglais) furent inventés par la société Netscape. Ils ont
été intégrés dans la version 4.0 d'HTML.
Les frames permettent d'afficher plusieurs pages HTML dans une même fenêtre de
navigateur. Elles ont révolutionné la gestion des menus dans les pages HTML puisqu'elles
ont permis de faire de véritables barres de navigation. Jusque là, la gestion de la
navigation compliquait beaucoup la conception des pages web.
Avec l'arrivée des frames, on a vu beaucoup de pages construites de la manière
suivante :
Page 25
25/64
La fenêtre principale (dans notre exemple frame.html) est appelée page mère.
Elle n'a normalement que pour but d'appeler les pages filles (menu.html et droite.html)
Aujourd'hui, les frames sont de moins en moins utilisées pour les raisons suivantes :
-
de nouvelles techniques permettent maintenant de créer des menus plus élégants
et plus dynamiques.
Source : http://www.henri-ruch.ch/referencement/referencement_frames/referencement_frames.asp
-
On ne peut pas enregistrer une page en favoris.
-
L'impression est souvent très mal gérée.
-
Mais surtout, elles nuisent au référencement
En effet, face à un site dont la fenêtre principale serait constituée de frames, les
moteurs de recherche ont 4 possibilités :
o Ignorer les pages et ne pas les indexer du tout. Cette solution radicale est bien
sûr la plus problématique.
Page 26
26/64
o Indexer toutes les pages du site indépendamment les unes des autres. Cela a
au moins le mérite de permettre de retrouver, au travers d'une recherche, une
page fille. En revanche, le lien qui apparaîtra dans le snippet du moteur
pointera directement sur la page en question. Ainsi, lors de l'affichage, on
perdra l'intégralité de la barre de navigation.
Illustration :
o Référencer la page mère et les pages filles tout en étant capable de rappeler la
frame parent au cas où l'internaute souhaite afficher une page différente de la
Home. Sachez seulement que très peu de moteurs de recherche font ça (voire
aucun…)
o Indexer uniquement la page mère. Sachant que les robots fonctionnent en
mode texte, ils ne prennent pas en compte les frames. A l'affichage d'une
page avec des frames, ils ne verront que le texte se trouvant entre les balises
<NOFRAMES>. On se rend compte à quel point ces balises peuvent s'avérer
importantes en terme de référencement.
Notez qu'en général, lorsqu'un moteur de recherche dit supporter les frames
(Google affirme le faire "dans la mesure du possible"…) cela veut simplement
dire qu'il est capable de lire (d'indexer) le contenu de la balise <NOFRAMES>.
Sachant que les frames tendent à disparaître, les moteurs de recherche
affirment ne pas faire d'efforts pour développer des robots supportant mieux
ces structures de pages.
Page d'accueil normale
Résultat : la page finale est ouverte
indépendamment du cadre parent
Exemple de recherche avec Google
Page 27
27/64
Quant à Yahoo!, je cite : "Le robot Yahoo! suit les liens HREF. Il ne suit pas les
liens SRC, ce qui signifie qu'il ne recherche pas ou ne classe pas les frames qui
sont pointées par des liens SRC."
xviii
Pourtant, comme moi, vous serez peut être un jour confronté à ce problème. Dans
ce cas, plutôt que de laisser les moteurs se débrouiller comme ils peuvent/veulent avec
vos frames, sachez que vous pouvez gérer ce problème vous-même. L'important reste de
bien prendre en compte ce problème dès la conception du site afin de tout de suite
mettre en œuvre la méthode adéquate.
Cette technique est très simple. Elle est basée sur le langage JavaScript. L'idée est
d'inclure, au début de chaque page, une fonction vérifiant que la page en cours est bien
ouverte par l'intermédiaire de la frame. Si ça n'est pas le cas, la frame parent est
automatiquement rechargée.
Voici un exemple de script permettant de faire cela :
<SCRIPT Language="javascript">
if (parent.frames.length==0) parent.location.href="frame.htm";
</SCRIPT>
Cette version extrêmement simpliste présente tout de même un problème majeur.
Imaginez que vous souhaitiez afficher la page : page2.html. Vous l'avez trouvée grâce à
Google qui vous donne le lien suivant : http://lesite.fr/page2.html.
Si la page contient le script donné ci-dessus, en suivant le lien, vous allez finalement
ouvrir la page HTML (donc statique) frame.html.
Malheureusement pour vous, frame.html sert à ouvrir les deux pages suivantes :
menu.html et page1.html.
Conclusion, votre page s'affiche bien dans la frame parent, vous avez bien la barre
de navigation mais vous ne retombez pas sur le page qui vous intéresse !
Pour contrer ce nouveau problème, il existe des solutions qui reposent sur
l'utilisation d'un langage dynamique. Nous utiliserons cette méthode dans la partie de
mise en application de ces concepts.
C. Gestion des différents contenus
Nous savons que le web est constitué de documents de types variés. Pour assurer
un référencement performant, les robots doivent s'adapter à ces différents types.
Aujourd'hui, outre l'HTML, ils sont capables de lire les documents texte, Word,
PowerPoint, PDF, XML.
Par contre, il n'en est pas de même pour les animations Flash
1
. Ce langage permet
de créer des pages beaucoup plus interactives et graphiquement plus évoluée que ce que
nous pouvons faire pour l'instant avec les langages courants.
En revanche, ces animations écrites dans un langage propriétaire
1
ne sont pas
encore prises en compte du point de vue du référencement.
1
Fichier qui peut être inclus dans une page HTML et dont l'extension est .swf. Si tout le site est fait en Flash, le
fichier HTML appelant le Flash est quasiment vide.
Page 28
28/64
Contrairement aux frames que nous venons de voir, des efforts sont faits pour
indexer le mieux possible ces animations. Ceci vient du fait que la technologie Flash est
récente sur Internet et qu'elle risque d'encore beaucoup se développer dans les années à
venir.
La plupart des sipders se limitent à suivre les liens contenus dans les animations
Flash. Les récentes innovations des robots les autorisent à pouvoir lire le contenu textuel
de ces animations. Pour cela, ils se basent sur un kit qui leur est fourni par Macromedia.
Conscient que ce problème de référencement nuisait à la propagation de son langage,
Macromedia propose en effet un kit qui permettra aux robots de pouvoir interpréter le
langage Flash afin de pouvoir retrouver les parties de texte contenues dans le code des
animations.
Pour l'instant, cette technologie reste peu fiable.
Comme pour les frames, des balises spécifiques permettent d'ignorer le Flash. Ces
balises <noembed> et </noembed> servent à insérer le code HTML qui sera lu par les
navigateurs qui ne supportent pas le Flash.
D. L'URL ReWriting
1. Le problème
Nous savons maintenant que l'adresse a une place importante dans le
référencement. Pour preuve, les moteurs de recherche retournent souvent comme
résultat des sites contenants certains des mots-clés de votre recherche dans leur nom de
domaine.
Sachant cela, on peut se demander comment fait le robot pour gérer les URL
exotiques que l'on obtient en passant les paramètres des pages dynamiques par la
méthode GET.
Ex : http://www.monsite.net/documents/articles/lire.php?id=12&page=2&rubrique=5
La réponse est simple, Google et les autres, le gèrent… mal. Au mieux ils peuvent
indexer des pages ayant des URL contenant jusqu'à deux variables. Mais pas plus.
On sait qu'une URL telle que celle donnée dans l'exemple ci-dessus, appelle
toujours la même page dynamique. Celle-ci va alors chercher dans une base de données
les informations correspondantes à l'article de la page 2, de la rubrique 5 ayant 12
comme identifiant.
Ce qui est dommage c'est que cet article accessible à cette adresse parle
justement d'une technique de référencement qui s'appelle l'URL ReWriting. Mais
comment le deviner juste en regardant cette adresse ?
L'objectif de la méthode de réécriture d'URL est d'arriver à faire croire au robot
qu'il est en présence d'une page statique.
Pour cela, le serveur web devra transformer l'adresse en une URL finale du type :
article_12_2_5.html ou mieux : referencement-12-2-5.html.
1
L'éditeur est Macromedia
Page 29
29/64
Cela doit rester transparent pour l'utilisateur. Le serveur web Apache quant à lui reçoit
toujours l'adresse sous la forme lire.php?id=12&page=2&rubrique=5.
Pour effectuer cette transformation, le webmaster devra fixer des règles de
réécriture.
2. Mode d'emploi
Pour commencer, il est nécessaire de configurer Apache. Nous prendrons Apache
comme exemple car il s'agit d'un serveur web qui se prête bien à la réécriture d'URL et
qui est très utilisé dans le monde libre.
Ouvrez le fichier "httpd.conf" et retirez les symboles de commentaires (#) devant
les lignes suivantes:
LoadModule rewrite_module modules/mod_rewrite.so
AddModule mod_rewrite.c
Pour vraiment accroître votre référencement,
l'idéal serait d'arriver à générer des
adresses sous cette forme :
http://www.monsite.com/articles/ISAPI-rewrite-pour-url-rewriting_12_3.html
C'est-à-dire avec le sujet de l'article contenu dans l'adresse de la page. Les
paramètres réellement utilisés doivent bien sûr également apparaître. Ensuite, il faut
forcer Apache à exécuter toutes les pages dans le répertoire articles comme étant des
pages PHP, et ce, malgré l'extension .HTML.
Cette étape se fait via le fichier texte .htaccess :
<FilesMatch "^articles$">
ForceType application/x-httpd-php
</FilesMatch>
FilesMatch permet à Apache d'analyser le nom de fichier pour y rechercher une
expression régulière.
Nous venons de voir que les règles de réécriture d'URL étaient définies dans le
fichier .htaccess. Cela ne marche donc pas avec le serveur web Microsoft Internet
Information Services (IIS). Pour faire de l'URL-rewriting avec les serveurs web Microsoft,
il est nécessaire d'installer un module additionnel qui propose les mêmes fonctionnalités
que le fichier d'Apache.
Bien que la plupart de ces modules soient payants, il est possible de télécharger
une version allégée de l'outil "ISAPI rewrite"
xix
. Cet utilitaire est fourni avec un module
permettant de tester vos expressions régulières.
Exemple :
Page 30
30/64
Voilà ce que l'on obtient (4)
en appliquant la règle de
réécriture (3) à la partie de
l'adresse
de
test
(2)
identifiée par l'expression
régulière (1).
E. Les fichiers robots.txt
Dans la partie II a, je vous disais que la première chose que fait un robot en
arrivant à la racine de votre site est de regarder s'il existe un fichier nommé robots.txt.
Ce simple fichier texte va donner des informations au robot sous forme de commandes.
En l'absence d'un tel fichier, les robots regarderont tout le site (action par défaut).
On constate alors que le seul intérêt d'un fichier robots.txt est d'exclure des
parties de site des spiders. Il est également possible de filtrer les robots autorisés à
indexer le site.
•
User-Agent:nom du robot ou * : permet de préciser le robot concerné par les
directives qui suivront. La valeur * désigne tous les spiders.
•
Disallow:nom du répertoire ou du fichier : permet d'indiquer les pages à
exclure de l'indexation. Chaque page ou dossier à exclure doit être sur une ligne à
part et doit commencer par /. La valeur / seule signifie que cela s'appliquera à
toutes les pages du site.
xx
Exemple de fichier type :
Le style de contenu du fichier robots.txt se présente de la façon suivante :
User-agent: *
Disallow: /cgi-bin/
Disallow: /temp/
Disallow: /prive/
Disallow: /admin/statistiques.html
Page 31
31/64
Clairement, voici la signification du contenu :
- User-agent: * signifie que l'accès est accordé à tous les robots.
- Disallow: /cgi-bin/ : l'accès est refusé aux robots pour tous les fichiers contenus dans le
dossier cgi-bin, temp et prive.
- Disallow: /admin/statistiques.html : l'accès est refusé aux robots pour la page de
statistiques contenu dans le répertoire admin. Les autres fichiers de ce répertoire ne sont
pas concernés.
Attention : Ne laissez jamais de lignes vierges ou blanches (la touche entrée) le
robot l'interprèterait comme étant la fin du fichier.
xxi
Remarque : Les fichiers de logs du site de l'IMS (ne disposant pas, pour l'instant, de
fichier robots.txt) nous permettent de tracer l'activité des robots. En effet, une erreur
404 "fichier non trouvé" est enregistrée dans les logs à chaque passage des spiders
puisqu'ils commencent par demander ce fichier. Sur le total du mois de février, ce fichier
a été demandé 742 fois.
Finalement, ce fichier permet d'empêcher les robots d'indexer certaines parties du
site comme des parties privées, des pages de test, des images, des fichiers JavaScript et
autres feuilles de style, etc.
Ma dernière remarque concerne la sécurité. Il est en effet important d'avoir à
l'esprit que ce fichier reste accessible à tout le monde (et non pas seulement aux robots).
Il suffit de taper http://www.NomDeDomaine.fr/robots.txt pour récupérer le fichier de
n'importe quel site. J'ai moi-même utilisé cette méthode pour avoir des exemples de
syntaxe des ces fichiers.
Il peut être dangereux de mettre en clair le chemin d'un fichier ou d'un répertoire
confidentiel. Par exemple la ligne : Disallow: /admin/AjoutDroits.asp peut servir de point
de départ à une personne mal intentionnée pour attaquer votre site.
Dans ce cas, on préférera une balise <META> classique.
F. Plan du site
Encore une page facile à faire et à intégrer qui, en plus de faciliter la navigation
dans des sites ayant un grand nombre de pages et de rubriques, augmente sensiblement
le référencement.
En effet, cette simple page contient un grand nombre de liens internes.
Notez que GoogleBot et les autres spiders ne vont pas analyser les pages qui auraient
une profondeur supérieure à 4. Cela veut dire qu'une page uniquement accessible en
suivant les liens de 3 autres pages précédentes ne sera pas référencée.
Un plan de site permet alors de réduire cette profondeur et de rendre accessible
ce genre de pages.
Début juin 2005, Google a lancé un nouvel outil gratuit basé sur ce principe.
Google SiteMap devrait lui permettre d'indexer plus de pages. La véritable innovation par
rapport au plan de site que nous venons de voir est, qu'avec cet outil, le webmaster est
capable d'indiquer rapidement à GoogleBot qu'il y a de nouvelles pages à indexer ou que
le contenu du site a changé.
Cet outil repose sur un ou plusieurs fichiers qui peuvent avoir des formats
différents. Le format XML reste le plus utilisé car il est plus performant. Ces fichiers ont
pour objectif d'aider Google à référencer toutes les pages et mieux prendre en compte
les évolutions de votre site. Ce fichier est généré par le webmaster.
Page 32
32/64
Voici la syntaxe type d'un fichier SiteMap.xml
xxii
:
Le fichier final ne doit pas forcément s'appeler sitemap.xml mais il est préférable de le
nommer ainsi au cas ou d'autre robots décident de s'en servir également.
L'idée est la même que celle d'un plan de site classique, c'est-à-dire de faire des liens
directs vers toutes les pages que l'on souhaite indexer. La nouveauté se traduit par les
informations supplémentaires que l'on trouve dans les balises lastmod, changefreq, et
priority. Ces dernières sont toutes facultatives. Ne pas les utiliser reviendrait à lister les
URL à analyser. Cela ne serait pas beaucoup plus intéressant qu'un plan classique.
•
La balise <changefreq> peut prendre les valeurs suivantes : "always", "hourly",
"daily", "weekly", "monthly", "yearly" ou "never". Google précise tout de même
qu'il ne considère ces balises que comme étant des conseils et qu'une valeur mise
à "always" n'obligera pas le robot à passer plusieurs fois par jour sur la page. De
même, si vous mettez "yearly" ou "never, sachez que le robot visitera quand
même votre page.
•
La balise <lastmodif> permet simplement d'éviter aux robots d'analyser une page
s'il elle n'a pas connu de changement depuis son dernier passage.
•
Enfin, la balise <priority> autorise le développeur à privilégier certaines pages par
rapport à d'autres. Les valeurs de cette balise vont de 0.0 à 1.0. 0.0 étant bien
sûr pour désigner les pages les moins prioritaires. Par défaut, la valeur d'une page
est de 0.5.
Comprenez également que cette balise ne change en rien votre positionnement
dans les pages de résultats. Cela joue simplement sur la probabilité que les pages
que vous considérez comme plus importantes ressortent plus souvent.
Lorsque Google trouve plus de 2 pages d'un même site qui satisfont à une
requête, il procède alors à un clustering. C'est-à-dire que plutôt que d'afficher
Page 33
33/64
toutes les pages de résultat, il en prendra deux au hasard et ne retournera que
ces deux résultats pour ce site.
Voila ce que l'on retrouve alors à l'écran :
La balise <priority> permettra à Google de privilégier les pages importantes lors
de ce clustering.
Dernière remarque, mettre toutes les pages de son site avec une priorité de 1.0
ne sert absolument à rien puisque cette priorité est relative entre les autres pages
du site. En aucun cas, cette priorité ne s'applique entre des pages de sites
différents.
Lorsque vous avez généré votre fichier XML, il faut l'enregistrer auprès de Google.
Cela peut se faire de deux manières.
La première consiste à indiquer directement l'adresse de votre fichier SiteMap par
le biais d'une requête faite à cette URL :
www.google.com/webmasters/sitemaps/ping?sitemap=http%3A%2F%2Fvotresite.com%2F sitemap.xml
La deuxième solution est d'ouvrir un compte sur Google et d'utiliser les outils que
propose le moteur de recherche. Il s'agit d'un portail permettant de gérer l'insertion, la
mise à jour. Google propose également un outil (sous forme de script) permettant de
générer directement un SiteMap. Afin d'éviter d'utiliser cet outil peu pratique (car écrit
dans le langage Python peu répandu) il est préférable d'utiliser d'autres outils disponibles
sur Internet. Ils permettent par exemple de générer un fichier SiteMap.xml à partir d'un
scan des répertoires de votre site, des fichiers de logs ou d'une extraction de la base de
données.
G. Redirections
Lors de la conception ou de la maintenance d'un site web, vous allez certainement
être, à un moment ou à un autre, obligé d'utiliser une méthode de redirection. Celle-ci
peut être nécessaire pour orienter une personne non reconnue vers une page
d'identification, créer une page d'erreur spécifique ou encore indiquer l'adresse du
nouveau nom de domaine de votre site etc.
Pour cela, il existe plusieurs techniques qui peuvent se faire soit côté serveur, soit
côté client.
Du point de vue du référencement, elles n'ont pas le même impact.
"En effet, pour que les robots des moteurs de recherche interprètent correctement la
redirection, il faut que l'en-tête HTTP envoyé avec la page corresponde au statut de la
page. Par exemple, si une page a changé d'emplacement dans votre site, il faut que
Page 34
34/64
l'ancienne URL fasse une redirection vers la nouvelle en utilisant un en-tête HTTP qui
précise que cette page a changé définitivement d'adresse (code 301). Cela permettra au
robot de ne plus venir indexer l'ancienne URL, et de mettre à jour sa base de données en
affectant la nouvelle URL à la page.
Si vous ne mettez pas de redirection depuis l'ancienne URL, le robot obtiendra une erreur
404 et ne sera pas forcément au courant de la nouvelle adresse."
xxiii
1. Redirection sur le serveur
Il faut se référer à la documentation de votre serveur web car les redirections se
font différemment sous Apache, IIS ou Tomcat…
Sachez cependant que ce type de redirection n'a pas d'effet néfaste sur le
référencement.
2. Url-ReWriting
Nous le savons maintenant, l'URL-ReWriting est une technique particulièrement
efficace en termes de référencement. Dans le cas d'un serveur web Apache, le fichier
.htaccess permet de rediriger facilement vers une page d'erreur.
3. Redirection par un script serveur
Les langages dynamiques permettent de rediriger facilement une page vers une
autre :
PHP : header("Location: http://www.votresite.com/unepage.htm");
ou
ASP : response.addheader "location", "http://www.votre-site.com/"
Cependant, n'oubliez pas de préciser le nouvel en-tête de la page :
PHP : header("Status: 301 Moved Permanently");
ou
ASP : response.status = "301 Moved Permanently"
pour ne pas que cela pose de problème aux robots.
4. Redirection HTML avec balise META
Bien que très pratique et simple d'utilisation,
<META http-equiv="Refresh" content="20;URL=page2.html">
ce type de redirection est à proscrire. Elle fut principalement utilisée dans les pages
satellites pour rediriger l'internaute sur la page principale après un délai de 0 secondes.
Les moteurs n'indexeront donc pas le contenu de la page.
5. Redirection côté client avec JavaScript
Elle s'utilise de la manière suivante :
window.location.replace("http://www.un-site.com/une-page.htm");
En revanche, elle ne modifie pas l'en-tête HTTP.
Page 35
35/64
Les robots ne lisant pas le JavaScript, ils ne suivront pas ces redirections. Le risque est
donc d'indexer le contenu d'une vieille page alors que la nouvelle ne sera pas vue des
moteurs de recherche.
H. Référencer un site multilingue
Le référencement d'un site multilingue peut poser des problèmes, ou tout du moins
soulever quelques questions auxquelles nous n'avons pas encore répondu. Par exemple :
o Faut-il créer autant de sites que de langues différentes ?
o Est-ce mieux d'avoir autant d'URL que de langues utilisées ?
o L'architecture globale du site est-elle différente ?
Architecture d'un site multilingue :
"La première page n'est pas forcément la page que visitera en premier l'internaute s'il
vient d'un moteur de recherche. Mais c'est une "vitrine" du site qu'il convient
particulièrement de soigner."
xxiv
Plusieurs possibilités :
o Page d'accueil propose à l'internaute de choisir sa langue. Cette solution est rapide et
efficace mais pas optimisée en termes de référencement. En effet, elle sous-entend
une page d'accueil quasiment vierge de tout contenu.
o Choisir une langue par défaut et permettre à l'internaute de la changer s'il le
souhaite.
o Détecter la langue de son navigateur afin de choisir une première langue. Il aura la
possibilité de la changer par la suite.
Gestion du paramètre de la langue
Le développeur du site devra prévoir une manière pour conserver la langue choisie
d'une page à l'autre. Plusieurs possibilités sont offertes par les techniques du
développement web : cookie, variable de session, passage du paramètre par la méthode
POST ou la méthode GET (variable dans l'URL).
Les cookies peuvent être intéressants parce qu'ils sont persistants d'une visite à l'autre
tant que l'utilisateur ne supprime pas ses cookies ou qu'ils n'expirent pas. En revanche,
les robots des moteurs de recherche ne les acceptent pas. Il en est de même pour
l'internaute qui a la possibilité de les refuser.
Le passage du paramètre par "variable de session" ou par la méthode POST fonctionne
mais n'apporte rien de plus.
En revanche, la méthode préconisée est celle de la méthode GET. Premièrement parce
qu'elle permet de mettre l'URL en "favori" et donc de conserver cette information.
Deuxièmement parce qu'elle permet aux moteurs de recherche d'enregistrer des
adresses différentes suivant la langue utilisée.
Exemple :
http://www.monsite.com?lang=fr
et
http://www.monsite.com?lang=en
Page 36
36/64
Dans ce cas, l'architecture du site pourra être identique à celle d'un site monolingue. Il
suffit juste d'inclure au début de chaque page une procédure permettant d'aller chercher
le contenu textuel de la page en fonction du paramètre.
<?php
If ($_GET['lang']=="fr") inclure le fichier francais.inc
Else inclure le fichier english.inc
?>
Enfin, il est toujours intéressant d'établir une règle de réécriture d'URL pour ce
paramètre.
Utilisation de la balise META.
La balise méta <META HTTP-EQUIV="Content-Language" content="fr"> va définir
la langue globale de la page. Ainsi, elle pourra également servir à définir l'orientation (de
droite à gauche) du texte dans la page.
Encodage de la page
Dans le cas d'une page pouvant accueillir plusieurs langues, il ne faut pas oublier
de bien définir l'encodage de la page. Un encodage en UTF-8, "contrairement à d'autres
comme la série ISO 8859, permet de représenter des milliers de caractères de toutes
sortes de langues."
xxv
Cas des annuaires :
En ce qui concerne les annuaires, la soumission étant manuelle et contrôlée par
une personne physique, la pertinence du site reste donc de sa responsabilité. Que le site
soit dans une langue ou une autre ne doit rien changer.
La seule chose que vous ayez à faire est de soumettre votre (vos) site(s) sur chaque
version de l'annuaire. Par exemple sur yahoo.fr, yahoo.co.uk, yahoo.it, etc.
Cas des moteurs de recherche :
Nous le savons, le référencement par les robots est automatique. Il n'y a donc
rien de plus à faire. Tant que les mots-clés sont définis dans toutes les langues, et que
vos pages comportent du contenu dans toutes les langues, il ne devrait pas y avoir de
problèmes particuliers.
I. Soumission manuelle dans les annuaires
Jusqu'à présent, nous avons privilégié les moteurs de recherche. Cependant, il ne
faut pas pour autant oublier la deuxième sorte d'outil de recherche que sont les
annuaires. Il peut être intéressant d'enregistrer manuellement son site dans les
principaux annuaires généralistes tels que Yahoo! et l'Open Directory sans oublier les
plus petits annuaires spécialisés.
A titre d'exemple, je peux vous assurer que le fait d'avoir inscrit mon site
personnel sur un annuaire spécialisé m'apporte beaucoup plus de visites que celles issues
de recherches sur Google.
Page 37
37/64
En tant que réserviste de la Gendarmerie, j'ai décidé il y a quelques mois de faire
une page racontant mon expérience dans la Gendarmerie. J'ai donc créé quelques pages
sur ma Préparation Militaire Gendarmerie, pages sur lesquelles j'ai inclus un script me
permettant de suivre la fréquentation de mon site. J'ai également pris soin de construire
mes pages sans frames, avec beaucoup de texte et peu d'images, d'y inclure des liens
vers les principaux sites traitant du même sujet, de nommer explicitement mes pages et
renseigner correctement les balises META… Bref, j'ai mis en application tout ce que je
viens de vous expliquer jusque là.
Mes Logs m'ont permis de tracer le passage des robots (GoogleBot et Yahoo!
Slurp entres autres) et au bout de quelques semaines, ma page ressortait déjà en 4
ème
position sur les recherches "preparation militaire pmg" ou encore "pmg réserviste
gendarmerie". J'étais loin d'imaginer que j'allais pouvoir me placer à cette position en si
peu de temps… Pourtant les visites sur mon site provenant de Google plafonnaient à 5
par jour. Je trouvais déjà cela pas mal pour un site sans prétention comme le mien mais
bon… Enfin, en regardant de plus près les sites devant le mien, je me suis aperçu qu'un
résultat ressortait toujours au dessus du mien (outre les sites officiels de la
Gendarmerie). Il s'agissait su site www.annugend.com qui n'est en fait qu'un annuaire
des différents sites, officiels ou non, de la Gendarmerie. Ce site a un PageRank de 4 alors
que celui de mon site est nul puisque le PR est mis à jour lors des Googles Dances et que
celles-ci ne se produisent que 2 à 3 fois par an. La dernière a eu lieu avant que je ne
crée mes pages.
J'ai donc décidé d'inscrire mon site sur cet annuaire spécialisé. J'ai préparé un
petit texte d'accroche et je me suis rendu sur le site annugend.com pour compléter le
formulaire d'inscription. Le processus ne m'a pris que 2 minutes en tout. Finalement,
deux jours plus tard, je recevais un courrier électronique du webmaster du site me disant
que mes pages correspondaient parfaitement aux attentes du site et que je faisais
désormais partie de leur base de données. Depuis, la rubrique "Les derniers inscrits" qui
apparaît en haut à gauche de la page principale du site annugend fait un lien vers mon
site. Un lien vers mon site est également proposé dans la sous-catégorie "réserves" de la
catégorie "Gendarmerie Départementale".
Cette inscription m'a permis de multiplier par trois la fréquentation journalière de
mon site…
Comme quoi, les annuaires spécialisés représentent un point d'entrée intéressant
vers votre site.
La soumission dans ce type d'annuaire se fait manuellement et prend donc
nécessairement un peu de temps.
Le choix de l'annuaire est également important. J'ai parallèlement voulu tester un
outil qui, soit-disant, allait automatiquement soumettre mon site à plusieurs dizaines
d'annuaires. Et cela, en ne remplissant qu'un seul formulaire. Ce gain de temps me
paraissait prometteur suite à ma première expérience avec l'annuaire annugend.
Malheureusement, je n'ai pas mis longtemps avant de regretter l'utilisation de cet outil.
Premièrement, lors de son utilisation, il m'a retourné beaucoup d'erreurs (a priori car il
voulait soumettre mon site à des annuaires ayant disparu). Ensuite, j'ai reçu plusieurs
dizaines de mails provenant des annuaires qui me disaient que mon site ne correspondait
pas du tout au thème de leur site. Finalement, les quelques annuaires qui ont accepté
mon site ne m'ont jamais apporté de visite…
Page 38
38/64
J. Dernières astuces.
Préférez un nom de domaine avec des tirets (-) plutôt que des undescores (_). En
effet, beaucoup de moteurs considèrent le tiret comme un espace. Ainsi, pour un site
comme : http://www.sonneries-de-telephone.com, il ressortira avec comme mots-clés
"sonneries de téléphone" alors que http://www.sonneries_de_telephone.com non. Idem
pour vos noms de page.
xxvi
Un site mis à jour régulièrement est
généralement mieux référencé. Nous
pouvons
constater cela en regardant à quelle vitesse les blogs et les forums sont indexés.
Les pages ne doivent pas être trop lourdes. Une moyenne de 30ko est
recommandée.
Si votre site possède un moteur de recherche interne, il peut être intéressant de
garder une trace de ce qui est recherché afin de voir les sujets les plus convoités par vos
internautes. Dans ce cas, développez-les…
En effet, c'est en regardant la provenance des internautes sur mon site personnel que j'ai
constaté que beaucoup arrivaient sur la page de mon curriculum-vitae suite à une
recherche portant sur ma préparation militaire gendarmerie (ce terme revient à plusieurs
reprises sur mon CV et Google l'avait déjà repéré). C'est cette constatation qui m'a
décidé à créer les pages dont je vous parlais dans le précédent paragraphe.
Contrairement à ce que l'on peut penser, il est préférable de nouer des liens avec
vos partenaires / concurrents. En effet, avoir des liens sur des sites qui traitent
globalement du même sujet que vous vous permet d'avoir une pertinence plus
importante vis-à-vis des moteurs de recherche.
Vérifier que les liens ne sont pas cassés et que les balises ouvertes sont bien
refermées.
Si le nom de votre société apparaît dans son logo (images), réécrivez-le de
manière textuelle. Au minimum, nommez votre image avec le nom de votre société.
Concernant les liens, préférez un lien du style : "accéder à ma page sur ma
préparation militaire gendarmerie" plutôt que "cliquez ici pour accéder à la page sur ma
préparation militaire gendarmerie."
Si toutes les pratiques que nous venons d'entrevoir favorisent le référencement
naturel, d'autres techniques améliorent grandement le positionnement de certains sites.
Ce référencement artificiel fonctionne en général à la limite des outils de recherche.
Malheureusement, cette limite n'étant pas parfaitement définie, il arrive que des
webmasters la dépasse et retrouvent leur site sur les listes noires des moteurs.
En revanche les techniques bien connues utilisant volontairement les failles des robots
restent très périlleuses d'utilisation.
Page 39
39/64
III. Pratiques condamnables
A. Les pages satellites
Les pages satellites, Miroir, Alias ou Doorway page en anglais, sont des pages qui
ne servent qu'à fournir aux moteurs de recherche des mots-clés à se "mettre sous la
dent"!
Leur contenu est donc optimisé (par des répétitions, des synonymes, de
nombreux liens, etc.) pour un mot-clé donné. Lorsque le moteur la parcourt, il enregistre
ces mots-clés. Il est donc plus facile de trouver ce type de page lors d'une recherche.
Une fois que l'internaute arrive sur un page satellite, celle-ci contient généralement un
lien qui lui permet de retourner sur la page principale du site. C'est pour cela que l'on
appelle ces pages des pages satellites. Elles ne contiennent pas l'information que
recherche l'internaute mais sert juste à l'attirer sur le site.
La redirection peut également être automatique et instantanée (avec la balise <META
refresh> réglée sur 0 seconde par exemple) afin que cela soit complètement transparent
pour l'internaute.
Notez que votre page d'accueil doit avoir un lien (généralement caché) vers
chacune de vos pages satellites afin qu'elles puissent être
détectées et donc référencées
par les robots.
Bien que ces pages permettent souvent de combler les problèmes techniques liés au
graphisme (moyen de référencer un site en Flash), elles servent dans beaucoup de cas à
faire du spamdexing.
Par exemple, un vendeur de DVD en ligne peut créer une page par film, et ceci,
qu'il le vende ou non. Lorsque l'utilisateur, suite à une recherche, tombera sur une de ces
pages, il sera automatiquement redirigé vers la page d'accueil.
Les moteurs de recherche cherchent donc à condamner ces pratiques.
Par exemple, nous savons maintenant qu'il est inutile de faire 200 pages satellites avec
un contenu optimisé si c'est pour les faire toutes sur le même principe (trop forte
ressemblance du code HTML) ou avec une redirection de type <META refresh>.
Les moteurs comparent les pages pour déterminer les pages satellites et excluent
systématiquement les pages contenant la balise <META refresh>.
Une redirection côté serveur de type (301 ou 302) est également inutile
puisqu'elle indique au robot que la page a été déplacée. Dans ce cas, le robot ira
directement indexer la page cible.
La technique de redirection la plus utilisée pour les pages satellites est la
redirection client en JavaScript.
<script language="javascript" type="text/javascript">
<!--
window.location.replace("http://www.un-site.com/une-page.htm");
-->
</script>
Mais, là encore, les robots sont chargés de traquer ce genre de scripts…
Des solutions équivalentes mais plus difficiles à repérer de façon automatisée existent.
Page 40
40/64
Pour illustrer cette technique, prenons l'exemple du site http://www.4-6.fr qui utilise les
pages satellites.
La page suivante illustre comment 3 pages différentes redirigent chacune à sa façon vers
la page principale (http://www.3vallées.com/4-6/index2.html). Pour l'internaute non
averti, cette redirection est transparente.
Les redirections se font en JavaScript. Pour voir les pages satellites, il suffit donc tout
simplement de désactiver le JavaScript de notre navigateur.
Notons tout de même que les pages satellites de cet exemple ne cherchent pas à
tromper l'Internaute. En effet, celles-ci son optimisées pour des mots-clés qui restent en
rapport avec le sujet de la page principale.
Ca n'est bien évidement, par le cas de toutes les pages satellites.
Page 41
http://www.3vallees.com
http://www.3vallees.com/4-6/index2.html
http://www.3vallees.com/4-6/index.html
<script language="JavaScript">
<!--
function goToURL() {
var i, args=goToURL.arguments;
for (i=0; i<(args.length-1); i+=2)
eval(args[i]+".location='"+args[i+1]+"'");
}
//-->
</script>
</head>
<body
bgcolor="#FFFFFF"
onLoad="goToURL('parent','http://www.3vallees.com/4-6/index2.html');" >
<p><font color="#3333FF" size="4"><b><font color="#FFFFFF">LES
MENUIRES, LES 3 ...
http://www.4-6.fr
Page 42
42/64
B. Spamdexing
Nous venons de voir que tout ce qui se rapproche du spamdexing est prohibé par
les robots. On peut toujours utiliser les mots-clés, renseigner judicieusement les balises
TITLE et H1, mais il ne faut pas tenter de tromper les robots… Et c'est précisément là
qu'est la limite. Il est souvent difficile de faire la part des choses entre un site ayant un
référencement trop poussé et un autre ayant une
volonté délibérée d'induire en erreur
les robots.
Certains sites passent donc à travers les mailles du filet mais il faut savoir que les robots
se perfectionnent de jour en jour. Il n'est donc pas étonnant de voir des sites bannis des
index pour cette raison.
Vous aurez compris qu'il est dangereux de multiplier les répétitions de mots-clés
dans une même balise. En revanche il est fortement conseillé de répéter ces "keywords"
dans le contenu (titre, texte, liens, etc.) de vos pages.
Rappelez vous que Google (et d'autres) conserve les mots les plus récurrents de
la page et les utilisent comme mots-clés.
Il est même recommandé d'utiliser des synonymes des principaux mots-clés parce
que les moteurs recherchent de plus en plus à connaître le thème principal de la page.
C. Cloaking
La technique dite de cloaking consiste à présenter un contenu différent d'une
même page web suivant qu'il s'agisse d'un Internaute ou bien d'un moteur de recherche.
Cela est très facile à faire car les moteurs de recherche ne font rien pour cacher
leur identité.
Deux méthodes permettent d'identifier les robots :
-
La première identifie le robot par son nom contenu dans le champ User-Agent de l'en-
tête HTTP de la requête.
Exemple d'un script PHP permettant cela :
<?php
$trouve=strpos($_SERVER["HTTP_USER_AGENT"],"Googlebot");
if($trouve!==false){ // le visiteur est Googlebot, lui présenter la page cloakée
?>
<html>
... page cloakée pour Googlebot...
</html>
<?php
}
else{ // le visiteur n'est pas googlebot, lui présenter la page "standard"
?>
<html>
... page HTML "standard"...
</html>
<? } ?>
Cependant, cette technique n'est plus vraiment fiable car, le cloaking étant
condamné par les moteurs de recherche, ceux-ci modifient de plus en plus leur User-
Agent pour limiter ce type de repérage.
Page 43
43/64
-
La seconde technique de cloaking consiste à déterminer l'agent grâce à son adresse
IP. Elle suppose donc que l'on ait une liste exhaustive et à jour des adresses IP des
robots. On peut se procurer ces listes sur des forums spécialisé