Le moteur de recherches est l’outil aujourd’hui le plus utilisé par les internautes. Bien que d’un usage courant, il est encore mal connu - pour l’essentiel - par ses utilisateurs qui ne savent pas toujours optimiser leurs requêtes et par les webmaster qui ne savent pas positionner leurs sites (ou pages comme nous le verrons) afin d’être bien placés par rapport à leurs concurrents.
Ce blog n’a pas la prétention d’être exhaustif sur le sujet mais d’essayer de donner une vision à la fois simple et claire du mode de fonctionnement des moteurs, ainsi que de la manière d’optimiser son site (quand on en a un ) pour être le mieux positionné dans les réponses qu’ils donnent.
Ce blog n’a pas la prétention d’être exhaustif sur le sujet mais d’essayer de donner une vision à la fois simple et claire du mode de fonctionnement des moteurs, ainsi que de la manière d’optimiser son site (quand on en a un ) pour être le mieux positionné dans les réponses qu’ils donnent.
1 - Qu'est ce qu'un moteur de recherches ?
1.1 - Les vrais résultats et les liens commerciaux
2 - Etude de cas
2.1 - Premières constatations
2.2 - Secondes constatations
2.3 - Dernières constatations et premières conclusions
2.4 - Conseil aux internautes
3 - Voyage à l’intérieur d’une page html
3.1 - Traitement de texte Vs page html
3.2 - Les balises
3.3 - Des balises spéciales, les méta-tags
4 - Comment fonctionnent les moteurs ?
4.1 - Les informations stockées
4.2 - Les résultats donnés
5 - Etude spécifique de GOOGLE
5.1 - Le plus complexe et le plus complet
5.2 - La gestion des méta-tags
5.3 - La gestion des textes
5.4 - La gestion des liens et le fameux PageRank
5.5 - La google dance
5.6 - La Sandbox
5.7 - GOOGLE : Un must ?
6 - Conseils aux possesseurs de sites
6.1 - Ne pas mettre tous ces œufs dans le même panier
6.2 - Ne pas négliger les liens commerciaux
6.3 – Penser stratégie
7 - Conclusions
1 - Qu'est ce qu'un moteur de recherches ?
Une réponse simple pour un objet qui ne l’est pas. C’est un logiciel qui stocke des pages Internet et qui pour une requête donnée va, à la suite de calculs complexes, fournir une liste de réponses triées dans un ordre décroissant de pertinence.
Tout a été dit ou presque sur ces moteurs, des vérités, des contre-vérités, des supputations et j’en passe. La réalité n’est pas aussi simple qu’il n’y paraît pour deux raisons. La première, c’est qu’ils existent plusieurs moteurs qui sont architecturés et conçus de manières différentes. La deuxième tient au fait que - pour éviter les abus et les sites sans contenu réellement intéressant mais optimisés pour être retrouvés par les moteurs - cette architecture et le mode de fonctionnement de chaque moteur sont tenus secrets.
1.1 - Les vrais résultats et les liens commerciaux
Tout le monde ne le sait pas encore mais lorsqu’il répond à une question le moteur donne deux types de réponses. Celles qu’il calcule à partir de sa base de recherches et selon ses algorithmes - les liens normaux - et celles qui renvoient sur des liens commerciaux. C’est derniers sont trouvés dans une base où des annonceurs s’inscrivent et payent pour apparaître en première page lors de la réponse à une requête pour lesquelles ils ont réservée les mots correspondants (voir explication complète) Les liens commerciaux sont ceux qui apparaissent à la droite de votre écran ou dans les premières ligne à gauche (en général sur fond bleu).

2 - Etude de cas
Pour comprendre - au moins en partie - comment fonctionne un moteur de recherches il est intéressant de le faire chercher et de voir les résultats qu’il affiche.
Je me suis livré à une petite expérience en me mettant à la place de quelqu’un cherchant à acheter une machine à café et en tapant donc – vous l’aurez deviné - l’occurrence « Machine à café » sur 5 moteurs différents - Yahoo, Google, MSN, Altavista et Voila.
L’exercice est intéressant parce qu’il y a non seulement plusieurs mots mais que deux d’entres eux sont accentués, ce qui n’est pas sans influence sur les résultats trouvés.
Si ont fait abstraction des liens commerciaux, on se rend compte qu’il y a une grande hétérogénéité des résultats trouvés. En effet sur 50 réponses possibles (5 fois 10), 40 sont uniques, 8 sont communes à deux moteurs en pointant sur la même page et 2 en pointant sur le même site mais pas la même page. Il n’y a aucune réponse commune à 3 moteurs ou plus.
Par ailleurs, 20 des réponses ne correspondaient pas à la question posée mais contenaient les mots de la requête. Par exemple, un forum dont le titre était "Autour de la machine à café". Autre exemple - 2 moteurs ont donné le lien d’un café concert qui s’appelle la "Machine à coudre". Les 3 mots de l’occurrence étaient bien là mais la réponse n’est pas satisfaisante pour celui qui la pose.
Les "erreurs" commises par moteur
Google 2 erreurs…
MSN 2 erreurs…
Alta Vista 2 dont un forum
Voilà 0 erreur
Yahoo 5 erreurs…

Si Google n’a donné de réponses qu’avec les accents - comme demandé dans la requête - d’autres moteurs, eux, ont donné des réponses sans accents. J’ai donc soumis dans un deuxième temps à Google les occurrences suivantes : "machine à café", "machine a café", "machine a cafe", "machine à cafe" et "machine café".

Il y a là moins de dispersion dans les réponses - 15 sur 40 si on ne joue que sur les accents et 19 sur 50 si on retire le "à" de l’occurrence.
En posant la même question aux mêmes moteurs le lendemain (cache vidé - c’est à dire en ayant une réponse de leur part et pas de celle de la mémoire de mon disque dur) j’ai eu pour chacun les mêmes réponses dans le même ordre de classement.
De cette expérience on peut tirer quelques premières conclusions :
Les moteurs fonctionnant différemment les uns des autres, il est intéressant de prendre le temps de lire le mode d’emploi de celui qu’on utilise. Nous avons vu que certains moteurs tenaient comptes des accents et d’autre non. Il en est de même pour les pluriels. Si j’avais tapé "Machines" et non "Machine" certains moteurs auraient répondu aussi bien "Machine" que "Machines" estimant que l’un fait partie de l’autre et d’autres uniquement Machines" estimant que c’était la seule question posée. Chaque moteur dispose de fonctions avancées permettant d’affiner la recherche (Et, Ou, etc…) qui si on les utilise bien permettent d’affiner sa question.
Quelle que soit la pertinence des calculs d’un moteur, mieux la question sera posée et meilleur sera le résultat
Je me suis livré à une petite expérience en me mettant à la place de quelqu’un cherchant à acheter une machine à café et en tapant donc – vous l’aurez deviné - l’occurrence « Machine à café » sur 5 moteurs différents - Yahoo, Google, MSN, Altavista et Voila.
L’exercice est intéressant parce qu’il y a non seulement plusieurs mots mais que deux d’entres eux sont accentués, ce qui n’est pas sans influence sur les résultats trouvés.
2.1 - Premières constatations
Si ont fait abstraction des liens commerciaux, on se rend compte qu’il y a une grande hétérogénéité des résultats trouvés. En effet sur 50 réponses possibles (5 fois 10), 40 sont uniques, 8 sont communes à deux moteurs en pointant sur la même page et 2 en pointant sur le même site mais pas la même page. Il n’y a aucune réponse commune à 3 moteurs ou plus.
Par ailleurs, 20 des réponses ne correspondaient pas à la question posée mais contenaient les mots de la requête. Par exemple, un forum dont le titre était "Autour de la machine à café". Autre exemple - 2 moteurs ont donné le lien d’un café concert qui s’appelle la "Machine à coudre". Les 3 mots de l’occurrence étaient bien là mais la réponse n’est pas satisfaisante pour celui qui la pose.
Les "erreurs" commises par moteur
Google 2 erreurs…
MSN 2 erreurs…
Alta Vista 2 dont un forum
Voilà 0 erreur
Yahoo 5 erreurs…

2.2 - Secondes constatations
Si Google n’a donné de réponses qu’avec les accents - comme demandé dans la requête - d’autres moteurs, eux, ont donné des réponses sans accents. J’ai donc soumis dans un deuxième temps à Google les occurrences suivantes : "machine à café", "machine a café", "machine a cafe", "machine à cafe" et "machine café".

Il y a là moins de dispersion dans les réponses - 15 sur 40 si on ne joue que sur les accents et 19 sur 50 si on retire le "à" de l’occurrence.
2.3 - Dernières constatations et premières conclusions
En posant la même question aux mêmes moteurs le lendemain (cache vidé - c’est à dire en ayant une réponse de leur part et pas de celle de la mémoire de mon disque dur) j’ai eu pour chacun les mêmes réponses dans le même ordre de classement.
De cette expérience on peut tirer quelques premières conclusions :
- A chaque moteur sa méthode de recherches.
- Quel que soit le moteur, les résultats ne sont pas aléatoires.
- Les résultats ne sont pas fiables à 100 %.
- Dans certains cas l’orthographe est importante.
2.4 - Conseil aux internautes
Les moteurs fonctionnant différemment les uns des autres, il est intéressant de prendre le temps de lire le mode d’emploi de celui qu’on utilise. Nous avons vu que certains moteurs tenaient comptes des accents et d’autre non. Il en est de même pour les pluriels. Si j’avais tapé "Machines" et non "Machine" certains moteurs auraient répondu aussi bien "Machine" que "Machines" estimant que l’un fait partie de l’autre et d’autres uniquement Machines" estimant que c’était la seule question posée. Chaque moteur dispose de fonctions avancées permettant d’affiner la recherche (Et, Ou, etc…) qui si on les utilise bien permettent d’affiner sa question.
Quelle que soit la pertinence des calculs d’un moteur, mieux la question sera posée et meilleur sera le résultat
3 - Voyage à l’intérieur d’une page html
3.1 - Traitement de texte Vs page html
Lorsque vous vous servez d’un logiciel de traitement de textes, vous allez inscrire sur votre page un contenu, du texte, des images, des liens, etc…et enregistrer votre travail sur votre disque dur à un emplacement précis. Vous pourrez pour le retrouver plus facilement lui donner un titre, insérer un commentaire, des mots-clefs .
Tout comme une page de traitement de texte, une page html est faite d’un contenu et d’informations qui la caractérisent. Les moteurs vont stocker non seulement le contenu textuel mais également toutes les informations périphériques qui caractérisent la page ainsi crée.
De la même manière que lorsque vous ouvrez votre traitement de texte vous ne voyez apparaître que le contenu, le navigateur lui aussi n’affiche que le contenu d’une page htm. Il fait le tri entre les différentes informations. Le moteur, lui, se servira non seulement de ce contenu, mais aussi des informations qui caractérisent la page.

Toutes les fonctions d’une page html sont contenues entre des balises qui indiquent leur début et leur fin, un peu comme des parenthèses aident à déterminer l’ordre de calcul d’une fonction mathématique. Par exemple pour mettre ce texte en gras j’ai du écrire en réalité - < span style="font-weight: bold; > Par exemple pour mettre ce texte en gras j’ai du écrire en réalité < /span >.
Le corps du texte est inscrit lui aussi à l’intérieur d’une balise spécifique nommé "body". A l’intérieur de ce corps et de même que dans un traitement de texte on peut commencer ses paragraphes par des titres paramétrés (titre 1, titre 2,….) on pourra inclure des titres et les hiérarchiser entre des balises nommés h1, h2,…, h6.
Les différents navigateurs (Explorer, Firefox, etc) sont conçus pour lire et traduire la page html pour qu’elle soit lisible à l’écran. Un moteur de recherche de la même manière va chercher et stocker - outre les données texte - des informations bien spécifiques – les méta-données - à l’intérieur de cette même page.
Les méta-tags sont des balises qui contiennent en leur sein les méta-données. Ce sont des informations qui n’apparaissent pas à la lecture d’une page mais qui la caractérisent comme vu un peu plus haut. Elles sont très utiles pas contre aux robots des moteurs qui vont s’en servir pour indexer les pages.

Toutes - ou partie de - ces balises apparaissent en début de page. Vous pourrez les voir en faisant par exemple si vous êtes sur Explorer - "Affichage" puis "Source".
Tout comme une page de traitement de texte, une page html est faite d’un contenu et d’informations qui la caractérisent. Les moteurs vont stocker non seulement le contenu textuel mais également toutes les informations périphériques qui caractérisent la page ainsi crée.
De la même manière que lorsque vous ouvrez votre traitement de texte vous ne voyez apparaître que le contenu, le navigateur lui aussi n’affiche que le contenu d’une page htm. Il fait le tri entre les différentes informations. Le moteur, lui, se servira non seulement de ce contenu, mais aussi des informations qui caractérisent la page.

3.2 - Les balises
Toutes les fonctions d’une page html sont contenues entre des balises qui indiquent leur début et leur fin, un peu comme des parenthèses aident à déterminer l’ordre de calcul d’une fonction mathématique. Par exemple pour mettre ce texte en gras j’ai du écrire en réalité - < span style="font-weight: bold; > Par exemple pour mettre ce texte en gras j’ai du écrire en réalité < /span >.
Le corps du texte est inscrit lui aussi à l’intérieur d’une balise spécifique nommé "body". A l’intérieur de ce corps et de même que dans un traitement de texte on peut commencer ses paragraphes par des titres paramétrés (titre 1, titre 2,….) on pourra inclure des titres et les hiérarchiser entre des balises nommés h1, h2,…, h6.
Les différents navigateurs (Explorer, Firefox, etc) sont conçus pour lire et traduire la page html pour qu’elle soit lisible à l’écran. Un moteur de recherche de la même manière va chercher et stocker - outre les données texte - des informations bien spécifiques – les méta-données - à l’intérieur de cette même page.
3.3 - Des balises spéciales, les méta-tags
Les méta-tags sont des balises qui contiennent en leur sein les méta-données. Ce sont des informations qui n’apparaissent pas à la lecture d’une page mais qui la caractérisent comme vu un peu plus haut. Elles sont très utiles pas contre aux robots des moteurs qui vont s’en servir pour indexer les pages.

Toutes - ou partie de - ces balises apparaissent en début de page. Vous pourrez les voir en faisant par exemple si vous êtes sur Explorer - "Affichage" puis "Source".
4 - Comment fonctionnent les moteurs ?
Autant le dire tout de suite personne ne le sait vraiment. Pour éviter la "triche" et que des sites ne soient conçus que dans le but d’apparaître en première page (ou dans les premières pages) d’une réponse, les algorithmes de recherches sont tenus secrets.
Quelques certitudes néanmoins. Ils stockent les textes des pages et les textes des méta-tags (au moins une partie). Certains lisent également les textes des tags (ce sont les petits textes qui s’affichent lorsque vous passer au dessus d’un lien image) ou certaines balises textes associées à des images. Tous indexent les liens internes (qui pointent à l’intérieur du site) et les liens externes (qui pointent vers d’autres sites).
Autre certitude également - un moteur indice des pages et pas un site .
Pour avoir une idée de la manière dont un site voit une page, vous pouvez - par exemple - vous rendre sur le site de Spider Simulator.
Nous venons de voir que les moteurs indexaient textes et méta-tags. Cependant tous ne le font pas de la même manière.
Les principales différences tiennent aux types de méta-donnée stockées et à la longueur des chaînes d’informations qui leurs sont réservées. Bien que les coûts de stockage aient fortement baissé et pour faciliter la rapidité des calculs en aval, la quantité d’informations réservée à chaque page est limitée.
Comme vous pourrez le voir sur le tableau ci-dessous, si les informations contenues dans une balise donnée peuvent être stockées par certains moteurs d’autres vont les ignorer et si certains gèrent toute la chaîne de caractères contenue à l’intérieur de la balise, d’autres ne tiendront compte que des n premiers caractères qui s’y trouvent.
La balise "titre", par exemple, ne sera lue que pour ses 90, 100 ou 200 caractères suivant les moteurs. Un moteur stocke 5000 caractères de "mots-clefs" (keywords), un autre seulement 1024 et le dernier les ignore totalement.
Puisque les moteurs s’appuient sur des bases de données différentes il est normal – et c’est la première raison -qu’ils donnent des réponses différentes.

Quelques certitudes néanmoins. Ils stockent les textes des pages et les textes des méta-tags (au moins une partie). Certains lisent également les textes des tags (ce sont les petits textes qui s’affichent lorsque vous passer au dessus d’un lien image) ou certaines balises textes associées à des images. Tous indexent les liens internes (qui pointent à l’intérieur du site) et les liens externes (qui pointent vers d’autres sites).
Autre certitude également - un moteur indice des pages et pas un site .
Pour avoir une idée de la manière dont un site voit une page, vous pouvez - par exemple - vous rendre sur le site de Spider Simulator.
4.1 - Les informations stockées
Nous venons de voir que les moteurs indexaient textes et méta-tags. Cependant tous ne le font pas de la même manière.
Les principales différences tiennent aux types de méta-donnée stockées et à la longueur des chaînes d’informations qui leurs sont réservées. Bien que les coûts de stockage aient fortement baissé et pour faciliter la rapidité des calculs en aval, la quantité d’informations réservée à chaque page est limitée.
Comme vous pourrez le voir sur le tableau ci-dessous, si les informations contenues dans une balise donnée peuvent être stockées par certains moteurs d’autres vont les ignorer et si certains gèrent toute la chaîne de caractères contenue à l’intérieur de la balise, d’autres ne tiendront compte que des n premiers caractères qui s’y trouvent.
La balise "titre", par exemple, ne sera lue que pour ses 90, 100 ou 200 caractères suivant les moteurs. Un moteur stocke 5000 caractères de "mots-clefs" (keywords), un autre seulement 1024 et le dernier les ignore totalement.
Puisque les moteurs s’appuient sur des bases de données différentes il est normal – et c’est la première raison -qu’ils donnent des réponses différentes.

4.2 - Les résultats donnés
Comme nous venons de le voir, les bases de données constituées par les moteurs sont différentes. Par ailleurs chaque moteur à ses propres algorithmes et donne à chaque information un poids qui lui est propre dans ses calculs. C’est la seconde raison pour laquelle d’un moteur à l’autre pour une même requête les résultats sont différents.
Bien sur ces méthodes de calculs sont tenues secrètes. Elles doivent allier pertinence et rapidité (Il leur faut – en moyenne -moins d’une demi seconde pour trouver et classer 10 000 000 de réponses).
Bien sur ces méthodes de calculs sont tenues secrètes. Elles doivent allier pertinence et rapidité (Il leur faut – en moyenne -moins d’une demi seconde pour trouver et classer 10 000 000 de réponses).
5 - Etude spécifique de GOOGLE
GOOGLE est aujourd’hui le moteur le plus populaire – 60% de part de marché en France – non seulement parce qu’il a su s’appuyer sur une démarche marketing forte mais aussi parce qu’il a su se différencier des autres moteurs à travers une architecture et des algorithmes sortant de ce qui se faisait auparavant.
5.1 - Le plus complexe et le plus complet
Google gère environ 8 milliards de pages (suivant ses propres sources) à travers 10.000 serveurs en grappes autour de trois serveurs principaux. Ces trois serveurs principaux travaillent avec des algorithmes légèrement différents ce qui explique qu’au fils des heures les réponses à une même requête puissent varier. Dans notre exemple d’étude de cas nous avons eu la même réponse d’un jour à l’autre, ce qui veut dire que nous sommes tomber sur la même grappe de serveurs ou que les légères différences d’algorithmes n’étaient pas significatives dans le cadre de notre requête.
Au-delà de cette particularité qui lui est propre Google se différencie des autres moteurs par sa gestion des textes, la gestion des méta-tags, celle des liens avec le principe du PageRank, la Sandbox et quelque chose de plus anecdotique mais qui fait aussi parler de nombreux aficionados - la Google dance.
Au-delà de cette particularité qui lui est propre Google se différencie des autres moteurs par sa gestion des textes, la gestion des méta-tags, celle des liens avec le principe du PageRank, la Sandbox et quelque chose de plus anecdotique mais qui fait aussi parler de nombreux aficionados - la Google dance.
5.2 - La gestion des méta-tags
A l’origine seuls les méta-tags – et notamment les mots-clefs - servaient à indicer des pages. Aujourd’hui ils représentent encore une place importante dans le poids des calculs de résultats de nombreux moteurs.
GOOGLE – lui - ne tient compte que de la balise "title", des balises "titres" et de l’url de la page. Suite à de trop nombreux abus il n’analyse plus les mots–clefs de la balise correspondante. (Trop de sites pour être plus facilement repérables inscrivaient - et inscrivent encore - des mots-clefs souvent demandés dans des requêtes mais n’ayant aucun rapport direct avec le contenu de la page).
La balise "description" ne sert pas dans les calculs mais elle est stockée et apparaît souvent dans le texte du résultat de la recherche.
La balise "robot" est lue pour savoir si la page – et/ou ses liens - doit être ou non stockée par le moteur.
Enfin la balise de "codage" est elle utilisée pour permettre à GOOGLE de savoir comment interpréter les caractères accentués (é,è,ê….)
GOOGLE – lui - ne tient compte que de la balise "title", des balises "titres" et de l’url de la page. Suite à de trop nombreux abus il n’analyse plus les mots–clefs de la balise correspondante. (Trop de sites pour être plus facilement repérables inscrivaient - et inscrivent encore - des mots-clefs souvent demandés dans des requêtes mais n’ayant aucun rapport direct avec le contenu de la page).
La balise "description" ne sert pas dans les calculs mais elle est stockée et apparaît souvent dans le texte du résultat de la recherche.
La balise "robot" est lue pour savoir si la page – et/ou ses liens - doit être ou non stockée par le moteur.
Enfin la balise de "codage" est elle utilisée pour permettre à GOOGLE de savoir comment interpréter les caractères accentués (é,è,ê….)
5.3 - La gestion des textes
Puisque GOOGLE ne se sert pas de la balise mots-clefs il va pratiquement créer ces derniers lui-même en interprétant le texte. En fait, il analyse la densité des mots et expressions d’une page donnée et les classes par ordre décroissant. Plus un mot sera présent au regard de l’ensemble de la page et plus il prendra de poids pour GOOGLE, ce qui garantit à ce – pseudo - mot-clef d’être en parfaite adéquation avec le contenu du texte puisqu’il en est tiré. Bien sur, au-delà d’une certaine densité GOOGLE va considérer qu’il s’agit d’une page de "spam" et l’exclure du moteur. GOOGLE saura donner aussi plus de poids aux textes contenus entre les balises titres h1 à h6 au prorata de leur importance (h1 étant considéré comme plus important que h2 et ainsi de suite jusqu’à h6 qui a plus de poids que du texte simple).
Cette analyse de texte est un des piliers qui ont fait le succès de GOOGLE en lui permettant de donner des résultats les plus proches possibles de la réalité puisque se basant sur le contenu lisible de la page.
Cette analyse de texte est un des piliers qui ont fait le succès de GOOGLE en lui permettant de donner des résultats les plus proches possibles de la réalité puisque se basant sur le contenu lisible de la page.
5.4 - La gestion des liens et le fameux PageRank
Le PageRank (PR) est – pour Google – l’indice de popularité d'une page web, calculé selon un algorithme très sophistiqué, qui s’appuie sur les échanges de liens entre pages.
Alors que les autres moteurs ne gèrent les entrées et sorties de liens que de manière quantitative, Google s’appuie lui des données "qualitatives".
L’idée est que si une page X fait un lien vers une page Y c’est qu’elle estime que le contenu de Y est intéressant. Si X est elle-même pointée par des liens c’est qu’elle est elle-même intéressante pour d’autres. Plus elle sera pointée et plus elle sera considérée intéressante et méritera un PR élevé.
De la même manière, plus le PR de X sera élevé et plus le fait qu’elle s’intéresse à Y rendra Y intéressante, lui permettant ainsi d’augmenter son propre PR.
GOOGLE ne tient pas uniquement compte du fait qu’il y ait un lien ou non mais s’intéresse à la qualité de son origine.
Pour les mathématiciens la formule servant à calculer le PR ressemble un peu à celle là :
Soit X1, X2, X3, …, Xn (n pages ayant un lien vers un site Y).
Soit PR.X le PageRank des sites X et PR.Y le PageRank de la page Y...
Soit N le nombre de liens sortants presents sur la page X .
Soit F un facteur compris entre 0 et 1 généralement égale à 0.85.
PR.Y= (1-F) + (F x ((PR.X1 / NX1) + (PR.X2 / NX2) + … + (PR.Xn / NX)))
Ce qui est sur c’est que l'algorithme PageRank fait partie des critères utilisés pour déterminer le ranking (positionnement) des pages dans Google. Ainsi, pour deux pages au contenu comparable, celle ayant le meilleur PageRank sera souvent (mais pas toujours) classée devant, surtout pour les requêtes très concurrentielles.
Concrètement et pour faire simple il semblerait également que :
Par ailleurs :
Disons le tout de suite - et quoi qu’en pensent certains – NON.
Avoir un bon PR ne garantit pas un bon classement même s’il y aide.
Un exemple parmi d’autres lu sur un blog dont l’auteur me pardonnera de ne pas avoir gardé le lien.
Les amateurs de cuisine et de gâteaux pourraient vouloir rechercher le site d’ALSA. S’ils inscrivent le mot "ALSA", et qu’ils le cherchent sur les pages francaises, ils ne le trouveront pas en première page. Pire le premier résultat sera une page personnelle (n’ayant rien à voir avec la pâtisserie) et pas une page issue d’un site en .fr ou .com.

Et pourtant la page d’accueil d’alsa.fr à un PR de 7 alors que celle de la page personnelle située au premier rang de 4 seulement (Ce qui est excellent pour ce type de page il est vrai)
Si on renouvelle l’expérience sur l’ensemble des pages web on trouvera le site d’Alsa Espagne en seconde position mais toujours pas le site français sur la première page alors qu’ALSA est une marque française.
Alors que les autres moteurs ne gèrent les entrées et sorties de liens que de manière quantitative, Google s’appuie lui des données "qualitatives".
Le principe de base du PageRank
L’idée est que si une page X fait un lien vers une page Y c’est qu’elle estime que le contenu de Y est intéressant. Si X est elle-même pointée par des liens c’est qu’elle est elle-même intéressante pour d’autres. Plus elle sera pointée et plus elle sera considérée intéressante et méritera un PR élevé.
De la même manière, plus le PR de X sera élevé et plus le fait qu’elle s’intéresse à Y rendra Y intéressante, lui permettant ainsi d’augmenter son propre PR.
GOOGLE ne tient pas uniquement compte du fait qu’il y ait un lien ou non mais s’intéresse à la qualité de son origine.
Le PageRank en équation
Pour les mathématiciens la formule servant à calculer le PR ressemble un peu à celle là :
Soit X1, X2, X3, …, Xn (n pages ayant un lien vers un site Y).
Soit PR.X le PageRank des sites X et PR.Y le PageRank de la page Y...
Soit N le nombre de liens sortants presents sur la page X .
Soit F un facteur compris entre 0 et 1 généralement égale à 0.85.
PR.Y= (1-F) + (F x ((PR.X1 / NX1) + (PR.X2 / NX2) + … + (PR.Xn / NX)))
Ce que l’on sait du PageRank
Ce qui est sur c’est que l'algorithme PageRank fait partie des critères utilisés pour déterminer le ranking (positionnement) des pages dans Google. Ainsi, pour deux pages au contenu comparable, celle ayant le meilleur PageRank sera souvent (mais pas toujours) classée devant, surtout pour les requêtes très concurrentielles.
Concrètement et pour faire simple il semblerait également que :
- Le PR d'une page est d'autant plus grand que d'une part de nombreuses autres pages font un lien vers elle, et d'autre part que chacune de ses pages faisant un lien aient, elles aussi, un PR élevé (ce que nous venons de voir).
- Inversement il semblerait que si une page au PR élevé pointe vers une (ou des) page(s) au PR faible, elle perdra de son propre poids.
- Plus le contenu de deux pages sera proche et plus le poids qu’elles se donneront mutuellement en échangeant des liens sera élevé (et inversement).
- Plus une page enverra de liens vers d’autres pages moins ses dernières verront leur PR augmenter (Le poids donné se dilue en quelque sorte)
Par ailleurs :
- Le PR n’est mis à jour temps réel mais à chaque Google Dance.
- Le PR réel d'une page n'est connu que de Google, mais les internautes peuvent connaître une approximation grossière du PR d'une page en consultant la Google Toolbar . qui indique le PR sur une échelle de 0 à 10.
Le PageRank une arme fatale ?
Disons le tout de suite - et quoi qu’en pensent certains – NON.
Avoir un bon PR ne garantit pas un bon classement même s’il y aide.
Un exemple parmi d’autres lu sur un blog dont l’auteur me pardonnera de ne pas avoir gardé le lien.
Les amateurs de cuisine et de gâteaux pourraient vouloir rechercher le site d’ALSA. S’ils inscrivent le mot "ALSA", et qu’ils le cherchent sur les pages francaises, ils ne le trouveront pas en première page. Pire le premier résultat sera une page personnelle (n’ayant rien à voir avec la pâtisserie) et pas une page issue d’un site en .fr ou .com.

Et pourtant la page d’accueil d’alsa.fr à un PR de 7 alors que celle de la page personnelle située au premier rang de 4 seulement (Ce qui est excellent pour ce type de page il est vrai)
Si on renouvelle l’expérience sur l’ensemble des pages web on trouvera le site d’Alsa Espagne en seconde position mais toujours pas le site français sur la première page alors qu’ALSA est une marque française.
5.5 - La google dance
Tous les mois environ, de manière non périodique ni régulière, les robots de Google scrutent la toile pour analyser les nouveaux liens et l’évolution de ceux qui sont déjà stockés. Ils recalculent ainsi le PageRank de chaque page. Bien que ce dernier ne soit pas forcement prépondérant sur le positionnement de la page dans le moteur, il s’en suit que ce positionnement peut être néanmoins meilleur ou moins bon après cette analyse. Comme cette analyse prend plusieurs heures - voire plusieurs jours - et que les différents serveurs ne sont pas mis à jour en même temps (Il faut parfois plusieurs jours), il s’avère que pour une même requête, suivant le serveur interrogé (qu’on ne connaît pas), les réponses ne seront pas les même et qu’une même page pourra être plus ou moins haut dans le classement.
Si on réitère cette même requête plusieurs fois durant cette période, une page donnée montera, descendra, montera, descendra, etc... dans ce classement, d’où le terme de "danse".
Si on réitère cette même requête plusieurs fois durant cette période, une page donnée montera, descendra, montera, descendra, etc... dans ce classement, d’où le terme de "danse".
5.6 - La Sandbox
La sandbox (littéralement , bac à sable mais aussi le nom d’une partie de mémoire réservée à des applications java puis espace réservé dans un site pour tester des applications) n’a aucune existence officielle donc on n’en connaît que les effets mais ni la cause ni les mécanismes exacts.
En gros il semblerait que – depuis début 2004 - Google applique des filtres aux liens rentrants des nouveaux sites pendant plusieurs mois avant de les libérer, ce qui a pour conséquence de l’empêcher d’avoir un bon PageRank. Concrètement durant cette période un nouveau site est présent dans la réponse aux requêtes mais mal positionné. Comme rien n’est officiel, il n’y a pas d’explication du côté de Google.
Il semblerait que ce filtrage soit destiné à empêcher les abus d’échanges de liens et les sites de spam sans contenu réel. Plus un site est ancien et plus il est a priori crédible. C’est un postulat que semble s’être approprié Google – qui a inventé le purgatoire informatique - et dont il faut tenir compte lorsque l’on crée son site notamment en pensant aussi à l’optimiser pour d’autres moteurs moins stricts.
En gros il semblerait que – depuis début 2004 - Google applique des filtres aux liens rentrants des nouveaux sites pendant plusieurs mois avant de les libérer, ce qui a pour conséquence de l’empêcher d’avoir un bon PageRank. Concrètement durant cette période un nouveau site est présent dans la réponse aux requêtes mais mal positionné. Comme rien n’est officiel, il n’y a pas d’explication du côté de Google.
Il semblerait que ce filtrage soit destiné à empêcher les abus d’échanges de liens et les sites de spam sans contenu réel. Plus un site est ancien et plus il est a priori crédible. C’est un postulat que semble s’être approprié Google – qui a inventé le purgatoire informatique - et dont il faut tenir compte lorsque l’on crée son site notamment en pensant aussi à l’optimiser pour d’autres moteurs moins stricts.
5.7 - GOOGLE : Un must ?
Une question intéressante qui appelle une réponse de normand…Oui et non.
En terme d’utilisateur c’est vrai qu’à son lancement GOOGLE a apporté un vrai plus mais qu’il est aujourd’hui rattrapé par ses concurrents en matière de recherches pures. On a vu dans notre étude de cas – même si ce n’est qu’un exemple qui ne peut être généralisé – que les réponses de GOOGLE n’étaient pas meilleures – ni pires – que celles de ses concurrents. Force est de constater néanmoins qu’il a les meilleures parts de marché sur le net (60% actuellement en France)
En matière d’ergonomie - et de possibilités annexes - GOOGLE offre - encore - un indéniable plus.
En matière marketing il est imbattable. Son concept de PageRank, la GOOGLE dance, la sandbox – et de nombreux autres outils créés que je n’ai pas évoqué ici puisque hors sujet – ont inspiré une Googlemania chez de nombreux internautes et concepteurs de sites. Que de livres écrits, que de forum traitant de GOOGLE. Il est parvenu au rang de Microsoft en terme de notoriété mais avec un énorme avantage sur ce dernier : Il est gratuit pour ses utilisateurs donc prête moins le flanc à la critique.
Pour les possesseurs de sites - et concepteurs – GOOGLE est un immense casse tête. Ses parts de marché – comme celle de Microsoft – le rendent incontournable. Mais à quel prix ? A moins de souscrire au programme de liens commerciaux, il faudra des mois pour être bien positionné. Seuls ceux maîtrisant bien son fonctionnement s’en tirent, et ils sont rares. Il y a des trucs, des astuces secrètes, une manière de concevoir son site qui facilitent la chose mais pas de recette miracle.
Microsoft est le leader, il est incontournable mais il n’est pas toujours le meilleur. En cela GOOGLE lui ressemble beaucoup.
En terme d’utilisateur c’est vrai qu’à son lancement GOOGLE a apporté un vrai plus mais qu’il est aujourd’hui rattrapé par ses concurrents en matière de recherches pures. On a vu dans notre étude de cas – même si ce n’est qu’un exemple qui ne peut être généralisé – que les réponses de GOOGLE n’étaient pas meilleures – ni pires – que celles de ses concurrents. Force est de constater néanmoins qu’il a les meilleures parts de marché sur le net (60% actuellement en France)
En matière d’ergonomie - et de possibilités annexes - GOOGLE offre - encore - un indéniable plus.
En matière marketing il est imbattable. Son concept de PageRank, la GOOGLE dance, la sandbox – et de nombreux autres outils créés que je n’ai pas évoqué ici puisque hors sujet – ont inspiré une Googlemania chez de nombreux internautes et concepteurs de sites. Que de livres écrits, que de forum traitant de GOOGLE. Il est parvenu au rang de Microsoft en terme de notoriété mais avec un énorme avantage sur ce dernier : Il est gratuit pour ses utilisateurs donc prête moins le flanc à la critique.
Pour les possesseurs de sites - et concepteurs – GOOGLE est un immense casse tête. Ses parts de marché – comme celle de Microsoft – le rendent incontournable. Mais à quel prix ? A moins de souscrire au programme de liens commerciaux, il faudra des mois pour être bien positionné. Seuls ceux maîtrisant bien son fonctionnement s’en tirent, et ils sont rares. Il y a des trucs, des astuces secrètes, une manière de concevoir son site qui facilitent la chose mais pas de recette miracle.
Microsoft est le leader, il est incontournable mais il n’est pas toujours le meilleur. En cela GOOGLE lui ressemble beaucoup.
6 - Conseils aux possesseurs de sites
Nous venons de le voir, il faut un certain temps pour grimper dans les listes de résultats des moteurs (c’est particulièrement vrai pour GOOGLE mais aussi pour les autres).
Les résultats de vos travaux mis en œuvre dans ce but ne sont pas immédiats. C’est un peu comme du jardinage. Il faut préparer le terrain – en ayant un site bien conçu dès le départ – planter les bonnes graines aux bons endroits et savoir attendre qu’elles fleurissent.
Les résultats de vos travaux mis en œuvre dans ce but ne sont pas immédiats. C’est un peu comme du jardinage. Il faut préparer le terrain – en ayant un site bien conçu dès le départ – planter les bonnes graines aux bons endroits et savoir attendre qu’elles fleurissent.
6.1 - Ne pas mettre tous ces œufs dans le même panier
Optimiser son site pour tous les moteurs
Nous venons de voir dans le chapitre précédent que si GOOGLE est l’incontestable leader, il est très difficile de bien s’y positionner avant au moins 6 mois mais plus généralement un an ou deux.
Il y a eu une vie avant GOOGLE, il y en aura une après et il y en a une pendant. Si GOOGLE est devenu incontournable, il n’est pas le seul.
Les autres moteurs représentent 40% de part de marché – près de la moitié – ce qui n’est pas négligeable. Ils permettent de se faire bien référencer, plus rapidement, ce qui ne l’est pas non plus.
Pensez GOOGLE en créant son site n’est pas une erreur – loin de là – mais ne penser que GOOGLE est une faute que trop de développeurs commettent.
Il y a eu une vie avant GOOGLE, il y en aura une après et il y en a une pendant. Si GOOGLE est devenu incontournable, il n’est pas le seul.
Les autres moteurs représentent 40% de part de marché – près de la moitié – ce qui n’est pas négligeable. Ils permettent de se faire bien référencer, plus rapidement, ce qui ne l’est pas non plus.
Pensez GOOGLE en créant son site n’est pas une erreur – loin de là – mais ne penser que GOOGLE est une faute que trop de développeurs commettent.
Travailler les textes
Nous l’avons vu GOOGLE fonde une très grande partie de ses algorithmes sur la densité des mots et le contenu du texte de la page.
Au-delà du côté robotisé des moteurs pensez à vos lecteurs. Plus votre texte sera clair et plus il plaira. Plus il plaira et plus vous aurez de liens. Certains annuaires – rares il est vrai quoi qu’ils en disent– ne vous référenceront que s’ils jugent la qualité de votre site suffisante.
Au-delà du côté robotisé des moteurs pensez à vos lecteurs. Plus votre texte sera clair et plus il plaira. Plus il plaira et plus vous aurez de liens. Certains annuaires – rares il est vrai quoi qu’ils en disent– ne vous référenceront que s’ils jugent la qualité de votre site suffisante.
Travailler les tags
Tous les moteurs sans exception accordent une importance fondamentale au titre de la page. Le titre de cette page ne doit pas être le titre du site sauf cas exceptionnel.
Par exemple : Si vous vendez des accessoires ménagers en tous genres, le fait de nommer la page présentant des machines à café "Machines à café" lui donnera beaucoup plus de poids lorsqu’un internaute cherchera cette occurrence que si vous la nommez "Ventes d’accessoires ménagers en tous genres".
Accessoirement c’est le texte de la balise "Titre" qui s’inscrit dans l’onglet de présentation de la page dans le cas ou le navigateurs peut en afficher plusieurs (Firefox notamment).
Par ailleurs si GOOGLE ne gère pas d’autres méta-données (officiellement), d’autres moteurs le font et représentent encore – nous l’avons vu - une part de marché non négligeable. La gestion de la description et celle des mots clefs devrait être prise ne compte avec soin. N’oubliez pas que les accents ont de l’importance en France (Lorsqu’un mot est accentué, pensez aussi à le mettre sans accent – pareil pour les pluriels) et pensez à les prioriser. (Certains moteurs prennent des chaînes de caractères assez courtes)
Par exemple : Si vous vendez des accessoires ménagers en tous genres, le fait de nommer la page présentant des machines à café "Machines à café" lui donnera beaucoup plus de poids lorsqu’un internaute cherchera cette occurrence que si vous la nommez "Ventes d’accessoires ménagers en tous genres".
Accessoirement c’est le texte de la balise "Titre" qui s’inscrit dans l’onglet de présentation de la page dans le cas ou le navigateurs peut en afficher plusieurs (Firefox notamment).
Par ailleurs si GOOGLE ne gère pas d’autres méta-données (officiellement), d’autres moteurs le font et représentent encore – nous l’avons vu - une part de marché non négligeable. La gestion de la description et celle des mots clefs devrait être prise ne compte avec soin. N’oubliez pas que les accents ont de l’importance en France (Lorsqu’un mot est accentué, pensez aussi à le mettre sans accent – pareil pour les pluriels) et pensez à les prioriser. (Certains moteurs prennent des chaînes de caractères assez courtes)
Ne pas négliger les annuaires
Nous avons vu que GOOGLE en particulier - avec le concept du PageRank – mais également les autres moteurs accorde une grande importance aux liens entrants d’une page. Plus elle en a et plus elle aura de chances d’être bien placées. Un bon moyen d’obtenir des liens est d’être présent dans des annuaires de recherches.
6.2 - Ne pas négliger les liens commerciaux
C’est quoi exactement un lien commercial ?
Nous avons vu au début de cet exposé qu’il y avait les liens libres calculés à partir de l’ensemble des pages Web stockées par les moteurs et des liens commerciaux qui apparaissent aussi en premières pages. Pour être sur d’être en première page, voire en première ligne, il peut être opportun d’avoir recours aux programmes de liens commerciaux offerts par de nombreux moteurs. Attention qui dit lien commercial dit commerce. Un lien commercial n’est pas gratuit, il s’achète.
Ca marche comment ?
Le principe est celui d’un système d’enchère très proche de celui d’Ebay.
Concrètement on réserve un (ou des) mot(s) clef(s) ou occurrence(s) en déterminant le prix maximum qu’on est prêt à payer et ce pour une période donnée.
Reprenons l’exemple de l’étude de cas. Si je vends des machines à café et que je veux être rapidement visible sur la toile je peux réserver chez GOOGLE ou un autre – voire plusieurs – l’occurrence "Machine à café ". Je ne serais sans doute pas le seul à apparaître en première page mais au moins y serai-je.
Puisqu’on a naturellement tendance à cliquer sur les premiers liens, les premiers sites classés seront ceux qui auront enchéri le plus pour l’occurrence en question.
Supposons que j’ai accepté de payer 5 € et mes concurrents 4 et 3 €, je serais en première ligne. Inversement si je ne voulais investir que 2 € je ne serais qu’en troisième ligne
Concrètement on réserve un (ou des) mot(s) clef(s) ou occurrence(s) en déterminant le prix maximum qu’on est prêt à payer et ce pour une période donnée.
Reprenons l’exemple de l’étude de cas. Si je vends des machines à café et que je veux être rapidement visible sur la toile je peux réserver chez GOOGLE ou un autre – voire plusieurs – l’occurrence "Machine à café ". Je ne serais sans doute pas le seul à apparaître en première page mais au moins y serai-je.
Puisqu’on a naturellement tendance à cliquer sur les premiers liens, les premiers sites classés seront ceux qui auront enchéri le plus pour l’occurrence en question.
Supposons que j’ai accepté de payer 5 € et mes concurrents 4 et 3 €, je serais en première ligne. Inversement si je ne voulais investir que 2 € je ne serais qu’en troisième ligne
Ca coûte combien ?
Nous venons de voir comment être en première page et – ou – en première ligne d’une page de réponse d’un moteur. En réalité y être ne coûte rien (A part un droit d’entrée très faible). Ce qui coûte c’est le fait que l’on clique sur ce lien commercial.
A chaque fois qu’un internaute cliquera sur mon lien je serai débité d’une somme correspondant, non pas à mon enchère mais à celle du mieux disant placé juste après la mienne plus 1ct. Pour reprendre l’exemple où j’accepte de payer 5 € et mes concurrents 4 et 3 €, je serai débité 4.01 €.
Bien sur plus le mot ou l’occurrence sera concurrentiel et plus les enchères vont monter haut. Bien sur également, on peut paramétrer son compte pour se retirer des enchères, une certaine somme journalière ayant été dépensé. Le lien disparaît jusqu’au lendemain.
A chaque fois qu’un internaute cliquera sur mon lien je serai débité d’une somme correspondant, non pas à mon enchère mais à celle du mieux disant placé juste après la mienne plus 1ct. Pour reprendre l’exemple où j’accepte de payer 5 € et mes concurrents 4 et 3 €, je serai débité 4.01 €.
Bien sur plus le mot ou l’occurrence sera concurrentiel et plus les enchères vont monter haut. Bien sur également, on peut paramétrer son compte pour se retirer des enchères, une certaine somme journalière ayant été dépensé. Le lien disparaît jusqu’au lendemain.
Quel intéret?
Il est évident quand on est pressé d’être vite connu. C’est un investissement publicitaire comparable à celui qu’on fait quand on lance un produit et que de la même manière on peut renouveler à des périodes clefs de son activité.
Il peut être intéressant aussi quand on n’arrive pas à bien se positionner naturellement sur un terme. Dans le cas évoqué un peu plus haut, ALSA aurait tout intérêt à prendre un lien commercial sur son nom, d’autant plus qu’il serait le seul et que le coût de cette mise en place serait ridiculement bas.
La gestion des liens commerciaux est un investissement au même titre que la création du site. Il vaut mieux le budgéter en amont – lors de la phase de conception – et l’optimiser.
Il peut être intéressant aussi quand on n’arrive pas à bien se positionner naturellement sur un terme. Dans le cas évoqué un peu plus haut, ALSA aurait tout intérêt à prendre un lien commercial sur son nom, d’autant plus qu’il serait le seul et que le coût de cette mise en place serait ridiculement bas.
La gestion des liens commerciaux est un investissement au même titre que la création du site. Il vaut mieux le budgéter en amont – lors de la phase de conception – et l’optimiser.
6.3 – Penser stratégie
Nous venons de voir tous les moyens que l’on a à sa disposition pour être bien positionné sur les moteurs de recherches. Comme dans tout acte de management mieux vaut être pro-actif que réactif.
Vous allez monter un site ?
- Réfléchissez en premier à sa finalité.
- Etablissez votre budget. S’il est des 100 n’investissez qu’au maximum 80 dans la création elle-même. Gardez au minimum 20 pour sa promotion.
- Préparez un synoptique d’architecture.
- Pensez à bien articuler vos menus.
- Une fois que c’est fait, rédiger vos pages.
- Pour chacune d’elle évitez de vous éparpiller – faites des textes courts – et privilégiez une idée forte.
- Pour chaque page remplissez vos méta-tags de manière à ce qu’ils la définissent le mieux possible.
- Inscrivez-vous dans des annuaires.
- Pensez aux liens commerciaux.
Vous avez déjà un site ?
Répond t’il à vos attentes ? (Pour mémoire un bon site n’est pas un site qui ne coûte rien mais un site qui rapporte)
Si oui tant mieux, si non à défaut de le refaire (voir paragraphe précédent) vous pourrez toujours :
Si oui tant mieux, si non à défaut de le refaire (voir paragraphe précédent) vous pourrez toujours :
- Retravaillez le texte de vos pages.
- Les scinder s’il y a plusieurs idées maîtresses dans une même page.
- Repenser ou remplir vos méta-tags.
- Vous inscrire sur de bons annuaires (Si ce n’est déjà fait).
- Envisagez une relance par des liens commerciaux.
7 - Conclusions
Un moteur de recherches est un outil éminemment pratique mais imparfait et il le sera toujours quelles que soient les améliorations données au fil des années.
Ne lui jetons pas la pierre. Il répond à une question à partir de ses bases de données.
Le jour ou les internautes sauront poser la bonne question, avec la bonne syntaxe, et le jour ou les webmasters sauront faire des sites propres, avec des pages claires, évitant toutes confusions dans l’interprétation que les moteurs leurs donnent, tout sera – presque –pour le mieux dans le meilleur des mondes de la recherche sur Internet.

0 Comments:
Enregistrer un commentaire
<< Home