Qu'est ce que le cloaking ?
|
Le cloaking est une technique permettant de personnaliser ses pages web en fonction du type d'utilisateur : robot ou internaute.
L'objectif du cloaking est de fournir à chaque moteur de recherche, identifié par son robot, une page optimisée correspondant à ses critères de classement, tandis que l'internaute lambda n'accède à partir de la même url qu'à une page non-optmisée.
Il est surtout utilisé en positionnement sur des mots-clés ultra-concurrentiels, afin d'éviter que le code d'une page ressortant en bonne position ne soit réutilisé frauduleusement par un concurrent.
L'usage du cloaking est controversé, même si l'on ne peut pas assimiler cette technique à du spamdexing.
En effet, suite à de nombreux cas d'atteintes au copyright par des sites utilisant des pages de leurs concurrents à des fins de positionnement en cloakant celles-ci, certains moteurs de recherche sont devenus très méfiants vis à vis de cette technique.
Actuellement, le moteur le plus hostile au cloaking est Google, qui interdit explicitement cette technique. De toute façon, le recours au cloaking est inefficace sur ce moteur puisqu'il permet à l'internaute d'accéder à une version de la page mise en cache.
D'autres moteurs ont une politique plus pragmatique, et ne sanctionnent en général que les abus liés à cette technique.
Le principe du cloakung est simple. Il faut identifier les spiders par leur adresse IP et/ou par leur user-agent afin de pouvoir délivrer à ces robots un contenu spécifique.
Mais cette identification des spiders est justement la partie la plus problématique. Chaque robot dispose généralement d'un user-agent spécifique (par exemple Scooter pour Altavista, Slurp pour Inktomi...). Mais il arrive parfois que ces noms de spiders varient pour un même moteur. Par ailleurs, le user-agent étant falsifiable, quelqu'un pourra facilement utiliser un faux spider afin de décloaker une page.
Il est donc nécessaire d'organiser la délivrance du contenu en fonction de listes d'adresses IP attribuées à chaque spider. C'est ce que l'on appelle l'IP delivery. Constituer une base de données exhaustive des adresses IP de spiders est quasiment impossible. Pour cette raison, aucune méthode de cloaking n'est fiable à 100%. Malgré tout, il est possible de collecter un grand nombre de ces adresses par la simple analyse de ses fichiers logs.
Voila un exemple très basique de cloaking par détection du User-agent d'un spider. Cet exemple nécessite un serveur acceptant les SSI, mais il y a de très nombreuses autres façons d'obtenir le même résultat.
<html>
<!--# if expr="\"$HTTP_USER_AGENT\" != /Mozilla|MSIE|Opera/" -->
<!--# if expr="\"$HTTP_USER_AGENT\" = /Slurp/" -->
<head>
<title>Titre pour Inktomi</title>
</head>
<body>
Contenu pour Inktomi
</body>
<!--# else -->
<head>
<title>Titre pour les autres robots</title>
</head>
<body>
Contenu pour les autres robots
</body>
<!--# endif -->
<!--# else -->
<head>
<title>Titre pour les internautes</title>
</head>
<body>
Contenu pour les internautes.
</body>
<!--# endif -->
</html>
Attention, ce script n'est qu'une illustration de ce qui est faisable par les techniques de cloaking. Pour les raisons évoquées plus haut, il n'y a evidemment aucune garantie que ceci fonctionne, ni que cela soit accepté par les moteurs auxquels une telle page serait soumise.
En théorie, la fonction de ce script serait de fournir au moteur de Yahoo, identifié par son spider Slurp, une version personnalisée de la page, de fournir aux autres moteurs (non identifiés) une seconde version, et aux internautes une troisième version du même document Html.
Dans cet exemple, les trois versions sont incluses dans le même document et délivrées en fonction du User-agent, mais il serait évidemment préférable d'appeller un document spécifique en fonction des différents moteurs et d'identifier ceux-ci grâce à une base de données d'adresses IP.
A lire sur le même sujet : le dossier spécial cloaking d'Actulab, avec des exemples de cloaking en PHP.
Inscription dans les moteurs de recherche et annuaires
|
|
|