InformatiqueInternet

Le crawl ou comment les moteurs indexent les sites web

– Qu’est-ce qu’un crawler, comment les moteurs capturent le contenu sur Internet.

Le crawl, traduction anglaise du terme peu usité « rampement« , est le mouvement que fait une araignée quand elle parcourt sa toile.

On appelle également araignée (spider) le robot ou automate des moteurs de recherche dont la tâche est de collectionner toujours plus de pages Web.

Le Web ? Eh oui, la toile ! C’est donc tout un vocabulaire arachnéen qui est utilisé par les moteurs de recherche.

Le crawl<, c’est donc le parcours de la toile par les moteurs de recherche en vue d’aspirer les pages des sites.

Les fils de cette toile mondiale sont donc les liens qui lient les pages entre elles.

Si une page est isolée, qu’aucun lien n’existe pour y accéder, celle-ci ne peut être trouvée par les moteurs de recherche.
On dit que cette page fait partie du « Web invisible« .

Il est donc primordial d’avoir des liens.

Mais imaginez une page que l’on ne pourrait trouver qu’en ayant cliqué successivement sur 10 liens.

Le moteur va lui aussi passer successivement sur ces pages, mais mettra beaucoup plus de temps pour aspirer la 10eme page, car à chaque page aspirée, le moteur se construit une liste d’autres pages à aspirer plus tard.

Afin qu’un moteur aspire au plus vite les pages d’un site, une astuce consiste a créer une page « plan du site« .
C’est une page qui regroupe la plupart des liens du site.

En l’agençant correctement, cela peut aussi aider l’internaute à naviguer en ayant sous les yeux l’arborescence de votre site.

Cela aidera aussi les moteurs car ils auront sur une seule page tous les liens dont ils ont besoin pour indexer la totalité de votre site!

– Quand un site vient d’apparaître, il n’y a pas encore de liens qui pointent vers lui, alors que faire ?

C’est là qu’entrent en jeu les pages de soumission des moteurs.

On peut donc y inscrire directement des sites qui n’ont pas encore de liens.
Enfin « directement » est un bien grand mot car sur la plupart des moteurs le site est alors pris en compte, mais sur une liste d’attente.

Et pour que celle-ci s’écoule, cela peut durer de quelques semaines a plusieurs mois !
Les délais de prise en compte d’un nouveau site sont donc parfois très longs.

D’où l’intérêt des soumissions « express » payantes que proposent certains moteurs.

Actuellement, le crawler à indexation gratuite le plus rapide est incontestablement celui de Google, Googlebot.

Il est capable d’ajouter un nouveau site à sa base en 2 jours.
Et son délai de rafraîchissement d’un site déja présent dans sa base va d’un jour à un mois.
Cette mise a jour mensuelle est d’ailleurs assez médiatisée et s’appelle la « Google Dance« .

Mais en version payante, Altavista, Inktomi et Fast proposent une indexation dans les 2 jours, avec un rafraîchissement allant de 24 à 48 heures.

Les crawlers ont d’énormes quantités de pages à traiter, ils n’ont donc pas de temps a perdre.

Par conséquent, si une page met trop de temps à se charger, celle-ci ne sera pas prise en compte.
La qualité de l’hébergement est donc primordial.
Cependant, afin de ne pas trop perturber les sites qu’ils visitent, la plupart des crawlers se limitent à lire une page par seconde sur un même site.

A retenir !

Pour faciliter le crawl, le rendre plus efficace et plus rapide, trois conditions sont nécessaires :

1- des liens qui pointent vers votre site, surtout si celui-ci est récent.

2- que les pages soient toutes plus ou moins interconnectées au sein de votre site, afin de faciliter son indexation en entier.

3- un bon hébergeur

(source:S2M)

Laisser un commentaire