Moteur de recherche : principes et usages

Perspective historique

  • Aux débuts de l’Internet, les annuaires résument le contenu textuel des sites sous forme d’une description synthétique, grâce à une intervention humaine.
  • Mais les éditeurs d’annuaires ont été dépassés par l’essor rapide du web, qui a rendu la classification manuelle trop lente, puis humainement impossible en raison du nombre gigantesque de ressources à évaluer.
  • Ainsi, les moteurs de recherche indexent automatiquement les contenus de toutes les pages visitées, qu’il est ensuite possible de trouver ou de retrouver individuellement.
  • Les premiers moteurs destinés au web sont apparus dans les années 1990. Le premier d’entre eux s’appelait W3Catalog. Mais c’est surtout le moteur de recherche de Yahoo (1995) qui a popularisé le concept.
  • La fonction de recherche libre par mot-clé est initialement limitée aux descriptifs de sites rédigés par Yahoo, mais elle inspire d’autres initiatives.
  • Différents moteurs font leur apparition au cours de la décennie 1990, comme Lycos, Excite, Infossek, Inktomi, AltaVista et Google. L’algorithme de Google s’illustre par la qualité de ses résultats, et ce moteur de recherche devient rapidement incontournable et conserve à ce jour une grande prédominance sur le marché de la recherche sur le web.

Principe de fonctionnement des moteurs de recherche

Un moteur de recherche est un outil qui accomplit trois tâches distinctes liées :

  • le parcours automatique du web,
  • l’analyse et le recensement du contenu des pages visitées,
  • la fourniture de résultats à la demande.
  • Le web étant en perpétuelle évolution, les moteurs de recherche ont besoin de le parcourir sans cesse.
  • L’exploration du web est réalisée par des robots d’indexation (ou « bots »).
  • Selon les instructions qui leur sont données, les robots d’indexation vont se livrer à une exploration plus ou moins poussée des ressources visitées.
  • Le texte chaque page visitée est décortiqué et traité pour pouvoir lier la page aux différents mots-clés qu’elle contient.
  • La première étape consiste à lister tous les mots présents sour leur forme canonique dans un document donné (cette liste est épurée des mots considérés comme inutiles).
  • L’indexation consiste à établir une relation entre chaque page et les mots qu’elle contient.
  • L’index inversé liste tous les documents où apparaît un mot donné.
  • Les moteurs de recherche évaluent aussi la pertinence de chaque page pour un mot-clé donné, en fonction du nombre de fois où un mot est présent sur une page, de la position du mot dans la page et de la quantité et la qualité des liens désignant une page donnée.
  • Les moteurs fournissent un nombre souvent très important de résultats, classés par pertinence décroissante selon l’algorithme de chaque moteur.
  • Comme les internautes consultent surtout les tous premiers résultats de la page, les propriétaires de sites web cherchent à apparaître parmi ces premiers résultats de ce classement.
  • Les possibilités de recherche ont été améliorés : il est possible de filtrer les résultats par langue, par type de média ou encore en se limitant à une plage temporelle donnée.
  • La performance globale d’un moteur dépend des trois fonctionnalités que nous venons d’étudier.
  • La présence d’un site web parmi les résultats de recherche d’un moteur est le fruit de son référencement naturel, qui est sans lien avec le référencement payant.

Enjeux techniques et sociétaux des moteurs de recherche

  • En quelques années les moteurs de recherche se sont imposés comme les portes d’entrée du web.
  • La pertinence et la qualité des résultats proposés ont donc une influence assez directe sur les informations rendues accessibles aux internautes.
  • Aucun moteur ne peut prétendre disposer d’une cartographie complète et à jour du Word Wide web.
  • Les demandes de non-indexation, les restrictions d’accès, la structure technique de certaines pages, les résultats provenant de base de données accessibles uniquement via des formulaires ou encore l’exercice du droit à l’oubli sont autant de raisons qui contribuent à la non-indexation de certains contenus qui forment web profond.
  • Le web profond (deep web en anglais) désigne la partie du web qui n’est pas indexée par les moteurs de recherche.
  • Le web clandestin ou dark web, est un ensemble de réseaux chiffrés qui abritent souvent, mais pas uniquement, des activités illégales. Le dark web est, par sa nature, inconnu des moteurs de recherche classiques.
  • Le SEO, pour Search Engine Optimization, consiste en une optimisation des contenus textuels, une rédaction soignée, un maillage des pages et le développement de liens entrants.
  • Certaines techniques d'optimisation sont considérées comme déloyales et susceptibles d’entraîner une sanction (rétrogradation ou déréférencement).
  • La notion de bulle informationnelle, également appelée bulle de filtres, renvoie au fait que l’internaute est parfois exposé à une sélection d’informations opérée à partir de son propre profil.
  • Les données collectées par les moteurs de recherche permettent de dresser des profils à partir desquels les plateformes peuvent adapter les contenus proposés.
  • L’objectif et l’intérêt de la plateforme est de satisfaire l’internaute en lui proposant des informations qui lui conviennent, elle pourra ainsi proposer davantage de publicités et autres possibilités de ciblage marketing.
  • Si l’internaute est exposé uniquement à des informations qui tendent à le conforter dans ses certitudes, il se retrouve isolé dans une bulle de filtres.
  • Il ne faut donc pas perdre de vue qu’ils fournissent seulement une vision partielle et parfois biaisée du web.
  • Les moteurs de recherche peuvent aussi devenir des moteurs de réponse : comme Google, qui peut répondre vocalement à des questions. Cela accroît le risque d’être enfermé dans la vue partielle d’un sujet.
  • Afin de se soustraire aux éventuelles manipulations des gros moteurs de recherche, on peut se tourner vers des moteurs alternatifs tels que Qwant, DuckDuckGo, Ecosia ou Lilo qui ont chacun leur particularité.