MOTEURS DE RECHERCHE

Carte mentale

Élargissez votre recherche dans Universalis

L'invention du Web (World Wide Web), dispositif de publication de documents permettant leur consultation via Internet, s'est accompagnée d'efforts pour recenser les documents ainsi publiés. Ce sont d'abord des répertoires de sites qui ont été élaborés. Ces premiers annuaires inventoriaient les sites en y associant une courte description et les classaient par catégories de sujets, ce qui requérait un traitement manuel. Face à la multiplication des publications en ligne, ce procédé a rapidement atteint ses limites. Les moteurs de recherche, en automatisant le repérage de l'information en ligne, se sont peu à peu rendus indispensables. À partir de quelques mots clés, ils permettent de découvrir des ressources ou de trouver des informations sur toutes sortes de sujets. Leurs performances ne cessent de progresser : ils traitent désormais des milliards de documents, leur ergonomie et leur simplicité d'utilisation les mettent à la portée de tous. Les moteurs les plus connus à l'heure actuelle sont des moteurs commerciaux (Google, Bing, Yahoo !) qui tirent leurs revenus de la publicité. Ces services suscitent régulièrement des controverses liées aux enjeux économiques et culturels mais aussi politiques et éthiques qu'ils recouvrent.

Infrastructure matérielle des moteurs de recherche

Photographie : Infrastructure matérielle des moteurs de recherche

 Pour répondre aux interrogations des internautes, les moteurs de recherche nécessitent des équipements informatiques de grande capacité : serveurs réseaux, centres de stockage et de traitement de données (data centers). 

Crédits : wavebreakmedia/ Shutterstock

Afficher

Fonctionnement des moteurs de recherche

Alors qu'un navigateur Web permet de consulter un site ou une page dont on connaît l'adresse, un moteur de recherche est conçu pour faire une recherche à partir de quelques mots clés et obtenir, en résultats, une liste de liens vers des documents susceptibles d'être pertinents. Si, depuis la fin des années 1990, les moteurs se sont diversifiés quant à la nature des documents qu'ils permettent de retrouver (pages Web, images, vidéos, fichiers son), leur principe général de fonctionnement reste globalement toujours le même (cf. figure).

Fonctionnement d'un moteur de recherche

Dessin : Fonctionnement d'un moteur de recherche

Schéma montrant les différentes étapes de fonctionnement d’un moteur de recherche. 

Crédits : Encyclopædia Universalis France

Afficher

Un moteur de recherche repère les pages Web et les caractérise par des descriptions, le tout de manière entièrement automatique, ce qui le distingue des annuaires. Plutôt que de naviguer dans les catégories prédéfinies d'un annuaire, l'internaute formule une requête dans une barre de recherche à partir de mots clés. La qualité globale d'un moteur de recherche dépend de ses fonctions de collecte, d'indexation et de classement des documents, ainsi que de son interface d'interrogation.

Le repérage et la collecte des pages Web

La collecte des pages repose sur le principe du Web qui associe à chaque document publié une adresse URL (uniform resource locator). Elle est réalisée par un « robot », un programme informatique (appelé spider ou crawler en anglais) qui, à partir d'une liste initiale d'adresses, visite les pages Web correspondantes et y collecte les adresses mentionnées dans les liens. De proche en proche, cette technique permet de découvrir de nouvelles ressources en ligne. Le procédé détaillé de la collecte des adresses diffère d'un moteur à l'autre, selon l'ensemble de départ d'adresses qui sert à l'initier, les techniques de suivi des liens et la fréquence de mise à jour de la base d'adresses du moteur. C'est pourquoi les différents moteurs de recherche n'ont pas la même portée et ne couvrent pas les mêmes ressources. Les moteurs copient sur leurs propres serveurs (cache) les pages rencontrées afin de disposer d'une version stabilisée pour l'indexer.

Indexation des documents

Les pages Web collectées sont analysées par un logiciel qui procède à leur indexation. L'indexation consiste à caractériser les pages par des mots clés pour permettre de les retrouver. Dans le cas des moteurs de recherche, l'extraction de mots ou de groupes de mots à partir des documents est automatisée. Le moteur constitue un index qui, pour chaque mot repéré, renvoie aux pages où ce mot est présent. Pour un programme informatique, un mot est une simple suite de caractères entre deux séparateurs (par exemple une espace ou un signe de ponctuation), il n'a pas de sens. L'indexation du texte intégral pose des problèmes liés à l'homonymie (un mot peut avoir des sens très différents, par exemple « paris » peut correspondre aux enjeux des joueurs, à la capitale de la France ou au personnage de la mythologie grecque) et à la synonymie (une page comportant le mot « voiture » et une autre le mot « automobile » ne seront pas liées dans l'index).

Certains moteurs, comme Google, ajoutent à l'index d'une page, sous certaines conditions, les mots qui apparaissent dans les liens pointant vers elle. Le procédé permet d'obtenir d'autres termes descripteurs jugés représentatifs par ceux qui ont signalé la page dans leur propre site.

Le classement des résultats

De nombreuses études scientifiques montrent que les utilisateurs de moteurs emploient peu de mots dans leurs requêtes (à peine plus de deux mots en moyenne), et ils ne consultent souvent que les tout premiers liens proposés dans les résultats alors qu'il existe plusieurs centaines de milliers voire millions de pages candidates. Le défi auquel sont confrontés les moteurs de recherche est non seulement de retrouver les pages qui peuvent correspondre à la demande formulée mais surtout de classer les résultats par pertinence. Pour ce faire, chaque moteur a sa propre recette qui mélange un grand nombre de critères exprimés dans des algorithmes. L'importance d'un mot pour décrire une page peut être déterminée à partir de sa position dans la page (par exemple, un mot présent dans le titre de la page aura plus de poids que les autres) ou sa fréquence d'apparition. Google a aussi mis en place un algorithme (appelé PageRank) qui repose sur la popularité : plus une page est signalée par des liens dans d'autres sites, mieux elle sera classée. Ce principe a été repris par d'autres moteurs commerciaux.

L'interface d'interrogation

L'interface d'interrogation est la seule partie visible du moteur de recherche pour l'utilisateur. Elle permet de formuler la demande et de consulter les résultats. Deux types d'interfaces sont souvent proposés : une interface de recherche simple, composée d'une barre de recherche et d'un ou plusieurs boutons ; une interface de recherche avancée où l'on peut préciser sa requête en choisissant des options. Une fois la recherche lancée, deux catégories de liens apparaissent dans les pages de résultats : les résultats éditoriaux ou résultats « naturels » et les liens commerciaux. Ces liens publicitaires ont souvent une relation avec les mots choisis par l'internaute dans sa requête, une publicité « pertinente » qui est bien tolérée par les internautes mais aussi parfois confondue avec les résultats éditoriaux. Depuis 2005, les moteurs ont reçu des directives pour faire en sorte de les distinguer plus clairement, en les affichant dans une colonne séparée ou en haut de la page. Chaque résultat de la liste correspond à [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 7 pages

Médias de l’article

Infrastructure matérielle des moteurs de recherche

Infrastructure matérielle des moteurs de recherche
Crédits : wavebreakmedia/ Shutterstock

photographie

Fonctionnement d'un moteur de recherche

Fonctionnement d'un moteur de recherche
Crédits : Encyclopædia Universalis France

dessin

Moteurs de recherche commerciaux

Moteurs de recherche commerciaux
Crédits : Encyclopædia Universalis France

tableau

Afficher les 3 médias de l'article


Écrit par :

Classification

Autres références

«  MOTEURS DE RECHERCHE  » est également traité dans :

BIBLIOTHÈQUES NUMÉRIQUES

  • Écrit par 
  • Yannick MAIGNIEN
  •  • 5 183 mots
  •  • 1 média

Dans le chapitre « Quelles mutations pour la lecture ? »  : […] La bibliothèque numérique, c'est au bout du compte la bibliothèque virtuelle : la possibilité pour un lecteur, où qu'il soit, de regrouper sur son ordinateur l'ensemble des collections ou matériaux dont il a besoin, d'où qu'ils viennent (bibliothèques en ligne, éditeurs, sites d'opinion ou d'institutions, etc.). La notion de bibliothèque personnelle est notamment une notion devenue pertinente en […] Lire la suite

CONSOMMATION - Comportement du consommateur

  • Écrit par 
  • Bernard DUBOIS, 
  • Marc VANHUELE
  •  • 8 995 mots
  •  • 1 média

Dans le chapitre « La reconnaissance du « problème » »  : […] Un consommateur reconnaît l'existence d'un « problème » à partir du moment où il constate un écart entre ses besoins ou ses désirs et la situation dans laquelle il se trouve. Cet écart peut être le fruit de phénomènes internes ou bien résulter de stimulations extérieures. Par exemple, la faim s'explique par un processus continu d'appauvrissement du sang. En revanche, le désir d'acheter une nouvell […] Lire la suite

INTERNET - Les applications

  • Écrit par 
  • Danièle DROMARD, 
  • Dominique SERET
  •  • 5 034 mots

Dans le chapitre « Le monde du Web »  : […] Le Web s'appuie sur le protocole de transfert de données HTTP et sa version sécurisée HTTPS, ainsi que sur html ( hyper text markup language ), un langage de description des informations. HTTP décrit l'affichage sur l'écran de l'utilisateur des documents mis en forme à partir de commandes simples. Html s'appuie sur la notion d'hypertexte, c'est-à-dire que les documents sont parcourus dans l'ordre […] Lire la suite

MÉDECINE ET INTERNET

  • Écrit par 
  • Philippe MARREL, 
  • Elisabeth PARIZEL, 
  • René WALLSTEIN
  •  • 5 385 mots
  •  • 3 médias

Dans le chapitre « Le moteur de recherche au service de la médecine ? »  : […] On n’imagine pas une bibliothèque sans catalogue avec notices et cotes des ouvrages, assorties de mots clés pour faciliter les recherches. En ce qui concerne Internet, véritable bibliothèque planétaire – on parlerait plutôt de base de données aujourd’hui –, c’est le rôle des moteurs de recherche d’établir le catalogue et d’attribuer les mots clés. Pour cela, le moteur passe systématiquement en re […] Lire la suite

SYSTÈMES INFORMATIQUES - Systèmes de gestion de bases de données

  • Écrit par 
  • Bernd AMANN, 
  • Michel SCHOLL
  •  • 6 201 mots
  •  • 4 médias

Dans le chapitre « Une nouvelle vision des données »  : […] Jusqu'à la fin des années 1980, la représentation relationnelle étudiée au chapitre 3 satisfaisait la plupart des besoins. Les années 1990 et 2000 ont vu l'apparition du Web pour le partage d'informations et le développement de nouvelles applications, qui toutes échangent, interrogent et manipulent des documents de structure mal définie (cf. chapitre 4) et mélangent des textes et parfois des imag […] Lire la suite

Voir aussi

Les derniers événements

20 octobre 2020 États-Unis. Ouverture d'une procédure antitrust contre Google.

recherche Google, pour abus de position dominante. La firme qui assure 80 p. 100 des parts de marché dans le pays est accusée de faire installer automatiquement son moteur de recherche sur les smartphones, ce qui restreint l’accès au marché des autres moteurs. Il s’agit de la plus grosse action antitrust depuis celle menée par le département de la  […] Lire la suite

13 mai 2020 France. Adoption de la loi contre les contenus haineux sur Internet.

moteurs de recherche. Le texte est critiqué par nombre d’organisations professionnelles, d’associations de défense des droits humains et des libertés sur Internet, ainsi que par la Commission européenne. […] Lire la suite

25-29 janvier 2018 Allemagne. Révélation de tests réalisés par l'industrie automobile sur des singes et des humains.

recherche sur l’environnement et la santé dans le secteur du transport, organisme financé par les constructeurs allemands Volkswagen, Daimler et BMW et par l’équipementier allemand Bosch, a pratiqué des tests sur des macaques en 2014 pour mesurer les effets des oxydes d’azote émis par les moteurs Diesel. Le 29, Le Süddeutsche Zeitung et le Stuttgarter […] Lire la suite

Pour citer l’article

Brigitte SIMONNOT, « MOTEURS DE RECHERCHE », Encyclopædia Universalis [en ligne], consulté le 01 décembre 2021. URL : https://www.universalis.fr/encyclopedie/moteurs-de-recherche/