MOTEURS DE RECHERCHE

Carte mentale

Élargissez votre recherche dans Universalis

Fonctionnement des moteurs de recherche

Alors qu'un navigateur Web permet de consulter un site ou une page dont on connaît l'adresse, un moteur de recherche est conçu pour faire une recherche à partir de quelques mots clés et obtenir, en résultats, une liste de liens vers des documents susceptibles d'être pertinents. Si, depuis la fin des années 1990, les moteurs se sont diversifiés quant à la nature des documents qu'ils permettent de retrouver (pages Web, images, vidéos, fichiers son), leur principe général de fonctionnement reste globalement toujours le même (cf. figure).

Fonctionnement d'un moteur de recherche

Dessin : Fonctionnement d'un moteur de recherche

Schéma montrant les différentes étapes de fonctionnement d’un moteur de recherche. 

Crédits : Encyclopædia Universalis France

Afficher

Un moteur de recherche repère les pages Web et les caractérise par des descriptions, le tout de manière entièrement automatique, ce qui le distingue des annuaires. Plutôt que de naviguer dans les catégories prédéfinies d'un annuaire, l'internaute formule une requête dans une barre de recherche à partir de mots clés. La qualité globale d'un moteur de recherche dépend de ses fonctions de collecte, d'indexation et de classement des documents, ainsi que de son interface d'interrogation.

Le repérage et la collecte des pages Web

La collecte des pages repose sur le principe du Web qui associe à chaque document publié une adresse URL (uniform resource locator). Elle est réalisée par un « robot », un programme informatique (appelé spider ou crawler en anglais) qui, à partir d'une liste initiale d'adresses, visite les pages Web correspondantes et y collecte les adresses mentionnées dans les liens. De proche en proche, cette technique permet de découvrir de nouvelles ressources en ligne. Le procédé détaillé de la collecte des adresses diffère d'un moteur à l'autre, selon l'ensemble de départ d'adresses qui sert à l'initier, les techniques de suivi des liens et la fréquence de mise à jour de la base d'adresses du moteur. C'est pourquoi les différents moteurs de recherche n'ont pas la même portée et ne couvrent pas les mêmes ressources. Les moteurs copient sur leurs propres serveurs (cache) les pages rencontrées afin de disposer d'une version stabilisée pour l'indexer.

Indexation des documents

Les pages Web collectées sont analysées par un logiciel qui procède à leur indexation. L'indexation consiste à caractériser les pages par des mots clés pour permettre de les retrouver. Dans le cas des moteurs de recherche, l'extraction de mots ou de groupes de mots à partir des documents est automatisée. Le moteur constitue un index qui, pour chaque mot repéré, renvoie aux pages où ce mot est présent. Pour un programme informatique, un mot est une simple suite de caractères entre deux séparateurs (par exemple une espace ou un signe de ponctuation), il n'a pas de sens. L'indexation du texte intégral pose des problèmes liés à l'homonymie (un mot peut avoir des sens très différents, par exemple « paris » peut correspondre aux enjeux des joueurs, à la capitale de la France ou au personnage de la mythologie grecque) et à la synonymie (une page comportant le mot « voiture » et une autre le mot « automobile » ne seront pas liées dans l'index).

Certains moteurs, comme Google, ajoutent à l'index d'une page, sous certaines conditions, les mots qui apparaissent dans les liens pointant vers elle. Le procédé permet d'obtenir d'autres termes descripteurs jugés représentatifs par ceux qui ont signalé la page dans leur propre site.

Le classement des résultats

De nombreuses études scientifiques montrent que les utilisateurs de moteurs emploient peu de mots dans leurs requêtes (à peine plus de deux mots en moyenne), et ils ne consultent souvent que les tout premiers liens proposés dans les résultats alors qu'il existe plusieurs centaines de milliers voire millions de pages candidates. Le défi auquel sont confrontés les moteurs de recherche est non seulement de retrouver les pages qui peuvent correspondre à la demande formulée mais surtout de classer les résultats par pertinence. Pour ce faire, chaque moteur a sa propre recette qui mélange un grand nombre de critères exprimés dans des algorithmes. L'importance d'un mot pour décrire une page peut être déterminée à partir de sa position dans la page (par exemple, un mot présent dans le titre de la page aura plus de poids que les autres) ou sa fréquence d'apparition. Google a aussi mis en place un algorithme (appelé PageRank) qui repose sur la popularité : plus une page est signalée par des liens dans d'autres sites, mieux e [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 7 pages

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Médias

Infrastructure matérielle des moteurs de recherche

Infrastructure matérielle des moteurs de recherche
Crédits : wavebreakmedia/ Shutterstock

photographie

Fonctionnement d'un moteur de recherche

Fonctionnement d'un moteur de recherche
Crédits : Encyclopædia Universalis France

dessin

Moteurs de recherche commerciaux

Moteurs de recherche commerciaux
Crédits : Encyclopædia Universalis France

tableau

Afficher les 3 médias de l'article

Écrit par :

Classification

Autres références

«  MOTEURS DE RECHERCHE  » est également traité dans :

BIBLIOTHÈQUES NUMÉRIQUES

  • Écrit par 
  • Yannick MAIGNIEN
  •  • 5 183 mots
  •  • 1 média

Dans le chapitre « Quelles mutations pour la lecture ? »  : […] La bibliothèque numérique, c'est au bout du compte la bibliothèque virtuelle : la possibilité pour un lecteur, où qu'il soit, de regrouper sur son ordinateur l'ensemble des collections ou matériaux dont il a besoin, d'où qu'ils viennent (bibliothèques en ligne, éditeurs, sites d'opinion ou d'institutions, etc.). La notion de bibliothèque personnelle est notamment une notion devenue pertinente en […] Lire la suite

CONSOMMATION - Comportement du consommateur

  • Écrit par 
  • Bernard DUBOIS, 
  • Marc VANHUELE
  •  • 8 995 mots
  •  • 1 média

Dans le chapitre « La reconnaissance du « problème » »  : […] Un consommateur reconnaît l'existence d'un « problème » à partir du moment où il constate un écart entre ses besoins ou ses désirs et la situation dans laquelle il se trouve. Cet écart peut être le fruit de phénomènes internes ou bien résulter de stimulations extérieures. Par exemple, la faim s'explique par un processus continu d'appauvrissement du sang. En revanche, le désir d'acheter une nouvell […] Lire la suite

INTERNET - Les applications

  • Écrit par 
  • Danièle DROMARD, 
  • Dominique SERET
  •  • 5 034 mots

Dans le chapitre « Le monde du Web »  : […] Le Web s'appuie sur le protocole de transfert de données HTTP et sa version sécurisée HTTPS, ainsi que sur html ( hyper text markup language ), un langage de description des informations. HTTP décrit l'affichage sur l'écran de l'utilisateur des documents mis en forme à partir de commandes simples. Html s'appuie sur la notion d'hypertexte, c'est-à-dire que les documents sont parcourus dans l'ordre […] Lire la suite

MÉDECINE ET INTERNET

  • Écrit par 
  • Philippe MARREL, 
  • Elisabeth PARIZEL, 
  • René WALLSTEIN
  •  • 5 385 mots
  •  • 3 médias

Dans le chapitre « Le moteur de recherche au service de la médecine ? »  : […] On n’imagine pas une bibliothèque sans catalogue avec notices et cotes des ouvrages, assorties de mots clés pour faciliter les recherches. En ce qui concerne Internet, véritable bibliothèque planétaire – on parlerait plutôt de base de données aujourd’hui –, c’est le rôle des moteurs de recherche d’établir le catalogue et d’attribuer les mots clés. Pour cela, le moteur passe systématiquement en re […] Lire la suite

SYSTÈMES INFORMATIQUES - Systèmes de gestion de bases de données

  • Écrit par 
  • Bernd AMANN, 
  • Michel SCHOLL
  •  • 6 201 mots
  •  • 4 médias

Dans le chapitre « Une nouvelle vision des données »  : […] Jusqu'à la fin des années 1980, la représentation relationnelle étudiée au chapitre 3 satisfaisait la plupart des besoins. Les années 1990 et 2000 ont vu l'apparition du Web pour le partage d'informations et le développement de nouvelles applications, qui toutes échangent, interrogent et manipulent des documents de structure mal définie (cf. chapitre 4) et mélangent des textes et parfois des imag […] Lire la suite

Voir aussi

Les derniers événements

20 octobre 2020 États-Unis. Ouverture d'une procédure antitrust contre Google.

Le département fédéral de la Justice et onze États annoncent l’ouverture d’une procédure antitrust contre le moteur de recherche Google, pour abus de position dominante. La firme qui assure 80 p. 100 des parts de marché dans le pays est accusée de faire installer automatiquement son moteur de recherche sur les smartphones, ce qui restreint l’accès au marché des autres moteurs. […] Lire la suite

13 mai 2020 France. Adoption de la loi contre les contenus haineux sur Internet.

Celle-ci impose le retrait dans l’heure des contenus terroristes et pédopornographiques signalés sur tous les sites Internet, et dans les vingt-quatre heures des contenus comportant « manifestement une incitation à la haine ou une injure discriminatoire à raison de la race, de la religion, du sexe, de l’orientation sexuelle ou du handicap » signalés sur les réseaux sociaux, plateformes collaboratives et moteurs de recherche. […] Lire la suite

25-29 janvier 2018 Allemagne. Révélation de tests réalisés par l'industrie automobile sur des singes et des humains.

Le 25, le New York Times révèle que le Groupe européen de recherche sur l’environnement et la santé dans le secteur du transport, organisme financé par les constructeurs allemands Volkswagen, Daimler et BMW et par l’équipementier allemand Bosch, a pratiqué des tests sur des macaques en 2014 pour mesurer les effets des oxydes d’azote émis par les moteurs Diesel. […] Lire la suite

Pour citer l’article

Brigitte SIMONNOT, « MOTEURS DE RECHERCHE », Encyclopædia Universalis [en ligne], consulté le 30 novembre 2022. URL : https://www.universalis.fr/encyclopedie/moteurs-de-recherche/