Abonnez-vous à Universalis pour 1 euro

MOTEURS DE RECHERCHE

Infrastructure matérielle des moteurs de recherche - crédits : wavebreakmedia/ Shutterstock

Infrastructure matérielle des moteurs de recherche

L'invention du Web (World Wide Web), dispositif de publication de documents permettant leur consultation via Internet, s'est accompagnée d'efforts pour recenser les documents ainsi publiés. Ce sont d'abord des répertoires de sites qui ont été élaborés. Ces premiers annuaires inventoriaient les sites en y associant une courte description et les classaient par catégories de sujets, ce qui requérait un traitement manuel. Face à la multiplication des publications en ligne, ce procédé a rapidement atteint ses limites. Les moteurs de recherche, en automatisant le repérage de l'information en ligne, se sont peu à peu rendus indispensables. À partir de quelques mots clés, ils permettent de découvrir des ressources ou de trouver des informations sur toutes sortes de sujets. Leurs performances ne cessent de progresser : ils traitent désormais des milliards de documents, leur ergonomie et leur simplicité d'utilisation les mettent à la portée de tous. Les moteurs les plus connus à l'heure actuelle sont des moteurs commerciaux (Google, Bing, Yahoo!) qui tirent leurs revenus de la publicité. Ces services suscitent régulièrement des controverses liées aux enjeux économiques et culturels mais aussi politiques et éthiques qu'ils recouvrent.

Fonctionnement des moteurs de recherche

Fonctionnement d'un moteur de recherche - crédits : Encyclopædia Universalis France

Fonctionnement d'un moteur de recherche

Alors qu'un navigateur Web permet de consulter un site ou une page dont on connaît l'adresse, un moteur de recherche est conçu pour faire une recherche à partir de quelques mots clés et obtenir, en résultats, une liste de liens vers des documents susceptibles d'être pertinents. Si, depuis la fin des années 1990, les moteurs se sont diversifiés quant à la nature des documents qu'ils permettent de retrouver (pages Web, images, vidéos, fichiers son), leur principe général de fonctionnement reste globalement toujours le même.

Un moteur de recherche repère les pages Web et les caractérise par des descriptions, le tout de manière entièrement automatique, ce qui le distingue des annuaires. Plutôt que de naviguer dans les catégories prédéfinies d'un annuaire, l'internaute formule une requête dans une barre de recherche à partir de mots clés. La qualité globale d'un moteur de recherche dépend de ses fonctions de collecte, d'indexation et de classement des documents, ainsi que de son interface d'interrogation.

Le repérage et la collecte des pages Web

La collecte des pages repose sur le principe du Web qui associe à chaque document publié une adresse URL (uniform resource locator). Elle est réalisée par un « robot », un programme informatique (appelé spider ou crawler en anglais) qui, à partir d'une liste initiale d'adresses, visite les pages Web correspondantes et y collecte les adresses mentionnées dans les liens. De proche en proche, cette technique permet de découvrir de nouvelles ressources en ligne. Le procédé détaillé de la collecte des adresses diffère d'un moteur à l'autre, selon l'ensemble de départ d'adresses qui sert à l'initier, les techniques de suivi des liens et la fréquence de mise à jour de la base d'adresses du moteur. C'est pourquoi les différents moteurs de recherche n'ont pas la même portée et ne couvrent pas les mêmes ressources. Les moteurs copient sur leurs propres serveurs (cache) les pages rencontrées afin de disposer d'une version stabilisée pour l'indexer.

Indexation des documents

Les pages Web collectées sont analysées par un logiciel qui procède à leur indexation. L'indexation consiste à caractériser les pages par des mots clés pour permettre de les retrouver. Dans le cas des moteurs de recherche, l'extraction de mots ou de groupes de mots à partir des documents est automatisée. Le moteur constitue un index qui, pour chaque mot repéré, renvoie aux pages où ce mot est présent. Pour un programme informatique, un mot est[...]

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

. In Encyclopædia Universalis []. Disponible sur : (consulté le )

Médias

Infrastructure matérielle des moteurs de recherche - crédits : wavebreakmedia/ Shutterstock

Infrastructure matérielle des moteurs de recherche

Fonctionnement d'un moteur de recherche - crédits : Encyclopædia Universalis France

Fonctionnement d'un moteur de recherche

Autres références

  • BIBLIOTHÈQUES NUMÉRIQUES

    • Écrit par Yannick MAIGNIEN
    • 5 198 mots
    • 1 média
    ...compression graphique et d'image – MPEG –, encapsulant des métadonnées complexes, va dans le sens de cette intégration des documents textuels scannérisés. Actuellement, si l'OCR reste parfois approximative, elle s'avère suffisante pour des moteurs de recherchestatistique qui localiseront ensuite...
  • CONSOMMATION - Comportement du consommateur

    • Écrit par Bernard DUBOIS, Marc VANHUELE
    • 9 030 mots
    • 1 média
    ...emprise. Mais, dans tous les cas, savoir qui sont les consommateurs ayant considéré qu’ils ont un besoin plus ou moins urgent est évidemment très utile. Les moteurs de recherche sur Internet ont révolutionné le marketing parce que c’est là que les consommateurs signalent de plus en plus souvent leurs besoins....
  • INTERNET - Les applications

    • Écrit par Danièle DROMARD, Dominique SERET
    • 5 030 mots
    Les moteurs de recherche ( Google, Yahoo!, AltaVista...) sont des serveurs spécialisés dans la recherche d'informations sur le Web. Leurs banques de données textuelles sont alimentées en permanence par des programmes automatiques d'indexation qui regroupent par thèmes les informations recueillies....
  • MÉDECINE ET INTERNET

    • Écrit par Philippe MARREL, Elisabeth PARIZEL, René WALLSTEIN
    • 5 396 mots
    • 3 médias
    ...les recherches. En ce qui concerne Internet, véritable bibliothèque planétaire – on parlerait plutôt de base de données aujourd’hui –, c’est le rôle des moteurs de recherche d’établir le catalogue et d’attribuer les mots clés. Pour cela, le moteur passe systématiquement en revue les millions de sites de...

Voir aussi