INDEXATION

Carte mentale

Élargissez votre recherche dans Universalis

Indexation et intelligence artificielle

L'indexation est une pratique ancienne indispensable pour retrouver rapidement les documents voulus. Jusqu'à une époque récente, elle semblait réservée à l'intelligence humaine. Car indexer ne consiste pas à créer des index (tâche facilement automatisable) mais à affecter aux documents des indices, des marques significatives de leur contenu, à la suite d'une série d'opérations mentales complexes et encore mal connues.

Pourtant, l'indexation est atteinte à son tour par l'irrésistible progression des « machines à penser ».

Genèse des recherches en indexation automatique

Plusieurs facteurs ont incité les chercheurs en informatique documentaire à tenter de concurrencer l'indexation humaine. D'abord, les contraintes et les insuffisances inhérentes à celle-ci : elle est coûteuse (il faut entre un quart d'heure et une heure pour indexer un document) ; elle est tributaire de la subjectivité de l'indexeur (deux analystes différents indexent rarement un document de manière rigoureusement identique).

À l'inverse, les coûts de traitement informatique ne cessent de baisser, et la machine est exempte de subjectivité.

Un autre avantage de l'indexation automatique est de pouvoir analyser par le même procédé les textes des auteurs et les requêtes de l'utilisateur, alors que dans un système traditionnel celui-ci doit s'adapter aux termes choisis par l'indexeur.

Encore faut-il que l'ordinateur puisse produire des formules d'indexation acceptables – sinon comparables à celles de l'indexeur. Or les dernières recherches en traitement informatique des langues (traduction automatique) et en sémantique (analyse conceptuelle, réseaux sémantiques, analyseur automatique de texte) ont mis à la disposition des concepteurs des outils efficaces, du moins pour les documents textuels, qui sont encore les plus nombreux.

Fonction documentaire du texte et mots vides

On a observé depuis longtemps un trait remarquable des documents textuels : non seulement ils nous livrent des informations, mais ils nous renseignent aussi sur le sujet traité puisqu'il est impossible de parler d'un sujet sans le nommer. Autrement dit, un texte quelconque comporte, en plus de sa fonction principale d'information, une fonction accessoire d'auto-indexation.

Comme, en outre, un ordinateur peut facilement isoler et reconnaître les mots d'un texte, le problème revient à sélectionner les mots les plus significatifs. Cela, certes, n'est pas une mince affaire. Mais une autre caractéristique remarquable, commune à toutes les langues, permet une première sélection à peu de frais : l'élimination des mots vides.

Une phrase est composée approximativement pour moitié de termes lexicaux (les mots du dictionnaire), qui ont un sens en eux-mêmes, indépendamment du contexte, et de termes grammaticaux (prépositions, conjonctions, pronoms, adjectifs numéraux, etc.), qui n'ont pas de signification en dehors de leur contexte. La seconde catégorie étant en nombre limité (quelques centaines), il est facile d'en dresser la liste et de les faire éliminer automatiquement. Par exemple, dans la phrase « agiter la bouteille avant de s'en servir », un programme de sélection des mots significatifs retiendra « agiter », « bouteille », « servir ». Un texte contenant cette phrase pourra donc être repéré à l'interrogation par l'un de ces termes ou par une combinaison de ceux-ci.

La recherche en texte intégral

Cet exemple montre à la fois l'ingéniosité du procédé et la médiocrité du résultat. Les défauts de cette sélection rudimentaire sont évidents :

– tous les mots non vides sont retenus sur le même plan, qu'ils soient ou non représentatifs du sujet principal du document ;

– un mot variable, par exemple un verbe, apparaît souvent dans le même texte sous des flexions différentes (voir, vu, etc.), qui masquent leur appartenance au même mot type ;

– seuls sont prélevés des mots isolés (unitermes), alors que les termes significatifs sont souvent des « syntagmes » (pluritermes) : chemin de fer, banque de données, sécurité sociale, etc. ;

– rappelons enfin les difficultés inhérentes à la recherche en langage naturel (synonymie, polysémie).

Pourtant, malgré ses insuffisances, ce procédé rudimentaire a été utilisé dès les années 1960 et il s'est révélé efficace dans des applications particulières : les titres, qui sont des sortes de codes documentaires naturels, produisent les index KWIC ou KWOC, déjà mentionnés ; les logiciels de recherche en texte intégral (ou : texte libre) donnent de bons résultats quand ils s'appliquent à des textes courts et à des domaines spécifiques.

Par exemple, les dépêches de l'Agence France-Presse, indexées quotidiennement sans aucune intervention humaine, peuvent être facilement retrouvées grâce au caractère très sélectif des noms propres et des dates qui repèrent un événement (base de données AGORA).

Par ailleurs, la plupart des bases de données scientifiques (PASCAL) ou journalistiques (La Croix) offrent, en complément de l'interrogation sur les termes contrôlés choisis par les indexeurs, la possibilité d'interroger en vocabulaire libre sur les mots prélevés automatiquement dans les titres (et parfois les résumés).

Les performances peuvent être améliorées si l'on utilise la troncature (interrogation sur la racine d'un mot, comme ‘ aliment *' pour ‘ alimenter, alimentation, alimentaire '). De plus, les opérateurs de proximité permettent de spécifier les conditions de distance entre les termes choisis. Par exemple, la question « base * (+1) données » sélectionnera « base de données » mais éliminera « données de base » ou « bases de l'accord données pour acquises ».

L'indexation sélective « intelligente »

Plusieurs équipes de chercheurs pensent qu'on peut aller beaucoup plus loin dans la qualité de l'indexation automatique en utilisant ingénieusement certaines propriétés du langage et des produits du langage (le discours). Ici, l'indexation du document n'est plus traitée de façon autonome, mais conçue comme élément du système d'information dont le pendant est l'indexation de la question.

La fréquence d'utilisation des termes dans le discours fournit des indications utiles. Pour tenir le rôle d'un bon descripteur, un terme doit différencier fortement le document auquel il est attaché des autres documents. Or, en relevant dans un grand nombre de textes le nombre d'apparitions (occurrences) de tous les mots, on peut affecter à chacun un indice moyen de fréquence (par exemple : 1/1 000). Si, dans un document textuel, l'indice de fréquence d'un mot non vide est très supérieur à son indice moyen, il y a de fortes raisons de penser qu'il s'agit d'un bon descripteur. On peut facilement calculer pour chaque mot du texte à indexer le rapport entre les deux indices et imposer un seuil (par exemple : > 3) à ce rapport afin d'éliminer les termes les moins significatifs.

L'analyse morpho-syntaxique des textes, aujourd'hui largement maîtrisée, offre de nombreuses ressources : on a remarqué que les [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 16 pages

Médias de l’article

Maison des sciences de l'homme

Maison des sciences de l'homme
Crédits : C. Mouly

photographie

SYNTOL

SYNTOL
Crédits : Encyclopædia Universalis France

tableau

Algèbre de Boole

Algèbre de Boole
Crédits : Planeta Actimedia S.A.© Encyclopædia Universalis France pour la version française.

vidéo

Afficher les 3 médias de l'article


Écrit par :

  • : (formerly) director of central library services and Goldsmith'Librarian, University of London, England.
  • : agrégé de l'Université, docteur en linguistique

Classification

Autres références

«  INDEXATION  » est également traité dans :

BIBLIOTHÈQUES NUMÉRIQUES

  • Écrit par 
  • Yannick MAIGNIEN
  •  • 5 183 mots
  •  • 1 média

Dans le chapitre « Vers un Web sémantique »  : […] Le modèle de Gallica ou des bibliothèques numériques établi par les grandes bibliothèques nationales se calquait peu ou prou sur celui de la bibliothèque physique : identification dans le catalogue d'un document édité et numérisé, recherche dans les zones plein texte grâce à un moteur. Cette informatisation avait gagné petit à petit l'ensemble des fonctions de gestion des catalogues et inventaires […] Lire la suite

HUMANITÉS NUMÉRIQUES

  • Écrit par 
  • Thierry POIBEAU
  •  • 5 444 mots
  •  • 2 médias

Dans le chapitre « Histoire du domaine »  : […] On l’a dit, les humanités numériques concernent les analyses, dans le domaine des lettres et des SHS, conduites avec des moyens informatiques. Dès le début, l’informatique a été considérée comme un outil extrêmement puissant pour mener à bien des tâches mécaniques et peu intéressantes. Les chercheurs travaillant sur des sources textuelles ont ainsi souvent besoin de « concordances », ce qui consis […] Lire la suite

MOTEURS DE RECHERCHE

  • Écrit par 
  • Brigitte SIMONNOT
  •  • 4 128 mots
  •  • 3 médias

Dans le chapitre « Indexation des documents »  : […] Les pages Web collectées sont analysées par un logiciel qui procède à leur indexation. L'indexation consiste à caractériser les pages par des mots clés pour permettre de les retrouver. Dans le cas des moteurs de recherche, l'extraction de mots ou de groupes de mots à partir des documents est automatisée. Le moteur constitue un index qui, pour chaque mot repéré, renvoie aux pages où ce mot est pr […] Lire la suite

MOYEN ÂGE - La pensée médiévale

  • Écrit par 
  • Alain de LIBERA
  •  • 22 370 mots

Dans le chapitre « L'homme qui lit »  : […] Le premier fondement du rapport de l'homme médiéval au texte qu'il lit est à la fois matériel et psychologique : il appartient à l'histoire du livre en tant que tel. On peut le situer dans les trois ou quatre premiers siècles de l'ère chrétienne, quand le codex , « livre » formé par la réunion de cahiers de parchemin, remplace le volumen , manuscrit en forme de rouleau. On ne doit pas sous-estimer […] Lire la suite

TERMINOLOGIE

  • Écrit par 
  • Loïc DEPECKER
  •  • 6 205 mots

Dans le chapitre « Structurer l'information »  : […] La terminologie, en effet, donne forme à l'information en la structurant par le biais d'unités linguistiques précisément définies. Ces unités donnent de plus accès au concept, difficilement manipulable autrement. La question des ontologies par exemple – objets que manipule toute entreprise (composants, produits, unités de mesure, etc.) – débouche nécessairement sur la manière de les désigner. La t […] Lire la suite

TRAITEMENT AUTOMATIQUE DES LANGUES

  • Écrit par 
  • Anne ABEILLÉ
  •  • 8 410 mots
  •  • 5 médias

Dans le chapitre « Les principaux types d'applications »  : […] Toutes les activités mettant en jeu de la parole ou du texte peuvent donner lieu à des produits ou services de type T.A.L. Le T.A.L. permet soit le développement de produits ou de services entièrement nouveaux tels que le téléphone traducteur ou les clés vocales (dispositif d'accès qui s'ouvre en reconnaissant la voix des locuteurs autorisés), soit l'amélioration (en productivité ou en qualité des […] Lire la suite

Voir aussi

Les derniers événements

15 décembre 2014 Belgique. Grève générale

l'indexation des salaires sur l'inflation ainsi que des économies dans les services publics, notamment celui de la santé. Le mouvement est massivement suivi.  […] Lire la suite

4-25 juin 2008 France. Rapport de la commission Copé sur la télévision publique

l'indexation de la redevance reste « à l'étude ». Le président Sarkozy rejette d'autres pistes de financement préconisées par la commission, pour un montant de 240 millions d'euros, qui auraient grevé le budget de l'État.  […] Lire la suite

29 novembre 2007 France. Propositions du président Nicolas Sarkozy pour améliorer le pouvoir d'achat

l'indexation des loyers sur l'indice des prix, et non plus sur celui de la construction. Il promet la création d'un nouvel indice du coût de la vie, reflétant plus fidèlement l'évolution des prix.  […] Lire la suite

10-18 octobre 2007 France. Projet contesté de réforme des régimes spéciaux de retraite

l'indexation des pensions sur les prix, le calcul de la pension sur les six derniers mois d'activité. Seuls sont exclus de la réforme les mineurs, les marins et les parlementaires. Des discussions doivent être menées au sein de chaque entreprise concernée. Les modalités d'application restent à déterminer. Le 18, les salariés des secteurs des transports […] Lire la suite

3-27 janvier 1998 France. Poursuite de la lutte des associations de chômeurs

l'indexation des minimums sociaux sur le coût de la vie, le rattrapage du retard causé par la non-revalorisation, depuis 1994, du montant de l'allocation de solidarité spécifique destinée aux chômeurs de longue durée en fin de droits, un « effort supplémentaire » en faveur des chômeurs de longue durée, l'amélioration du « passage des situations d'assistance […] Lire la suite

Pour citer l’article

Douglas J. FOSKETT, Jacques MANIEZ, « INDEXATION », Encyclopædia Universalis [en ligne], consulté le 26 novembre 2021. URL : https://www.universalis.fr/encyclopedie/indexation/