INDEXATION

Carte mentale

Élargissez votre recherche dans Universalis

L'indexation automatique

Assez tôt dans l'histoire de l'automatisation, on s'est rendu compte qu'on pourrait se servir de machines pour indexer. Les premiers procédés, qui convenaient particulièrement à des index de petite dimension, utilisaient des fiches sur lesquelles on avait imprimé un quadrillage de perforation. Ces fiches à perforation centrale ou marginale se répartissent en deux types : les fiches par terme, où chaque fiche représente un mot clé, et les fiches par item, où chaque fiche représente un document numéroté. Sur les fiches par terme, on perfore les cases correspondant aux numéros des documents qui traitent du sujet évoqué par le terme. Sur les fiches par item, on perfore les cases correspondant aux divers sujets dont traite le document (item) fiché. Certaines fiches sont destinées à être perforées sur les bords, d'autres dans les cases d'un quadrillage couvrant toute la fiche. Il existe plusieurs façons d'utiliser les fiches pour une recherche ; pour les fiches à perforations marginales, on repère le trou correspondant au numéro du sujet recherché, on y enfonce une aiguille qui embroche toutes les fiches, et on soulève le paquet : on voit alors tomber les fiches où ce trou a été découpé. Ces procédés permettent de faire une recherche croisée sur plusieurs mots clés en une seule opération de recherche, mais risquent d'aboutir à de « fausses chutes » si l'on n'a pas pris la précaution de codifier également les relations entre les mots clés et d'échancrer les trous correspondant aux relations. Car il faut pouvoir faire la distinction entre « l'action de A sur B » et « l'action de B sur A ». Certaines fiches à trous centraux ont été conçues pour une sélection visuelle, mais le triage de la plupart des fiches à perforations centrales se fait mécaniquement. On glisse les fiches entre deux rouleaux métalliques reliés à un circuit électrique. Des brosses métalliques sont adaptées à l'un des rouleaux. Là où un trou a été percé, les rouleaux font contact, bouclant un circuit électrique qui active un mécanisme expulsant cette fiche du paquet. Ces machines peuvent aussi servir à imprimer un fichier complet sous forme de livre.

L'automatisation a désormais permis, pour l'essentiel, de remplacer ces procédés par l'utilisation d'ordinateurs, dans lesquels les fichiers-index sont entrés par l'intermédiaire d'un clavier et stockés sur des bandes magnétiques ou des disques. La recherche se fait au moyen du même clavier, et les résultats de chaque opération de recherche s'affichent sur un écran vidéotexte. Les progrès de la technologie informatique ont bien évidemment influé sur l'indexation, tant au niveau des pratiques d'indexation et de recherche qu'au niveau des théories traitant des divers langages documentaires.

Au début, quand l'ordinateur semblait offrir un potentiel de consultation et de recherche presque illimité grâce à la coordination de plusieurs termes ou mots clés distincts, beaucoup d'auteurs ont soutenu que les langages normalisés ou contrôlés n'étaient plus nécessaires pour les systèmes de codification et d'indexation : ils croyaient qu'une indexation « libre » par terme, à partir du langage naturel des auteurs, permettrait une consultation efficace. Sur ces bases ont été publiés certains index de types nouveaux. Le premier à connaître un succès appréciable s'appelait KWIC (key word in context : mot clé dans le contexte). Ce type d'index utilise les titres des documents tels qu'ils sont donnés par les auteurs, ce qui permet de se passer de spécialistes de l'indexation. Chacun des mots clés du titre est, tour à tour, placé au centre de la page, et chaque entrée ne comporte qu'une seule ligne dactylographiée ; les autres mots sont déplacés à droite et à gauche le long de cette ligne, selon que chaque mot clé occupe telle ou telle position dans le titre ; la liste est imprimée en suivant l'ordre alphabétique des mots au centre de la page.

Une forme améliorée de l'index KWIC a reçu le nom de key word out of context (mot clé hors du contexte), soit KWOC. Il s'agissait de répondre à l'une des critiques adressées au KWIC, à savoir l'aspect peu agréable de l'impression de chaque mot clé à son tour en début de ligne, suivi normalement du titre du document sous sa forme habituelle.

D'autres critiques sont plus importantes. D'abord le fait que le titre d'un texte ne décrit pas toujours le sujet de façon assez précise pour qu'on puisse retrouver commodément l'information. Ensuite que cette indexation « libre » des textes ne permet pas de rapprocher des sujets qui sont étroitement apparentés ou même désignés par des synonymes. Dans un des index KWIC américains, on trouve des titres qui ont pour mots clés À l'étranger, Étranger et Outre-mer, qui sont presque des synonymes, mais ces titres se trouvent dispersés un peu partout dans l'index parce que les initiales des mots clés sont différentes. On a bien essayé d'amener les auteurs à rédiger des titres plus pertinents, mais sans grand succès, et on s'est même heurté à de fortes résistances. Cependant, la technique KWIC peut être maniée de façon plus satisfaisante par des indexeurs professionnels utilisant un vocabulaire contrôlé pour choisir les mots clés, au lieu de s'en tenir aux mots figurant dans les titres.

Le Bulletin signalétique du C.N.R.S. est publié en plusieurs parties et contient des résumés de publications récentes parues dans un grand nombre de pays. La section 101, « sciences de l'information », contient une suite de résumés répartis en sept classes de 01 à 07, avec un index alphabétique permuté en français et en anglais comportant à la fin de chaque entrée le numéro du résumé. Les éditions du Bulletin utilisaient initialement un format de type KWIC :

Les éditions les plus récentes ont abandonné ce format pour le remplacer par un format de type KWOC, mais avec une analyse par sujet remplaçant le titre, les points montrant la position qu'occupe dans l'analyse par sujet le mot servant de vedette :

– Indexation automatique

Thesaurus, ..., Livre, 262

– Livre

Thesaurus, Indexation automatique, ..., 262

– Thesaurus

..., Indexation automatique, Livre, 262.

Ce type d'index, qu'on appelle « permuté » ou « rotatif », peut aisément être utilisé avec des symboles de classification, ce qui a l'avantage de faire figurer chaque entrée à côté de celles qui traitent de sujets apparentés mais différents, comme dans l'index ci-dessus, qui renvoie aux documents classifiés selon la London Education Classification (classification pédagogique de l'agglomération de Londres). Cet index, contrairement à celui du Bulletin du C.N.R.S., suivrait le même ordre si on le traduisait dans une autre langue.

Les textes qui suivent les symboles de classification peuvent être des titres, comme ici, ou des mots clés comme dans l'actuel Bulletin du C.N.R.S.

PRECIS

Les travaux du Groupe britannique de recherches sur la classification, qui ont abouti, dans ce domaine, à [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 16 pages

Médias de l’article

Maison des sciences de l'homme

Maison des sciences de l'homme
Crédits : C. Mouly

photographie

SYNTOL

SYNTOL
Crédits : Encyclopædia Universalis France

tableau

Algèbre de Boole

Algèbre de Boole
Crédits : Planeta Actimedia S.A.© Encyclopædia Universalis France pour la version française.

vidéo

Afficher les 3 médias de l'article


Écrit par :

  • : (formerly) director of central library services and Goldsmith'Librarian, University of London, England.
  • : agrégé de l'Université, docteur en linguistique

Classification

Autres références

«  INDEXATION  » est également traité dans :

BIBLIOTHÈQUES NUMÉRIQUES

  • Écrit par 
  • Yannick MAIGNIEN
  •  • 5 183 mots
  •  • 1 média

Dans le chapitre « Vers un Web sémantique »  : […] Le modèle de Gallica ou des bibliothèques numériques établi par les grandes bibliothèques nationales se calquait peu ou prou sur celui de la bibliothèque physique : identification dans le catalogue d'un document édité et numérisé, recherche dans les zones plein texte grâce à un moteur. Cette informatisation avait gagné petit à petit l'ensemble des fonctions de gestion des catalogues et inventaires […] Lire la suite

HUMANITÉS NUMÉRIQUES

  • Écrit par 
  • Thierry POIBEAU
  •  • 5 444 mots
  •  • 2 médias

Dans le chapitre « Histoire du domaine »  : […] On l’a dit, les humanités numériques concernent les analyses, dans le domaine des lettres et des SHS, conduites avec des moyens informatiques. Dès le début, l’informatique a été considérée comme un outil extrêmement puissant pour mener à bien des tâches mécaniques et peu intéressantes. Les chercheurs travaillant sur des sources textuelles ont ainsi souvent besoin de « concordances », ce qui consis […] Lire la suite

MOTEURS DE RECHERCHE

  • Écrit par 
  • Brigitte SIMONNOT
  •  • 4 128 mots
  •  • 3 médias

Dans le chapitre « Indexation des documents »  : […] Les pages Web collectées sont analysées par un logiciel qui procède à leur indexation. L'indexation consiste à caractériser les pages par des mots clés pour permettre de les retrouver. Dans le cas des moteurs de recherche, l'extraction de mots ou de groupes de mots à partir des documents est automatisée. Le moteur constitue un index qui, pour chaque mot repéré, renvoie aux pages où ce mot est pr […] Lire la suite

MOYEN ÂGE - La pensée médiévale

  • Écrit par 
  • Alain de LIBERA
  •  • 22 370 mots

Dans le chapitre « L'homme qui lit »  : […] Le premier fondement du rapport de l'homme médiéval au texte qu'il lit est à la fois matériel et psychologique : il appartient à l'histoire du livre en tant que tel. On peut le situer dans les trois ou quatre premiers siècles de l'ère chrétienne, quand le codex , « livre » formé par la réunion de cahiers de parchemin, remplace le volumen , manuscrit en forme de rouleau. On ne doit pas sous-estimer […] Lire la suite

TERMINOLOGIE

  • Écrit par 
  • Loïc DEPECKER
  •  • 6 205 mots

Dans le chapitre « Structurer l'information »  : […] La terminologie, en effet, donne forme à l'information en la structurant par le biais d'unités linguistiques précisément définies. Ces unités donnent de plus accès au concept, difficilement manipulable autrement. La question des ontologies par exemple – objets que manipule toute entreprise (composants, produits, unités de mesure, etc.) – débouche nécessairement sur la manière de les désigner. La t […] Lire la suite

TRAITEMENT AUTOMATIQUE DES LANGUES

  • Écrit par 
  • Anne ABEILLÉ
  •  • 8 410 mots
  •  • 5 médias

Dans le chapitre « Les principaux types d'applications »  : […] Toutes les activités mettant en jeu de la parole ou du texte peuvent donner lieu à des produits ou services de type T.A.L. Le T.A.L. permet soit le développement de produits ou de services entièrement nouveaux tels que le téléphone traducteur ou les clés vocales (dispositif d'accès qui s'ouvre en reconnaissant la voix des locuteurs autorisés), soit l'amélioration (en productivité ou en qualité des […] Lire la suite

Voir aussi

Les derniers événements

15 décembre 2014 Belgique. Grève générale

Rompant avec une forte tradition de dialogue social, celui-ci prévoit notamment d'imposer le report à soixante-sept ans de l'âge de départ à la retraite, le gel de l'indexation des salaires sur l'inflation ainsi que des économies dans les services publics, notamment celui de la santé. Le mouvement est massivement suivi.  […] Lire la suite

4-25 juin 2008 France. Rapport de la commission Copé sur la télévision publique

100 » pour la taxe sur les recettes publicitaires supplémentaires des chaînes privées; l'indexation de la redevance reste « à l'étude ». Le président Sarkozy rejette d'autres pistes de financement préconisées par la commission, pour un montant de 240 millions d'euros, qui auraient grevé le budget de l'État.  […] Lire la suite

29 novembre 2007 France. Propositions du président Nicolas Sarkozy pour améliorer le pouvoir d'achat

Concernant le prix du logement, autre préoccupation des Français, il annonce l'indexation des loyers sur l'indice des prix, et non plus sur celui de la construction. Il promet la création d'un nouvel indice du coût de la vie, reflétant plus fidèlement l'évolution des prix.  […] Lire la suite

10-18 octobre 2007 France. Projet contesté de réforme des régimes spéciaux de retraite

Sont notamment prévus: une durée de 40 années de cotisation pour une retraite à taux plein, contre 37,5 auparavant, l'indexation des pensions sur les prix, le calcul de la pension sur les six derniers mois d'activité. Seuls sont exclus de la réforme les mineurs, les marins et les parlementaires. Des discussions doivent être menées au sein de chaque entreprise concernée. […] Lire la suite

3-27 janvier 1998 France. Poursuite de la lutte des associations de chômeurs

Il annonce l'indexation des minimums sociaux sur le coût de la vie, le rattrapage du retard causé par la non-revalorisation, depuis 1994, du montant de l'allocation de solidarité spécifique destinée aux chômeurs de longue durée en fin de droits, un « effort supplémentaire » en faveur des chômeurs de longue durée, l'amélioration du « passage des situations d'assistance ou d'allocation vers l'emploi » et, enfin, la mise en œuvre des moyens nécessaires à l'application « efficace et effective » de la prochaine loi contre les exclusions. […] Lire la suite

Pour citer l’article

Douglas J. FOSKETT, Jacques MANIEZ, « INDEXATION », Encyclopædia Universalis [en ligne], consulté le 03 décembre 2021. URL : https://www.universalis.fr/encyclopedie/indexation/