TRAITEMENT AUTOMATIQUE DES LANGUES

Carte mentale

Élargissez votre recherche dans Universalis

Les réalisations

Il ne faut pas s'étonner que peu de programmes passent le « test de Turing » c'est-à-dire produisent des résultats indiscernables des productions humaines, comme le programme de dialogue ELIZA conçu spécialement à cet effet.

Extrait de dialogue avec le programme ELIZA

Tableau : Extrait de dialogue avec le programme ELIZA

Extrait de dialogue avec le programme Eliza (exemple adapté au français par J-H Jayez). 

Crédits : Encyclopædia Universalis France

Afficher

Réalisé par Joseph Weizenbaum en 1966, ce programme simule une discussion avec un psychanalyste à partir d'une analyse rudimentaire des phrases de l'utilisateur (par repérage de certains mots clés) et génère des réponses selon des modules préenregistrés (avec alternance simple entre 1re et 2e personne). C'est un exemple de réussite (puisque de nombreux utilisateurs ont cru avoir affaire à un interlocuteur humain) basé sur des traitements très sommaires. Mais la plupart des programmes de T.A.L. ont à la fois un objectif moins ambitieux, puisqu'il s'agit d'aider à réaliser telle ou telle tâche, non de supprimer toute intervention humaine, et des besoins (en connaissances, en complexité) bien supérieurs.

Les principaux types d'applications

Toutes les activités mettant en jeu de la parole ou du texte peuvent donner lieu à des produits ou services de type T.A.L. Le T.A.L. permet soit le développement de produits ou de services entièrement nouveaux tels que le téléphone traducteur ou les clés vocales (dispositif d'accès qui s'ouvre en reconnaissant la voix des locuteurs autorisés), soit l'amélioration (en productivité ou en qualité des résultats) de produits ou de services existants.

Les premiers domaines d'utilisation sont la documentation et la traduction. La documentation est depuis l'origine un champ d'application important du T.A.L., et les besoins vont croissant avec le développement du réseau mondial de télécommunications (ce que les Anglo-Saxons appellent le web et les francophones la toile). En amont, il s'agit d'automatiser la classification et l'indexation de documents par la recherche de mots clés préétablis, ou en calculant les mots importants du texte en indexation libre ; on peut aller jusqu'au résumé automatique, qui peut soit extraire les phrases jugées les plus importantes (selon des métriques linguistiques ou statistiques) soit regénérer un texte résumé, à l'instar de l'humain. En aval, il s'agit de permettre une interrogation plus souple, s'appuyant sur la langue de l'utilisateur, et non sur un langage documentaire spécialisé. Les langages spécialisés sont souvent rébarbatifs et ne permettent qu'un type de requêtes limité (mots clés combinés par des connecteurs logiques) qui rendent mal compte de la richesse des informations textuelles. Pour le grand public, la masse énorme de textes disponibles sur Internet (estimée à 150 millions de pages en 1997) nécessite de puissants programmes de recherche multilingues, qui sans analyse linguistique de la requête comme des textes candidats, risquent de produire beaucoup de « bruit » (textes non pertinents retenus) et de « silence » (textes pertinents non retenus). Pour les chercheurs (historiens, politologues, linguistes, littéraires...), les outils de consultation de documents sur support informatique sont souvent sommaires : recherche de telle forme ou de telle séquence dans les textes, recherche de mots clés si les textes sont organisés en bases de données. Les résultats sont améliorés par des programmes T.A.L. qui permettent de retrouver les occurrences d'un mot sous toutes ses formes, ou avec tous ses synonymes. Certains centres d'études ont développé des programmes permettant de quantifier le style d'un auteur (vocabulaire, mots ou tournures préférés, etc.) et peuvent automatiser les recherches en attribution.

La traduction est depuis toujours un énorme marché, qui croît avec le développement des échanges internationaux. Yeoshuah Bar Hillel avait dès 1960 dénoncé l'utopie d'une machine à traduire de bonne qualité entièrement automatique pour n'importe quel texte. À cette ambition irréaliste ont succédé des objectifs plus limités : on automatise la traduction de très gros textes, homogènes, répétitifs, dans des domaines bien délimités (documentation d'un avion, d'un médicament, d'une centrale électrique..., textes administratifs devant être disponibles simultanément en plusieurs langues dans certains pays, textes à mise à jour plus que quotidienne comme les bulletins météo...), où l'on peut limiter la quantité de vocabulaire et les risques d'ambiguïté et de contresens. Sur des textes moins contraints, on parle plus volontiers de traduction assistée par ordinateur, sachant qu'il sera nécessaire de faire relire la traduction à une personne, ou de traduction interactive si la machine peut interroger l'utilisateur au fur et à mesure des difficultés rencontrées. Même sans automatisation intégrale, ces systèmes de traduction restent avantageux par rapport à la traduction humaine : la postcorrection peut être effectuée par quelqu'un qui ne connaît que la langue cible, tandis que le dialogue avec la machine peut être mené par quelqu'un qui ne connaît que la langue source (les difficultés se situent généralement dans la phase d'analyse). On distingue les petits systèmes grand public, sur micro-ordinateur, avec des performances médiocres, des systèmes professionnels, souvent adaptés sur mesure, qui fonctionnent avec d'importants moyens informatiques et de grosses bases de connaissances. Les systèmes « ouverts », où on peut ajouter son lexique ou ses préférences pour telle ou telle construction, donnent les meilleurs résultats. Peu de systèmes de traduction entièrement automatiques sont opérationnels à l'heure actuelle. Pour des besoins de veille technologique, ou de surveillance des télécommunications, une traduction de qualité médiocre est suffisante (il s'agit essentiellement de filtrer les textes intéressants ou suspects, dont on pourra demander ensuite une traduction plus poussée : on parle alors de traduction « brute » ou « au kilomètre »). Pour des traductions de bonne qualité (lettres professionnelles, textes d'information, textes officiels...), vérification et correction humaines sont généralement nécessaires. On assiste parallèlement à une sophistication du poste de travail du traducteur, qui utilise de plus en plus des outils informatiques d'aide à la traduction, tels que les dictionnaires électroniques et les mémoires de traduction. Des outils de rédaction ou de génération multilingues peuvent remplacer les besoins en traduction puisque les textes sont directement rédigés en plusieurs langues.

Dans le domaine des aides à la rédaction, les réalisations sont nombreuses : machines à dicter, programmes de correction d'orthographe, de recherche de synonymes... Pour la dictée vocale, on est passé en une quinzaine d'années de systèmes monolocuteurs reconnaissant quelques dizaines de mots isolés à des systèmes multilocuteurs capables de reconnaître de la parole continue avec des vocabulaires de plusieurs dizaines de milliers de mots. Les premiers correcteurs d' [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 13 pages

Médias de l’article

Place du T.A.L. en intelligence artificielle

Place du T.A.L. en intelligence artificielle
Crédits : Encyclopædia Universalis France

dessin

Extrait de dialogue avec le programme ELIZA

Extrait de dialogue avec le programme ELIZA
Crédits : Encyclopædia Universalis France

tableau

Extrait du DELAF

Extrait du DELAF
Crédits : Encyclopædia Universalis France

tableau

Système analytique de reconnaissance de la parole

Système analytique de reconnaissance de la parole
Crédits : Encyclopædia Universalis France

dessin

Afficher les 5 médias de l'article


Écrit par :

  • : professeur de linguistique à l'université de Paris-VII-Denis-Diderot, membre du Laboratoire de linguistique formelle et de l'Institut universitaire de France

Classification

Autres références

«  TRAITEMENT AUTOMATIQUE DES LANGUES  » est également traité dans :

LANGAGE ACQUISITION DU

  • Écrit par 
  • Michèle KAIL
  •  • 4 944 mots
  •  • 3 médias

Dans le chapitre « Méthodes d’étude de la production du langage »  : […] Les études de production se sont considérablement renouvelées grâce aux moyens audio-visuels et à l’avènement de la micro-informatique. Au recueil des données langagières s’ajoutent des indications concernant les gestes et les regards ainsi que les phénomènes d’interaction avec l’entourage. L’informatique permet le stockage, le traitement automatique et le transfert des données, entraînant un vér […] Lire la suite

COGNITIVES SCIENCES

  • Écrit par 
  • Daniel ANDLER
  •  • 19 242 mots
  •  • 4 médias

Dans le chapitre « Phase II (1970-1995) : l'institutionnalisation »  : […] S'ouvre alors une phase d'environ un quart de siècle au cours de laquelle les sciences cognitives montent en puissance, passant d'un statut avant-gardiste à celui d'acteur majeur. Elles s'institutionnalisent. Elles étendent leur domaine d'étude. Elles produisent des résultats en qualité et en quantité rapidement croissantes. Enfin, elles traversent une série de reconfigurations épistémologiques. L […] Lire la suite

DICTIONNAIRE

  • Écrit par 
  • Bernard QUEMADA
  •  • 7 981 mots

Dans le chapitre « « Nouvelle lexicographie » et « Nouveaux dictionnaires » »  : […] Dans la seconde moitié du xx e  siècle, le dictionnaire connaît d'importants développements. Les nouveaux rôles qu'il est appelé à jouer dans la société de l'information et de la communication renforcent l'intérêt qu'on lui portait jusque-là. Reconsidéré, son usage dans l'enseignement amène à produire des dictionnaires d'apprentissage d'un type nouveau, conçus comme compléments des grammaires scol […] Lire la suite

HARRIS ZELLIG SABBETAI (1909-1992)

  • Écrit par 
  • Morris SALKOFF
  •  • 1 063 mots

La recherche de Zellig Sabbetai Harris est intimement liée aux travaux de l'école américaine d'analyse distributionnelle qui a élaboré son programme pour la linguistique dans les années 1930 et 1940, sous l'impulsion de E. Sapir et L. Bloomfield. Ce dernier avait proposé d'abstraire de la phrase des unités définies formellement et qui serviraient à décrire les rapports observés entre les diverses […] Lire la suite

HUMANITÉS NUMÉRIQUES

  • Écrit par 
  • Thierry POIBEAU
  •  • 5 444 mots
  •  • 2 médias

Dans le chapitre « Histoire du domaine »  : […] On l’a dit, les humanités numériques concernent les analyses, dans le domaine des lettres et des SHS, conduites avec des moyens informatiques. Dès le début, l’informatique a été considérée comme un outil extrêmement puissant pour mener à bien des tâches mécaniques et peu intéressantes. Les chercheurs travaillant sur des sources textuelles ont ainsi souvent besoin de « concordances », ce qui consis […] Lire la suite

LINGUISTIQUE - Théories

  • Écrit par 
  • Catherine FUCHS
  •  • 7 693 mots
  •  • 1 média

Dans le chapitre « Les nouvelles syntaxes  »  : […] C'est précisément pour cette dernière raison que d'autres types de grammaires formelles se sont développées outre-Atlantique au tournant des années 1970-1980 : la plupart d'entre elles ont pris naissance dans la mouvance de la grammaire générative chomskienne, mais ne l'ont pas suivie dans ses développements récents, cherchant avant tout à rester opératoires et calculables, afin de pouvoir être mi […] Lire la suite

LINGUISTIQUE - Le langage au carrefour des disciplines

  • Écrit par 
  • Catherine FUCHS
  •  • 10 045 mots
  •  • 6 médias

Dans le chapitre « Le traitement automatique des langues  »  : […] Outre la traduction automatique, les recherches fondamentales et appliquées en matière de traitement automatique des langues concernent, d’une part, le traitement de la parole et, d’autre part, celui de l’écrit. Les chercheurs en traitement automatique des langues relèvent de disciplines nombreuses et variées (linguistique, mathématiques, logique, intelligence artificielle, informatique, physique. […] Lire la suite

MODÈLE

  • Écrit par 
  • Raymond BOUDON, 
  • Hubert DAMISCH, 
  • Jean GOGUEL, 
  • Sylvanie GUINAND, 
  • Bernard JAULIN, 
  • Noël MOULOUD, 
  • Jean-François RICHARD, 
  • Bernard VICTORRI
  •  • 24 441 mots
  •  • 2 médias

Dans le chapitre «  Le modèle en linguistique »  : […] L'activité de modélisation en linguistique a connu un essor considérable depuis le début des années 1970. Comme dans toutes les disciplines qui traitent de données empiriques, les modèles en linguistique cherchent à rendre compte de phénomènes observables : il s'agit de mettre en place un dispositif dont la conception est régie par la théorie linguistique que l'on veut illustrer et dont le fonctio […] Lire la suite

TERMINOLOGIE

  • Écrit par 
  • Loïc DEPECKER
  •  • 6 205 mots

Dans le chapitre «  La terminologie dans la société de l'information »  : […] Même si la terminologie entre de plus en plus dans le champ d'une réflexion théorique, elle apparaît d'abord comme une discipline d'application dans les entreprises, les laboratoires de recherche, les instituts de normalisation. Elle est primordiale pour la traduction spécialisée, la rédaction technique et la documentation. Mais sa pratique évolue rapidement en raison du développement de la sociét […] Lire la suite

UNIVERSAUX, linguistique

  • Écrit par 
  • Catherine FUCHS
  •  • 4 975 mots

Dans le chapitre «  Noam Chomsky et la grammaire universelle »  : […] À cette position extrême s'oppose de façon diamétrale celle de Noam Chomsky , qui affirme, quant à lui, qu'il n'existerait en définitive dans les langues « qu'un seul système et un seul lexique ». Dans le courant des années 1960, en effet, l'essor naissant de la linguistique formelle, en lien avec les premiers travaux en traitement automatique des langues (notamment pour la traduction), a condui […] Lire la suite

Voir aussi

Pour citer l’article

Anne ABEILLÉ, « TRAITEMENT AUTOMATIQUE DES LANGUES », Encyclopædia Universalis [en ligne], consulté le 03 décembre 2021. URL : https://www.universalis.fr/encyclopedie/traitement-automatique-des-langues/