TRAITEMENT AUTOMATIQUE DES LANGUES

Carte mentale

Élargissez votre recherche dans Universalis

Un domaine de recherches pluridisciplinaire

Bref historique

Le T.A.L. au sens strict est récent, et contemporain de l'avènement des ordinateurs. Entendu au sens large comme simulation des activités langagières (parler, comprendre, lire, écrire, traduire, corriger, résumer...) par des moyens mécaniques, il a des précédents historiques : l'imprimerie puis la machine à écrire ont automatisé la copie et l'écriture des textes. La fin du xviiie siècle a vu la réalisation d'automates « parlants » (comme ceux du baron de Kempelen ou de l'abbé Mical) et le xxe siècle, des résultats importants dans le domaine du codage et de la transmission de la parole avec l'invention du téléphone. Dès le début des années 1950, le développement des ordinateurs va de pair avec leur utilisation dans le domaine des langues. Dans un contexte de guerre froide, il s'agit alors de pouvoir lire et traduire automatiquement les textes scientifiques russes. Les programmes réalisés sont tributaires d'une vision « mot à mot » du langage, envisagé comme un code, sans beaucoup de connaissances linguistiques, et avec des résultats médiocres. Dans les années 1960-1980, le T.A.L. s'émancipe des théories de l'information pour entrer dans le domaine de l'intelligence artificielle. Pour l'oral, des systèmes experts pour la reconnaissance et la production de formes sonores se développent parallèlement à ceux consacrés aux formes visuelles ; pour l'écrit, le développement de programmes d'analyse accompagne les progrès de la grammaire générative et de la formalisation linguistique.

Place du T.A.L. en intelligence artificielle

Dessin : Place du T.A.L. en intelligence artificielle

Place du traitement automatique des langues en intelligence artificielle. Les indications en gras sont du domaine du T.A.L., de même que les modules de raisonnement s'il s'agit d'un programme de traduction automatique. 

Crédits : Encyclopædia Universalis France

Afficher

Depuis le début des années 1980, on est entré dans une phase d'industrialisation, avec des systèmes moins ambitieux mais plus aboutis. L'accent est mis moins sur la formalisation des processus de calcul (de plus en plus assimilés à des boîtes noires) que sur leur rapidité et sur la constitution de ressources linguistiques à grande échelle (dictionnaires ou grammaires électroniques). Les applications sont nombreuses et quasiment sans limite dans des domaines aussi divers que la bureautique, la domotique, la documentation, la traduction, l'enseignement, la presse, l'édition, le renseignement, l'informatique médicale, l'aide aux handicapés... Mais les difficultés rencontrées sont nombreuses : coût de l'automatisation, qualité des résultats, rapidité des programmes..., et on est loin d'avoir atteint en pratique les objectifs définis en théorie.

Les difficultés du T.A.L.

Les difficultés du T.A.L. viennent d'une part des propriétés des langues elles-mêmes, d'autre part des situations de communication. Parmi les propriétés intrinsèques aux langues, on peut citer leur diversité, l'importance des ambiguïtés potentielles, la variabilité des énoncés et la créativité langagière.

On recense plus de 5 000 langues humaines actuellement utilisées. Si l'on se limite aux principales langues écrites, pour lesquelles l'automatisation représente un enjeu socio-économique, il n'en reste que quelques centaines. Mais elles ne sont pas toutes suffisamment connues, avec une tradition linguistique, des dictionnaires et des grammaires, ce qui est un obstacle à leur informatisation. Certaines posent des problèmes spécifiques : décomposition des caractères pour les langues non alphabétiques, segmentation des mots pour les langues agglutinantes, vocalisation pour les langues sémitiques écrites sans voyelle, etc. De plus, rien ne garantit qu'une application réalisée dans une langue pourra être aisément transférée dans une autre. Certains programmes sont adaptables, mais pas tous.

Chaque langue comporte un nombre important d'ambiguïtés potentielles, qui sont autant d'hypothèses que doit considérer et éliminer – à l'exception d'une seule – la machine, pour analyser correctement un énoncé. Ces ambiguïtés virtuelles, bien connues des linguistes mais dont les locuteurs n'ont souvent pas conscience, viennent du principe d'économie selon lequel les langues utilisent des formes (ou signifiants) identiques pour des signifiés différents. Elles se rencontrent à tous les niveaux. Une même séquence de sons (par exemple PER) peut correspondre à plusieurs mots (le nom féminin « paire », les noms masculins « père » ou « pair », l'adjectif « pair », le verbe conjugué « perd » ou « perds »), ce qui rend difficile la reconnaissance automatique de l'oral. Une même séquence de lettres peut correspondre à plusieurs mots, au sens ou à la prononciation distincts, par exemple « savons » peut être le pluriel du nom « savon » ou une forme du verbe « savoir », « couvent » peut être un nom (avec voyelle finale nasale) ou une forme du verbe « couver » (avec e muet final), ce qui rend difficile l'analyse automatique ou la synthèse vocale. Une même séquence de mots peut correspondre à des analyses différentes : dans « un joueur de football américain », l'adjectif désigne-t-il la nationalité du joueur (un joueur américain) ou le type de jeu (le football américain) ? La traduction automatique vers l'anglais sera difficile, puisqu'il faudra choisir entre « american soccer player » et « football player ». Dans un programme de recherche documentaire, les textes sur les « avocats », sans autre précision, pourront être du domaine juridique ou agricole ! Il s'agit toujours d'ambiguïtés potentielles (en langue) ; dans un énoncé donné (en discours), seule une des analyses est pertinente : d'où des calculs importants puisque l'ordinateur doit examiner toutes les hypothèses.

La variabilité des énoncés est une autre source de difficultés pour le T.A.L. En reconnaissance vocale, on cherche à définir des invariants pour la réalisation de chaque phonème (ou de chaque syllabe), qui varie selon les phonèmes voisins, le locuteur, l'état physique ou psychologique d'un même locuteur. C'est aussi une source de complexité en génération automatique ou en traduction, si l'on veut choisir le mot juste ou la construction la plus « naturelle » en fonction de paramètres difficilement formalisables.

Enfin, les langues évoluent. Des mots, des constructions apparaissent et disparaissent, se figent en « incorporant » telle connotation ou tel glissement de sens. La créativité langagière rend difficile l'établissement d'une liste a priori des sens et des mots – ou des constructions – et de leurs correspondance. Pour ne considérer que la simple identification lexicale, quelle que soit la taille du dictionnaire électronique construit, il y aura toujours, à la lecture du journal du soir, des mots qui n'y figureront pas (noms propres, mots étrangers et leurs dérivés).

Même à supposer une maîtris [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 13 pages

Médias de l’article

Place du T.A.L. en intelligence artificielle

Place du T.A.L. en intelligence artificielle
Crédits : Encyclopædia Universalis France

dessin

Extrait de dialogue avec le programme ELIZA

Extrait de dialogue avec le programme ELIZA
Crédits : Encyclopædia Universalis France

tableau

Extrait du DELAF

Extrait du DELAF
Crédits : Encyclopædia Universalis France

tableau

Système analytique de reconnaissance de la parole

Système analytique de reconnaissance de la parole
Crédits : Encyclopædia Universalis France

dessin

Afficher les 5 médias de l'article


Écrit par :

  • : professeur de linguistique à l'université de Paris-VII-Denis-Diderot, membre du Laboratoire de linguistique formelle et de l'Institut universitaire de France

Classification

Autres références

«  TRAITEMENT AUTOMATIQUE DES LANGUES  » est également traité dans :

LANGAGE ACQUISITION DU

  • Écrit par 
  • Michèle KAIL
  •  • 4 944 mots
  •  • 3 médias

Dans le chapitre « Méthodes d’étude de la production du langage »  : […] Les études de production se sont considérablement renouvelées grâce aux moyens audio-visuels et à l’avènement de la micro-informatique. Au recueil des données langagières s’ajoutent des indications concernant les gestes et les regards ainsi que les phénomènes d’interaction avec l’entourage. L’informatique permet le stockage, le traitement automatique et le transfert des données, entraînant un vér […] Lire la suite

COGNITIVES SCIENCES

  • Écrit par 
  • Daniel ANDLER
  •  • 19 242 mots
  •  • 4 médias

Dans le chapitre « Phase II (1970-1995) : l'institutionnalisation »  : […] S'ouvre alors une phase d'environ un quart de siècle au cours de laquelle les sciences cognitives montent en puissance, passant d'un statut avant-gardiste à celui d'acteur majeur. Elles s'institutionnalisent. Elles étendent leur domaine d'étude. Elles produisent des résultats en qualité et en quantité rapidement croissantes. Enfin, elles traversent une série de reconfigurations épistémologiques. L […] Lire la suite

DICTIONNAIRE

  • Écrit par 
  • Bernard QUEMADA
  •  • 7 981 mots

Dans le chapitre « « Nouvelle lexicographie » et « Nouveaux dictionnaires » »  : […] Dans la seconde moitié du xx e  siècle, le dictionnaire connaît d'importants développements. Les nouveaux rôles qu'il est appelé à jouer dans la société de l'information et de la communication renforcent l'intérêt qu'on lui portait jusque-là. Reconsidéré, son usage dans l'enseignement amène à produire des dictionnaires d'apprentissage d'un type nouveau, conçus comme compléments des grammaires scol […] Lire la suite

HARRIS ZELLIG SABBETAI (1909-1992)

  • Écrit par 
  • Morris SALKOFF
  •  • 1 063 mots

La recherche de Zellig Sabbetai Harris est intimement liée aux travaux de l'école américaine d'analyse distributionnelle qui a élaboré son programme pour la linguistique dans les années 1930 et 1940, sous l'impulsion de E. Sapir et L. Bloomfield. Ce dernier avait proposé d'abstraire de la phrase des unités définies formellement et qui serviraient à décrire les rapports observés entre les diverses […] Lire la suite

HUMANITÉS NUMÉRIQUES

  • Écrit par 
  • Thierry POIBEAU
  •  • 5 444 mots
  •  • 2 médias

Dans le chapitre « Histoire du domaine »  : […] On l’a dit, les humanités numériques concernent les analyses, dans le domaine des lettres et des SHS, conduites avec des moyens informatiques. Dès le début, l’informatique a été considérée comme un outil extrêmement puissant pour mener à bien des tâches mécaniques et peu intéressantes. Les chercheurs travaillant sur des sources textuelles ont ainsi souvent besoin de « concordances », ce qui consis […] Lire la suite

LINGUISTIQUE - Théories

  • Écrit par 
  • Catherine FUCHS
  •  • 7 693 mots
  •  • 1 média

Dans le chapitre « Les nouvelles syntaxes  »  : […] C'est précisément pour cette dernière raison que d'autres types de grammaires formelles se sont développées outre-Atlantique au tournant des années 1970-1980 : la plupart d'entre elles ont pris naissance dans la mouvance de la grammaire générative chomskienne, mais ne l'ont pas suivie dans ses développements récents, cherchant avant tout à rester opératoires et calculables, afin de pouvoir être mi […] Lire la suite

LINGUISTIQUE - Le langage au carrefour des disciplines

  • Écrit par 
  • Catherine FUCHS
  •  • 10 045 mots
  •  • 6 médias

Dans le chapitre « Le traitement automatique des langues  »  : […] Outre la traduction automatique, les recherches fondamentales et appliquées en matière de traitement automatique des langues concernent, d’une part, le traitement de la parole et, d’autre part, celui de l’écrit. Les chercheurs en traitement automatique des langues relèvent de disciplines nombreuses et variées (linguistique, mathématiques, logique, intelligence artificielle, informatique, physique. […] Lire la suite

MODÈLE

  • Écrit par 
  • Raymond BOUDON, 
  • Hubert DAMISCH, 
  • Jean GOGUEL, 
  • Sylvanie GUINAND, 
  • Bernard JAULIN, 
  • Noël MOULOUD, 
  • Jean-François RICHARD, 
  • Bernard VICTORRI
  •  • 24 441 mots
  •  • 2 médias

Dans le chapitre «  Le modèle en linguistique »  : […] L'activité de modélisation en linguistique a connu un essor considérable depuis le début des années 1970. Comme dans toutes les disciplines qui traitent de données empiriques, les modèles en linguistique cherchent à rendre compte de phénomènes observables : il s'agit de mettre en place un dispositif dont la conception est régie par la théorie linguistique que l'on veut illustrer et dont le fonctio […] Lire la suite

TERMINOLOGIE

  • Écrit par 
  • Loïc DEPECKER
  •  • 6 205 mots

Dans le chapitre «  La terminologie dans la société de l'information »  : […] Même si la terminologie entre de plus en plus dans le champ d'une réflexion théorique, elle apparaît d'abord comme une discipline d'application dans les entreprises, les laboratoires de recherche, les instituts de normalisation. Elle est primordiale pour la traduction spécialisée, la rédaction technique et la documentation. Mais sa pratique évolue rapidement en raison du développement de la sociét […] Lire la suite

UNIVERSAUX, linguistique

  • Écrit par 
  • Catherine FUCHS
  •  • 4 975 mots

Dans le chapitre «  Noam Chomsky et la grammaire universelle »  : […] À cette position extrême s'oppose de façon diamétrale celle de Noam Chomsky , qui affirme, quant à lui, qu'il n'existerait en définitive dans les langues « qu'un seul système et un seul lexique ». Dans le courant des années 1960, en effet, l'essor naissant de la linguistique formelle, en lien avec les premiers travaux en traitement automatique des langues (notamment pour la traduction), a condui […] Lire la suite

Voir aussi

Pour citer l’article

Anne ABEILLÉ, « TRAITEMENT AUTOMATIQUE DES LANGUES », Encyclopædia Universalis [en ligne], consulté le 25 novembre 2021. URL : https://www.universalis.fr/encyclopedie/traitement-automatique-des-langues/