TRAITEMENT AUTOMATIQUE DES LANGUES

Carte mentale

Élargissez votre recherche dans Universalis

Le traitement automatique des langues (TAL) est un domaine de recherche pluridisciplinaire à l’intersection de la linguistique et de l’informatique – et désormais de l’intelligence artificielle, ou plus précisément de l’apprentissage artificiel. En guise de définition liminaire, on peut dire que le TAL concerne essentiellement l’analyse des langues au moyen d’un ordinateur. Le TAL est également connu sous diverses appellations qui traduisent parfois des nuances au sein de ce vaste domaine de recherche : on parle par exemple d’« ingénierie linguistique », quand l’accent est mis sur les aspects pratiques et opérationnels, ou de « linguistique informatique », quand c’est la linguistique qui tient un rôle important dans les recherches. Cette définition peut paraître néanmoins trop restrictive dans la mesure où le TAL recouvre également la «  de texte », c’est-à-dire la production et non plus l’analyse automatique de textes. Ce champ de recherche et d’application est populaire, à l’heure des agents conversationnels et autres « gadgets » fondés sur une interaction avec l’utilisateur – pour qu’il y ait interaction, il faut prévoir à la fois une étape d’analyse et une étape de génération.

Il faut d’emblée souligner que le TAL a connu des mutations extrêmement importantes en quelques années, et que ce qui se fait aujourd’hui sur le plan technique n’a plus grand-chose à voir avec ce qui se faisait avant les années 2000. Du point de vue du grand public, le domaine a longtemps été connu essentiellement à travers les correcteurs orthographiques et les traducteurs automatiques, qui étaient de surcroît souvent de qualité médiocre. À l’inverse, il existe désormais de plus en plus d’applications visibles, opérationnelles et relativement efficaces. Tous les problèmes ne sont pas résolus et les systèmes automatisés font toujours des erreurs, mais un certain nombre de réussites sont indéniables. La qualité des traductions, au moins entre une vingtaine de langues, est de plus en plus satisfaisante. Il est ainsi possible de converser avec un agent artificiel de manière relativement efficace (on pensera à Siri d’Apple, à OK Google ou à Alexa d’Amazon). Les moteurs de recherche sont de plus en plus précis et corrigent d’eux-mêmes certaines fautes de frappe, suggèrent des alternatives, etc.

Cette évolution s’explique par des progrès extrêmement importants, qui concernent moins la linguistique, et qui sont avant tout d’ordre technique. Deux éléments principaux expliquent pour l’essentiel les progrès obtenus à partir des années 1990, même si l’apprentissage profond (deep learning) a accentué cette tendance : d’une part, la masse de données textuelles disponible sur Internet ; d’autre part, la puissance de calcul des machines, en constante augmentation. Le développement de ce que l’on appelle l’« intelligence artificielle » et, au sein de ce domaine, celui de l’« apprentissage artificiel » ont considérablement renouvelé le TAL : contrairement à ce que l’on pensait il y a encore quelques décennies, il est extrêmement efficace d’« apprendre » depuis les données.

Pourquoi l’analyse de la langue par ordinateur est-elle difficile ?

Le TAL est difficile parce que l’ordinateur n’a a priori aucune connaissance de la langue. Il faut donc lui indiquer ce qu’est un mot, une phrase, etc. Jusque-là, les choses peuvent sembler relativement simples. Il faut pourtant bien voir que, dès ce niveau, la langue est complexe et ambiguë. Prenons deux exemples. L’apostrophe marque l’élision d’une lettre entre deux mots, comme dans « l’éléphant », mais ce n’est pas toujours le cas : une séquence comme « aujourd’hui » est généralement considérée comme formant un seul mot, qui possède pourtant une apostrophe, laquelle ne joue plus alors son rôle de séparateur. Le trait d’union pose lui aussi des problèmes redoutables, et peut être soit un séparateur (« Rendez-vous, vous êtes cernés ! »), soit une partie du mot (« J’étais en retard à mon rendez-vous »). Le problème est en fait extrêmement prégnant : quasiment chaque mot, chaque expression ou chaque phrase peut être porteur d’ambiguïté.

Le cas d’une phrase comme « L’avocat a livré une plaidoirie au vitriol » illustre bien, lui aussi, cette complexité. Pour un humain, il est évident que le mot « avocat » désigne un juriste, que « a livré » correspond au verbe et que « au vitriol » est une expressi [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 9 pages

Médias de l’article

Texte analysé par un analyseur morphosyntaxique

Texte analysé par un analyseur morphosyntaxique
Crédits : Encyclopædia Universalis France

tableau

Analyse syntaxique d’une même phrase dans quatre langues différentes

Analyse syntaxique d’une même phrase dans quatre langues différentes
Crédits : Encyclopædia Universalis France

dessin

Analyse sémantique des prédicats et de leurs arguments selon la théorie Frame Semantics

Analyse sémantique des prédicats et de leurs arguments selon la théorie Frame Semantics
Crédits : Encyclopædia Universalis France

dessin

Afficher les 3 médias de l'article


Écrit par :

Classification

Autres références

«  TRAITEMENT AUTOMATIQUE DES LANGUES  » est également traité dans :

TRAITEMENT AUTOMATIQUE DES LANGUES

  • Écrit par 
  • Anne ABEILLÉ
  •  • 8 410 mots
  •  • 5 médias

Le traitement automatique des langues (T.A.L.) est un domaine de recherches pluridisciplinaire, qui fait collaborer linguistes, informaticiens, logiciens, psychologues, documentalistes, lexicographes ou traducteurs, et qui appartient au domaine de l'Intelligence artificielle (I.A.). On dispose d'automates qui […] Lire la suite

LANGAGE ACQUISITION DU

  • Écrit par 
  • Michèle KAIL
  •  • 4 944 mots
  •  • 3 médias

Dans le chapitre « Méthodes d’étude de la production du langage »  : […] Les études de production se sont considérablement renouvelées grâce aux moyens audio-visuels et à l’avènement de la micro-informatique. Au recueil des données langagières s’ajoutent des indications concernant les gestes et les regards ainsi que les phénomènes d’interaction avec l’entourage. L’informatique permet le stockage, le traitement automatique et le transfert des données, entraînant un vér […] Lire la suite

COGNITIVES SCIENCES

  • Écrit par 
  • Daniel ANDLER
  •  • 19 242 mots
  •  • 4 médias

Dans le chapitre « Phase II (1970-1995) : l'institutionnalisation »  : […] S'ouvre alors une phase d'environ un quart de siècle au cours de laquelle les sciences cognitives montent en puissance, passant d'un statut avant-gardiste à celui d'acteur majeur. Elles s'institutionnalisent. Elles étendent leur domaine d'étude. Elles produisent des résultats en qualité et en quantité rapidement croissantes. Enfin, elles traversent une série de reconfigurations épistémologiques. L […] Lire la suite

DICTIONNAIRE

  • Écrit par 
  • Bernard QUEMADA
  •  • 7 981 mots

Dans le chapitre « « Nouvelle lexicographie » et « Nouveaux dictionnaires » »  : […] Dans la seconde moitié du xx e  siècle, le dictionnaire connaît d'importants développements. Les nouveaux rôles qu'il est appelé à jouer dans la société de l'information et de la communication renforcent l'intérêt qu'on lui portait jusque-là. Reconsidéré, son usage dans l'enseignement amène à produire des dictionnaires d'apprentissage d'un type nouveau, conçus comme compléments des grammaires scol […] Lire la suite

HARRIS ZELLIG SABBETAI (1909-1992)

  • Écrit par 
  • Morris SALKOFF
  •  • 1 063 mots

La recherche de Zellig Sabbetai Harris est intimement liée aux travaux de l'école américaine d'analyse distributionnelle qui a élaboré son programme pour la linguistique dans les années 1930 et 1940, sous l'impulsion de E. Sapir et L. Bloomfield. Ce dernier avait proposé d'abstraire de la phrase des unités définies formellement et qui serviraient à décrire les rapports observés entre les diverses […] Lire la suite

HUMANITÉS NUMÉRIQUES

  • Écrit par 
  • Thierry POIBEAU
  •  • 5 444 mots
  •  • 2 médias

Dans le chapitre « Histoire du domaine »  : […] On l’a dit, les humanités numériques concernent les analyses, dans le domaine des lettres et des SHS, conduites avec des moyens informatiques. Dès le début, l’informatique a été considérée comme un outil extrêmement puissant pour mener à bien des tâches mécaniques et peu intéressantes. Les chercheurs travaillant sur des sources textuelles ont ainsi souvent besoin de « concordances », ce qui consis […] Lire la suite

LINGUISTIQUE - Théories

  • Écrit par 
  • Catherine FUCHS
  •  • 7 693 mots
  •  • 1 média

Dans le chapitre « Les nouvelles syntaxes  »  : […] C'est précisément pour cette dernière raison que d'autres types de grammaires formelles se sont développées outre-Atlantique au tournant des années 1970-1980 : la plupart d'entre elles ont pris naissance dans la mouvance de la grammaire générative chomskienne, mais ne l'ont pas suivie dans ses développements récents, cherchant avant tout à rester opératoires et calculables, afin de pouvoir être mi […] Lire la suite

LINGUISTIQUE - Le langage au carrefour des disciplines

  • Écrit par 
  • Catherine FUCHS
  •  • 10 045 mots
  •  • 6 médias

Dans le chapitre « Le traitement automatique des langues  »  : […] Outre la traduction automatique, les recherches fondamentales et appliquées en matière de traitement automatique des langues concernent, d’une part, le traitement de la parole et, d’autre part, celui de l’écrit. Les chercheurs en traitement automatique des langues relèvent de disciplines nombreuses et variées (linguistique, mathématiques, logique, intelligence artificielle, informatique, physique. […] Lire la suite

MODÈLE

  • Écrit par 
  • Raymond BOUDON, 
  • Hubert DAMISCH, 
  • Jean GOGUEL, 
  • Sylvanie GUINAND, 
  • Bernard JAULIN, 
  • Noël MOULOUD, 
  • Jean-François RICHARD, 
  • Bernard VICTORRI
  •  • 24 441 mots
  •  • 2 médias

Dans le chapitre «  Le modèle en linguistique »  : […] L'activité de modélisation en linguistique a connu un essor considérable depuis le début des années 1970. Comme dans toutes les disciplines qui traitent de données empiriques, les modèles en linguistique cherchent à rendre compte de phénomènes observables : il s'agit de mettre en place un dispositif dont la conception est régie par la théorie linguistique que l'on veut illustrer et dont le fonctio […] Lire la suite

TERMINOLOGIE

  • Écrit par 
  • Loïc DEPECKER
  •  • 6 205 mots

Dans le chapitre «  La terminologie dans la société de l'information »  : […] Même si la terminologie entre de plus en plus dans le champ d'une réflexion théorique, elle apparaît d'abord comme une discipline d'application dans les entreprises, les laboratoires de recherche, les instituts de normalisation. Elle est primordiale pour la traduction spécialisée, la rédaction technique et la documentation. Mais sa pratique évolue rapidement en raison du développement de la sociét […] Lire la suite

UNIVERSAUX, linguistique

  • Écrit par 
  • Catherine FUCHS
  •  • 4 975 mots

Dans le chapitre «  Noam Chomsky et la grammaire universelle »  : […] À cette position extrême s'oppose de façon diamétrale celle de Noam Chomsky , qui affirme, quant à lui, qu'il n'existerait en définitive dans les langues « qu'un seul système et un seul lexique ». Dans le courant des années 1960, en effet, l'essor naissant de la linguistique formelle, en lien avec les premiers travaux en traitement automatique des langues (notamment pour la traduction), a condui […] Lire la suite

Voir aussi

Pour citer l’article

Thierry POIBEAU, « TRAITEMENT AUTOMATIQUE DES LANGUES », Encyclopædia Universalis [en ligne], consulté le 11 août 2022. URL : https://www.universalis.fr/encyclopedie/traitement-automatique-des-langues/