Abonnez-vous à Universalis pour 1 euro

TRAITEMENT AUTOMATIQUE DES LANGUES

  • Article mis en ligne le
  • Modifié le
  • Écrit par

Les domaines de recherche en traitement automatique des langues

Le traitement des langues est un domaine si divers qu’il est impossible d’en faire un inventaire détaillé tant la tâche serait vaste. Il serait tout aussi illusoire d’entreprendre de faire une séparation entre recherche fondamentale et recherche appliquée car une telle frontière n’existe pas. Comme il est fréquent dans le secteur dit des « nouvelles technologies », les produits et les applications qui apparaissent régulièrement incluent tous une part de recherche. Dans le même temps, le TAL est par nature toujours appliqué à des langues et des textes particuliers. Il n’y a donc pas vraiment de sens à parler de recherche « fondamentale ».

Il est pourtant nécessaire de définir des sous-domaines de recherche afin de dresser une géographie du TAL et d’aider le lecteur à se repérer. On abordera dans cette partie la recherche en TAL à travers différents domaines traditionnels de la linguistique avant d’en venir aux applications, sachant, encore une fois, que les celles-ci impliquent et incluent des résultats issus de recherches récentes.

Phonétique

La phonétique n’est pas absente du TAL, mais elle est très liée à l’analyse du signal et à celle de la parole, des domaines que nous avons fait le choix de ne pas traiter ici car l’analyse linguistique y est extrêmement réduite. Il s’agit en effet, en premier lieu, d’analyser les sons, qui ne sont pas des unités linguistiques signifiantes en elles-mêmes, contrairement aux morphèmes.

Analyse morphosyntaxique

Pour le TAL, la morphosyntaxe correspond avant tout au fait de déterminer la catégorie (nom, verbe…) des mots dans leur contexte et, éventuellement, d’autres traits de nature morphologique. La difficulté de la tâche provient du fait que les mots sont ambigus (« sinistre » peut ainsi être un nom, un adjectif ou un verbe, « le » peut être un déterminant ou un pronom, etc.). Il s’agit donc de lever l’ambiguïté en fonction du contexte dans lequel le mot se trouve placé. Mais ce contexte est lui-même constitué d’autres mots qui risquent à leur tour d’être ambigus… Il faut toutefois noter que, globalement, il existe peu de phrases par nature ambiguës en dehors des exemples classiques des livres de linguistique, tels que « Le boucher sale la tranche », qui peut avoir deux sens différents, suivant qu’on analyse « sale » (et donc « tranche ») comme un verbe ou comme un adjectif.

Texte analysé par un analyseur morphosyntaxique - crédits : Encyclopædia Universalis France

Texte analysé par un analyseur morphosyntaxique

En pratique, la catégorie d’un mot peut souvent être déterminée en fonction de celle à laquelle appartient chacun des quelques mots qui le précédent, la taille du contexte à prendre en compte variant en fonction du mot à désambiguïser. Souvent, les deux mots précédents peuvent suffire à prédire avec une assez bonne fiabilité la catégorie du mot suivant, étant donné qu’il s’agit d’opérer un choix parmi un ensemble de catégories répertoriées dans un dictionnaire.

Les performances varient justement en fonction de la langue, des ressources disponibles : si on ne dispose pas d’un dictionnaire très complet de la langue à analyser, l’analyseur est confronté à de nombreux mots inconnus qui font obligatoirement chuter les performances globales. Pour le français ou l’anglais, sur des corpus de presse, on dispose d’analyseurs ayant des performances de l’ordre de 0,95 à 0,98, c’est-à-dire que 95 à 98 % des étiquettes posées sur les mots sont valides (un nom bien identifié en tant que nom, un verbe en tant que verbe, etc.). Il s’agit de scores élevés, surtout si on prend en compte le fait qu’inévitablement certains de ces mots sont des mots « inconnus », c’est-à-dire non répertoriés dans le dictionnaire. Le système doit alors inférer une catégorie possible, en fonction du contexte et éventuellement de la morphologie du mot. Il faut malgré tout garder à l’esprit que 95 % d’étiquettes correctes, cela veut dire 5 % de mots mal étiquetés,[...]

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Classification

Pour citer cet article

Thierry POIBEAU. TRAITEMENT AUTOMATIQUE DES LANGUES [en ligne]. In Encyclopædia Universalis. Disponible sur : (consulté le )

Article mis en ligne le et modifié le 22/05/2023

Médias

Texte analysé par un analyseur morphosyntaxique - crédits : Encyclopædia Universalis France

Texte analysé par un analyseur morphosyntaxique

Analyse syntaxique d’une même phrase dans quatre langues différentes - crédits : Encyclopædia Universalis France

Analyse syntaxique d’une même phrase dans quatre langues différentes

Analyse sémantique des prédicats et de leurs arguments selon la théorie Frame Semantics - crédits : Encyclopædia Universalis France

Analyse sémantique des prédicats et de leurs arguments selon la théorie Frame Semantics

Autres références

  • LANGAGE ACQUISITION DU

    • Écrit par
    • 4 950 mots
    • 3 médias
    ...s’ajoutent des indications concernant les gestes et les regards ainsi que les phénomènes d’interaction avec l’entourage. L’informatique permet le stockage, le traitement automatique et le transfert des données, entraînant un véritable changement d’échelle dans les pratiques de recherche. L’étude des productions...
  • COGNITIVES SCIENCES

    • Écrit par
    • 19 262 mots
    • 4 médias
    ...scinder en une branche théorique proche de la logique appliquée et une branche d'ingénierie informatique, divisée à son tour en spécialités telles que le traitement automatique des langues (T.A.L.), la vision artificielle, les images de synthèse, la reconnaissance vocale, et différentes techniques de ...
  • DICTIONNAIRE

    • Écrit par
    • 7 965 mots
    • 1 média
    Les progrès de l'informatique éditoriale et destraitements automatiques de la langue et des textes ont bouleversé le travail des dictionnaristes autant que leurs produits dans les dernières années du xxe siècle. Ces transformations, plus profondes encore que celles entraînées par l'imprimerie,...
  • HARRIS ZELLIG SABBETAI (1909-1992)

    • Écrit par
    • 1 063 mots

    La recherche de Zellig Sabbetai Harris est intimement liée aux travaux de l'école américaine d'analyse distributionnelle qui a élaboré son programme pour la linguistique dans les années 1930 et 1940, sous l'impulsion de E. Sapir et L. Bloomfield. Ce dernier avait proposé d'abstraire...

  • Afficher les 12 références