RECONNAISSANCE DES MOTS À L'ORAL

Carte mentale

Élargissez votre recherche dans Universalis

Reconnaître les mots prononcés par un autre locuteur paraît naturel et aisé. Pourtant, reconnaître les mots parlés implique la résolution de problèmes complexes liés aux particularités de la parole. Lors d’une conversation ordinaire, l’auditeur doit traiter environ 200 mots par minute et ne dispose donc que de quelques centaines de millisecondes pour apparier chaque mot entendu avec un seul des 50 000 à 100 000 mots qu’il connaît et qui sont disponibles dans sa mémoire, appelée « lexique mental ». Or la parole se déroule dans le temps, ne comporte pas de frontières entre unités linguistiques (comme les mots) et est hautement variable. Ainsi, la réalisation acoustique d’un phonème (l’unité qui permet de distinguer « sa » de « ta ») varie en raison du fait que nous le coarticulons avec les phonèmes voisins ; un « t » est donc physiquement différent dans « ta » et dans « tu ». Bien que nous développions au cours de la première année de vie un mécanisme de catégorisation qui résout en partie ce problème, le signal de parole reste variable d’un locuteur à l’autre ainsi que, pour un même locuteur, d’une situation à l’autre, notamment en fonction de la vitesse d’élocution. De plus, bien que nous ayons l’impression d’entendre des mots séparés, il n’y a en réalité pas de silence entre les mots. Ainsi, l’auditeur doit ramener rapidement à une entité connue unique des formes sonores variables et mal délimitées. Contrairement aux processus d’analyse sémantique et syntaxique qui interviennent plus tard, les mécanismes qui résolvent ce problème sont spécifiques à la modalité orale.

Le recours à des unités épurées des détails acoustiques non pertinents (telles les syllabes) offrirait une interface entre les propriétés physiques du signal et le lexique mental. Mais la nature et l’existence même de ces représentations d’interface restent largement débattues. Et, dans tous les cas, il faut déterminer où initier l’accès au lexical mental dans le signal continu de parole.

L’auditeur peut exploiter plusieurs types d’indices auditifs associés aux frontières de mots. Certains sont universels, comme le fait que la coarticulation est en général plus forte à l’intérieur des mots qu’entre ceux-ci. Les indices spécifiques d’une langue sont aussi utilisés, comme les régularités prosodiques. Par exemple, en anglais, il est avantageux d’initier l’accès lexical au début des syllabes fortes (accentuées), car beaucoup de mots commencent par une syllabe forte. Les langues imposent des contraintes liées à la fréquence des suites de phonèmes (dites « phonotactiques ») qui sont, elles aussi, mises à profit. Ainsi, en français la séquence /pz/ peut être produite dans le discours continu (comme dans « cap zigzagant »), mais rarement au sein d’un mot ; elle marque donc vraisemblablement une frontière lexicale.

La connaissance des mots de sa langue peut aussi aider l’auditeur au découpage en mots, qui découle ainsi automatiquement du processus même de reconnaissance. Deux mécanismes sont envisagés. Selon le premier, les mots parlés sont reconnus de manière séquentielle, et lorsque l’information sensorielle cesse d’être compatible avec un mot candidat, celui-ci est éliminé. Par exemple, le fragment « spa » activera plusieurs mots, mais « spag » réduit cette cohorte de candidats à une seule possibilité : « spaghetti ». Dans ce cas, les connaissances de l’auditeur induiraient la reconnaissance du mot avant même que son articulation soit achevée, ce qui permettrait d’anticiper la frontière finale du mot et, dès lors, d’inférer le début du mot suivant. Le moment où l’on reconnaît un mot correspondrait donc de manière linéaire à son point d’unicité, à partir duquel ce mot est le seul à pouvoir rendre compte de toute l’information sensorielle. Selon le second mécanisme, chaque segment de parole est considéré comme un début de mot potentiel. Il y aurait dès lors compétition, dans le lexical mental, entre les différents mots évoqués par le même fragment sensoriel, et la solution de segmentation retenue serait celle qui rend compte de l’ensemble de l’énoncé, sans laisser de fragment non interprétable. Ainsi, « chagrin » serait temporairement activé par le fragment « chat grincheux », mais ensuite éliminé, car « cheux » n’est pas un mot français. Serait aussi éliminé tout mot candidat qui laisserait une conso [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 3 pages

Écrit par :

  • : docteure en psychologie, directrice de recherche au Fonds de la recherche scientifique de Belgique

Classification

Pour citer l’article

Régine KOLINSKY, « RECONNAISSANCE DES MOTS À L'ORAL », Encyclopædia Universalis [en ligne], consulté le 17 janvier 2022. URL : https://www.universalis.fr/encyclopedie/reconnaissance-des-mots-a-l-oral/