Abonnez-vous à Universalis pour 1 euro

CORPUS, linguistique

Ensemble homogène et significatif de données linguistiques observées et à partir desquelles pourra s'élaborer la théorie. La notion de corpus est évidemment fondamentale dans la linguistique structurale : désireuse de substituer à la normativité de la grammaire ou aux fondements pseudo-logiques de la signification un enregistrement de l'usage, écrit ou oral, ainsi qu'un relevé des différences en fonction des différents contextes, elle pose en principe l'absolue nécessité de s'appuyer sur des productions de parole. Les caractéristiques d'un corpus significatif sont : l'homogénéité (le groupe qui le produit est socialement défini), la synchronie (on ne peut travailler sur des énoncés trop éloignés chronologiquement les uns des autres), la moindre redondance possible (on supprimera des énoncés représentatifs d'un phénomène identique). Nanti de son matériau, le linguiste distributionnaliste induira, par l'intermédiaire d'une formalisation des contextes et en s'appuyant sur l'hypothèse des deux axes de fonctionnement (paradigmatique et syntagmatique), les lois du code. La notion de corpus prête le flanc à une critique néanmoins sérieuse : notamment, dans le modèle de langage impliqué par le recours à l'échantillon, on ne peut que rester en deçà de la perspective créative par laquelle le sujet est capable de produire aussi bien que de comprendre un nombre infini d'énoncés qui ne figurent pas dans le corpus. Il faut alors reconnaître la fragilité d'une observation inductive comparée aux théories hypothético-déductives capables d'intégrer cette créativité. On est alors conduit à renoncer au corpus pour le remplacer par l'épreuve de grammaticalité auprès d'un locuteur natif.

— Robert SCTRICK

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

. In Encyclopædia Universalis []. Disponible sur : (consulté le )

Autres références

  • AMÉNAGEMENT LINGUISTIQUE

    • Écrit par Loïc DEPECKER
    • 4 745 mots
    — l'aménagement du corpus des langues (du point de vue graphique : création d'une écriture et d'un système de transcription, changement d'un type d'écriture à un autre, etc.), du point de vue orthographique (fixation de l'orthographe, création de grammaires, mise à...
  • DISTRIBUTIONNALISME

    • Écrit par Catherine FUCHS
    • 964 mots
    ...Cette méthode, exposée de façon détaillée par Zellig Harris (1909-1992) dans Methods in Structural Linguistics (1951), consiste à recueillir un « corpus » (c'est-à-dire un ensemble homogène d'énoncés considéré comme représentatif de la langue à étudier), puis à segmenter ce corpus. La technique...
  • GRAMMATICALITÉ

    • Écrit par Robert SCTRICK
    • 317 mots

    Une bonne grammaire doit être capable de « projeter le corpus fini et toujours plus ou moins aléatoire des énoncés observés sur l'ensemble, qu'on présuppose infini, des phrases grammaticales », écrit N. Chomsky (Structures syntaxiques). Ce passage de l'induction à la projection...

  • HUMANITÉS NUMÉRIQUES

    • Écrit par Thierry POIBEAU
    • 5 371 mots
    • 2 médias
    Le jésuite italien Roberto Busa (1913-2011) est souvent considéré comme le père du domaine des humanités numériques (Jones, 2018). Dès 1949, il a lancé en partenariat avec la société IBM un projet de création d’index autour de l’œuvre de saint Thomas d’Aquin, appelé l’Index thomisticus...
  • Afficher les 7 références

Voir aussi