STATISTIQUE

Carte mentale

Élargissez votre recherche dans Universalis

Analyse des données

Mis en présence de données, le statisticien peut se voir assigner une assez grande variété d'objectifs ; la statistique lui offre les méthodes adaptées à ces objectifs. Ceux-ci peuvent être, par exemple, de présenter les observations, ou de les traiter de telle façon que soit suggérée une explication des phénomènes, ou encore de répondre à une question précise concernant une théorie scientifique (les observations sont-elles en accord avec la théorie ?) ou des aspects non directement observables de la réalité, ou enfin d'éclairer une décision particulière. Certains de ces objectifs peuvent être atteints par des méthodes de traitement des données n'impliquant apparemment aucune hypothèse sur les phénomènes étudiés : ces méthodes sont groupées sous l'expression d'analyse des données. D'autres objectifs impliquent que le statisticien introduise, sous forme d'un modèle probabiliste, les théories qu'il veut vérifier ou préciser (inférence statistique) ou les conséquences possibles du choix d'une action (décision statistique).

En analyse des données, il s'agit donc de « décrire » un ensemble de données. Dans la période classique de la statistique mathématique (première moitié du xxe siècle), on ne disposait de méthodes efficaces que pour des statistiques unidimensionnelles ou bidimensionnelles ; c'est seulement grâce aux ordinateurs que l'on peut traiter, sans trop les appauvrir, des tableaux d'observations de dimensions quelconques.

Statistique descriptive

Pour un phénomène unidimensionnel, une statistique est un ensemble de n mesures {x1, x2, ..., xn} ; on dit que c'est un n-échantillon. On peut le représenter aussi bien comme un n-uple de points de R que comme un point de Rn. Les méthodes statistiques élémentaires (statistique descriptive) s'attachent à décrire de tels objets. On définit ainsi des caractéristiques de valeur centrale : d'une part, la moyenne arithmétique :

la médiane (c'est-à-dire la valeur telle que la moitié des valeurs de l'échantillon lui soit inférieure ou égale), la moyenne des valeurs extrêmes, etc., et d'autre part des caractéristiques de dispersion : ainsi la variance, ou carré de l'écart type s, est la moyenne des carrés des écarts entre les valeurs de l'échantillon et la moyenne arithmétique :

Les choix d'une caractéristique de valeur centrale et d'une caractéristique de dispersion doivent être cohérents : ils sont liés au choix d'une distance dans Rn permettant de comparer deux échantillons. Ainsi, avec la distance euclidienne classique, si on cherche le point de coordonnées toutes égales  = (t, t, ..., t), le plus proche de l'échantillon  = (x1, x2, ..., xn), on trouve qu'il faut prendre t = , et que la distance entre et est alors ns.

La représentation graphique d'un échantillon se fait à l'aide de l'histogramme, ou polygone des fréquences. On utilise aussi le diagramme des fréquences cumulées, ou fonction de répartition.

Pour le cas d'un échantillon d'un couple de deux variables, nous aurons par exemple :

Un tel échantillon peut être considéré comme un n-uple de points dans R2 ou comme un couple de points dans Rn. Les caractéristiques usuelles « au second ordre » d'un tel échantillon sont les valeurs moyennes et ȳ, les écarts types sx et sy, et le coefficient de corrélation :

quotient de la covariance :
par le produit sxsy des écarts types.

Le coefficient de corrélation n'est pas affecté par une transformation affine sur l'une ou l'autre des variables x et y. On montre sans peine qu'il est compris entre − 1 et + 1. D'un point de vue géométrique, lorsqu'on représente l'échantillon par un couple de points de Rn, le coefficient de corrélation est le cosinus de l'angle formé par les vecteurs centrés :

Analyse en composantes principales

Passons maintenant au cas d'une statistique de dimension p (ou échantillon d'un p-uple de variables), n étant toujours l'effectif de l'échantillon. Les observations sont alors présentées sous la forme d'un tableau à p lignes et n colonnes (on dit qu'il y a n individus, sur chacun desquels ont été mesurés p caractères) :

X∈ Rp est le vecteur des p caractères associés à l'individu i et X∈ Rn est le vecteur des n observations du caractère j. Dans un langage géométrique, on représente le tableau X de deux manières : soit n points (individus) dans Rp (où chaque coordonnée est associée à un caractère), soit p points (caractères) dans Rn (où chaque coordonnée est associée à un individu). Dans Rp, on peut généraliser ce qui a été dit plus haut pour le cas de deux caractères en définissant le vecteur des caractères moyens :

et la matrice des covariances :
dont les termes diagonaux sont les variances des caractères. On définit de la même façon la matrice des coefficients de corrélation.

On peut donc caractériser « au second ordre » le tableau de données X, pour n individus et p caractères, par le couple (GV) composé d'un vecteur et d'une matrice, ou, ce qui est parfois plus parlant, par le triplet (G, S, R) en notant S le vecteur des écarts types des caractères et R la matrice de corrélation. Mais cela ne permet pas, en général, de se faire une idée des ressemblances entre les individus, ou des parallélismes entre les caractères (sauf à les considérer seulement deux par deux). Cela tient à ce que nous ne pouvons donner un support concret aux espaces ayant plus de deux dimensions. Une technique fort répandue, et efficace, consiste à chercher dans Rp (espace des individus où nous avons « représenté » un nuage de n points) un sous-espace à deux dimensions, dans lequel les projections orthogonales (avec la métrique euclidienne usuelle par exemple ; mais d'autres variantes sont possibles) des « points individus » forment un nuage aussi voisin que possible du nuage initial. Ce résultat est obtenu par l'analyse en composantes principales, qui donne d'ailleurs aussi bien la suite des sous-espaces de dimension 1, 2, 3, ..., p − 1 ayant la propriété désirée (nuage projeté le plus proche du nuage initial). On montre qu'il s'agit d'une famille de sous-espaces engendrés par les vecteurs propres de la matrice V des covariances (ou de la matrice ∘ M si l'on choisit une métrique M quelconque). De façon plus précise, le sous-espace de dimension k qui donne le nuage projection le plus proche du nuage initial est engendré par les vecteurs propres correspondant aux k plus grandes valeurs propres de la matrice V. Dans la pratique, on se borne souvent à prendre = 2 ou  = 3.

La proximité entre le nuage initial et le nuage projeté est repérée par le quotient entre l'inertie (variance généralisée) de l'un et l'autre nuage. Si ce quotient est voisin de l'unité, les individus sont approximativement situés dans le sous-espace fourni par l'analyse, qui décrit alors à peu près exhaustivement le tableau initial des données. On appelle « facteurs principaux » les nouvelles variables (combinaisons linéaires des variables initiales) constituées par les vecteurs propres qui engendrent les espace [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 21 pages

Écrit par :

Classification

Autres références

«  STATISTIQUE  » est également traité dans :

APPROCHES TRANSVERSALE ET LONGITUDINALE EN PSYCHOLOGIE DU DÉVELOPPEMENT

  • Écrit par 
  • Henri LEHALLE
  •  • 1 042 mots

S’informer sur le développement des enfants et des adolescents impose de pouvoir comparer leurs comportements aux différents âges. Pour cela, diverses approches méthodologiques sont possibles. Selon une première approche « transversale », les groupes d’âge à comparer sont constitués par des échantillons d’enfants différents : autant d’échantillons que de groupes d’âge. À chaque âge, on note les co […] Lire la suite

ASSURANCE - Histoire et droit de l'assurance

  • Écrit par 
  • Jean-Pierre AUDINOT, 
  • Jacques GARNIER
  • , Universalis
  •  • 7 480 mots
  •  • 1 média

Dans le chapitre « Le calcul actuariel, création européenne »  : […] Pour que cet aléa disparaisse, il fallut attendre que la découverte du calcul des probabilités et le progrès de l'observation statistique permettent une prévision rationnelle du risque. Mais ce n'est qu'au xvii e  siècle que Pascal, à la demande d'un joueur de cartes passionné, le chevalier de Méré, découvre les bases du calcul des probabilités et la loi des grands nombres ( La Géométrie du hasard […] Lire la suite

BAYES THOMAS (1702-1761)

  • Écrit par 
  • Bernard PIRE
  •  • 310 mots

Mathématicien britannique, pionnier de la statistique. Né en 1702 à Londres, Thomas Bayes est le fils d'un des six premiers pasteurs non conformistes à être ordonnés après le refus en 1664 d'une partie de l'Église anglicane d'adhérer à l'Act of Uniformity. Après avoir reçu une solide éducation privée, il est ordonné et devient l'assistant de son père à Holborn (Londres). À la fin des années 1720, […] Lire la suite

BERNSTEIN FELIX (1878-1956)

  • Écrit par 
  • Bernard PIRE
  •  • 335 mots

Mathématicien allemand naturalisé américain, spécialiste de la théorie des ensembles puis des statistiques appliquées. Né le 24 février 1878 à Halle (Allemagne), Felix Bernstein est le fils d'un spécialiste de l'électrobiologie. Élève de Georg Cantor (1845-1918) à Halle, Bernstein démontre en 1897 son fameux théorème sur l'équivalence des ensembles : si deux ensembles A et B sont chacun équivalent […] Lire la suite

BERTILLON LES

  • Écrit par 
  • Christine BARTHET
  •  • 743 mots
  •  • 1 média

Né à Paris, Alphonse Bertillon appartient à une famille prestigieuse. Son père, Louis-Adolphe (1821-1883), ami de Michelet, proche du mouvement socialiste (en juin 1848, il prodigue ses soins aux blessés des barricades), était un médecin renommé, mais aussi un spécialiste des sciences humaines et surtout de la démographie, travaillant sur les traces d'un des fondateurs de cette discipline, le gra […] Lire la suite

BIBLIOMÉTRIE

  • Écrit par 
  • Ghislaine FILLIATREAU
  •  • 1 803 mots
  •  • 1 média

Les bases de la bibliométrie – qui est un ensemble de techniques visant à s’appuyer sur l’analyse des publications scientifiques pour mesurer la production de connaissances nouvelles – se sont véritablement développées à partir des années 1950, lorsque des chercheurs ont pu établir des statistiques sur la science à partir de bases de données bibliographiques recensant les publications scientifiqu […] Lire la suite

BIG DATA

  • Écrit par 
  • François PÊCHEUX
  •  • 6 153 mots
  •  • 3 médias

Dans le chapitre « Les aspects algorithmiques et logiciels du big data »  : […] Les logiciels de gestion de bases de données traditionnels s’appuient sur les mathématiques relatives à la théorie des ensembles pour appliquer des algorithmes de recherche exhaustifs et déterministes (pour un algorithme donné, les mêmes données initiales impliquent le même résultat en sortie) sur des données fortement structurées (en tables contenant des lignes d’informations pertinentes appelées […] Lire la suite

BLACKWELL DAVID (1919-2010)

  • Écrit par 
  • Universalis
  •  • 391 mots

Le statisticien et mathématicien américain David Blackwell apporta une contribution importante à la théorie des jeux, à la théorie des probabilités, à la théorie de l'information et aux statistiques bayésiennes. Il bouscula des barrières raciales quand il devint, en 1965, le premier Noir américain nommé membre de la National Academy of Sciences aux États-Unis. David Harold Blackwell est né le 24 a […] Lire la suite

CALCUL ET RATIONALISATION - (repères chronologiques)

  • Écrit par 
  • Pierre MOUNIER-KUHN
  •  • 732 mots

1623 L'astronome allemand Wilhelm Schickard invente une « horloge à calcul ». Mais celle-ci disparaît dans un incendie et Schickard ne poursuit pas ce projet qui n'aura donc aucune influence historique. 1637 René Descartes, dans le Discours de la méthode , définit la méthode rationnelle de résolution des problèmes : diviser chaque difficulté en opérations ou en éléments aussi simples que possibl […] Lire la suite

CAUSALITÉ

  • Écrit par 
  • Raymond BOUDON, 
  • Marie GAUTIER, 
  • Bertrand SAINT-SERNIN
  •  • 13 000 mots
  •  • 3 médias

Dans le chapitre « Relations causales et relations statistiques »  : […] Eu égard à la première question, remarquons qu'une relation statistique, si elle ne peut s'accompagner d'une interprétation causale, est dépourvue de sens : elle peut donner lieu à une proposition constatant l'existence de cette relation, mais non à un énoncé empirique. Une relation statistique n'a généralement de sens que si elle est interprétable en termes de causalité. Prenons un exemple : les […] Lire la suite

Voir aussi

Les derniers événements

26 août 2021 Suisse. Chiffrage de la baisse du PIB en 2020.

statistique chiffre à 2,4 % la baisse du PIB en 2020, du fait de la pandémie de Covid-19, contre 2,9 % estimé en février par le secrétariat d’État à l’Économie (SECO). […] Lire la suite

1er-30 avril 2021 Canada. Couvre-feu au Québec contre la Covid-19.

Statistique Canada indique que seize mille trois cents personnes de plus sont mortes en 2020 – sur un total de quelque trois cent mille morts – par rapport à ce que la situation démographique pouvait laisser prévoir en l’absence de pandémie, soit une surmortalité de 5,6 %. Le 30, le gouvernement fédéral annonce la suspension de l’administration du […] Lire la suite

2 mars 2021 Canada. Annonce du taux de croissance en 2020.

Statistique Canada chiffre à 5,4 p. 100 la contraction du PIB en 2020, soit la plus forte baisse annuelle depuis l’enregistrement des données trimestrielles en 1961. Le PIB avait fléchi de 1,9 p. 100 au premier trimestre et de 11,3 p. 100 au deuxième, puis progressé de 8,9 p. 100 au troisième et de 2,3 p. 100 au quatrième. […] Lire la suite

1er-29 janvier 2021 France. Aménagement des mesures de restriction liées à la Covid-19.

statistique et des études économiques (INSEE) annonce une surmortalité de 9 % dans le pays en 2020, toutes causes confondues, ce qui représente cinquante-trois mille neuf cents décès supplémentaires. Le 18, la vaccination est ouverte aux personnes de plus de soixante-quinze ans dans les centaines de centres de vaccination prévus à cet effet. Ceux-ci […] Lire la suite

14 janvier 2021 Allemagne. Présentation des chiffres de l'économie pour 2020.

statistique Destatis. Il annonce une contraction du PIB de 5 %, la première de cette ampleur depuis 2009 en raison de la crise financière, mais toutefois moindre que les prévisions. Le pays enregistre un déficit public de 158,2 milliards d’euros, le premier depuis l’entrée en vigueur en 2011 du mécanisme constitutionnel de « frein à la dette » qui  […] Lire la suite

Pour citer l’article

Georges MORLAT, « STATISTIQUE », Encyclopædia Universalis [en ligne], consulté le 01 décembre 2021. URL : https://www.universalis.fr/encyclopedie/statistique/