BIG DATA

Carte mentale

Élargissez votre recherche dans Universalis

Les aspects algorithmiques et logiciels du big data

Les logiciels de gestion de bases de données traditionnels s’appuient sur les mathématiques relatives à la théorie des ensembles pour appliquer des algorithmes de recherche exhaustifs et déterministes (pour un algorithme donné, les mêmes données initiales impliquent le même résultat en sortie) sur des données fortement structurées (en tables contenant des lignes d’informations pertinentes appelées enregistrements ou tuples, en collections de dimensions finies), cela afin d’isoler les enregistrements de la base qui correspondent à un critère de recherche donné. Les méthodes traditionnelles de modélisation de données ainsi que les systèmes de gestion de base de données ont été conçus pour des volumes de données très inférieurs à ceux du big data. L’informatique décisionnelle classique, celle des bases de données, repose sur l’utilisation de modèles relativement cloisonnés, individuels, représentant le monde. Appelés modèles entité-relation ou entité-association, ils décrivent des tables contenant des lignes cohérentes de données en interaction les unes avec les autres. Les algorithmes de cette informatique agissent sur des données denses en information, sémantiquement univoques, et s’appuient sur des index et des clés pour connecter les enregistrements entre eux.

À l’inverse, les techniques d’analyse du big data s’appuient sur la notion de fouille de données (data mining) pour extraire de l’information ou de la connaissance à partir d’une multitude de données au moyen de méthodes automatisées. La fouille de données s’appuie elle-même sur une suite d’algorithmes dont le rôle est d’identifier des motifs d’intérêt en fonction de critères de recherche définis préalablement ou réévalués en cours de calcul. L’informatique du big data est celle qui acquiert des zettaoctets de données à partir du monde réel, potentiellement pauvres en information ou bruitées, et qui détermine de manière automatisée et aussi rapide que possible des modèles mathématiques fiables et prédictifs. À l’extrême, on peut considérer que le big data revient à « faire parler les chiffres » et à trouver des réponses à partir d’une quantité phénoménale de données, alors que l’on n'a même pas formulé de question. La dimension exploratoire de la fouille de données fait que l’on ne sait pas forcément ce que l’on cherche.

Le big data exploite donc d’autres mathématiques que la logique ensembliste, en particulier les statistiques et les probabilités. Les algorithmes utilisés sont ici essentiellement issus de l’intelligence artificielle et de la recherche opérationnelle. Il s’agit ici non plus de rechercher des données spécifiques mais d’appréhender la multitude des informations brutes du monde réel afin de les classifier de manière automatisée (sans intervention humaine), de déterminer des lois d’évolution ou encore un modèle abstrait de ces données. Les techniques d’analyse des données relatives au big data, connues sous le nom de big analytics (« grandes analyses » ou « analyses massives »), mettent ainsi en jeu des algorithmes de calcul fort complexes et généralement autoadaptatifs (capables de tenir compte de leurs propres erreurs). Ils reposent en grande partie sur les progrès réalisés dans le domaine de l’apprentissage automatique (machine learning), encore appelé apprentissage statistique, et de son extension, l’apprentissage profond (deep learning), qui excelle dans la reconnaissance vocale, la reconnaissance d’images, ou encore le traitement automatique du langage naturel.

Pour un domaine donné, avec son principe général de fonctionnement et ses spécificités, l’objectif principal de l’apprentissage statistique est de mettre au point un modèle formel robuste et suffisamment précis permettant, dans un premier temps de classifier correctement des motifs appris (phase d’apprentissage) puis, dans un second temps, d’être capable de généraliser cette classification avec de nouvelles données (phase d’utilisation du modèle en situation). Le bon modèle est celui qui minimise les erreurs faites pendant cette phase de généralisation afin d’obtenir la classification la plus exacte possible pour les nouvelles données et qui arrive à trouver un équilibre entre le nombre de données d’apprentissage qui doivent être fournies et la qualité de classification attendue lorsque de nouvelles données inconnues sont proposées. À [...]

1  2  3  4  5
pour nos abonnés,
l’article se compose de 10 pages

Médias de l’article

Centre de données

Centre de données
Crédits : Google

photographie

Apprentissage supervisé

Apprentissage supervisé
Crédits : Encyclopædia Universalis France

dessin

Apprentissage non supervisé

Apprentissage non supervisé
Crédits : Encyclopædia Universalis France

dessin

Afficher les 3 médias de l'article


Écrit par :

Classification

Autres références

«  BIG DATA  » est également traité dans :

APPRENTISSAGE PROFOND ou DEEP LEARNING

  • Écrit par 
  • Jean-Gabriel GANASCIA
  •  • 2 649 mots
  •  • 1 média

Dans le chapitre « Différents types d’apprentissage machine »  : […] On distingue usuellement au moins trois types d’apprentissage machine : l’apprentissage par renforcement, l’apprentissage supervisé et l’apprentissage non supervisé. L’apprentissage par renforcement suppose que, lors de ses pérégrinations, un agent (entité qui agit de façon autonome) reçoit des récompenses ou des punitions en fonction des actions qu’il exécute. Il s’agit alors d’établir automatiq […] Lire la suite

CONSOMMATION - Comportement du consommateur

  • Écrit par 
  • Bernard DUBOIS, 
  • Marc VANHUELE
  •  • 8 995 mots
  •  • 1 média

Par « comportement du consommateur », on entend l'ensemble des comportements qui se rapportent à l'acquisition de biens et services. On y inclut l’exposition à des messages commerciaux et à d’autres types d’information, l'expérience de l’utilisation des biens et services achetés et l'abandon éventuel de ces produits. La consommation occupe une place importante dans les activités des individus, en […] Lire la suite

HISTOIRE GLOBALE

  • Écrit par 
  • Pierre-Yves SAUNIER
  •  • 5 954 mots
  •  • 1 média

Dans le chapitre « Les discours de la méthode »  : […] La façon de concevoir et de mener l’enquête historique est une autre dimension où se confrontent des manières de penser et de faire au sujet des matériaux de l’enquête historienne. Une posture empirique place fermement les sources originales au pivot de la démarche de recherche. Ici, on se questionne sur les formes de leur fréquentation et de leur lecture, qu’il s’agisse de l’archive coloniale, d […] Lire la suite

INTELLIGENCE ARTIFICIELLE (IA)

  • Écrit par 
  • Jean-Gabriel GANASCIA
  •  • 5 076 mots
  •  • 5 médias

Dans le chapitre « Renaissance de l’intelligence artificielle  »  : […] Depuis 2010, la puissance des machines permet d’exploiter de grandes masses de données (ce que l’on appelle couramment les b ig d ata ) avec des techniques d’apprentissage machine qui se fondent sur le recours à des réseaux de neurones formels, c’est-à-dire à des techniques relativement anciennes que l’on déploie aujourd’hui sur des architectures de dimensions beaucoup plus importantes qu’auparava […] Lire la suite

MÉDECINE ET INTERNET

  • Écrit par 
  • Philippe MARREL, 
  • Elisabeth PARIZEL, 
  • René WALLSTEIN
  •  • 5 385 mots
  •  • 3 médias

Dans le chapitre « La navigation sur Internet : une donnée médicale »  : […] Chaque requête et l’exploitation qu’en fait l’utilisateur laissent des traces sur le réseau qui sont soigneusement collectées et deviennent autant de données attachées à la personne qui a lancé la requête. Google et les autres moteurs de recherche se sont fait une spécialité de la collecte et de l’exploitation des quantités astronomiques de données ainsi accumulées, les big data ou mégadonnées. […] Lire la suite

Voir aussi

Les derniers événements

27 février 2018 Chine. Stockage dans le pays des données des utilisateurs chinois d'Apple.

Le centre de données doit être géré par Cloud Big Data Industrial Development Co, une entreprise liée au gouvernement de Pékin. […] Lire la suite

Pour citer l’article

François PÊCHEUX, « BIG DATA », Encyclopædia Universalis [en ligne], consulté le 14 mai 2022. URL : https://www.universalis.fr/encyclopedie/big-data/