Abonnez-vous à Universalis pour 1 euro

BIG DATA

Les aspects algorithmiques et logiciels du big data

Les logiciels de gestion de bases de données traditionnels s’appuient sur les mathématiques relatives à la théorie des ensembles pour appliquer des algorithmes de recherche exhaustifs et déterministes (pour un algorithme donné, les mêmes données initiales impliquent le même résultat en sortie) sur des données fortement structurées (en tables contenant des lignes d’informations pertinentes appelées enregistrements ou tuples, en collections de dimensions finies), cela afin d’isoler les enregistrements de la base qui correspondent à un critère de recherche donné. Les méthodes traditionnelles de modélisation de données ainsi que les systèmes de gestion de base de données ont été conçus pour des volumes de données très inférieurs à ceux du big data. L’informatique décisionnelle classique, celle des bases de données, repose sur l’utilisation de modèles relativement cloisonnés, individuels, représentant le monde. Appelés modèles entité-relation ou entité-association, ils décrivent des tables contenant des lignes cohérentes de donnéesen interaction les unes avec les autres. Les algorithmes de cette informatique agissent sur des données denses en information, sémantiquement univoques, et s’appuient sur des index et des clés pour connecter les enregistrements entre eux.

À l’inverse, les techniques d’analyse du big data s’appuient sur la notion de fouille de données (data mining) pour extraire de l’information ou de la connaissance à partir d’une multitude de données au moyen de méthodes automatisées. La fouille de données s’appuie elle-même sur une suite d’algorithmes dont le rôle est d’identifier des motifs d’intérêt en fonction de critères de recherche définis préalablement ou réévalués en cours de calcul. L’informatique du big data est celle qui acquiert des zettaoctets de données à partir du monde réel, potentiellement pauvres en information ou bruitées, et qui détermine de manière automatisée et aussi rapide que possible des modèles mathématiques fiables et prédictifs. À l’extrême, on peut considérer que le big data revient à « faire parler les chiffres » et à trouver des réponses à partir d’une quantité phénoménale de données, alors que l’on n'a même pas formulé de question. La dimension exploratoire de la fouille de données fait que l’on ne sait pas forcément ce que l’on cherche.

Le big data exploite donc d’autres mathématiques que la logique ensembliste, en particulier les statistiques et les probabilités. Les algorithmes utilisés sont ici essentiellement issus de l’intelligence artificielle et de la recherche opérationnelle. Il s’agit ici non plus de rechercher des données spécifiques mais d’appréhender la multitude des informations brutes du monde réel afin de les classifier de manière automatisée (sans intervention humaine), de déterminer des lois d’évolution ou encore un modèle abstrait de ces données. Les techniques d’analyse des données relatives au big data, connues sous le nom de big analytics (« grandes analyses » ou « analyses massives »), mettent ainsi en jeu des algorithmes de calcul fort complexes et généralement autoadaptatifs (capables de tenir compte de leurs propres erreurs). Ils reposent en grande partie sur les progrès réalisés dans le domaine de l’apprentissage automatique (machine learning), encore appelé apprentissage statistique, et de son extension, l’apprentissage profond (deeplearning), qui excelle dans la reconnaissance vocale, la reconnaissance d’images, ou encore le traitement automatique du langage naturel.

Pour un domaine donné, avec son principe général de fonctionnement et ses spécificités, l’objectif principal de l’apprentissage statistique est de mettre au point un modèle formel robuste et suffisamment précis permettant, dans un premier temps de classifier[...]

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Classification

Pour citer cet article

François PÊCHEUX. BIG DATA [en ligne]. In Encyclopædia Universalis. Disponible sur : (consulté le )

Article mis en ligne le

Médias

Centre de données - crédits : Google

Centre de données

Apprentissage supervisé - crédits : Encyclopædia Universalis France

Apprentissage supervisé

Apprentissage non supervisé - crédits : Encyclopædia Universalis France

Apprentissage non supervisé

Autres références

  • APPRENTISSAGE PROFOND ou DEEP LEARNING

    • Écrit par
    • 2 645 mots
    • 1 média
    L’apprentissage supervisé recourt à des techniques variées fondées sur la logique ou la statistique et s’inspirant de modèles psychologiques, physiologiques ou éthologiques. Parmi celles-ci, des techniques anciennes reposant sur un modèle très approximatif du tissu cérébral – les réseaux...
  • CONSOMMATION - Comportement du consommateur

    • Écrit par et
    • 9 030 mots
    • 1 média

    Par « comportement du consommateur », on entend l'ensemble des comportements qui se rapportent à l'acquisition de biens et services. On y inclut l’exposition à des messages commerciaux et à d’autres types d’information, l'expérience de l’utilisation des biens et services achetés et l'abandon éventuel...

  • HISTOIRE GLOBALE

    • Écrit par
    • 5 932 mots
    • 1 média
    La montée en puissance des ressources en données massives (big data) et de leur possibilité de traitement approfondit cette fracture méthodologique. Le Collaborative for Historical Information and Analysis (CHIA, fondé en 2011, université de Pittsburgh), le projet Pulotu (Database of Pacific Religions),...
  • INTELLIGENCE ARTIFICIELLE (IA)

    • Écrit par
    • 5 584 mots
    • 5 médias
    Depuis 2010, la puissance des machines permet d’exploiter de grandes masses de données (ce que l’on appelle couramment les big data) avec des techniques d’apprentissage machine qui se fondent sur le recours à des réseaux de neurones formels, c’est-à-dire à des techniques relativement anciennes que...
  • Afficher les 7 références