Abonnez-vous à Universalis pour 1 euro

BIG DATA

Caractéristiques des données du big data

Les données du big data sont donc en perpétuelle expansion (plus ou moins contrôlée), sont acquises à travers de multiples canaux (trafic Internet généré, capteurs…) à des rythmes très différents (de la nanoseconde pour les transactions boursières au jour ou à l’année pour les mesures sur des données démographiques ou sociétales) et sont de différentes natures (texte, vidéo, image, son, biométrie, etc.). Elles sont aussi acquises dans un contexte qui peut, le cas échéant, dégrader la quantité et la qualité de l’information associée. Dans un monde où les fausses nouvelles (fake news) pullulent, on pourra ainsi accorder un degré de confiance en fonction de l’émetteur de la donnée.

Après prétraitement (formatage, conversion, filtrage), les données du big data sont analysées à l’aide d’algorithmes complexes permettant de les identifier, de les classer de manière automatique, sans intervention humaine. Afin de définir aussi précisément que possible la taille de l’espace dans lequel s’opèrent ces analyses, plusieurs générations de modèles de représentation des données du big data ont successivement vu le jour. Le plus connu est le modèle 3V (pour volume, vitesse, variété). Le modèle 4V ajoute la véracité (une donnée est liée à un facteur de vraisemblance) aux trois précédentes caractéristiques. Au gré des inspirations du marketing, d’autres V (par exemple pour valeur, qui associe un coût financier à l’information) ont également fait leur apparition.

Volume des données

Le volume des données est certainement ce qui caractérise le mieux l’expression « big data ». Il suffit d’égrener certaines grandeurs pour apprécier le volume colossal des données générées : 7 milliards d’individus sur Terre, 6 milliards de possesseurs de téléphones portables ou de smartphones, 100 à 120 téraoctets de données nécessaires pour rendre compte de l’activité d’une grande entreprise mondiale, 150 exaoctets pour représenter l’ensemble des données médicales de la population mondiale, 30 milliards de contenus Web différents, 500 millions de capteurs biomédicaux portés à même les personnes, 400 millions de messages twitter échangés par jour entre les 200 millions d’utilisateurs, plus de 4 milliards d’heures de contenus vidéo consultées sur YouTube par mois.

Vitesse d’acquisition des données ou vélocité

Une autre caractéristique des données du big data est la vitesse d’acquisition de celles-ci, terme impropre qui représente en réalité la fréquence (nombre d’événements par unité de temps) à laquelle les données sont générées et stockées. Dans un monde qui change à un rythme effréné et où la nouvelle information chasse impitoyablement l’ancienne, les données n’ont de sens que si leur date de production est connue et récente, et que le temps pour les traiter est court et compatible avec la réactivité attendue. Nous nous sommes habitués à recevoir plus de données dans des temps toujours plus courts, et à ce que ces données soient traitées en temps réel pour être immédiatement exploitables.

Variété de données

Les données de l’informatique traditionnelle sont généralement le résultat de transactions informatiques (insertion ou recherche dans une base de données) et sont de taille et de type limités aisément exploitables par un ordinateur (entiers naturels, nombres réels, chaînes de caractères). Tous les autres types de données, comme les images par exemple, sont soit stockés sous forme de références (on stocke dans la base le chemin d’accès au fichier mais ce dernier n’est pas directement enregistré dans la base), soit sous forme d’un type générique – l’amas ou blob, pour binary large object, stocké dans la base mais très difficilement exploitable. Les données du big data sont de nature encore plus diverse, plus[...]

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Classification

Pour citer cet article

François PÊCHEUX. BIG DATA [en ligne]. In Encyclopædia Universalis. Disponible sur : (consulté le )

Article mis en ligne le

Médias

Centre de données - crédits : Google

Centre de données

Apprentissage supervisé - crédits : Encyclopædia Universalis France

Apprentissage supervisé

Apprentissage non supervisé - crédits : Encyclopædia Universalis France

Apprentissage non supervisé

Autres références

  • APPRENTISSAGE PROFOND ou DEEP LEARNING

    • Écrit par
    • 2 645 mots
    • 1 média
    L’apprentissage supervisé recourt à des techniques variées fondées sur la logique ou la statistique et s’inspirant de modèles psychologiques, physiologiques ou éthologiques. Parmi celles-ci, des techniques anciennes reposant sur un modèle très approximatif du tissu cérébral – les réseaux...
  • CONSOMMATION - Comportement du consommateur

    • Écrit par et
    • 9 030 mots
    • 1 média

    Par « comportement du consommateur », on entend l'ensemble des comportements qui se rapportent à l'acquisition de biens et services. On y inclut l’exposition à des messages commerciaux et à d’autres types d’information, l'expérience de l’utilisation des biens et services achetés et l'abandon éventuel...

  • HISTOIRE GLOBALE

    • Écrit par
    • 5 932 mots
    • 1 média
    La montée en puissance des ressources en données massives (big data) et de leur possibilité de traitement approfondit cette fracture méthodologique. Le Collaborative for Historical Information and Analysis (CHIA, fondé en 2011, université de Pittsburgh), le projet Pulotu (Database of Pacific Religions),...
  • INTELLIGENCE ARTIFICIELLE (IA)

    • Écrit par
    • 5 584 mots
    • 5 médias
    Depuis 2010, la puissance des machines permet d’exploiter de grandes masses de données (ce que l’on appelle couramment les big data) avec des techniques d’apprentissage machine qui se fondent sur le recours à des réseaux de neurones formels, c’est-à-dire à des techniques relativement anciennes que...
  • Afficher les 7 références