Introduction à Big Data

Big Data fait référence à la masse de données collectée, en cours de collecte et continuellement générée et à leur analyse.

Le rythme avec lequel nous générons une masse phénoménale estimée à 2,5 trillions (2,5 millions de millions) d’octets de données et lui-même décoiffant. Au début de 2014, 90% des données dans le monde ont été créées au cours des deux années précédentes.

Ces données présentent des formes complexes du fait qu'elles trouvent leurs origines dans des capteurs divers et variés (température, vitesse du vent, hygrométrie, tours/mn, luminosité...), dans les messages échangés (e-mails, médias sociaux, échanges d'images, de vidéos, musique) ou les publications en ligne (sites web, blogs..), les enregistrements de transactions d'achats, des plans numérisés, des annuaires, les informations issues des téléphones mobiles, etc.

Cette numérisation de notre monde est appelée datafication en anglais.

Ces données ne sont pas homogènes et se trouvent sur une multitude de supports différents (Serveurs, PC, automates, smartphones, tablettes, objets communicants...) partout dans le monde.

Ces fantastiques masses de données présentent un énorme intérêt si l'on peut les rapprocher, les analyser pour comprendre le monde et tout ce qui le compose.

Les applications sont innombrables, comme par exemple trouver des remèdes aux cancers, prédire des phénomènes (pannes, évènements, comportements...), améliorer le ciblage marketing, personnaliser les traitements médicaux selon l'ADN individuel, et bien d'autres encore.

Dès lors se pose la question : comment traiter et exploiter un volume aussi important de données non structurées, se trouvant sur des terminaux variés et littéralement n'importe où ?

Big Data regroupe ainsi des outils et techniques pour traiter les données qui répondent au défi du Volume important, de leur Variété en nature et en sources, d'un certain niveau de Vitesse (On emploie plutôt le terme Vélocité) et la Véracité (traduit de l'anglais Veracity, qui est à prendre dans le sens de Vraisemblance).

Big, ordres de grandeur

Dans le domaine du Big Data, on compte en Téraoctets, voire en Pétaoctets. Un Petaoctets (1 Po ≈ 1000 Teraoctets, 1To = 1000 Gigaoctets). La génération continuelle de données nous amènera à considérer l’Exaoctet (1 Eo ≈ 1000 Petaoctets), le Zettaoctets (1 Zo ≈ 1000 Exaoctets) ou encore le Yottaoctets (1 Yo ≈ 1000 Zettaoctets).

Quelques ordres de grandeurs. Au début du mois de février 2014, Youtube fournit les statistiques suivantes :

Plus d'un milliard d'utilisateurs uniques consultent YouTube chaque mois
Tous les mois, les internautes regardent plus de six milliards d'heures de vidéo sur YouTube, soit presque une heure par personne sur Terre, et 50 % de plus que l'an dernier
100 heures de vidéo sont mises en ligne chaque minute sur YouTube
80 % du trafic YouTube est généré hors des États-Unis
YouTube est disponible dans 61 pays et dans 61 langues

Twitter :

58 millions de tweets échangés par jour
12 téraoctets de tweets créés quotidiennement

Stratégie Big Data : rapprocher l'analyse des données

Le défi des quatre V montre que Big Data dépasse la seule notion de volume, cependant cette masse contraint les solutions techniques pour atteindre des temps de réponse acceptable. Sans trop entrer dans les détails, il serait trop long d'amener la masse des données vers une unité de calcul, aussi amène-t-on le calcul, largement parallélisé, vers les données. De même les structures classiques de bases de données ne conviennent plus, notamment à cause de l'hétérogénéité de leurs natures.

Les géants du Web tel que Yahoo, Google ou Facebook on été confrontés très tôt aux problèmes posés par les énormes volumes de données et on été pionniers en matière de traitement.

L'exploitation des données massives Big Data est rendue possible par la disponibilité de ces données et par la diminution du coût de stockage et des ressources informatiques.

Big Data = Smart Data

Big Data est le plus souvent mis en rapport avec le marketing, les entreprises croisant de nombreuses sources de données pour cerner les attentes et préférences de groupes de consommateurs. Une offre personnalisée grâce à ces connaissance améliore considérablement la probabilité de vente.

Inversement, les techniques Big Data permettent de cibler les meilleurs offres, comme par exemple les vols les moins chers, les hôtels ou séjours les plus avantageux, les comparaisons de services bancaires, etc. qui avantagent les consommateurs.

Big Data trouve une application dans la médecine personnalisée, les sources d'économies pour les systèmes de santé et la prédiction des épidémies.

Les services financiers mettent à profit la capacité d’analyse de Big Data pour mieux détecter les fraudes (transactions de cartes de paiement, par exemple), surveiller le trading ou encore analyser les menaces, les risques, les opportunités.

La distribution d'énergie électrique peut mieux analyser et modéliser la consommation en fonction de très nombreux paramètres et améliorer la réponse à la demande.

L'industrie met à profit les techniques Big Data pour analyser la masse de données issue de capteurs sur les machines et installations pour prédire les pannes ou optimiser les opérations.

Références

< Précédent		Suivant >

Mise à jour le Lundi, 30 Octobre 2017 12:20

Christian HOHMANN