< Retour à la liste des articles

Le Big Data : un peu d’histoire

18 février 2019 Domaine IT 26 Academy

Depuis maintenant quelques années, le volume de données numériques ne cesse d’augmenter. Cette multiplication des données est due à la numérisation grandissante de tous les domaines du web et de l’économie. C’est dans ce contexte que le Big Data (ou mégadonnées, données massives ou datamasses en français) est né, au moyen de la fusion de diverses sources de données, structurées ou non structurées, telles que :

  • L’utilisation d’internet via les mobiles
  • Les moteurs de recherche et les réseaux sociaux
  • La géolocalisation
  • Le cloud
  • Le streaming des médias

Le Big Data qu’est-ce que c’est ?

Le Big Data, littéralement « grosses données », « méga données », ou encore « données massives », désigne des ensembles de données devenus si volumineux qu’ils arrivent à dépasser l’intuition, les capacités humaines d’analyse et remettent en cause l’utilisation des outils informatiques classiques. Ces données peuvent être de nature personnelle, professionnelle ou institutionnelle, et peuvent provenir de différentes sources d’information circulant par le biais des différents réseaux numériques (texte, vidéo, audio, base de données, etc…). Pour être qualifiées de « données du Big Data », ces données doivent répondre au critère des trois V :

  • Le volume (plus ou moins massif)
  • La variété (nature et niveau de structuration)
  • La vélocité (de la production, de la collecte et d’analyse)

Dans certains contextes, on peut opter pour un quatrième V qui viendra compléter la série : celui de la véracité des données dont le contrôle s’impose afin de pouvoir les exploiter, soulevant ainsi les questions de gouvernance et de qualité de la donnée, très consommatrice de ressources.

Le Big Data ne fait pas seulement référence à des données mais également à leur analyse et à leur utilisation. Le défi n’est pas seulement représenté par le grand volume de données, mais aussi par la rapidité des traitements et la diversité des informations. Les données sont collectées, stockées et travaillées, le plus souvent possible en temps réel. Une infrastructure importante de données est donc nécessaire pour pouvoir les lire, les traiter et les mettre en rapport.


Le Big Data : à qui ça sert ?

Le Big Data est appliqué dans tous les domaines liés au Web. Un exemple d’outil de Big Data dans le domaine de l’e-commerce est la fameuse phrase « ceux qui ont acheté le produit X ont aussi acheté… ». Ces recommandations naissent à partir de l’évaluation de millions de données d’achats d’autres clients.

Voici quelques domaines qui tirent profit du Big Data :

  • La recherche médicale : grâce à l’évaluation des données massives, les médecins peuvent trouver de meilleures solutions de thérapie et de traitement pour leurs patients.
  • L’industrie : grâce à l’utilisation des données des machines de la chaîne de production par exemple, les entreprises peuvent augmenter l’efficacité de leur production et travailler de manière plus durable.
  • L’économie : il permet aux entreprises de mieux connaitre leurs clients et de leur proposer des offres toujours plus adaptées à leurs besoins.
  • L’énergie : les données sur la consommation d’énergie permettent à long terme d’adapter l’offre aux besoins des utilisateurs dans le but de rendre l’approvisionnement énergétique plus responsable et durable.
  • Le marketing : le Big Data est utilisé dans le marketing pour mieux cibler les clients. L’objectif est, entre autres, d’améliorer les relations avec les consommateurs et d’augmenter le taux de conversion.
  • Le secteur bancaire : le Big Data permet à une banque de proposer des services adaptés au profil de ses clients ou de mieux anticiper ses risques de défaut ou de liquidité.

Quelle solution pour mettre en place le Big Data ?

Pour la mise en place d’une plateforme Big Data, il est nécessaire d’avoir l’élément de base à savoir : Hadoop. Hadoop est un Framework open source, c’est-à-dire un ensemble de composants qui forment un logiciel, conçu pour réaliser des traitements sur des volumes de données massives. Hadoop dispose d’un système de fichiers qui va permettre de gérer la répartition du stockage des données. Il est nommé HDFS (Hadoop Distributed File System). Une fois la mise en place d’Hadoop effective, il faut réfléchir et choisir une distribution Il existe trois distributions leaders sur le marché qui sont Cloudera, Hortonworks et MapR. Chaque distribution offre un large catalogue d’outils pour le traitement des requêtages (Pig, Hive, Impala, Drill), de l’extraction de données (Sqoop), du Machine Learning (Spark), etc.


Le futur du Big Data

L’industrie technologique du Big Data étant une industrie récente, les systèmes de traitement des mégadonnées et de stockage sont en perpétuelle croissance. On assiste à une apparition et disparition des technologies, à vitesse impressionnante. L’algorithme MapReduce apparu chez nos amis de Google en 2004, est le plus utilisé aujourd’hui, notamment par Yahoo dans son projet Nutch. Il est passé en 2008 sous le drapeau Apache pour créer Hadoop et voit son utilisation abandonnée pour des raisons de “lenteur” de traitement, visible même sur des mégadonnées de tailles modestes.

A partir de la version 2 de Hadoop, l’architecture a été rendue modulaire et permet d’accepter de nouveaux modules de calcul (Hadoop File System – HDFS). Map Reduce est l’un deux. C’est ainsi que Spark, bien plus jeune que MapReduce, reprend peu à peu le flambeau, cet outil est aussi développé par la maison Apache. Spark pouvant être exécuté au-dessus de Hadoop et de nombreuses bases NoSQL. Ce projet, qui a connu ces dernières années un essor rapide, a reçu l’approbation d’une grande partie de la techno-sphère des développeurs.



Nous travaillons avec les startups les plus innovantes dans leur domaine.



Nous nous engageons à vous apporter des formations de qualité référencées.

Une question ? Vous souhaitez vous lancer ?
N’hésitez pas à nous contacter