Le Big Data : un peu d’histoire

18 février 2019

Domaine IT

26 Academy

Depuis maintenant quelques années, le volume de données numériques ne cesse d’augmenter. Cette multiplication des données est due à la numérisation grandissante de tous les domaines du web et de l’économie, ainsi que de la globalisation. C’est dans ce contexte que le Big Data (ou mégadonnées, données massives ou datamasses en français) est né, au moyen de la fusion de diverses sources de données, structurées ou non structurées, telles que :

• L’utilisation d’internet via les mobiles
• Les moteurs de recherche et les réseaux sociaux
• La géolocalisation
• Le cloud
• Le streaming des médias

Le Big Data qu’est-ce que c’est ?

Le Big Data, littéralement « grosses données », « méga données », ou encore « données massives », désigne des ensembles de données devenus si volumineux qu’ils arrivent à dépasser l’intuition, les capacités humaines d’analyse et remettent en cause l’utilisation des outils informatiques classiques. Ces données peuvent être de nature personnelle, professionnelle ou institutionnelle, et peuvent provenir de différentes sources d’information circulant par le biais des différents réseaux numériques (texte, vidéo, audio, base de données, etc…). Pour être qualifiées de « données du Big Data », ces données doivent répondre au critère des trois V :

Le volume (plus ou moins massif)

La variété (nature et niveau de structuration)

La vélocité (de la production, de la collecte et d’analyse)

Dans certains contextes, on peut opter pour un quatrième V qui viendra compléter la série : celui de la véracité des données dont le contrôle s’impose afin de pouvoir les exploiter, soulevant ainsi les questions de gouvernance et de qualité de la donnée, très consommatrice de ressources.

Le Big Data ne fait pas seulement référence à des données mais également à leur analyse et à leur utilisation. Le défi n’est pas seulement représenté par le grand volume de données, mais aussi par la rapidité des traitements et la diversité des informations. Les données sont collectées, stockées et travaillées, le plus souvent possible en temps réel. Une infrastructure importante de données est donc nécessaire pour pouvoir les lire, les traiter et les mettre en rapport.

Le Big Data : à qui ça sert ?

Le Big Data est appliqué dans tous les domaines liés au Web. Un exemple d’outil de Big Data dans le domaine de l’e-commerce est la fameuse phrase « ceux qui ont acheté le produit X ont aussi acheté… ». Ces recommandations naissent à partir de l’évaluation de millions de données d’achats d’autres clients.

Voici quelques domaines qui tirent profit du Big Data :

La recherche médicale : grâce à l’évaluation des données massives, les médecins peuvent trouver de meilleures solutions de thérapie et de traitement pour leurs patients.

L’industrie : grâce à l’utilisation des données des machines de la chaîne de production par exemple, les entreprises peuvent augmenter l’efficacité de leur production et travailler de manière plus durable.
L’économie : il permet aux entreprises de mieux connaitre leurs clients et de leur proposer des offres toujours plus adaptées à leurs besoins.
L’énergie : les données sur la consommation d’énergie permettent à long terme d’adapter l’offre aux besoins des utilisateurs dans le but de rendre l’approvisionnement énergétique plus responsable et durable.
Le marketing : le Big Data est utilisé dans le marketing pour mieux cibler les clients. L’objectif est, entre autres, d’améliorer les relations avec les consommateurs et d’augmenter le taux de conversion.
Le secteur bancaire : le Big Data permet à une banque de proposer des services adaptés au profil de ses clients ou de mieux anticiper ses risques de défaut ou de liquidité.

Quelle solution pour mettre en place le Big Data ?

Pour la mise en place d’une plateforme Big Data, il est nécessaire d’avoir l’élément de base à savoir : Hadoop. Hadoop est un Framework open source, c’est-à-dire un ensemble de composants qui forment un logiciel, conçu pour réaliser des traitements sur des volumes de données massives. Hadoop dispose d’un système de fichiers qui va permettre de gérer la répartition du stockage des données. Il est nommé HDFS (Hadoop Distributed File System). Une fois la mise en place d’Hadoop effective, il faut réfléchir et choisir une distribution Il existe trois distributions leaders sur le marché qui sont Cloudera, Hortonworks et MapR. Chaque distribution offre un large catalogue d’outils pour le traitement des requêtages (Pig, Hive, Impala, Drill), de l’extraction de données (Sqoop), du Machine Learning (Spark), etc.

Une révolution dans le traitement des données massives : SAP HANA

SAP HANA est une plateforme de données développée par SAP. Au cœur de SAP HANA se trouve des bases de données relationnelles, qui prennent en charge une large gamme de Business Intelligence, ERP (Enterprise Resource Planning en anglais, ou en français PGI pour Progiciel de Gestion Intégrée) et autres applications d’entreprise. Contrairement aux bases de données optimisées pour les disques antérieurs, HANA réside en mémoire, ce qui permet au processeur d’accéder directement aux données, au lieu de les rechercher sur les disques durs. Ce processus est beaucoup plus rapide pour exploiter les données en temps réel.

Si l’on considère les évolutions récentes en management des flux, rien n’a bouleversé l’informatique d’entreprise comme SAP HANA. Bien qu’elle n’ait été lancée qu’en 2010, la structure innovante et la vitesse fulgurante de SAP HANA ont déjà changé la façon dont les entreprises utilisent les données.

Pour les opportunités d’emploi dans le domaine du traitement des données, SAP HANA est très attractive. Elle peut s’intégrer dans l’écosystème d’une entreprise, facilitant ainsi la visualisation et surtout l’analyse des données. Nous proposons des formations spécifiques en data science, data management et data visualisation qui vont booster votre carrière.

Blockchain et données massives : une synergie qualitative

La blockchain et le Big Data sont deux technologies en plein essor, mais sont également complémentaires. En effet, leur association permet d’accroître la collecte de données, mais surtout d’améliorer considérablement la qualité des données.

Ces dernières années, la blockchain est au cœur des dernières évolutions en informatique. Il s’agit d’une technologie de base de données distribuée sécurisée cryptographiquement pour le stockage et la transmission d’informations. Chaque enregistrement de la base de données est appelé un bloc et contient des détails tels que la date de transaction et un lien vers le bloc précédent.

Le principal avantage de la blockchain est qu’elle est décentralisée. En fait, personne ne contrôle les données saisies ou leur intégrité. Cependant, ces contrôles sont effectués en continu par les différents ordinateurs du réseau. Ces différentes machines détiennent les mêmes informations. En fait, les données corrompues sur un ordinateur ne peuvent pas entrer dans la chaîne car elles ne correspondront pas aux données équivalentes détenues par les autres machines. Pour faire simple, tant que le réseau existe, les informations restent dans le même état.

La transparence et la cohérence des données tout au long de la chaîne garantit la valeur des analyses qui peuvent être menées après traitement, selon le cas d’usage : les analytics en anglais. Ainsi, grâce à des outils d’analyse et des technologies développées en open data comme la blockchain, on peut créer des architectures d’intelligence artificielle particulièrement performantes. Dans le cas de grandes entreprises, le recours au cloud computing multiplie l’efficacité des analyses de données car un spécialiste des données (data scientist) peut les collecter beaucoup plus rapidement et en temps réel sur plusieurs points du globe.

En conséquence, un CEO (ou PDG en français) peut, grâce à l’analytique garantie par la fiabilité de la blockchain, exploiter en confiance les données massives collectées et améliorer son processus décisionnel.

Un challenger en pleine croissance : MapReduce

L’industrie technologique du Big Data étant une industrie récente, les systèmes de traitement des mégadonnées et de stockage sont en perpétuelle croissance. On assiste à une apparition et disparition des technologies, à une vitesse impressionnante. L’algorithme MapReduce, apparu chez nos amis de Google en 2004, est le plus utilisé aujourd’hui, notamment par Yahoo dans son projet Nutch. Il est passé en 2008 sous le drapeau Apache pour créer Hadoop et voit son utilisation abandonnée pour des raisons de “lenteur” de traitement, visible même sur des mégadonnées de tailles modestes.

À partir de la version 2 de Hadoop, l’architecture a été rendue modulaire et permet d’accepter de nouveaux modules de calcul (Hadoop File System – HDFS). Map Reduce est l’un deux. C’est ainsi que Spark, bien plus jeune que MapReduce, reprend peu à peu le flambeau, cet outil est aussi développé par la maison Apache. Spark peut être exécuté au-dessus de Hadoop et de nombreuses bases NoSQL. Ce projet, qui a connu ces dernières années un essor rapide, a reçu l’approbation d’une grande partie de la techno-sphère des développeurs.

Le futur du Big Data

Une fois que les données mondiales ont commencé à croître de façon exponentielle il y a une décennie, elles n’ont montré aucun signe de ralentissement. Ces mégadonnées ont pris forme principalement via Internet, y compris les réseaux sociaux, les demandes de recherche sur le Web, les messages texte et les fichiers multimédias. Une autre part gigantesque de données est créée par les appareils et capteurs IoT (Internet of Things en anglais, Internet des Objets en français). Les objets connectés tels que les montres, enceintes connectées ou encore les assistants vocaux sont en plein boom commercial. En effet, ils sont les principaux moteurs de la croissance du marché mondial des mégadonnées, qui a déjà atteint pratiquement cinquante milliards d’euros.

Le monde est propulsé par les mégadonnées, obligeant désormais les entreprises à rechercher des experts en conseil en mégadonnées, capables d’exploiter des traitements de données complexes. Vous pouvez choisir pour votre carrière ce domaine en pleine expansion et opter pour l’une de nos formations !

Le Big Data ouvre actuellement des perspectives d’emploi incroyables.

Mais en sera-t-il de même à l’avenir ?

Éléments de réponse :

Les volumes de données continueront d’augmenter et de migrer vers le cloud.

La majorité des experts du Big Data conviennent que la quantité de données générées augmentera de façon exponentielle à l’avenir. Dans son rapport Data Age 2025 pour Seagate, IDC prévoit que la sphère de données mondiale atteindra 175 zettaoctets d’ici 2025.

Pourquoi une croissance aussi rapide ?

Premièrement, à cause du nombre croissant d’internautes qui font tout en ligne, des communications professionnelles aux achats et aux réseaux sociaux. La récente pandémie de coronavirus Covid-19 a paradoxalement accéléré le mouvement par le recours massif au télétravail, aux achats en lignes et aux visioconférences. Ce phénomène a décuplé la création de mégadonnées.

Deuxièmement, des milliards d’appareils connectés et de systèmes embarqués créent, collectent et partagent une multitude d’analyses de données IoT chaque jour, partout dans le monde.

Ces ensembles massifs de données sont difficiles à appréhender en termes de stockage et de traitement. Jusqu’à récemment, les défis du traitement des mégadonnées étaient résolus par les écosystèmes open source, tels que Hadoop et NoSQL. Cependant, les technologies open-source nécessitent une configuration et un dépannage manuel, ce qui peut être assez compliqué pour la plupart des entreprises. À la recherche d’une plus grande élasticité, les entreprises ont commencé à migrer les mégadonnées vers le cloud computing.

Le machine learning va tout changer

Ce n’est que récemment que les applications d’apprentissage automatique (Machine Learning en anglais) et d’intelligence artificielle (IA) n’étaient pas disponibles pour la plupart des entreprises en raison de la domination des plateformes open source. Bien que les plateformes open source aient été développées pour rapprocher les technologies des utilisateurs, la plupart des entreprises manquent de compétences pour configurer elles-mêmes les solutions requises.

La situation a changé lorsque les fournisseurs commerciaux d’IA ont commencé à créer des connecteurs pour les plates-formes IA et d’apprentissage automatique open source et à fournir des solutions abordables qui ne nécessitent pas de configurations complexes. De plus, les fournisseurs commerciaux offrent les fonctionnalités qui manquent actuellement aux plates-formes open source, telles que la gestion et la réutilisation des modèles d’apprentissage automatique.

Le secteur bancaire et financier ont massivement besoin de ces processus, et donc de personnes qualifiées dans le Big Data. De plus en plus de métiers apparaissent dans ce domaine pointu et très recherché par les entreprises.

Pourquoi pas vous ?

La confidentialité des données personnelles restera un enjeu capital.

La sécurité et la confidentialité des données ont toujours été des problèmes cruciaux, montrant un énorme potentiel de boule de neige sociologique et juridique. Les volumes de données en constante augmentation créent des défis supplémentaires pour les protéger contre les intrusions et les cyberattaques, car les niveaux de protection des données ne peuvent pas suivre les taux de croissance des données.

De plus en plus de spécialistes en Big Data seront nécessaires pour garantir la vie privée des citoyens, mais aussi pour traiter le nombre croissant de données.

Songez-y pour votre projet de formation !