Nous venons de voir l'architecture mise en œuvre pour un projet BigData, passant notamment par l'offre Cloud et ses services associés.
Voyons désormais le BigData du côté de la modélisation.
Ainsi, nous allons déjà évoquer les bonnes pratiques générales.
Nous verrons ensuite les concepts de base, afin de comprendre globalement le fonctionnement d'un système BigData.
La difficulté étant toutes les combinaisons possibles !
Nous verrons également parmi les grands concepts à connaître les notions de Data Lake, ainsi que l'usage de Base de Données NoSQL.
Nous venons de voir les technologies liées à l’infrastructure, via l’apport du Cloud.
Voyons maintenant les concepts et mécanismes à implémenter pour gérer ces flux de données.
La modélisation à mettre en œuvre est cruciale. Non pas dans le choix intrinsèque de la technique – elles ont toutes leurs avantages et inconvénients – et sont réversibles/interchangeables, mais surtout dans la réflexion à mener.
En se lançant dans un projet BigData – comme pour tout projet informatique-, il faut évidemment établir les cadrages préalables, en fonction notamment, de ses besoins, capacités, ressources, ambitions.
Même en déléguant la partie architecture/infrastucture, en se procurant un système clé-en-mains, via un mode Saas, il serait coûteux, et voué à l’échec de se lancer ‘naïvement’ dans un projet BigData juste pour voir.
Comme vu à la fiche précédente, il existe de très nombreux fournisseurs, dans chacune des étapes (Infrastructure, Analyse, Gestion des applications, etc.).
Or, à la différence d’autres thématiques, comme en BI, le BigData est directement dépendant des fournisseurs choisis.
-> En clair, la modélisation du système va donc dépendre des choix d’implémentation.
Malgré cela, tentons d’y voir plus clair, afin de comprendre, globalement donc, les étapes principales de la modélisation.
Le DataLake – littéralement Lac de Données – désigne un espace de stockage global.
Il permet de faire cohabiter :
Comme vu précédemment, la force du BigData est de se baser sur une modélisation la plus souple possible.
Cette modélisation va permettre de répondre aux problèmes posés par les besoins utilisateurs de Volumétrie, Vélocité et Variété.
Pour ce faire, le principe d’une base NoSQL consiste à stocker les informations de façon non-structurée.
Grâce a cela, on pourra ainsi répondre aux enjeux et limites d’un SGBDR classique :
Comment interroger rapidement sa donnée ?
Comment s’assurer de sa présence à divers endroits ?
Comment anticiper qu’elle puisse répondre aux diverses interrogations possibles ?
Lorem ipsum
Choisissez l’un de nos forfaits et bénéficiez d’un mois gratuit et un abonnement en illimité à plus de 1500 heures de contenues e-learning
Accès à l’ensemble du catalogue de cours
Tableau de bord de progression
Videos streaming
Exercices et quizz d’évaluation
Espace collaboratif
Certificats de réussite de cours
Fiches en téléchargement
Accessible depuis tous appareils
Accès 24/24 et 7/7
Support technique
Assistance
Accès à l’ensemble du catalogue de cours
Tableau de bord de progression
Videos streaming
Exercices et quizz d’évaluation
Espace collaboratif
Certificats de réussite de cours
Fiches en téléchargement
Accessible depuis tous appareils
Accès 24/24 et 7/7
Support technique
Assistance