fbpx
i

Class aptent taciti sociosqu
ad litorato rquent per conubia nostra

icone-cours-time-80

3h

icone-cours-level-intermediaire-80

niveau
intermédiaire

puis 25€ /mois

icone-cours-time-80

3h

icone-cours-level-intermediaire-80

niveau
intermédiaire

puis 25€ /mois

icone-cours-time-80

3h

icone-cours-level-intermediaire-80

niveau
intermédiaire

puis 25€ /mois

Nous venons de voir l'architecture mise en œuvre pour un projet BigData, passant notamment par l'offre Cloud et ses services associés.

Voyons désormais le BigData du côté de la modélisation.

Ainsi, nous allons déjà évoquer les bonnes pratiques générales.

Nous verrons ensuite les concepts de base, afin de comprendre globalement le fonctionnement d'un système BigData.

La difficulté étant toutes les combinaisons possibles !

Nous verrons également parmi les grands concepts à connaître les notions de Data Lake, ainsi que l'usage de Base de Données NoSQL.

 

Partie #1 - Bonnes pratiques et recommandations

Nous venons de voir les technologies liées à l’infrastructure, via l’apport du Cloud.
Voyons maintenant les concepts et mécanismes à implémenter pour gérer ces flux de données.
La modélisation à mettre en œuvre est cruciale. Non pas dans le choix intrinsèque de la technique – elles ont toutes leurs avantages et inconvénients – et sont réversibles/interchangeables,  mais surtout dans la réflexion à mener.

En se lançant dans un projet BigData – comme pour tout projet informatique-, il faut évidemment établir les cadrages préalables, en fonction notamment, de ses besoins, capacités, ressources, ambitions.

Même en déléguant la partie architecture/infrastucture, en se procurant un système clé-en-mains, via un mode Saas, il serait coûteux, et voué à l’échec de se lancer ‘naïvement’ dans un projet BigData juste pour voir.

Partie #2 - Concepts de base

Comme vu à la fiche précédente, il existe de très nombreux fournisseurs, dans chacune des étapes (Infrastructure, Analyse, Gestion des applications, etc.).

Or, à la différence d’autres thématiques, comme en BI, le BigData est directement dépendant des fournisseurs choisis.

-> En clair, la modélisation du système va donc dépendre des choix d’implémentation.

Malgré cela, tentons d’y voir plus clair, afin de comprendre, globalement donc, les étapes principales de la modélisation.

Partie #3 - Utilisation d'un Data Lake et modélisations

Le DataLake – littéralement Lac de Données – désigne un espace de stockage global.

Il permet de faire cohabiter :

  • Des informations ‘brutes’, c’est-à-dire fournies par les différentes sources que peuvent être les interactions utilisateurs, les remontées issues de capteurs, ou d’autres systèmes informatiques interconnectés.
  • Des informations ‘raffinées’ : Données simplement agrégées, ou ayant subit des traitements plus complexes, que ce soit par application d’algorithmes ou bien via le Machine Learning.

Partie #4 - Base de données NoSQL

Comme vu précédemment, la force du BigData est de se baser sur une modélisation la plus souple possible.

Cette modélisation va permettre de répondre aux problèmes posés par les besoins utilisateurs de Volumétrie, Vélocité et Variété.

Pour ce faire, le principe d’une base NoSQL consiste à stocker les informations de façon non-structurée.

Grâce a cela, on pourra ainsi répondre aux enjeux et limites d’un SGBDR classique :

Comment interroger rapidement sa donnée ?

Comment s’assurer de sa présence à divers endroits ?

Comment anticiper qu’elle puisse répondre aux diverses interrogations possibles ?

Certificat de réussite