Résumé du cours
Ce cours de 2 jours présente aux apprenants la capacité d'intégration de données de Google Cloud à l'aide de Cloud Data Fusion. Dans ce cours, nous abordons les défis de l'intégration de données et la nécessité d'une plateforme d'intégration de données (middleware). Nous examinons ensuite comment Cloud Data Fusion peut aider à intégrer efficacement des données provenant d'une variété de sources et de formats et à générer des informations. Nous examinons les principaux composants de Cloud Data Fusion et leur fonctionnement, comment traiter des données par lots et des données en continu en temps réel avec une conception visuelle des pipelines, un riche suivi des métadonnées et de la lignée des données, et comment déployer des pipelines de données sur divers moteurs d'exécution.
Moyens d'évaluation :
- Quiz pré-formation de vérification des connaissances (si applicable)
- Évaluations formatives pendant la formation, à travers les travaux pratiques réalisés sur les labs à l’issue de chaque module, QCM, mises en situation…
- Complétion par chaque participant d’un questionnaire et/ou questionnaire de positionnement en amont et à l’issue de la formation pour validation de l’acquisition des compétences
A qui s'adresse cette formation
- Data Engineer
- Data Analysts
Pré-requis
Compléter "Principes fondamentaux du Big Data et de l'apprentissage automatique".
Objectifs
- Identifier le besoin d'intégration de données,
- Comprendre les capacités de Cloud Data Fusion en tant que plateforme d'intégration de données,
- Identifier les cas d'utilisation pour une mise en œuvre possible avec Cloud Data Fusion,
- Lister les principaux composants de Cloud Data Fusion,
- [Concevoir et exécuter des pipelines de traitement de données par lots et en temps réel,
- Travailler avec Wrangler pour construire des transformations de données.
- Utiliser des connecteurs pour intégrer des données provenant de sources et de formats différents,
- Configurer l'environnement d'exécution ; surveiller et dépanner l'exécution du pipeline,
- Comprendre la relation entre les métadonnées et le lignage des données
.
Contenu
Module 00 - Introduction
(en anglais)
Module 01 - Introduction à l'intégration de données et au Cloud Data Fusion
- Intégration de données : quoi, pourquoi, défis
- Outils d'intégration de données utilisés dans l'industrie
- Personnages d'utilisateurs
- Introduction à la fusion de données en nuage
- Capacités critiques de l'intégration de données
- Composants de l'interface utilisateur de Cloud Data Fusion
Module 02 - Construire des pipelines
- Architecture de Cloud Data Fusion
- Concepts de base
- Pipelines de données et graphes acycliques dirigés (DAG)
- Cycle de vie des pipelines
- Concevoir des pipelines dans Pipeline Studio
Module 03 - Concevoir des pipelines complexes
- Branchements, fusions et jointures
- Actions et Notifications
- Gestion des erreurs et macros Configurations de pipelines, ordonnancement, importation et exportation
Module 04 - Environnement d'exécution des pipelines
- Planifications et déclencheurs
- Environnement d'exécution : Profil de calcul et provisionneurs
- Surveillance des pipelines
Module 05 - Construire des transformations et préparer les données avec Wrangler
- Wrangler
- Directives
- Directives définies par l'utilisateur
Module 06 - Connecteurs et pipelines de streaming
- Comprendre l'architecture d'intégration de données.
- Lister les différents connecteurs.
- Utiliser l'API de prévention des pertes de données (DLP) du Cloud.
- Comprendre l'architecture de référence des pipelines de streaming.
- Construire et exécuter un pipeline de streaming.
Module 07 - Métadonnées et lignage des données
- Métadonnées
- Lignage des données
Module 08 - Synthèse
- Résumé du cours
Moyens Pédagogiques :