Data Integration with Cloud Data Fusion (DICDF)

 

Résumé du cours

Ce cours de 2 jours présente aux apprenants la capacité d'intégration de données de Google Cloud à l'aide de Cloud Data Fusion. Dans ce cours, nous abordons les défis de l'intégration de données et la nécessité d'une plateforme d'intégration de données (middleware). Nous examinons ensuite comment Cloud Data Fusion peut aider à intégrer efficacement des données provenant d'une variété de sources et de formats et à générer des informations. Nous examinons les principaux composants de Cloud Data Fusion et leur fonctionnement, comment traiter des données par lots et des données en continu en temps réel avec une conception visuelle des pipelines, un riche suivi des métadonnées et de la lignée des données, et comment déployer des pipelines de données sur divers moteurs d'exécution.

Moyens Pédagogiques :
  • Quiz pré-formation de vérification des connaissances (si applicable)
  • Réalisation de la formation par un formateur agréé par l’éditeur
  • Formation réalisable en présentiel ou en distanciel
  • Mise à disposition de labs distants/plateforme de lab pour chacun des participants (si applicable à la formation)
  • Distribution de supports de cours officiels en langue anglaise pour chacun des participants
    • Il est nécessaire d'avoir une connaissance de l'anglais technique écrit pour la compréhension des supports de cours
Moyens d'évaluation :
  • Quiz pré-formation de vérification des connaissances (si applicable)
  • Évaluations formatives pendant la formation, à travers les travaux pratiques réalisés sur les labs à l’issue de chaque module, QCM, mises en situation…
  • Complétion par chaque participant d’un questionnaire et/ou questionnaire de positionnement en amont et à l’issue de la formation pour validation de l’acquisition des compétences

A qui s'adresse cette formation

  • Data Engineer
  • Data Analysts

Pré-requis

Compléter "Principes fondamentaux du Big Data et de l'apprentissage automatique".

Objectifs

  • Identifier le besoin d'intégration de données,
  • Comprendre les capacités de Cloud Data Fusion en tant que plateforme d'intégration de données,
  • Identifier les cas d'utilisation pour une mise en œuvre possible avec Cloud Data Fusion,
  • Lister les principaux composants de Cloud Data Fusion,
  • [Concevoir et exécuter des pipelines de traitement de données par lots et en temps réel,
  • Travailler avec Wrangler pour construire des transformations de données.
  • Utiliser des connecteurs pour intégrer des données provenant de sources et de formats différents,
  • Configurer l'environnement d'exécution ; surveiller et dépanner l'exécution du pipeline,
  • Comprendre la relation entre les métadonnées et le lignage des données

.

Contenu

Module 00 - Introduction

(en anglais)

Module 01 - Introduction à l'intégration de données et au Cloud Data Fusion
  • Intégration de données : quoi, pourquoi, défis
  • Outils d'intégration de données utilisés dans l'industrie
  • Personnages d'utilisateurs
  • Introduction à la fusion de données en nuage
  • Capacités critiques de l'intégration de données
  • Composants de l'interface utilisateur de Cloud Data Fusion
Module 02 - Construire des pipelines
  • Architecture de Cloud Data Fusion
  • Concepts de base
  • Pipelines de données et graphes acycliques dirigés (DAG)
  • Cycle de vie des pipelines
  • Concevoir des pipelines dans Pipeline Studio
Module 03 - Concevoir des pipelines complexes
  • Branchements, fusions et jointures
  • Actions et Notifications
  • Gestion des erreurs et macros Configurations de pipelines, ordonnancement, importation et exportation
Module 04 - Environnement d'exécution des pipelines
  • Planifications et déclencheurs
  • Environnement d'exécution : Profil de calcul et provisionneurs
  • Surveillance des pipelines
Module 05 - Construire des transformations et préparer les données avec Wrangler
  • Wrangler
  • Directives
  • Directives définies par l'utilisateur
Module 06 - Connecteurs et pipelines de streaming
  • Comprendre l'architecture d'intégration de données.
  • Lister les différents connecteurs.
  • Utiliser l'API de prévention des pertes de données (DLP) du Cloud.
  • Comprendre l'architecture de référence des pipelines de streaming.
  • Construire et exécuter un pipeline de streaming.
Module 07 - Métadonnées et lignage des données
  • Métadonnées
  • Lignage des données
Module 08 - Synthèse
  • Résumé du cours

Prix & Delivery methods

Formation en ligne

Durée
2 jours

Prix
  • sur demande
Formation en salle équipée

Durée
2 jours

Prix
  • sur demande
 

Agenda

Délai d’accès – inscription possible jusqu’à la date de formation
Instructor-led Online Training :   Cours en ligne avec instructeur

Italien

Fuseau horaire : Heure normale d'Europe centrale (HNEC)   ±1 heure

Formation en ligne Fuseau horaire : Heure normale d'Europe centrale (HNEC) Langue : Italien
Formation en ligne Fuseau horaire : Heure d'été d'Europe centrale (HAEC) Langue : Italien