Ceci est une ancienne révision du document !


TP Extract/Transform/Load

Modalités

Ce TP est à réaliser en binômes. Il est demandé de rendre un rapport pour le A DEFINIR contenant:

  • Les nom, prénoms et numéros des étudiants du binôme.
  • Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées
  • Une ou plusieurs copies d'écran du diagramme du job Talend
  • Une description succinte de chaque étape du job Talend
  • Toute autre information que vous jugerez utile

Introduction

On considère un historique sur 3 ans des subventions aux associations. Les données brutes sont disponibles sur www.data.gouv.fr.

L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de cette archive. On utilisera pour cela Talend Open Studio for Data Integration.

On considère un historique de la gestion des forêts dont les données brutes sont fournies dans l'archive suivante: ign-forets-2011.zip

Faire le mini-tutoriel Talend.

Cube

On souhaite travailler avec les dimensions suivantes:

  • Accidents de l'arbre
  • Localisation (point d'inventaire, département et type d'utilisation du sol). Prévoir deux hiérachies.
  • Age, avec différents niveaux correspondant à des intervalles d'âge
  • Espèce et origine

On souhaite également travailler avec les mesures suivantes:

  • Mortalité de branches dans le houppier (en moyenne)
  • Présence de gui (moyenne)
  • Nombre d'arbres (total)
  • Volume
  • Pourcentage d'arbres morts

Travail demandé

Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus.

Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente.

<note tip>Pour la connexion à Oracle dans Talend:

  • Le pilote est téléchargé lors de l'ajout d'une connexion oracle (dans les méta-données)
  • choisir une connexion de type Oracle SID

</note>