TP Extract/Transform/Load

Modalités

Ce TP est à réaliser en binômes. Il est demandé de rendre un rapport pour le 06/01/2015 sur spiral contenant:

  • Les nom, prénoms et numéros des étudiants du binôme.
  • Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées
  • Une ou plusieurs copies d'écran du diagramme du job Talend
  • Une description succinte de chaque étape du job Talend
  • Toute autre information que vous jugerez utile

<note important>Le nom de fichier sera nom1-nom2-edo-tp3-2014-2015.pdf</note>

Introduction

On considère un historique sur 3 ans des subventions aux associations. Les données brutes sont disponibles sur www.data.gouv.fr. Les informations sur les départements et régions des communes sont disponibles dans data-edo.zip.

L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de cette archive. On utilisera pour cela Talend Open Studio for Data Integration.

Faire le mini-tutoriel Talend.

Cube

On souhaite travailler avec les dimensions suivantes:

  • Années
  • Programmes/Missions/Ministères (2 hiérarchies)
  • Localisation: recouper avec les informations communes/département/régions de data-edo.zip
  • Évaluation (oui/non) et Convention (oui/non)

On souhaite également travailler avec les mesures suivantes:

  • Nombre d'associations
  • Montant des subventions (total, max)

Travail demandé

Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus.

Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente.

<note tip>Pour la connexion à Oracle dans Talend:

  • Le pilote est téléchargé lors de l'ajout d'une connexion oracle (dans les méta-données)
  • choisir une connexion de type Oracle SID

</note>