TP Extract/Transform/Load

Modalités

Ce TP est à réaliser en binômes. Il est demandé de rendre un rapport pour le 20/12/2013 sur spiral contenant:

  • Les nom, prénoms et numéros des étudiants du binôme.
  • Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées
  • Une ou plusieurs copies d'écran du diagramme du job Talend
  • Une description succinte de chaque étape du job Talend
  • Toute autre information que vous jugerez utile

Introduction

On considère un historique de la gestion des forêts dont les données brutes sont fournies dans l'archive suivante: ign-forets-2011.zip

L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de cette archive. On utilisera pour cela Talend Open Studio for Data Integration, (téléchargement, mirroir).

Faire le mini-tutoriel Talend.

Description de l'archive

L'archive contient un certain nombre de fichiers au format CSV, ainsi que des fichiers de description au format PDF.

Les fichiers PDF dont le nom comporte PF concernent des fichiers CSV foret, ceux dont le nom comporte PP concernent des fichiers peupleraie. Dans le cadre de ce TP, on se limitera aux données sur les forêts.

On distingue de plus deux fichiers CSV particuliers:

  • documentation_2011.csv : ce fichier contient les libellés des différentes valeurs/codes pour les attributs rencontrés dans les fichiers de données
  • flore_2011.csv: ce fichier comporte les noms des différentes espèces d'arbres recencées

Cube

On souhaite travailler avec les dimensions suivantes:

  • Accidents de l'arbre
  • Localisation (point d'inventaire, département et type d'utilisation du sol). Prévoir deux hiérachies.
  • Age, avec différents niveaux correspondant à des intervalles d'âge
  • Espèce et origine

On souhaite également travailler avec les mesures suivantes:

  • Mortalité de branches dans le houppier (en moyenne)
  • Présence de gui (moyenne)
  • Nombre d'arbres (total)
  • Volume
  • Pourcentage d'arbres morts

Travail demandé

Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus.

Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente.

<note tip>Pour la connexion à Oracle dans Talend:

  • Le pilote est téléchargé lors de l'ajout d'une connexion oracle (dans les méta-données)
  • choisir une connexion de type Oracle SID

</note>