TP Extract/Transform/Load et Cube

Modalités

Ce TP est à réaliser en binôme. Il est demandé de rendre un rapport pour le 27/01/2016 31/01/2016 sur tomuss via la case Rendu_ETL_Cube. Les binômes seront saisis lors de la séance du 13/01/2016. Ce rapport devra contenir:

  • Les noms, prénoms et numéros des étudiants du binôme.
  • Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées
  • Une ou plusieurs copies d'écran du diagramme du job Talend
  • Une description succinte de chaque étape du job Talend
  • Toute autre information que vous jugerez utile

Introduction

On considère l'historique sur 2 ans des licences sportives en france via des données issues de data.gouv.fr. Les données brutes sont disponibles ici pour les informations sur les licences, ainsi que ici pour les communes (nom, département, etc).

L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de ces archives. On utilisera pour cela Talend Open Studio for Data Integration, téléchargeable ici.

Faire le mini-tutoriel Talend.

Données

Données de licence

On considèrera les fichiers suivants pour les informations de licence:

<note important>Le fichier licences_2012.csv est particulier: il est recommandé d'en regarder le contenu brut dans les premières lignes pour le traiter correctement</note>

Données des communes

Des données sur les communes, on gardera uniquement l'export au format CSV (Export au format CSV (juin 2014)).

Cube

On souhaite travailler avec les dimensions suivantes:

  • Années
  • Age
  • Sexe
  • Localisation: recouper avec les informations communes/département/régions pour créer des niveaux adéquats.
  • Fédérations (regroupées selon les 3 types de fédérations du fichier Code_federation_-_fichiers_licences.xlsx).

On souhaite également travailler avec les mesures suivantes:

  • Nombre de licenciés
  • Ratio nombre de licenciés / nombre d'habitants dans la commune

On réfléchira à une bonne manière d'agréger les mesures.

Travail demandé

Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus.

Créer le cube via AWM.

Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente.

Remplir le cube et explorer les données.

<note tip>Pour la connexion à Oracle dans Talend:

  • Le pilote est téléchargé lors de l'ajout d'une connexion oracle (dans les méta-données)
  • choisir une connexion de type Oracle SID

</note>