Ce TP est à réaliser en binôme.
Il est demandé de rendre un rapport pour le 27/01/2016 31/01/2016 sur tomuss via la case Rendu_ETL_Cube
.
Les binômes seront saisis lors de la séance du 13/01/2016.
Ce rapport devra contenir:
On considère l'historique sur 2 ans des licences sportives en france via des données issues de data.gouv.fr. Les données brutes sont disponibles ici pour les informations sur les licences, ainsi que ici pour les communes (nom, département, etc).
L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de ces archives. On utilisera pour cela Talend Open Studio for Data Integration, téléchargeable ici.
Faire le mini-tutoriel Talend.
On considèrera les fichiers suivants pour les informations de licence:
<note important>Le fichier licences_2012.csv
est particulier: il est recommandé d'en regarder le contenu brut dans les premières lignes pour le traiter correctement</note>
Des données sur les communes, on gardera uniquement l'export au format CSV (Export au format CSV (juin 2014)).
On souhaite travailler avec les dimensions suivantes:
Code_federation_-_fichiers_licences.xlsx
).On souhaite également travailler avec les mesures suivantes:
On réfléchira à une bonne manière d'agréger les mesures.
Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus.
Créer le cube via AWM.
Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente.
Remplir le cube et explorer les données.
<note tip>Pour la connexion à Oracle dans Talend:
</note>