====== TP Extract/Transform/Load ======
==== Modalités ====
Ce TP est à réaliser en binômes. Il est demandé de rendre un rapport pour le 06/01/2015 sur [[http://spiralconnect.univ-lyon1.fr/webapp/activities/activities.jsp?containerId=3836044|spiral]] contenant:
* Les nom, prénoms et numéros des étudiants du binôme.
* Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées
* Une ou plusieurs copies d'écran du diagramme du job Talend
* Une description succinte de chaque étape du job Talend
* Toute autre information que vous jugerez utile
Le nom de fichier sera ''nom1-nom2-edo-tp3-2014-2015.pdf''
===== Introduction =====
On considère un historique sur 3 ans des subventions aux associations. Les données brutes sont disponibles sur [[https://www.data.gouv.fr/fr/datasets/plf-jaune-associations-subventionnees/|www.data.gouv.fr]]. Les informations sur les départements et régions des communes sont disponibles dans [[http://liris.cnrs.fr/~ecoquery/files/data-edo.zip|data-edo.zip]].
L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de cette archive. On utilisera pour cela [[http://www.talend.com/products/data-integration|Talend Open Studio for Data Integration]].
Faire le [[enseignement:tutoriel:talend|mini-tutoriel Talend]].
===== Cube =====
On souhaite travailler avec les dimensions suivantes:
* Années
* Programmes/Missions/Ministères (2 hiérarchies)
* Localisation: recouper avec les informations communes/département/régions de [[http://liris.cnrs.fr/~ecoquery/files/data-edo.zip|data-edo.zip]]
* Évaluation (oui/non) et Convention (oui/non)
On souhaite également travailler avec les mesures suivantes:
* Nombre d'associations
* Montant des subventions (total, max)
===== Travail demandé =====
Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus.
Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente.
Pour la connexion à Oracle dans Talend:
* Le pilote est téléchargé lors de l'ajout d'une connexion oracle (dans les méta-données)
* choisir une connexion de type Oracle SID