====== TP Extract/Transform/Load ====== ==== Modalités ==== Ce TP est à réaliser en binômes. Il est demandé de rendre un rapport pour le 06/01/2015 sur [[http://spiralconnect.univ-lyon1.fr/webapp/activities/activities.jsp?containerId=3836044|spiral]] contenant: * Les nom, prénoms et numéros des étudiants du binôme. * Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées * Une ou plusieurs copies d'écran du diagramme du job Talend * Une description succinte de chaque étape du job Talend * Toute autre information que vous jugerez utile Le nom de fichier sera ''nom1-nom2-edo-tp3-2014-2015.pdf'' ===== Introduction ===== On considère un historique sur 3 ans des subventions aux associations. Les données brutes sont disponibles sur [[https://www.data.gouv.fr/fr/datasets/plf-jaune-associations-subventionnees/|www.data.gouv.fr]]. Les informations sur les départements et régions des communes sont disponibles dans [[http://liris.cnrs.fr/~ecoquery/files/data-edo.zip|data-edo.zip]]. L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de cette archive. On utilisera pour cela [[http://www.talend.com/products/data-integration|Talend Open Studio for Data Integration]]. Faire le [[enseignement:tutoriel:talend|mini-tutoriel Talend]]. ===== Cube ===== On souhaite travailler avec les dimensions suivantes: * Années * Programmes/Missions/Ministères (2 hiérarchies) * Localisation: recouper avec les informations communes/département/régions de [[http://liris.cnrs.fr/~ecoquery/files/data-edo.zip|data-edo.zip]] * Évaluation (oui/non) et Convention (oui/non) On souhaite également travailler avec les mesures suivantes: * Nombre d'associations * Montant des subventions (total, max) ===== Travail demandé ===== Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus. Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente. Pour la connexion à Oracle dans Talend: * Le pilote est téléchargé lors de l'ajout d'une connexion oracle (dans les méta-données) * choisir une connexion de type Oracle SID