====== TP Extract/Transform/Load et Cube ======
==== Modalités ====
Ce TP est à réaliser en binôme.
Il est demandé de rendre un rapport pour le 27/01/2016 31/01/2016 sur [[http://tomusss.univ-lyon1.fr|tomuss]] via la case ''Rendu_ETL_Cube''.
Les binômes seront saisis lors de la séance du 13/01/2016.
Ce rapport devra contenir:
* Les noms, prénoms et numéros des étudiants du binôme.
* Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées
* Une ou plusieurs copies d'écran du diagramme du job Talend
* Une description succinte de chaque étape du job Talend
* Toute autre information que vous jugerez utile
===== Introduction =====
On considère l'historique sur 2 ans des licences sportives en france via des données issues de [[https://www.data.gouv.fr|data.gouv.fr]].
Les données brutes sont disponibles [[https://www.data.gouv.fr/fr/datasets/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/|ici]] pour les informations sur les licences, ainsi que [[https://www.data.gouv.fr/fr/datasets/decoupage-administratif-communal-francais-issu-d-openstreetmap/|ici]] pour les communes (nom, département, etc).
L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de ces archives. On utilisera pour cela [[http://www.talend.com/products/data-integration|Talend Open Studio for Data Integration]], téléchargeable [[http://www.talend.com/download/talend-open-studio#t4|ici]].
Faire le [[enseignement:tutoriel:talend|mini-tutoriel Talend]].
===== Données =====
==== Données de licence ====
On considèrera les fichiers suivants pour les [[https://www.data.gouv.fr/fr/datasets/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/|informations de licence]]:
* [[https://www.data.gouv.fr/_uploads/resources/licences_2012.csv|Recensement des licences auprès des fédérations sportives - année 2012]]
* [[https://www.data.gouv.fr/storage/f/2014-05-09T15-49-45/lic-2011.csv|Recensement des licences auprès des fédérations sportives - année 2011]]
* [[https://www.data.gouv.fr/s/resources/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/20150923-140513/Documentation_V4.pdf|Documentation.pdf]]
* [[https://www.data.gouv.fr/s/resources/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/20150921-153006/Code_federation_-_fichiers_licences.xlsx|Code des fédérations - fichiers licences.xlsx]]
* [[https://www.data.gouv.fr/s/resources/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/20150921-153158/licences-dictionnaire-des-variables.xls|licences - dictionnaire des variables.xls]]
Le fichier ''licences_2012.csv'' est particulier: il est recommandé d'en regarder le contenu brut dans les premières lignes pour le traiter correctement
==== Données des communes ====
Des [[https://www.data.gouv.fr/fr/datasets/decoupage-administratif-communal-francais-issu-d-openstreetmap/|données sur les communes]], on gardera uniquement l'export au format CSV ([[https://www.data.gouv.fr/_uploads/resources/communes-plus-20140630-csv.zip|Export au format CSV (juin 2014)]]).
===== Cube =====
On souhaite travailler avec les dimensions suivantes:
* Années
* Age
* Sexe
* Localisation: recouper avec les informations communes/département/régions pour créer des niveaux adéquats.
* Fédérations (regroupées selon les 3 types de fédérations du fichier ''Code_federation_-_fichiers_licences.xlsx'').
On souhaite également travailler avec les mesures suivantes:
* Nombre de licenciés
* Ratio nombre de licenciés / nombre d'habitants dans la commune
On réfléchira à une bonne manière d'agréger les mesures.
===== Travail demandé =====
Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus.
Créer le cube via AWM.
Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente.
Remplir le cube et explorer les données.
Pour la connexion à Oracle dans Talend:
* Le pilote est téléchargé lors de l'ajout d'une connexion oracle (dans les méta-données)
* choisir une connexion de type Oracle SID