====== TP Extract/Transform/Load et Cube ====== ==== Modalités ==== Ce TP est à réaliser en binôme. Il est demandé de rendre un rapport pour le 27/01/2016 31/01/2016 sur [[http://tomusss.univ-lyon1.fr|tomuss]] via la case ''Rendu_ETL_Cube''. Les binômes seront saisis lors de la séance du 13/01/2016. Ce rapport devra contenir: * Les noms, prénoms et numéros des étudiants du binôme. * Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées * Une ou plusieurs copies d'écran du diagramme du job Talend * Une description succinte de chaque étape du job Talend * Toute autre information que vous jugerez utile ===== Introduction ===== On considère l'historique sur 2 ans des licences sportives en france via des données issues de [[https://www.data.gouv.fr|data.gouv.fr]]. Les données brutes sont disponibles [[https://www.data.gouv.fr/fr/datasets/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/|ici]] pour les informations sur les licences, ainsi que [[https://www.data.gouv.fr/fr/datasets/decoupage-administratif-communal-francais-issu-d-openstreetmap/|ici]] pour les communes (nom, département, etc). L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de ces archives. On utilisera pour cela [[http://www.talend.com/products/data-integration|Talend Open Studio for Data Integration]], téléchargeable [[http://www.talend.com/download/talend-open-studio#t4|ici]]. Faire le [[enseignement:tutoriel:talend|mini-tutoriel Talend]]. ===== Données ===== ==== Données de licence ==== On considèrera les fichiers suivants pour les [[https://www.data.gouv.fr/fr/datasets/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/|informations de licence]]: * [[https://www.data.gouv.fr/_uploads/resources/licences_2012.csv|Recensement des licences auprès des fédérations sportives - année 2012]] * [[https://www.data.gouv.fr/storage/f/2014-05-09T15-49-45/lic-2011.csv|Recensement des licences auprès des fédérations sportives - année 2011]] * [[https://www.data.gouv.fr/s/resources/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/20150923-140513/Documentation_V4.pdf|Documentation.pdf]] * [[https://www.data.gouv.fr/s/resources/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/20150921-153006/Code_federation_-_fichiers_licences.xlsx|Code des fédérations - fichiers licences.xlsx]] * [[https://www.data.gouv.fr/s/resources/recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-d/20150921-153158/licences-dictionnaire-des-variables.xls|licences - dictionnaire des variables.xls]] Le fichier ''licences_2012.csv'' est particulier: il est recommandé d'en regarder le contenu brut dans les premières lignes pour le traiter correctement ==== Données des communes ==== Des [[https://www.data.gouv.fr/fr/datasets/decoupage-administratif-communal-francais-issu-d-openstreetmap/|données sur les communes]], on gardera uniquement l'export au format CSV ([[https://www.data.gouv.fr/_uploads/resources/communes-plus-20140630-csv.zip|Export au format CSV (juin 2014)]]). ===== Cube ===== On souhaite travailler avec les dimensions suivantes: * Années * Age * Sexe * Localisation: recouper avec les informations communes/département/régions pour créer des niveaux adéquats. * Fédérations (regroupées selon les 3 types de fédérations du fichier ''Code_federation_-_fichiers_licences.xlsx''). On souhaite également travailler avec les mesures suivantes: * Nombre de licenciés * Ratio nombre de licenciés / nombre d'habitants dans la commune On réfléchira à une bonne manière d'agréger les mesures. ===== Travail demandé ===== Concevoir un schéma relationnel pour contenir les informations de dimensions et de mesures ci-dessus. Créer le cube via AWM. Concevoir un job de chargement Talend pour extraire les données des fichiers CSV et les insérer dans votre compte Oracle dans le schéma conçu à l'étape précédente. Remplir le cube et explorer les données. Pour la connexion à Oracle dans Talend: * Le pilote est téléchargé lors de l'ajout d'une connexion oracle (dans les méta-données) * choisir une connexion de type Oracle SID