Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
enseignement:tp:edo:etl:2014 [2014/11/27 15:02]
ecoquery créée
enseignement:tp:edo:etl:2014 [2014/12/01 14:13] (Version actuelle)
ecoquery [Introduction]
Ligne 3: Ligne 3:
 ==== Modalités ==== ==== Modalités ====
  
-Ce TP est à réaliser en binômes. Il est demandé de rendre un rapport pour le **A DEFINIR** contenant:+Ce TP est à réaliser en binômes. Il est demandé de rendre un rapport pour le 06/01/2015 sur [[http://spiralconnect.univ-lyon1.fr/webapp/activities/activities.jsp?containerId=3836044|spiral]] contenant:
   * Les nom, prénoms et numéros des étudiants du binôme.   * Les nom, prénoms et numéros des étudiants du binôme.
   * Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées   * Une description du schéma relationnel utilisé et une explication du codage des mesures et des dimensions demandées
Ligne 10: Ligne 10:
   * Toute autre information que vous jugerez utile   * Toute autre information que vous jugerez utile
  
 +<note important>Le nom de fichier sera ''nom1-nom2-edo-tp3-2014-2015.pdf''</note>
 ===== Introduction ===== ===== Introduction =====
  
-On considère un historique sur 3 ans bla bla.+On considère un historique sur 3 ans des subventions aux associations. Les données brutes sont disponibles sur [[https://www.data.gouv.fr/fr/datasets/plf-jaune-associations-subventionnees/|www.data.gouv.fr]]. Les informations sur les départements et régions des communes sont disponibles dans [[http://liris.cnrs.fr/~ecoquery/files/data-edo.zip|data-edo.zip]].
  
-On considère un historique de la gestion des forêts dont les données brutes sont fournies dans l'archive suivante: {{:enseignement:tp:edo:etl:ign-forets-2011.zip|}} +L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de cette archive. On utilisera pour cela [[http://www.talend.com/products/data-integration|Talend Open Studio for Data Integration]].
- +
-L'objectif de ce TP est de préparer la construction d'un cube basé sur les données de cette archive. On utilisera pour cela [[http://www.talend.com/products/data-integration|Talend Open Studio for Data Integration]], ([[http://talend.dreamhosters.com/tos/release/V5.4.0/TOS_DI-r110020-V5.4.0.zip|téléchargement]], [[http://liris.cnrs.fr/~ecoquery/files/TOS_DI-r110020-V5.4.0.zip|mirroir]]).+
  
 Faire le [[enseignement:tutoriel:talend|mini-tutoriel Talend]]. Faire le [[enseignement:tutoriel:talend|mini-tutoriel Talend]].
  
-===== Description de l'archive ===== 
-L'archive contient un certain nombre de fichiers au format CSV, ainsi que des fichiers de description au format PDF.  
- 
-Les fichiers PDF dont le nom comporte ''PF'' concernent des fichiers CSV ''foret'', ceux dont le nom comporte ''PP'' concernent des fichiers ''peupleraie''. Dans le cadre de ce TP, on se limitera aux données sur les forêts. 
  
-On distingue de plus deux fichiers CSV particuliers: 
-  * ''documentation_2011.csv'' : ce fichier contient les libellés des différentes valeurs/codes pour les attributs rencontrés dans les fichiers de données 
-  * ''flore_2011.csv'': ce fichier comporte les noms des différentes espèces d'arbres recencées 
  
 ===== Cube ===== ===== Cube =====
  
 On souhaite travailler avec les dimensions suivantes: On souhaite travailler avec les dimensions suivantes:
-  * Accidents de l'arbre +  * Années 
-  * Localisation (point d'inventaire, département et type d'utilisation du sol). Prévoir deux hiérachies. +  * Programmes/Missions/Ministères (2 hiérarchies
-  * Age, avec différents niveaux correspondant à des intervalles d'âge +  * Localisation: recouper avec les informations communes/département/régions de [[http://liris.cnrs.fr/~ecoquery/files/data-edo.zip|data-edo.zip]] 
-  * Espèce et origine+  * Évaluation (oui/non) et Convention (oui/non)
  
 On souhaite également travailler avec les mesures suivantes: On souhaite également travailler avec les mesures suivantes:
-  * Mortalité de branches dans le houppier (en moyenne) +  * Nombre d'associations 
-  *  Présence de gui (moyenne) +  * Montant des subventions (total, max)
-  * Nombre d'arbres (total) +
-  * Volume +
-  * Pourcentage d'arbres morts+