Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
enseignement:tp:dataclean:2016 [2016/11/07 07:57]
ecoquery créée
enseignement:tp:dataclean:2016 [2017/11/06 07:16]
ecoquery [Introduction au nettoyage de données]
Ligne 4: Ligne 4:
  
 Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS, attention ils ont été réinitialisés). Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS, attention ils ont été réinitialisés).
 +
 +Ce TP est à rendre pour le **dimanche 19 novembre 2017** sous forme d'un rapport pdf contenant pour chaque type d'erreur:
 +  * une explication du problème des moyens de le détecter et de le corriger;
 +  * une ou plusieurs requêtes SQL pour détecter ce type d'erreur;
 +  * une ou plusieurs requêtes SQL pour corriger ces erreurs.
 +
 +Remarque: il est possible d'utiliser des tables temporaires lors de la correction des erreurs.
  
 ===== Import des données ===== ===== Import des données =====
Ligne 23: Ligne 30:
  
 -> Expliquer pourquoi et corriger le problème. -> Expliquer pourquoi et corriger le problème.
 +
 +==== Emplacement de stockage ====
 +
 +L'emplacement de stockage des bouteilles et leur décompte est stocké ans 3 attributs: LIEU, H et TOT: il y a  2 lieux de stockage: Valence et Lyon. TOT représente le nombre total de bouteilles et H représente, parmi ces bouteilles, le nombre qui on été remontées, les autres étant en cave.
 +
 +-> ajouter deux attributs, NB_HAUT et NB_BAS et remplir leurs valeurs. On ne veut pas de valeur nulle.
  
 ==== Régions ==== ==== Régions ====
Ligne 29: Ligne 42:
  
 -> Corriger les problèmes correspondants -> Corriger les problèmes correspondants
 +
 +==== Appellation manquante ====
 +
 +On sait que deux vins ayant un même domaine et une même cuvée (lorsqu'elle est connue) ont la même appellation.
 +
 +-> Compléter les appellations manquantes.
 +
  
 ==== Données dupliquées ==== ==== Données dupliquées ====
Ligne 34: Ligne 54:
 Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL. Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL.
  
--> Éliminer les doublons+-> Éliminer les doublons.