Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
enseignement:tp:dataclean:2016 [2016/11/07 08:35]
ecoquery
enseignement:tp:dataclean:2016 [2017/11/06 07:20] (Version actuelle)
ecoquery
Ligne 3: Ligne 3:
 L'objectif de ce TP est de faire face à quelques problèmes de qualité de données. L'objectif de ce TP est de faire face à quelques problèmes de qualité de données.
  
-Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS, attention ils ont été réinitialisés).+Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS)
 + 
 +Ce TP est à rendre pour le **dimanche 19 novembre 2017** sous forme d'un rapport pdf contenant pour chaque type d'erreur: 
 +  * une explication du problème des moyens de le détecter et de le corriger; 
 +  * une ou plusieurs requêtes SQL pour détecter ce type d'erreur; 
 +  * une ou plusieurs requêtes SQL pour corriger ces erreurs. 
 + 
 +Remarque: il est possible d'utiliser des tables temporaires lors de la correction des erreurs.
  
 ===== Import des données ===== ===== Import des données =====
Ligne 28: Ligne 35:
 L'emplacement de stockage des bouteilles et leur décompte est stocké ans 3 attributs: LIEU, H et TOT: il y a  2 lieux de stockage: Valence et Lyon. TOT représente le nombre total de bouteilles et H représente, parmi ces bouteilles, le nombre qui on été remontées, les autres étant en cave. L'emplacement de stockage des bouteilles et leur décompte est stocké ans 3 attributs: LIEU, H et TOT: il y a  2 lieux de stockage: Valence et Lyon. TOT représente le nombre total de bouteilles et H représente, parmi ces bouteilles, le nombre qui on été remontées, les autres étant en cave.
  
--> ajouter deux attributs, NB_HAUT et NB_BAS et remplir leurs valeurs. On ne veut pas de valeur NULLE.+-> ajouter deux attributs, NB_HAUT et NB_BAS et remplir leurs valeurs. On ne veut pas de valeur nulle.
  
 ==== Régions ==== ==== Régions ====
Ligne 35: Ligne 42:
  
 -> Corriger les problèmes correspondants -> Corriger les problèmes correspondants
 +
 +==== Appellation manquante ====
 +
 +On sait que deux vins ayant un même domaine et une même cuvée (lorsqu'elle est connue) ont la même appellation.
 +
 +-> Compléter les appellations manquantes.
 +
  
 ==== Données dupliquées ==== ==== Données dupliquées ====
Ligne 40: Ligne 54:
 Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL. Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL.
  
--> Éliminer les doublons+-> Éliminer les doublons.