Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
enseignement:tp:dataclean:2016 [2016/11/07 08:35]
ecoquery
enseignement:tp:dataclean:2016 [2017/11/06 07:16]
ecoquery [Introduction au nettoyage de données]
Ligne 4: Ligne 4:
  
 Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS, attention ils ont été réinitialisés). Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS, attention ils ont été réinitialisés).
 +
 +Ce TP est à rendre pour le **dimanche 19 novembre 2017** sous forme d'un rapport pdf contenant pour chaque type d'erreur:
 +  * une explication du problème des moyens de le détecter et de le corriger;
 +  * une ou plusieurs requêtes SQL pour détecter ce type d'erreur;
 +  * une ou plusieurs requêtes SQL pour corriger ces erreurs.
 +
 +Remarque: il est possible d'utiliser des tables temporaires lors de la correction des erreurs.
  
 ===== Import des données ===== ===== Import des données =====
Ligne 28: Ligne 35:
 L'emplacement de stockage des bouteilles et leur décompte est stocké ans 3 attributs: LIEU, H et TOT: il y a  2 lieux de stockage: Valence et Lyon. TOT représente le nombre total de bouteilles et H représente, parmi ces bouteilles, le nombre qui on été remontées, les autres étant en cave. L'emplacement de stockage des bouteilles et leur décompte est stocké ans 3 attributs: LIEU, H et TOT: il y a  2 lieux de stockage: Valence et Lyon. TOT représente le nombre total de bouteilles et H représente, parmi ces bouteilles, le nombre qui on été remontées, les autres étant en cave.
  
--> ajouter deux attributs, NB_HAUT et NB_BAS et remplir leurs valeurs. On ne veut pas de valeur NULLE.+-> ajouter deux attributs, NB_HAUT et NB_BAS et remplir leurs valeurs. On ne veut pas de valeur nulle.
  
 ==== Régions ==== ==== Régions ====
Ligne 35: Ligne 42:
  
 -> Corriger les problèmes correspondants -> Corriger les problèmes correspondants
 +
 +==== Appellation manquante ====
 +
 +On sait que deux vins ayant un même domaine et une même cuvée (lorsqu'elle est connue) ont la même appellation.
 +
 +-> Compléter les appellations manquantes.
 +
  
 ==== Données dupliquées ==== ==== Données dupliquées ====
Ligne 40: Ligne 54:
 Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL. Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL.
  
--> Éliminer les doublons+-> Éliminer les doublons.