Introduction au nettoyage de données

L'objectif de ce TP est de faire face à quelques problèmes de qualité de données.

Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS).

Ce TP est à rendre pour le dimanche 19 novembre 2017 sous forme d'un rapport pdf contenant pour chaque type d'erreur:

  • une explication du problème des moyens de le détecter et de le corriger;
  • une ou plusieurs requêtes SQL pour détecter ce type d'erreur;
  • une ou plusieurs requêtes SQL pour corriger ces erreurs.

Remarque: il est possible d'utiliser des tables temporaires lors de la correction des erreurs.

Import des données

Copier la table TIW1DATA.VINS dans votre compte:

CREATE TABLE VINS AS SELECT * FROM TIW1DATA.VINS;

Analyse des données et correction

Afficher les données dans SQLDeveloper.

:!: Dans le reste du TP toutes les questions doivent être répondues à l'aide de requêtes SQL les plus génériques possibles :!:

Données numériques

Certains types de données sont des type chaîne de caractères au lieu de données numériques.

→ Expliquer pourquoi et corriger le problème.

Emplacement de stockage

L'emplacement de stockage des bouteilles et leur décompte est stocké ans 3 attributs: LIEU, H et TOT: il y a 2 lieux de stockage: Valence et Lyon. TOT représente le nombre total de bouteilles et H représente, parmi ces bouteilles, le nombre qui on été remontées, les autres étant en cave.

→ ajouter deux attributs, NB_HAUT et NB_BAS et remplir leurs valeurs. On ne veut pas de valeur nulle.

Régions

L'appellation devrait déterminer la région.

→ Corriger les problèmes correspondants

Appellation manquante

On sait que deux vins ayant un même domaine et une même cuvée (lorsqu'elle est connue) ont la même appellation.

→ Compléter les appellations manquantes.

Données dupliquées

Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL.

→ Éliminer les doublons.