Ceci est une ancienne révision du document !


Introduction au nettoyage de données

L'objectif de ce TP est de faire face à quelques problèmes de qualité de données.

Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS, attention ils ont été réinitialisés).

Import des données

Copier la table TIW1DATA.VINS dans votre compte:

CREATE TABLE VINS AS SELECT * FROM TIW1DATA.VINS;

Analyse des données et correction

Afficher les données dans SQLDeveloper.

:!: Dans le reste du TP toutes les questions doivent être répondues à l'aide de requêtes SQL les plus génériques possibles :!:

Données numériques

Certains types de données sont des type chaîne de caractères au lieu de données numériques.

→ Expliquer pourquoi et corriger le problème.

Emplacement de stockage

L'emplacement de stockage des bouteilles et leur décompte est stocké ans 3 attributs: LIEU, H et TOT: il y a 2 lieux de stockage: Valence et Lyon. TOT représente le nombre total de bouteilles et H représente, parmi ces bouteilles, le nombre qui on été remontées, les autres étant en cave.

→ ajouter deux attributs, NB_HAUT et NB_BAS et remplir leurs valeurs. On ne veut pas de valeur nulle.

Régions

L'appellation devrait déterminer la région.

→ Corriger les problèmes correspondants

Appellation manquante

On sait que deux vins ayant un même domaine et une même cuvée (lorsqu'elle est connue) ont la même appellation.

→ Compléter les appellations manquantes.

Données dupliquées

Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL.

→ Éliminer les doublons.