Ceci est une ancienne révision du document !


Introduction au nettoyage de données

L'objectif de ce TP est de faire face à quelques problèmes de qualité de données.

Pour ce TP on travaillera sur Oracle (reprendre le compte ORACLE indiqué dans TOMUSS, attention ils ont été réinitialisés).

Import des données

Copier la table TIW1DATA.VINS dans votre compte:

CREATE TABLE VINS AS SELECT * FROM TIW1DATA.VINS;

Analyse des données et correction

Afficher les données dans SQLDeveloper.

:!: Dans le reste du TP toutes les questions doivent être répondues à l'aide de requêtes SQL les plus génériques possibles :!:

Données numériques

Certains types de données sont des type chaîne de caractères au lieu de données numériques.

→ Expliquer pourquoi et corriger le problème.

Régions

L'appellation devrait déterminer la région.

→ Corriger les problèmes correspondants

Données dupliquées

Trouver la clé de la table à la main, puis vérifier votre hypothèse à l'aide d'une requête SQL.

→ Éliminer les doublons