TP2: Découverte de discriminations dans une base de données

<note>L'objectif de ce TP est de, via l'utilisation de l'API weka (règles d'association) ou de solveur ad-hoc (motifs graduels), de développer une méthode de détection de discriminations (traitements inégaux de personnes d'un sous-ensemble particulier de personnes, e.g., femmes) dans un jeu données. </note>

Le code ainsi qu'un rapport (8 pages max hors annexe) est à rendre - par mail - avant le 19/11/2012, 8h59.

Concepts / Définitions

Les discriminations que nous souhaitons découvrir ont été définies par S. Ruggeri, D. Pedreschi et F. Turini. L'article est disponible à l'adresse suivante : D. Pedreschi, S. Ruggieri, F. Turini. Discrimination-aware data mining. 14th ACM International Conference on Knowledge Discovery and Data Mining (KDD 2008): 560-568. ACM, August 2008.¹⁾

Lisez l'article, notamment les sections 3, 4 et 5.

Jeux de données considérés

La ou les méthodes que vous allez développées doivent être testées sur les jeux de données dérivés de German Credit Dataset.

Notons la présence d'un jeu de données contenant seulement des attributs nominaux ou symboliques, un autre contient des attributs de types numériques.

Outils à votre disposition

Weka et son API.
Un extracteur de motifs graduels et de règles graduelles.
Egalement des solveurs librement disponibles sur internet (motifs fréquents, motifs fermés, etc.)²⁾.

Résultats attendus

Il s'agit donc de :

Proposer une méthode de détection de discriminations sur un jeu de données contenant uniquement des attributs symboliques.
Proposer une méthode de détection de discriminations sur un jeu de données contenant uniquement des attributs numériques (+ l'attribut de classe).
Tester ces approches sur le(s) jeu(x) de données German Credits.

¹⁾

Une version étendue est également disponible.

²⁾

Inutile de chercher l'implémentation de l'approche…

Table of Contents

TP2: Découverte de discriminations dans une base de données

Concepts / Définitions

Jeux de données considérés

Outils à votre disposition

Résultats attendus