Data Mining

Généralités

Master 2 Technologie de l'Information et du Web, semestre d'Automne.

Intervenants

CMs (début le 08/09/2016) : Fabien de Marchi et Marc Plantevit (marc(dot)plantevit[at]univ-lyon1.fr)

Emplois du Temps

L'emploi du temps de chaque groupe est disponible sur ADE.

Organisation des CMs

Séance	Date	Intervenant	Contenu
CM1	12/09/2017	FdM	Introduction Processus KDD et itemsets
CM2	18/09/2017	FdM	Découverte de motifs fréquents
CM3	09/10/2017	FdM	Découverte de motifs fermés
CM4	16/10/2017	MP	Découverte de motifs sous contraintes, slides slides++
CM5	06/11/2017	MP	Techniques de clustering : Définition, evaluation, distances et similarités, Algorithmes (KMeans, EM, Hiérarchiques, DBScan)
TP1	07/11/2017	MP	Installer KNIME (si possible avec le plus d'extensions). Knime, prise en main et détection de points d'intérêt et d'événements
CM6	13/11/2017	MP	Classification supervisée + éléments intéressants sur Subgroup discovering and Local Modeling + Exam (éléments de correction)
TP2	14/11/2017	MP	Projet
TP3	28/11/2017	MP	Projet
CM7	04/12/2017	MP	projet (tutorat)
Exam	12/12/2017	MP	EXAMEN

Projet

L'objectif de ce projet est de mettre en oeuvre une approche complète de fouille de données depuis le prétraitement des données jusqu'à l'évaluation de la méthode de fouille. Vous pouvez utiliser l'outil Knime ou n'importe quel autre outil ou librairie (e.g., Scikit-learn, Weka, MOA). Vous devez donc produire une chaine de traitement mettant en jeu des algorithmes de fouille de données afin de produire de la valeur ajoutée sur les données étudiées. Vous pouvez également utiliser des algorithmes de classification ou prédiction. En d'autres mots, à minima on attend l'utilisation d'algorithmes de :

fouille de motifs fréquents / règles d'association
Clustering
Classification
Prediction

Des versions plus avancées sont aussi utilisables, comme par exemple :

Algorithmes de fouille de séquences, graphes, graphes denses, …
Algorithmes de découverte de sous-groupes ou découverte de modèles exceptionnels
Détection de communauté
…

Choix des données

Vous pouvez choisir le jeu de données de votre choix (après validation avec un enseignant). Voir par exemple Kaggle pour différents jeux de données.

Organisation du projet

Groupe : maximum 5 étudiants

<note>Le rendu du projet (archive) est constitué de :

Un rapport de synthèse (maximum 10 pages hors annexe) résumant vos objectifs, votre approche, etc.
Les workflow Knime et/ou scripts finaux.
Une vidéo (ou un lien vers) de 3mn maximum qui présente rapidement votre projet.

L'archive est à déposer sur Tomuss (il est possible de mettre des liens vers les sources et la vidéo dans le rapport si trop volumineux).

Date limite de rendu : 21 janvier 2018, 23:59 </note>