Découverte de Connaissances dans les Données (DCD)

Généralités

Master 2 Technologie de l'Information et du Web, semestre d'Automne.

Intervenants

CMs (début le 08/09/2018) : Fabien de Marchi et Marc Plantevit (marc(dot)plantevit[at]univ-lyon1.fr)

Emplois du Temps

L'emploi du temps de chaque groupe est disponible sur ADE.

Organisation des CMs

Séance	Date	Intervenant	Contenu
CM1	16/09/2019	FdM	Introduction Processus KDD et itemsets
CM2	17/09/2019	FdM	Découverte de motifs fréquents et motifs fermés
CM3	07/10/2019	MP	Découverte de motifs sous contraintes: vers la fouille de données interactive, Exercices
CM4	14/10/2019	MP	fin cours motifs et CC (un cc antérieur)
CM5	04/11/2019	MP	Clustering Problème et méthodes
CM6	12/11/2019	MP	Classification et prédiction
TP1	19/11/2019	MP	Echantillonnage direct de motifs
TP2	26/11/2019	MP	Clustering : détection de Points d'intérêt dans des medias sociaux

Projet

L'objectif de ce projet est de mettre en oeuvre une approche complète de fouille de données depuis le prétraitement des données jusqu'à l'évaluation de la méthode de fouille. Vous pouvez utiliser l'outil Knime ou n'importe quel autre outil ou librairie (e.g., Scikit-learn, Weka, MOA). Vous devez donc produire une chaine de traitement mettant en jeu des algorithmes de fouille de données afin de produire de la valeur ajoutée sur les données étudiées. Il est également possible de réaliser d'autres types de projets comme par exemple un projet centré méthode en implémentant et améliorant un algorithme existant ou encore un projet de sensibilisation aux données personnelles pour le grand public (e.g. faire un workflow qui à partir des données personnelles d'un individu (e.g. données google) reconstruise son emploi du temps, ses points d'intérêt, …).

Choix des données

Vous pouvez choisir le jeu de données de votre choix (après validation avec un enseignant). Voir par exemple Kaggle pour différents jeux de données.

Organisation du projet

Groupe : en (bi/tri/penta)nôme de même parcours (de préférence mais pas obligatoire).

<note>Le rendu du projet (archive) est constitué de :

Un rapport de synthèse (maximum 10 pages hors annexe) résumant vos objectifs, votre approche, etc.
Les workflow Knime et/ou scripts finaux.
Une vidéo (ou un lien vers) de 3mn maximum qui présente rapidement votre projet.

L'archive est à déposer sur Tomuss (il est possible de mettre des liens vers les sources et la vidéo dans le rapport si trop volumineux).

Date limite de dépôt : 26/01/2020, 23h59 </note>