User Tools

Site Tools


Sidebar

Practical Information:

Teaching:

Bâtiment Nautibus
43, Bd du 11 Novembre 1918
69622 Villeurbanne Cedex.
☏: +33(0)472 43 16 35
email: marc.plantevit-at-univ-lyon1.fr

Research:

Bureau 501.319
Bâtiment Blaise Pascal
7, Avenue Jean Capelle
69621 Villeurbanne Cedex
☏: +33(0)472 43 84 87
Fax: +33(0)472 43 87 13
email: marc.plantevit-at-liris.cnrs.fr

dm_tiw_2017

Data Mining

Généralités
  • Master 2 Technologie de l'Information et du Web, semestre d'Automne.
Intervenants
  • CMs (début le 08/09/2016) : Fabien de Marchi et Marc Plantevit (marc(dot)plantevit[at]univ-lyon1.fr)
Emplois du Temps

L'emploi du temps de chaque groupe est disponible sur ADE.

Organisation des CMs
SéanceDateIntervenantContenu
CM112/09/2017FdMIntroduction Processus KDD et itemsets
CM218/09/2017FdMDécouverte de motifs fréquents
CM309/10/2017FdMDécouverte de motifs fermés
CM416/10/2017MPDécouverte de motifs sous contraintes, slides slides++
CM506/11/2017MPTechniques de clustering : Définition, evaluation, distances et similarités, Algorithmes (KMeans, EM, Hiérarchiques, DBScan)
TP107/11/2017MP Installer KNIME (si possible avec le plus d'extensions). Knime, prise en main et détection de points d'intérêt et d'événements
CM613/11/2017MPClassification supervisée + éléments intéressants sur Subgroup discovering and Local Modeling + Exam (éléments de correction)
TP214/11/2017MPProjet
TP328/11/2017MPProjet
CM704/12/2017MPprojet (tutorat)
Exam12/12/2017MPEXAMEN
Projet

L'objectif de ce projet est de mettre en oeuvre une approche complète de fouille de données depuis le prétraitement des données jusqu'à l'évaluation de la méthode de fouille. Vous pouvez utiliser l'outil Knime ou n'importe quel autre outil ou librairie (e.g., Scikit-learn, Weka, MOA). Vous devez donc produire une chaine de traitement mettant en jeu des algorithmes de fouille de données afin de produire de la valeur ajoutée sur les données étudiées. Vous pouvez également utiliser des algorithmes de classification ou prédiction. En d'autres mots, à minima on attend l'utilisation d'algorithmes de :

  • fouille de motifs fréquents / règles d'association
  • Clustering
  • Classification
  • Prediction

Des versions plus avancées sont aussi utilisables, comme par exemple :

  • Algorithmes de fouille de séquences, graphes, graphes denses, …
  • Algorithmes de découverte de sous-groupes ou découverte de modèles exceptionnels
  • Détection de communauté
Choix des données

Vous pouvez choisir le jeu de données de votre choix (après validation avec un enseignant). Voir par exemple Kaggle pour différents jeux de données.

Organisation du projet
  • Groupe : maximum 5 étudiants

<note>Le rendu du projet (archive) est constitué de :

  • Un rapport de synthèse (maximum 10 pages hors annexe) résumant vos objectifs, votre approche, etc.
  • Les workflow Knime et/ou scripts finaux.
  • Une vidéo (ou un lien vers) de 3mn maximum qui présente rapidement votre projet.

L'archive est à déposer sur Tomuss (il est possible de mettre des liens vers les sources et la vidéo dans le rapport si trop volumineux).

Date limite de rendu : 21 janvier 2018, 23:59 </note>

dm_tiw_2017.txt · Last modified: 2017/12/04 09:34 by mplantev

CNRS INSA de Lyon Université Lyon 1 Université Lyon 2 École centrale de Lyon