User Tools

Site Tools


Sidebar

Practical Information:

Teaching:

Bâtiment Nautibus
43, Bd du 11 Novembre 1918
69622 Villeurbanne Cedex.
☏: +33(0)472 43 16 35
email: marc.plantevit-at-univ-lyon1.fr

Research:

Bureau 501.319
Bâtiment Blaise Pascal
7, Avenue Jean Capelle
69621 Villeurbanne Cedex
☏: +33(0)472 43 84 87
Fax: +33(0)472 43 87 13
email: marc.plantevit-at-liris.cnrs.fr

pomseqemm16

Découverte de séquences exceptionnelles : vers une approche Exceptional Model Mining

Contexte

La fouille de séquences est un domaine actif de la fouille de données, étant un élément clé de nombreuses applications réelles dès lors que l'information est structurée par une relation d'ordre (e.g., le temps). Elle vise à extraire des sous-séquences qui apparaissent fréquemment dans les données et permet ainsi de mettre en évidence des relations entre éléments au cours du temps et peut être utilisée à des fins de prédiction (e.g., classification, classification au plus tôt) ou de description (e.g., élicitation d'hypothèses, regroupement). Elle est appliquée avec succès dans de nombreux domaines tels que la biologie (séquences ADN ou de protéines), le traitement automatique de la langue (séquences de mots/lemmes), etc.

Existant

Depuis son introduction en 1995, la plupart des algorithmes proposés se concentrent sur la notion de fréquence, produisant ainsi une sortie bien trop importante pour être exploitée par un utilisateur.

Travail demandé

L'objectif de ce projet de recherche est de développer une nouvelle approche pour découvrir des séquences exceptionnelles, c'est-à-dire des séquences qui sont sur-representées dans une sous-partie de la base de données. Pour cela, nous essaierons d'étendre les travaux en Exceptional Model Mining (EMM) aux séquences.

Dans ce contexte, le travail demandé est le suivant :

  • Etude de l'état de l'art sur la fouille de séquences et EMM,
  • Formalisation d'une approche EMM pour les séquences,
  • Définition et implémentation de l'algorithme associé,
  • Evaluation sur des jeux de données réels et variés (données biologiques, textes, logs, résultats sportifs, etc.).

Informations complémentaires

Ce projet est pertinent pour les étudiants désirant s'orienter vers les masters 2 DS, TI et IA.

pomseqemm16.txt · Last modified: 2016/11/02 06:57 by mplantev

CNRS INSA de Lyon Université Lyon 1 Université Lyon 2 École centrale de Lyon