User Tools

Site Tools


pomseqemm16

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

pomseqemm16 [2016/11/02 06:57] (current)
mplantev created
Line 1: Line 1:
 +====== Découverte de séquences exceptionnelles : vers une approche Exceptional Model Mining  ======
  
 +
 +  * // Thèmes : // Fouille de données (data mining), extraction de séquences, problèmes d'énumération, big data, data science.
 +  * // Encadrant : // Marc Plantevit
 +  * // Laboratoire : // [[https://liris.cnrs.fr/|LIRIS]]
 +  * // Equipe : // [[http://liris.cnrs.fr/dm2l| DM2L (Data Mining and Machine Learning) ]]
 +
 +===== Contexte =====
 +La fouille de séquences est un domaine actif de la fouille de données, étant un élément clé de nombreuses applications réelles dès lors que l'information est structurée par une  relation d'ordre (e.g., le temps). Elle vise à extraire des sous-séquences qui apparaissent // fréquemment// dans les données et permet ainsi de mettre en évidence des relations entre éléments au cours du temps et peut être utilisée à des fins de prédiction (e.g., classification, classification au plus tôt)  ou de description (e.g., élicitation d'hypothèses, regroupement). Elle est appliquée avec succès dans de nombreux domaines tels que la biologie (séquences ADN ou de protéines), le traitement automatique de la langue (séquences de mots/lemmes), etc.
 +
 +===== Existant =====
 +Depuis son introduction en 1995, la plupart des algorithmes proposés se concentrent sur la notion de fréquence, produisant ainsi une sortie bien trop importante pour être exploitée par un utilisateur. 
 +===== Travail demandé =====
 +L'objectif de ce projet de recherche est de développer une nouvelle approche pour découvrir des séquences exceptionnelles, c'est-à-dire des séquences qui sont sur-representées dans une sous-partie de la base de données. Pour cela, nous essaierons d'étendre les travaux en Exceptional Model Mining (EMM) aux séquences. 
 +
 +
 +
 +Dans ce contexte, le travail demandé est le suivant : 
 +
 +  * Etude de l'état de l'art sur la fouille de séquences et EMM,
 +  * Formalisation d'une approche EMM pour les séquences,
 +  * Définition et implémentation de l'algorithme associé,
 +  * Evaluation sur des jeux de données réels et variés (données biologiques, textes, logs, résultats sportifs, etc.).
 +
 +
 +===== Informations complémentaires =====
 +Ce projet est pertinent pour les étudiants désirant s'orienter vers les masters 2 DS, TI et IA.
 +
 +
 +<HTML>
 +<script type="text/javascript">
 +var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
 +document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));
 +</script>
 +<script type="text/javascript">
 +try {
 +var pageTracker = _gat._getTracker("UA-5863625-2");
 +pageTracker._trackPageview();
 +} catch(err) {}</script>
 +
 +</HTML>
pomseqemm16.txt · Last modified: 2016/11/02 06:57 by mplantev

CNRS INSA de Lyon Université Lyon 1 Université Lyon 2 École centrale de Lyon