Differences

This shows you the differences between two versions of the page.

Link to this comparison view

pomseqemm16 [2016/11/02 06:57] (current)
mplantev created
Line 1: Line 1:
 +====== Découverte de séquences exceptionnelles : vers une approche Exceptional Model Mining ​ ======
  
 +
 +  * // Thèmes : // Fouille de données (data mining), extraction de séquences, problèmes d'​énumération,​ big data, data science.
 +  * // Encadrant : // Marc Plantevit
 +  * // Laboratoire : // [[https://​liris.cnrs.fr/​|LIRIS]]
 +  * // Equipe : // [[http://​liris.cnrs.fr/​dm2l| DM2L (Data Mining and Machine Learning) ]]
 +
 +===== Contexte =====
 +La fouille de séquences est un domaine actif de la fouille de données, étant un élément clé de nombreuses applications réelles dès lors que l'​information est structurée par une  relation d'​ordre (e.g., le temps). Elle vise à extraire des sous-séquences qui apparaissent // fréquemment//​ dans les données et permet ainsi de mettre en évidence des relations entre éléments au cours du temps et peut être utilisée à des fins de prédiction (e.g., classification,​ classification au plus tôt)  ou de description (e.g., élicitation d'​hypothèses,​ regroupement). Elle est appliquée avec succès dans de nombreux domaines tels que la biologie (séquences ADN ou de protéines),​ le traitement automatique de la langue (séquences de mots/​lemmes),​ etc.
 +
 +===== Existant =====
 +Depuis son introduction en 1995, la plupart des algorithmes proposés se concentrent sur la notion de fréquence, produisant ainsi une sortie bien trop importante pour être exploitée par un utilisateur. ​
 +===== Travail demandé =====
 +L'​objectif de ce projet de recherche est de développer une nouvelle approche pour découvrir des séquences exceptionnelles,​ c'​est-à-dire des séquences qui sont sur-representées dans une sous-partie de la base de données. Pour cela, nous essaierons d'​étendre les travaux en Exceptional Model Mining (EMM) aux séquences. ​
 +
 +
 +
 +Dans ce contexte, le travail demandé est le suivant : 
 +
 +  * Etude de l'​état de l'art sur la fouille de séquences et EMM,
 +  * Formalisation d'une approche EMM pour les séquences,
 +  * Définition et implémentation de l'​algorithme associé,
 +  * Evaluation sur des jeux de données réels et variés (données biologiques,​ textes, logs, résultats sportifs, etc.).
 +
 +
 +===== Informations complémentaires =====
 +Ce projet est pertinent pour les étudiants désirant s'​orienter vers les masters 2 DS, TI et IA.
 +
 +
 +<​HTML>​
 +<script type="​text/​javascript">​
 +var gaJsHost = (("​https:"​ == document.location.protocol) ? "​https://​ssl."​ : "​http://​www."​);​
 +document.write(unescape("​%3Cscript src='"​ + gaJsHost + "​google-analytics.com/​ga.js'​ type='​text/​javascript'​%3E%3C/​script%3E"​));​
 +</​script>​
 +<script type="​text/​javascript">​
 +try {
 +var pageTracker = _gat._getTracker("​UA-5863625-2"​);​
 +pageTracker._trackPageview();​
 +} catch(err) {}</​script>​
 +
 +</​HTML>​
pomseqemm16.txt · Last modified: 2016/11/02 06:57 by mplantev
CC Attribution-Noncommercial-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0