User Tools

Site Tools


prim1415sequence

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
prim1415sequence [2014/10/24 06:18]
mplantev
prim1415sequence [2014/10/24 06:40]
mplantev
Line 2: Line 2:
  
  
-  * // Thèmes : // Fouille de données (data mining), extraction de séquences, problèmes d'énumération+  * // Thèmes : // Fouille de données (data mining), extraction de séquences, problèmes d'énumération, big data, data science.
   * // Encadrant : // Marc Plantevit   * // Encadrant : // Marc Plantevit
   * // Laboratoire : // [[https://liris.cnrs.fr/|LIRIS]]   * // Laboratoire : // [[https://liris.cnrs.fr/|LIRIS]]
   * // Equipe : // [[http://liris.cnrs.fr/dm2l| DM2L (Data Mining and Machine Learning) ]]   * // Equipe : // [[http://liris.cnrs.fr/dm2l| DM2L (Data Mining and Machine Learning) ]]
  
 +===== Contexte =====
 +La fouille de séquences est un domaine actif de la fouille de données, étant un élément clé de nombreuses applications réelles dès lors que l'information est structurée par une  relation d'ordre (e.g., le temps). Elle vise à extraire des sous-séquences qui apparaissent // fréquemment// dans les données et permet ainsi de mettre en évidence des relations entre éléments au cours du temps et peut être utilisée à des fins de prédiction (e.g., classification, classification au plus tôt)  ou de description (e.g., élicitation d'hypothèses, regroupement). Elle est appliquée avec succès dans de nombreux domaines tels que la biologie (séquences ADN ou de protéines), le traitement automatique de la langue (séquences de mots/lemmes), etc.
  
 +===== Existant =====
 +Depuis son introduction en 1995, de nombreux algorithmes de découverte de séquences fréquentes ont été introduits. Curieusement, tous ses algorithmes parcourent l'espace de recherche de façon similaire :  l'espace de recherche est bien souvent parcouru en // profondeur d'abord // en énumérant des éléments candidats suivant un ordre arbitraire (souvent l'ordre lexicographique).  
  
 +===== Travail demandé =====
 +L'objectif de ce projet de recherche est de développer de nouvelles heuristiques d'énumération de l'espace de recherche des séquences fréquentes et d'évaluer leur gain. Pour cela, nous nous concentrerons sur deux types de séquences particuliers - les séquences ∂-libres et les séquences ∆-fermées - qui sont de bons représentants de toutes les séquences fréquentes. 
  
  
 +Dans ce contexte, le travail demandé est le suivant : 
 +
 +  * Etude de l'état de l'art sur la fouille de séquences,
 +  * Compréhension des algorithmes,
 +  * Développement d'un algorithme d'extraction de séquences ∆-fermées,
 +  * Définition d'heuristiques d'énumération,
 +  * Intégration des heuristiques,
 +  * Evaluation sur des jeux de données réels et variés (données biologiques, textes, logs, résultats sportifs, etc.).
 +
 +
 +===== Informations complémentaires =====
 +Ce projet est pertinent pour les étudiants désirant s'orienter vers les masters M2TI(W) ou M2IADE ou les étudiants intéressés par la science des données. 
  
  
prim1415sequence.txt · Last modified: 2014/10/24 06:40 by mplantev

CNRS INSA de Lyon Université Lyon 1 Université Lyon 2 École centrale de Lyon