Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
prim1415sequence [2014/10/24 06:19]
mplantev
prim1415sequence [2014/10/24 06:40] (current)
mplantev
Line 2: Line 2:
  
  
-  * // Thèmes : // Fouille de données (data mining), extraction de séquences, problèmes d'​énumération+  * // Thèmes : // Fouille de données (data mining), extraction de séquences, problèmes d'​énumération, big data, data science.
   * // Encadrant : // Marc Plantevit   * // Encadrant : // Marc Plantevit
   * // Laboratoire : // [[https://​liris.cnrs.fr/​|LIRIS]]   * // Laboratoire : // [[https://​liris.cnrs.fr/​|LIRIS]]
Line 8: Line 8:
  
 ===== Contexte ===== ===== Contexte =====
 +La fouille de séquences est un domaine actif de la fouille de données, étant un élément clé de nombreuses applications réelles dès lors que l'​information est structurée par une  relation d'​ordre (e.g., le temps). Elle vise à extraire des sous-séquences qui apparaissent // fréquemment//​ dans les données et permet ainsi de mettre en évidence des relations entre éléments au cours du temps et peut être utilisée à des fins de prédiction (e.g., classification,​ classification au plus tôt)  ou de description (e.g., élicitation d'​hypothèses,​ regroupement). Elle est appliquée avec succès dans de nombreux domaines tels que la biologie (séquences ADN ou de protéines),​ le traitement automatique de la langue (séquences de mots/​lemmes),​ etc.
  
 ===== Existant ===== ===== Existant =====
 +Depuis son introduction en 1995, de nombreux algorithmes de découverte de séquences fréquentes ont été introduits. Curieusement,​ tous ses algorithmes parcourent l'​espace de recherche de façon similaire :  l'​espace de recherche est bien souvent parcouru en // profondeur d'​abord // en énumérant des éléments candidats suivant un ordre arbitraire (souvent l'​ordre lexicographique).  ​
  
 ===== Travail demandé ===== ===== Travail demandé =====
 +L'​objectif de ce projet de recherche est de développer de nouvelles heuristiques d'​énumération de l'​espace de recherche des séquences fréquentes et d'​évaluer leur gain. Pour cela, nous nous concentrerons sur deux types de séquences particuliers - les séquences ∂-libres et les séquences ∆-fermées - qui sont de bons représentants de toutes les séquences fréquentes. ​
  
  
-===== Informations complémentaires =====+Dans ce contexte, le travail demandé est le suivant : 
  
 +  * Etude de l'​état de l'art sur la fouille de séquences,
 +  * Compréhension des algorithmes,​
 +  * Développement d'un algorithme d'​extraction de séquences ∆-fermées,​
 +  * Définition d'​heuristiques d'​énumération,​
 +  * Intégration des heuristiques,​
 +  * Evaluation sur des jeux de données réels et variés (données biologiques,​ textes, logs, résultats sportifs, etc.).
 +
 +
 +===== Informations complémentaires =====
 +Ce projet est pertinent pour les étudiants désirant s'​orienter vers les masters M2TI(W) ou M2IADE ou les étudiants intéressés par la science des données. ​
  
  
prim1415sequence.txt · Last modified: 2014/10/24 06:40 by mplantev
CC Attribution-Noncommercial-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0