Differences

This shows you the differences between two versions of the page.

Link to this comparison view

pomseqsamp18 [2017/10/19 06:59] (current)
mplantev created
Line 1: Line 1:
 +====== Echantillonnage direct de sequences ​ ======
  
 +
 +  * // Thèmes : // Fouille de données (data mining), extraction de séquences, problèmes d'​énumération,​ échantillonnage, ​ big data, data science.
 +  * // Encadrant : // Marc Plantevit, ​ Mehdi Kaytoue
 +  * // Laboratoire : // [[https://​liris.cnrs.fr/​|LIRIS]]
 +  * // Equipe : // [[http://​liris.cnrs.fr/​dm2l| DM2L (Data Mining and Machine Learning) ]]
 +
 +===== Contexte =====
 +La fouille de séquences est un domaine actif de la fouille de données, étant un élément clé de nombreuses applications réelles dès lors que l'​information est structurée par une  relation d'​ordre (e.g., le temps). Elle vise à extraire des sous-séquences qui apparaissent // fréquemment//​ dans les données et permet ainsi de mettre en évidence des relations entre éléments au cours du temps et peut être utilisée à des fins de prédiction (e.g., classification,​ classification au plus tôt)  ou de description (e.g., élicitation d'​hypothèses,​ regroupement). Elle est appliquée avec succès dans de nombreux domaines tels que la biologie (séquences ADN ou de protéines),​ le traitement automatique de la langue (séquences de mots/​lemmes),​ etc.
 +
 +===== Existant =====
 +Depuis son introduction en 1995, de nombreux algorithmes de découverte de séquences fréquentes ont été introduits. Curieusement,​ tous ces algorithmes sont exhaustifs. ​ L'​espace de recherche est bien souvent parcouru en // profondeur d'​abord // en énumérant des éléments candidats suivant un ordre arbitraire (souvent l'​ordre lexicographique) et toutes les solutions satisfaisant la contrainte (e.g., être fréquent) sont retournées. ​ Ceci est une réelle limite à l'​application de tels algorithmes : le nombre de solutions retournées peut être combinatoire et le temps pour les extraire prohibitif. ​
 +
 +===== Travail demandé =====
 +L'​objectif de ce projet de recherche est de proposer une méthode d'​échantillonnage de séquences intéressantes (e.g., fréquentes,​ discriminantes,​ etc.). L'​échantillon retourné doit être représentatif de l'​ensemble complet des séquences d'​intérêt. Il faut également s'​assurer d'une bonne diversité des résultats.
 +
 +Dans ce contexte, le travail demandé est le suivant : 
 +
 +  * Etude de l'​état de l'art sur la fouille de séquences et sur les techniques d'​échantillonnage (direct vs stochastique). ​
 +  * Développement d'une méthode d'​échantillonnage de l'​espace des séquences.
 +  * Evaluation sur des jeux de données réels et variés (données biologiques,​ textes, logs, résultats sportifs, etc.).
 +
 +
 +
 +===== Informations complémentaires =====
 +Ce projet est pertinent pour les étudiants désirant s'​orienter vers les masters 2 DS, TIW, IA. 
 +
 +
 +<​HTML>​
 +<script type="​text/​javascript">​
 +var gaJsHost = (("​https:"​ == document.location.protocol) ? "​https://​ssl."​ : "​http://​www."​);​
 +document.write(unescape("​%3Cscript src='"​ + gaJsHost + "​google-analytics.com/​ga.js'​ type='​text/​javascript'​%3E%3C/​script%3E"​));​
 +</​script>​
 +<script type="​text/​javascript">​
 +try {
 +var pageTracker = _gat._getTracker("​UA-5863625-2"​);​
 +pageTracker._trackPageview();​
 +} catch(err) {}</​script>​
 +
 +</​HTML>​
pomseqsamp18.txt · Last modified: 2017/10/19 06:59 by mplantev
CC Attribution-Noncommercial-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0