Differences

This shows you the differences between two versions of the page.

Link to this comparison view

pomseqmcts18 [2017/10/19 06:47] (current)
mplantev created
Line 1: Line 1:
 +====== Fouille de séquences par recherche arborescente de Monte Carlo  ======
  
 +
 +  * // Thèmes : // Fouille de données (data mining), extraction de séquences, problèmes d'​énumération,​ Monte Carlo Tree Search (MCTS), ​ big data, data science.
 +  * // Encadrant : // Marc Plantevit, ​ Mehdi Kaytoue
 +  * // Laboratoire : // [[https://​liris.cnrs.fr/​|LIRIS]]
 +  * // Equipe : // [[http://​liris.cnrs.fr/​dm2l| DM2L (Data Mining and Machine Learning) ]]
 +
 +===== Contexte =====
 +La fouille de séquences est un domaine actif de la fouille de données, étant un élément clé de nombreuses applications réelles dès lors que l'​information est structurée par une  relation d'​ordre (e.g., le temps). Elle vise à extraire des sous-séquences qui apparaissent // fréquemment//​ dans les données et permet ainsi de mettre en évidence des relations entre éléments au cours du temps et peut être utilisée à des fins de prédiction (e.g., classification,​ classification au plus tôt)  ou de description (e.g., élicitation d'​hypothèses,​ regroupement). Elle est appliquée avec succès dans de nombreux domaines tels que la biologie (séquences ADN ou de protéines),​ le traitement automatique de la langue (séquences de mots/​lemmes),​ etc.
 +
 +===== Existant =====
 +Depuis son introduction en 1995, de nombreux algorithmes de découverte de séquences fréquentes ont été introduits. Curieusement,​ tous ces algorithmes sont exhaustifs. ​ L'​espace de recherche est bien souvent parcouru en // profondeur d'​abord // en énumérant des éléments candidats suivant un ordre arbitraire (souvent l'​ordre lexicographique) et toutes les solutions satisfaisant la contrainte (e.g., être fréquent) sont retournées.  ​
 +
 +===== Travail demandé =====
 +L'​objectif de ce projet de recherche est de définir une nouvelle méthode anytime (plus l'​algorithme dispose de temps, meilleur est le résultat produit) de fouille de séquences non  exhaustive. Il s'​agira donc d'​assurer une diversité de la collection retournée dans un budget temps donné. ​
 +
 +
 +Dans ce contexte, le travail demandé est le suivant : 
 +
 +  * Etude de l'​état de l'art sur la fouille de séquences et sur les MCTS
 +  * Compréhension des algorithmes,​
 +  * Développement d'un algorithme d'​extraction de séquences basé sur une recherche arborescente de Monte Carlo.
 +  * Définition d'​heuristiques d'​énumération,​
 +  * Intégration des heuristiques,​
 +  * Evaluation sur des jeux de données réels et variés (données biologiques,​ textes, logs, résultats sportifs, etc.).
 +
 +
 +
 +===== Informations complémentaires =====
 +Ce projet est pertinent pour les étudiants désirant s'​orienter vers les masters 2 DS, TIW, IA. 
 +
 +
 +<​HTML>​
 +<script type="​text/​javascript">​
 +var gaJsHost = (("​https:"​ == document.location.protocol) ? "​https://​ssl."​ : "​http://​www."​);​
 +document.write(unescape("​%3Cscript src='"​ + gaJsHost + "​google-analytics.com/​ga.js'​ type='​text/​javascript'​%3E%3C/​script%3E"​));​
 +</​script>​
 +<script type="​text/​javascript">​
 +try {
 +var pageTracker = _gat._getTracker("​UA-5863625-2"​);​
 +pageTracker._trackPageview();​
 +} catch(err) {}</​script>​
 +
 +</​HTML>​
pomseqmcts18.txt · Last modified: 2017/10/19 06:47 by mplantev
CC Attribution-Noncommercial-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0