Enseignements (Université Claude Bernard Lyon 1, Faculté des sciences)


LIF4 : Initiation aux Bases de Données et Réseaux (INF2001L) 


LIF10 : Bases de données, Fondements (INF3003L)



MIF-M2-OPT-PRO5 Fouilles de données (INF2010M)


TP1 : Prise en main de WEKA et règles d'association.
TP2 : Clustering
TP3 : Mise en oeuvre.


MIF20 TER (INF1010M)

SUJET 2010/2011 :

Parcourons le web pour enrichir une base de données réelle.

La fouille de graphes est un domaine très actif de la fouille de données. Notamment par le fait que les graphes permettent de modéliser de nombreux phénomènes réels (réseaux sociaux, réseaux biologiques, etc.). La base de données DBLP  (http://dblp.uni-trier.de/) qui décrit les  publications scientifiques en informatique  (plus d'un million d'articles indexés) s'avère être  une base de  test (benchmark) très utilisée pour valider/comparer des algorithmes de fouille de graphes.  Par exemple, des graphes de co-auteurs (plusieurs centaines de milliers de noeuds) peuvent être construits à partir de cette base.  Toutefois, si elle est suffisante pour certaines méthodes de fouille de graphes (découverte de (presque-)cliques,  découverte de communautés, etc.),  elle ne permet pas de tester des méthodes de fouille de graphes  plus complexes (relation de citation,séquence de graphes, etc.).

L'objectif de ce TER est d'enrichir la base DBLP à partir du web et notamment de google scholar  (http://scholar.google.fr/).  Nous souhaitons, par exemple, ajouter, pour chaque article, quels sont les autres articles qui le citent. L'enrichissement de cette base va permettre d'obtenir   un jeu de données unique  pouvant servir de benchmark pour de nombreux algorithmes de fouille de graphes.

Une fois le jeu de données construit, il faudra élaborer des scripts permettant de générer différents types de graphes comme des graphes de citations/co-auteur, des graphes avec des  propriétés sur les noeuds, des graphes dynamiques (séquences de graphes), etc.

Enfin, le but ultime sera d'appliquer des algorithmes pour  la découverte de mécanismes de coopération/compétition plus ou moins connus et donc a priori  intéressants a analyser.

Compétences requises : Algorithmique, Programmation, BD.
Formation : M1IF
Mots-clefs : graph mining, base de tests, benchmark.

MIF18