La fouille de graphes est un domaine
très actif de la fouille de données. Notamment par le fait que les
graphes permettent de modéliser de nombreux phénomènes réels (réseaux
sociaux, réseaux biologiques, etc.). La base de données DBLP (
http://dblp.uni-trier.de/)
qui décrit les publications scientifiques en informatique
(plus d'un million d'articles indexés) s'avère être une base
de test (benchmark) très utilisée pour valider/comparer des
algorithmes de fouille de graphes. Par exemple, des graphes de
co-auteurs (plusieurs centaines de milliers de noeuds) peuvent être
construits à partir de cette base. Toutefois, si elle est
suffisante pour certaines méthodes de fouille de graphes (découverte de
(presque-)cliques, découverte de communautés, etc.), elle
ne permet pas de tester des méthodes de fouille de graphes plus
complexes (relation de citation,séquence de graphes, etc.).
L'objectif de ce TER est d'enrichir la base DBLP à partir du web et notamment de google scholar (
http://scholar.google.fr/).
Nous souhaitons, par exemple, ajouter, pour chaque article, quels sont
les autres articles qui le citent. L'enrichissement de cette base va
permettre d'obtenir un jeu de données unique pouvant
servir de benchmark pour de nombreux algorithmes de fouille de graphes.
Une fois le jeu de données construit, il faudra élaborer des scripts
permettant de générer différents types de graphes comme des graphes de
citations/co-auteur, des graphes avec des propriétés sur les
noeuds, des graphes dynamiques (séquences de graphes), etc.
Enfin, le but ultime sera d'appliquer des algorithmes pour la
découverte de mécanismes de coopération/compétition plus ou moins
connus et donc a priori intéressants a analyser.
Compétences requises : Algorithmique, Programmation, BD.
Formation : M1IF
Mots-clefs : graph mining, base de tests, benchmark.