Ph.D Thi Kim Ngan Nguyen
Generalizing Association Rules in N-ary Relations: Application to Dynamic Graph Analysis
Download Draft here
Obtained on October 23, 2012 at INSA de Lyon
Committee
Dr. Francesco Bonchi, Yahoo! Research Barcelona
Prof. Jean-François Boulicaut, INSA de Lyon
Prof. Tu Bao Ho, JAIST
Prof. Stéphane Lallich, Université Lyon 2
Prof. Dominique Laurent, Université de Cergy Pontoise
Dr. Marc Plantevit, Université Lyon 1
Résumé. Le calcul de motifs dans de grandes relations binaires a été très étudié. Un succès emblématique concerne la découverte d'ensembles fréquents et leurs post-traitements pour en dériver des règles d'association. Il s'agit de calculer des motifs dans des relations binaires qui enregistrent quelles sont les propriétés satisfaites par des objets. En fait, de nombreux jeux de données se présentent naturellement comme des relations n-aires (avec n > 2). Par exemple, avec l'ajout de dimensions spatiales et/ou temporelles (lieux et/ou temps où les propriétés sont enregistrées), la relation binaire Objets x Propriétés est étendue à une relation 4-aire Objets x Propriétés x Lieux x Temps. Nous avons généralisé le concept de règle d'association dans un tel contexte multi-dimensionnel. Contrairement aux règles usuelles qui n'impliquent que des sous-ensembles d'un seul domaine de la relation, les prémisses et les conclusions de nos règles peuvent impliquer des sous-ensembles arbitraires de certains domaines. Nous avons conçu des mesures de fréquence et de confiance pour définir la sémantique de telles règles et c'est une contribution significative de cette thèse. Le calcul exhaustif de toutes les règles qui ont des fréquences et confiances suffisantes et l'élimination des règles redondantes ont été étudiés. Nous proposons ensuite d'introduire des disjonctions dans les conclusions des règles, ce qui nécessite de retravailler les définitions des mesures d'intérêt et les questions de redondance. Pour ouvrir un champ d'application original, nous considérons la découverte de règles dans des graphes relationnels dynamiques qui peuvent être codés dans des relations n-aires (n ≥ 3). Une application à l'analyse des usages de bicyclettes dans le système Vélo'v (système de Vélos en libre-service du Grand Lyon) montre quelques usages possibles des règles que nous savons calculer avec nos prototypes logiciels.
Abstract. Pattern discovery in large binary relations has been extensively studied. Typically, it needs to compute patterns that hold in relations Objects x Properties that denote whether given properties are satisfied or not by given objects. An emblematic success in this area concerns frequent itemset mining and its post-processing that derives association rules. It is however clear that many datasets correspond to n-ary relations where n > 2. For example, adding spatial and/or temporal dimensions (location and/or time when the properties are satisfied by the objects) leads to the 4-ary relation Objects x Properties x Places x Times. Therefore, we study the generalization of association rule mining within arbitrary n-ary relations: the datasets are now Boolean tensors and not only Boolean matrices. Unlike standard rules that involve subsets of only one domain of the relation, in our setting, the head and the body of a rule can include arbitrary subsets of some selected domains. A significant contribution of this thesis concerns the design of interestingness measures for such generalized rules: besides a frequency measures, two different views on rule confidence are considered. The concept of non-redundant rules and the efficient extraction of the non-redundant rules satisfying the minimal frequency and minimal confidence constraints are also studied. To increase the subjective interestingness of rules, we then introduce disjunctions in their heads. It requires to redefine the interestingness measures again and to revisit the redundancy issues. Finally, we apply our new rule discovery techniques to dynamic relational graph analysis. Such graphs can be encoded into n-ary relations with n > 2. Our use case concerns bicycle renting in the Vélo'v system (self-service bicycle renting in Lyon). It illustrates the added-value of some rules that can be computed thanks to our software prototypes.
Publications
Loïc Cerf, Jérémy Besson, Kim-Ngan T. Nguyen, Jean-Francois Boulicaut. Closed and Noise-Tolerant Patterns in N-ary Relations. Data Mining and Knowledge Discovery 26 (3)574-619, 2013.
Kim-Ngan T. Nguyen, Loïc Cerf, Marc Plantevit, Jean-Francois Boulicaut. Discovering Descriptive Rules in Relational Dynamic Graphs. Intelligent Data Analysis 17 (1)49-69, 2013.
Kim-Ngan T. Nguyen, Marc Plantevit, Jean-Francois Boulicaut. Mining Disjunctive Rules in Dynamic Graphs. Proc. 9th IEEE Int. Conf. on Computing and Communication Technologies, Research, Innovation, and Vision for the Future RIVF 2012, Ho Chi Minh City, Vietnam, Feb. 27-March 1 2012. pp. 1-6.
Kim-Ngan T. Nguyen, Loïc Cerf, Marc Plantevit, Jean-Francois Boulicaut. Multidimensional Association Rules in Boolean Tensors. Proc. SIAM Int. Conf. on Data Mining SDM'11, Phoenix, USA, April 28-30, 2011, pp. 570-581
Kim-Ngan T. Nguyen, Loïc Cerf, Marc Plantevit, Jean-Francois Boulicaut. Discovering Inter-Dimensional Rules in Dynamic Graphs. Proc. Workshop on Dynamic Networks and Knowledge Discovery DYNAK 2010 co-located with ECML PKDD 2010, Barcelona, September 2010. R. G. Pensa, F. Cordero, C. Rouveirol, R. Kanawati, J. A. Troyano, P. Rosso (Eds), CEUR Workshop Proceedings Vol. 655, pp. 5-15
Kim-Ngan T. Nguyen, Loïc Cerf, Jean-Francois Boulicaut. Sémantiques et calculs de règles descriptives dans une relation n-aire. Actes des 26èmes Journées Bases de Données Avancées BDA'10, Toulouse (F), 19-22 octobre 2010, pp. 1-20.