Ph.D Sylvain Blachon
Exploration de données SAGE par des techniques de fouille de données en vue d’extraire des groupes de synexpression impliqués dans l’oncogénèse
Date de soutenance : 06/07/2007
Lieu (établissement) : INSA de Lyon
Jury
Pr. Jean-François Boulicaut (Co-directeur de thèse, INSA Lyon)
Pr. Bruno Crémilleux (Président, Université de Caen)
Dr. Olivier Gandrillon (Co-directeur de thèse, Université Lyon1/CNRS CGMC)
Dr. Jean-Jacques Kupiec (Rapporteur, INSERM Paris)
Pr. Jean-Daniel Zucker (Rapporteur, Université Paris 13)
Résumé. Avec le développement de techniques à haut débit, l’accumulation de grandes quantités de données permet au biologiste de se poser de nouvelles questions. L’essentiel de notre contribution réside dans l’étude et l’interrogation des données SAGE humaines issues du « Cancer Genome Anatomy Project ». Nous avons étudié en profondeur ces données et les questions biologiques que nous pouvions nous poser à partir de ces données. Répondre à ces questions a nécessité différentes méthodes d’extraction de connaissances à partir des données et la conception de scénarios originaux de découverte de connaissances. Leur mise en œuvre a reposé sur l’utilisation de différents algorithmes d’extraction de motifs développés par les partenaires de l’ACI Bingo « Bases de Données Inductives pour la Génomique ». Nous avons étudié le problème du codage booléen de propriétés d’expression à partir de données SAGE et nous avons particulièrement travaillé au post traitement des motifs extraits et à leurs interprétations (classification de motifs similaires pour contrôler le nombre de « quasi synexpression groups » - QSGs - à interpréter, exploitation de sources externes comme Gene Ontology pour identifier des motifs pertinents). L’impact de ces éléments de méthodes a été validé sur une interprétation de deux QSGs extraits des données SAGE humaines.
Abstract. The development of high throughput methods that enable to collect molecular biology data gives rise to new opportunities for the biologists. Our main contribution concerns an in-depth study of the human SAGE data collected by the Cancer Genome Anatomy Project. We have studied in depth these data and the kind of questions that could be addressed thanks to them. This has been based on various data-driven knowledge discovery processes also called KDD scenarios. The practical application of these scenarios has been possible thanks to the many pattern discovery algorithms designed by the partners of ACI Bingo « Bases de Données Inductives pour la Génomique ». Among others, we studied Boolean encoding of gene expression properties when starting from SAGE gene expression raw data. We made a specific contribution to the post-processing of large pattern collections, and we interpreted the biological meaning of some of the extracted patterns (clustering similar patterns to control the number of quasi-synexpression groups - QSGs – that have to be interpreted, using data sources like Gene Ontology to support the discovery of relevant patterns). The impact of these gene expression data analysis methods has been validated on the interpretation of two QSGs that hold in the studied human SAGE data.
Publications liées à la thèse
Becquet, C., Blachon, S., Jeudy, B., Boulicaut, J.F. and Gandrillon, O. (2002). Strong association rule mining for large gene expression data analysis: a case study on human SAGE data. Genome Biology 3(12):research0067.1-0067.16 .
Blachon, S., Robardet, C., Boulicaut J.F. et Gandrillon, O. (2004). Extraction de connaissances dans les données d’expression SAGE humaines. Informatique pour l'Analyse du Transcriptome. Chapitre 7, pages 207-230. Traité IC2. Hermes Lavoisier.
Klema J., Soulet A., Crémilleux B., Blachon S., Gandrillon O. Mining Plausible Patterns from Genomic Data. Proc. 19th IEEE Int. Symp. on Computer-Based Medical Systems CBMS'06, IEEE Computer Society Press, Salt Lake City, USA, June 2004. pp. 183-188.
Hébert, C., Blachon, S., Crémilleux, B. (2005). Mining delta-strong characterization rules in large SAGE data. Proc. Discovery Challenge co-located with ECML-PKDD 2005, Porto, PT, October 2005. pp. 90-101.
Rioult, F., Robardet, C., Blachon, S., Crémilleux, B., Gandrillon, O., Boulicaut J.F. Mining concepts from large SAGE gene expression matrices. Proc. 2nd Int. Workshop on Knowledge Discovery in Inductive Databases KDID'03 co-located with ECML-PKDD 2003, Catvat-Dubrovnik, HR, September 2003. pp. 107-118
S. Blachon, R. G. Pensa, J. Besson, C. Robardet, J-F. Boulicaut, O. Gandrillon. Clustering formal concepts to discover biologically relevant knowledge from gene expression data. In Silico Biology 7 (0033), 2007