Ph.D Jérémy Besson

 

Découverte de motifs pertinents pour l’analyse du transcriptome : application à l’insulino-résistance

 

Download Draft here

 

Date de soutenance : 04/11/2005

Lieu (établissement) : INSA de Lyon

 

Jury              

Pr. Gilles Bernot (Rapporteur, Université d'Evry)

Dr. Jean-François Boulicaut (Directeur de thèse, INSA Lyon)

Pr. Karine Clément (Examinateur, Université Paris 6)

Dr. Sophie Rome (Co-directeur de la thèse, UMR INSERM/INRA 1235, Lyon)

Dr. Thomas Schiex (Examinateur, INRA Toulouse)

Pr. Jean-Daniel Zucker  (Rapporteur, Université Paris 13)

 

Résumé. L’avènement des technologies à haut débit tels que les microarrays et SAGE pour mesurer le niveau d’expression de dizaines de milliers des gènes au cours d’une même expérience a ouvert de nouvelles perspectives en biologie moléculaire. La biologie moléculaire peut maintenant être étudiée à l’échelle de génomes complets mais cette grande quantité d’information nécessite de nouvelles méthodes de stockage, d’interrogation, ou d’analyse. Parmi les méthodes d’analyse, la découverte semi-automatique d’hypothèses a priori intéressantes (« data mining ») pour le biologiste mobilise de nombreux chercheurs. Plus précisément, l'UMR 1235 INRA/INSERM travaille sur la régulation nutritionnelle de l'expression des gènes et en particulier sur le diabète de type 2. Ils disposent pour cela de données de puces à ADN relatives à l’expression de ~20000 gènes en réaction à l’insuline pour des patients diabétiques et des personnes saines. Il n’est plus envisageable ici d’utiliser les méthodes d’analyse traditionnelles (par exemple, gène par gène) pour analyser ces données et les nouvelles approches développées en « Extraction de Connaissances à partir de Données » méritent d’être appliquées et raffinées. L'équipe « Datamining et bases de données inductives » du LIRIS UMR CNRS 5205 s’intéresse principalement à l'extraction de motifs locaux dans des données booléennes. Dans de tels contextes, les colonnes désignent des attributs booléens et les lignes désignent des objets ayant ou pas les propriétés booléennes étudiées. Dans le cas de données d'expression de gènes, les colonnes représentent généralement des propriétés d’expression de gènes et les lignes des expériences biologiques portant sur ces gènes. Un "1" (valeur vraie) dans la matrice entre un gène g et une expérimentation biologique e pourra alors exprimer que, par exemple, le gène g varie significativement dans la condition expérimentale e. On peut alors extraire des motifs locaux comme les « concepts formels » : chaque concept formel associe un ensemble de gènes à un ensemble d’expériences et la collection complète est une bipartition des données avec recouvrements. Dans des données d’expression booléennes, les concepts formels représentent des ensembles maximaux de gènes qui varient significativement et simultanément dans un ensemble maximal de situations biologiques (appelés gènes co-exprimés). Les données utilisées peuvent contenir d’autres informations utiles pour l’analyse du transcriptome comme, par exemple, les facteurs de transcription qui les régulent, leurs fonctions, leur position sur l'ADN, l’homologie à d’autres gènes dans d'autres espèces, …. Il paraît crucial de prendre en compte ces différents types de connaissances pertinentes pour que les techniques de « data mining » utilisées permettent de répondre à des questions très diverses correspondant à des questions biologiques différentes. Avant d’appliquer ces méthodes sur les données de l’UMR 1235 INRA/INSERM, il a fallut réaliser une étape de pré-traitement des données puces à ADN collectées (sélection, normalisation, analyses statistiques). Ces étapes avaient pour objectif de minimiser les biais introduit par cette technologie complexe. Une analyse descriptive des données a permis de mettre en avant une profonde altération de la régulation transcriptionnelle chez les patients diabétiques de type 2. Nous avons ensuite travaillé au codage des propriétés d’expression booléennes à partir des données numériques obtenues, c’est-à-dire le prétraitement indispensable pour la mise en œuvre de techniques d’extraction de motifs performantes. Une première question a consisté à identifier les ensembles de gènes co-exprimés, cette co-expression pouvant signifier, par exemple, que les gènes appartiennent à une même voie de régulation ou ont une même fonction dans la cellule. Les données de puces à ADN ont une particularité, elles contiennent beaucoup d’attributs (>20000) mais très peu d’objets ce qui est un clairement un contexte pathologique au regard des techniques existantes en « data mining ». Ainsi, d’un point de vu calculatoire, la complexité de l’extraction de motifs ensemblistes comme des ensembles de gènes co-exprimés est exponentielle avec le nombre de gènes (ici de colonnes) et les énormes avancées de ces dernières années dans ce domaine (résolution pratique de ces calculs théoriquement exponentiels) n’étaient pas suffisantes pour notre contexte. En exploitant les propriétés mathématiques des correspondances de Galois, nous avons résolu ce problème pour pouvoir traiter des données d’expression typiques et en extraire tous les concepts formels. L’interprétation biologique des ensembles de gènes co-exprimés est une étape très coûteuse en temps pour les biologistes car elle nécessite la prise en compte d’autres informations pour véritablement donner du sens à de tels motifs. Nous avons ainsi souhaité intégrer ces informations directement dans le processus d’extraction. Plus précisément, nous voulions savoir si les groupes de gènes sont co-régulés et pas seulement co-exprimés. Nous avons ainsi « enrichi » la matrice d’expression de gènes en ajoutant pour chaque gène, l’ensemble des facteurs de transcriptions qui peuvent potentiellement s’accrocher sur la région promotrice de ce gène. En utilisant les concepts formels dans ce nouveau jeu de données, on obtient des ensembles de gènes co-exprimés, les situations biologiques dans lesquelles ces situations sont co-exprimées mais aussi les facteurs de transcription associés à tous les gènes. En utilisant les algorithmes d’extraction de concepts existants, nous avons buté sur un nouveau verrou algorithmique. Effectivement, même si la matrice obtenue était relativement petite (150*350), elle était très dense (contenant beaucoup de « 1 ») et l’espace des concepts formels candidats est gigantesque (de l’ordre de 1050). De plus, les biologistes souhaitaient contrôler la recherche de motifs a priori intéressant en utilisant des contraintes qui n’étaient pas exploitables avec les algorithmes existants. Nous avons ainsi proposé un nouvel algorithme appelé D-Miner qui permet à la fois d’exploiter ces contraintes et qui est particulièrement efficace avec le type de données rencontré (matrices denses). Les motifs ainsi extraits ont été étudiés et validés biologiquement. Cette étude a permis de mettre en avant de nouveaux gènes cibles du facteur de transcription SREBP en réaction à l’insuline. Ce facteur de transcription est connu  pour avoir un rôle important dans la réponse à l’insuline. Un autre problème soulevé part les données biologiques, comme dans beaucoup  de données réelles, est la présence de bruit. Les méthodes que nous utilisons sont très sensibles au bruit qui a tendance à multiplier le nombre de motifs extraits et à réduire leur pertinence. Nous avons apporté deux contributions à ce problème, l’une comme un post-traitement des motifs extraits et la seconde basée sur de nouvelles propriétés des motifs à extraire. Soulignons enfin que d’un point de vue méthodologique, nous avons également participé à la description de scénarios prototypiques d’extraction de connaissances dans des données d’expression et que l’impact des algorithmes développés va bien au-delà des applications qui les ont motivé. 

 

Publications liées à la thèse

 

F. Rioult, J-F. Boulicaut, B. Crémilleux, J. Besson. Using transposition for pattern discovery from microarray data. Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, June 2003, San Diego (USA). pp. 73-79. ID 650.

J. Besson, C. Robardet, J-F. Boulicaut. Constraint-based mining of formal concepts in transactional data. Proceedings of the 8th Pacific-Asia Conference on Knowledge Discovery and Data Mining PaKDD’04, Sydney (Australia), May 2004. Springer LNCS 3056, pp. 615-624.

R. G. Pensa, J. Besson, J-F. Boulicaut. A methodology for biologically relevant pattern discovery from gene expression data. Proceedings of the 7th International Conference on Discovery Science DS 2004, Padova (I), October 2004. Springer LNAI 3245, pp. 230-241.

J. Besson, F. Rioult, B. Crémilleux, S. Rome, J-F. Boulicaut. Solutions pour le calcul d'ensembles fréquents dans des données biopuces. Chapitre 8 de "Informatique pour l'analyse du transcriptome", pages 231-254. Hermes Lavoisier, Traité IC2, 2004.

J. Besson, C. Robardet, J-F. Boulicaut. Approximation de concepts formels par des bi-ensembles denses et pertinents. Actes de la conférence francophone d’Apprentissage Automatique CAp 2005, Nice (F), juin 2005, Presses Universitaires de Grenoble, pp. 313-328.

J. Besson, C. Robardet, J-F. Boulicaut, S. Rome. Constraint-based formal concept mining and its application to microarray data analysis. Intelligent Data Analysis IDA 9(1):59-82, 2005.

J. Besson, C. Robardet, J-F. Boulicaut. Mining formal concepts with a bounded number of exceptions from transactional data. Knowledge Discovery in Inductive Databases KDID'04 Revised Selected and Invited Papers, Springer LNCS 3377, pp. 33-45, 2005.

J. Besson, R. Pensa, C. Robardet, J-F. Boulicaut. Constraint-based mining of fault-tolerant patterns from Boolean data. Proceedings of the 4th International Workshop on Knowledge Discovery in Inductive Databases KDID'05, Porto (P), October 2005, pp. 13-26.

 

Conférences en biologie et bioinformatique liées à la thèse

 

J. Besson, C. Robardet, E. Meugnier, S. Rome, J-F. Boulicaut. Extraction of relevant transcription modules using pattern discovery. Integrative Post-Genomics IPG'04, Lyon (F), octobre 2004. Poster and communication.

E. Meugnier, S. Rome, J. Besson, R. Rabasa-Lhoret, J-P. Riou, K. Clément, M. Laville, H. Vidal. Expression Profiling in Muscle of Type 2 Diabetic Patients during hyperinsulinemia provides new tracks to decipher the molecular defects of insulin resistance in human skeletal muscle. Integrative Post-Genomics IPG'04, Lyon (F), octobre 2004. Poster.

E. Meugnier, S. Rome, J. Besson, R. Rabasa-Lhoret,J-P. Riou,G. Barsh,K. Clément, M. Laville, H. Vidal. Mise en évidence d’une profonde altération de l’expression des gènes en réponse à l’insuline dans le muscle de patients diabétiques de type II. Screening à large échelle en utilisant des puces à ADN pangénomique. ALFEDIAM, Bordeaux, Nice 2004.

E. Meugnier, S. Rome, J. Besson, R. Rabasa-Lhoret, V. Pelloux, G. S. Barsh, J-P. Riou, M. Laville, K. Clement, H. Vidal. L’analyse du transcriptome de muscles de patients obèses et diabétiques de type 2 révèle une profonde altération transcriptionnelle en situation d’insulino-résistance au cours d’un clamp hyperinsulinémique. AFERO, Nancy, novembre 2004.

E. Meugnier, S. Rome, J. Besson, R. Rabasa-Lhoret, V. Pelloux, J-P. Riou, M. Laville, K. Clement, H. Vidal. L’analyse du transcriptome de muscles au cours d’un clamp hyperinsulinémique révèle une profonde altération de la régulation transcriptionnelle chez les patients diabétiques de type 2. ALFEDIAM, Lyon, mars 2005.

S. Blachon, R. G. Pensa, J. Besson, C. Robardet, J-F. Boulicaut. Using formal concepts from biological knowledge discovery from human SAGE data. Poster JOBIM 2005, Lyon (F), juillet 2005.

J. Besson, E. Meugnier, J-F. Boulicaut, E. Lefai, H. Vidal, S. Rome. Resolving transcription network from microarray data with constraint-based formal concept mining. Poster JOBIM 2005, Lyon (F), juillet 2005.