Travaux de recherche 2000-2004 (Extrait rapport d'activité 2000-2004)


Un peu d'histoire... (à propos des systèmes de mémoire distribuée virtuellement partagée) (jusqu’en 2000)

En parallèle avec nos travaux sur les services multimédias, nous avons, jusqu'à récemment, mené des recherches sur les environnements de programmation parallèle, plus particulièrement sur les systèmes de mémoire distribuée virtuellement partagée (MDVP). La spécificité du système que nous avons développé, DOSMOS, est double :

-         DOSMOS propose un modèle de programmation original, fondé sur des outils de structuration fonctionnelle des applications parallèles. Ainsi, à notre connaissance, DOSMOS est le premier système à avoir proposé et réalisé un système de MDVP intégrant le concept de groupe, démontrant ainsi de facto sa faisabilité ;

-         DOSMOS est intégré à un environnement de programmation ouvert (possibilité d'intégrer code PVM (MPI) et code DOSMOS) et de haut-niveau (interfaces graphiques, environnement de traçage d'exécution DOSMOS-Trace).

Plus récemment, toujours dans le cadre de nos travaux sur les environnements d’exécution haute performance, nous avons développé une interface haute performance Java pour clusters de PC interconnectés par Myrinet sur laquelle nous avons porté le prototype Enkidu (cf. ci-dessous).

Ces travaux ont été financés dans le cadre des projets Eurêka Eurotops, Tempus Discom, Amadeus (cf. §III.5). Ils ont conduits à la soutenance de deux thèses.


Bases de données et serveurs multimédias parallèles (jusqu'en 2003)

Jusqu'à 2001, deux cibles applicatives nous ont plus particulièrement intéressés : les très grandes bases de données décisionnelles et les serveurs documentaires et multimédias. Les premières revêtent un intérêt grandissant en raison du développement des entrepôts de données agrégeant des volumes d'informations réparties considérables. Les seconds bénéficient directement du développement d'Internet, de la mise en place d'Intranets et de l'émergence très forte de nouveaux services multimédias (serveurs vidéo à la demande, archives audiovisuelles, édition vidéo, grands caches Web).

Sur un plan fondamental, dans le cadre des applications évoquées ci-dessus, nos travaux ont essentiellement porté sur l'optimisation et le traitement de requêtes parallèles et sur la mise en place de mécanismes d'exécution répartie haute performance et de gestion de caches collaboratifs.

Nous nous sommes tout d'abord intéressés à l'étude de mécanismes génériques de parallélisation de bases de données. Nous avons ainsi exhibé un nouveau formalisme de représentation de requêtes relationnelles parallèles, les graphes DPL, qui offre une très grande puissance de description, en particulier en permettant d'intégrer dans le scénario d'exécution des requêtes des informations d'ordonnancement et de placement. Fondé sur les graphes DPL, nous avons exhibé une nouvelle classe de scénarios d'exécution, les arbres denses sérialisés (serialized bushy trees) et de nouvelles heuristiques d'optimisation qui, expérimentalement, ont démontré qu'elles offraient des performances remarquables, en particulier en présence de limitations sur la disponibilité des ressources. Nous avons enfin formalisé le concept d'extension parallèle de serveur de données qui modélise le couplage d'un serveur d'application (typiquement un SGBD) et d'un réseau de stations/PC dans ses différentes composantes : duplication partielle des données, mécanismes de synchronisation, parallélisation des traitements, schémas de communication.

Sur un plan applicatif, nous avons développé un optimiseur parallèle de requêtes relationnelles, MPO (Modular Parallel Optimizer) et un module d'extension parallèle de SGBD relationnel au-dessus de Java, Enkidu, que nous avons en particulier interfacé avec Oracle.

Ces travaux ont été financés dans le cadre du projet Esprit-TTN MBASE, du projet régional Santé et HPC, d’un projet franco-tunisien (§ III.5).

Parallèlement, sur un plan applicatif, nos recherches sur les serveurs multimédias ont essentiellement porté sur la conception et la mise en œuvre de serveurs vidéo parallèles dans le cadre d'applications d'archives audiovisuelles au sein d'un projet, Sésame, financé par France Télécom R & D. Notre approche a visé à intégrer les informations d'indexation disponibles (annotations des séquences audiovisuelles) au cœur des mécanismes et des heuristiques de gestion et de manipulation de données : ordonnancement des requêtes, politique de remplacement des caches, pré-chargement de séquences, gestion de flux vidéo. Les heuristiques proposées ont ainsi affiché des performances supérieures de l'ordre de 15 à 25% par rapport aux heuristiques classiques. Dans le cadre de ce projet, nous avons conçu et implémenté un serveur vidéo parallèle portable intégrant nos travaux théoriques, le serveur MINA. Plus récemment, nous avons développé un système modulaire d’indexation et de recherche de séquences audiovisuelles, le système SIRSALE.

Soutenues essentiellement par le projet financé par France Télécom R&D Sésame, ces recherches ont également permis le montage d’un projet franco-autrichien Amadeus (coordination : Université de Franche-Comté). Elles ont conduit à la soutenance de trois thèses.

Services d'information multimédias répartis collaboratifs (2001-2004)

L'émergence de réseaux d'interconnexion à haut débit permet aujourd'hui d'envisager la mise en place de mécanismes de collaboration entre systèmes d'information distants délivrant le même service... à condition d'être en mesure de définir les protocoles de partage et d'échange de données adéquats.

L'approche que nous proposons s'inspire d'une part des mécanismes de type proxy ; d'autre part, de nos travaux antérieurs sur la gestion sémantique de caches vidéo parallèles. Nous avons ainsi récemment proposé une architecture logicielle de collaboration fondée sur l'interconnexion de proxies agissant en aval des serveurs de données. Ces proxies indexent le contenu des documents (texte uniquement) et mettent ainsi à jour en temps réel la "carte des thématiques chaudes". L'analyse de cette carte leur permet d'une part d'optimiser leur politique de gestion de cache et de pré-chargement ; d'autre part d'optimiser la politique d'échange de documents inter-proxies ; enfin, de faire bénéficier l'utilisateur d'un véritable moteur d'indexation et de recherche à forte plus-value.

Les premiers résultats expérimentaux, menées dans le cadre de systèmes d'archivage de données vidéo et de proxies Web sont très prometteurs.

Ces recherches ont été initialement financées par le projet du Ministère de l’Industrie CHARM et par le projet PRIAMM SPIHD ( § II.3), puis par l’ACI Medigrid et le projet régional Ragtime. Nous sommes enfin intervenus, sur cette thématique en sous-traitance du laboratoire Creatis dans le cadre du projet IST 5ème PCRD Data Grid. Deux thèses sont en cours sur cette thématique.

 

Recherche d'information par le contenu et adaptation de contenus multimédias dans le cadre de systèmes pervasifs (2000-2004)

Les systèmes de gestion de bases de données sont aujourd'hui confrontés à une omniprésence du multimédia : images, vidéo, sons... Après nous être intéressés au stockage et à l'accès de données vidéo (cf. ci-dessus), nous étudions depuis 1999 la modélisation de données multimédias (images/méta-données) et de requêtes fondées sur le contenu. Nous avons ainsi proposé une algèbre pour la représentation et le traitement de données images (images brutes + méta-données) impliquant des mesures de similarité entre images. Nous avons en particulier exhibé un certain nombre d'opérateurs (sélection multimédia, jointure multimédia, multi-jointure multimédia, sélection "inverse", etc.) dont nous avons étudié les propriétés. S'appuyant sur ce cadre formel, nous avons plus récemment proposé des heuristiques d'optimisation de requêtes mixtes relationnel-multimédia.

Ces travaux ont fourni la matière au développement d’un prototype de système de gestion d’images médicales, e-MIMS. Ce système, développé au-dessus d’Oracle, offre des fonctionnalités avancées de recherche d’images par le contenu.

En nous appuyant sur ces recherches initiales, nous avons récemment lancé un programme de recherche (intégrant les travaux de trois doctorants) autour des systèmes d'information pervasifs. Le concept à la base des systèmes dits "pervasifs" est (cf. III.2) d'intégrer (l'ensemble) des données réparties sur la Toile (Web) dans un système d'information multimédia virtuel. Il s'agit ainsi de permettre à l'utilisateur de rechercher ou de recevoir directement la bonne (l'utile) information au bon moment dans le bon format. Dans ce contexte, la problématique de l'adaptation des contenus (données) délivré(e)s apparaît comme un verrou central pour le développement de ces systèmes. Ainsi, nous avons récemment proposé, en nous appuyant sur l'utilisation de mécanismes de proxies (§III.3.3) et de services Web, une architecture de recherche de contenus distribués et d'adaptation de données pour les systèmes pervasifs. Nous avons également formalisé la notion de chemin d'adaptation de données qui permet d'adapter en temps réel les données recherchées en fonction des caractéristiques du terminal utilisé (ex. : assistant personnel), de la qualité de service offerte par le réseau, des préférences utilisateur (ex. : langues lues) via l'utilisation coordonnée de services Web.

Ces travaux ont été financés dans le cadre des projets régionaux SICOM et Ragtime et ont fourni le cadre au montage d'un projet bilatéral avec l'Université d'Addis-Abeba (Ethiopie) et d'un projet bilatéral avec l'Université Antonine de Beyrouth (Liban). Autour de cette thématique, une thèse a été soutenue, deux sont en cours, une troisième démarrera en septembre 2004 (financement acquis).

Autour de ces travaux, nous incubons depuis 6 mois (coordination : Jean-Marc Pierson) une start-up spécialisée dans le développement de services multimédias pour la téléphonie mobile. Cette société, 3 Degrés de Liberté, a reçu l’appui de la Région Rhône-Alpes dans le cadre du transfert de compétences de la recherche vers l’industrie.

 

Gestion de la confidentialité dans les grilles d'ordinateurs et les systèmes pervasifs (2002-2004)

La confidentialité et la sécurité des données sont certainement l'un des verrous technologiques centraux qui limitent aujourd'hui encore très fortement l'utilisation effective des grilles d'ordinateurs et des systèmes pervasifs. Cette problématique est d'autant plus sensible dans le cadre des grilles médicales, cibles privilégiées de nos travaux.

Au cours des dix-huit derniers mois, nous avons concentré nos travaux sur ce point autour de deux axes :

-         La formalisation de protocoles d'accès sécurisés à des données réparties dans une grille. Nous avons en particulier exhibé le concept de certificat d'accès sémantique qui permet de contrôler et de faire évoluer dynamiquement l'accès aux données en fonction des privilèges acquis par l'utilisateur ou les entités auxquelles il se rattache (exemple : lorsqu'un patient est transféré dans un service hospitalier, les médecins attachés à ce service "héritent" de facto de certains droits d'accès) ;

-         La définition de mécanismes et d'outils pour le stockage crypté de données confidentielles adaptés à l'échange de données sur une grille à l'aide de certificats d'accès sémantiques.

Ces projets sont financés par les ACI Medigrid et Datagraal. Nous démarrons actuellement une collaboration sur ce thème avec la KTH de Stockholm. Une thèse a démarré en 2002 sur ce thème ; une deuxième débutera en septembre 2004 (financement acquis).

 

Architectures logicielles d'échange et d'accès aux données pour les grilles d'ordinateurs (2002-2004)

Nos recherches sur ce thème ont principalement porté sur deux points :

-         La gestion de mécanismes de proxy permettant l'optimisation des accès aux données. Nous avons en particulier proposé des heuristiques de gestion de caches et des protocoles d'échange de données inter-proxies fondés sur la sémantique des données et la typologie des accès aux données ;

-         La liaison entre la grille et les bases de données périphériques stockant physiquement les données. Dans le cas des grilles médicales (cas que l'on retrouve dans de nombreuses applications), les données partagées sur la grille sont en réalité stockées dans des bases de données gérées localement au sein des hôpitaux et structures de soins. Pour des raisons évidentes de confidentialité, il n'est pas envisageable de "poser" telles quelles ces données sur la grille. Des mécanismes d'interface entre la grille et ces bases de données doivent donc être mis en œuvre. Ceux-ci font appel d'une part aux protocoles de confidentialité définis ci-dessus ; d'autres part à des procédures spécifiques d'anonymisation de données, d'intégration de données, d'indexation de données. Dans ce cadre, nous avons proposé une architecture logicielle et des librairies permettant de manière générique de connecter l'ensemble de ces procédures en vue de rendre les données médicales stockées dans les bases des structures de soins partageables sur une grille de calcul.

Ces travaux s'inscrivent dans des partenariats avec les UMR lyonnaises LIP et CREATIS (pour laquelle nous sommes intervenus en sous-traitance du projet européen IST Data Grid).

Ces projets sont financés par les ACI Medigrid et Datagraal ainsi que le projet régional Ragtime. Deux thèses sont en cours sur ce sujet.