Thèse

Intégration de données liées respectueuse de la confidentialité

Thèse préparée au LIRIS pour l'Université Claude Bernard Lyon 1, sous la direction d'Angela Bonifati (LIRIS), et co-encarée par Marie-Christine Rousset (LIG, Grenoble) et Romuald Thion (LIRIS).

Le développement récent du Web des données ouvertes (Linked Open Data en anglais) a permis la publication rapide d'énormes quantités de données ouvertes et liées organisées sous forme de graphes dans le format RDF. L’intégration de données du Web doit permettre l’interrogation unifiée de différentes sources mais aussi d’enrichir la base de données d’une organisation, d'augmenter les applications avec du contenu ou encore de fournir un format de référence pour publier des données propriétaires sur le Web. Toutefois, la publication d'ensemble de données structurées sans contrôle peut amener à la divulgation d'informations sensibles et c'est ce qui empêche nombre d'institutions de partager leurs données, faute de garanties suffisantes à la fois sur leurs propres publications, mais aussi sur le recoupement potentiel de données que peut faire un attaquant externe, même si les données ont été en apparence "anonymisées" de façon locale (via résolution d'entité, un processus automatique qui permet de lier les deux identifiants pour ainsi accéder à l'ensemble des informations concernant ce point d'intérêt). L'objectif de cette thèse est d'explorer et de proposer des solutions formelles et algorithmiques pour définir des méthodes d'anonymisation et de résolution d'entités, et vérifier la compatibilité de ces règles avec des politiques de confidentialité et d'utilité, exprimées par les fournissseurs de données.



Publications

Conférences internationales

Séminaires et ateliers divers