Sujets de TER 2015-2016

Bibilothèque d'algorithmes d'équivalence et de réécriture de requêtes

Dans le cadre de l'intégration différentes sources de données, une approche classique consiste à exprimer des requête sur un schéma global et à réécrire ces requêtes pour récupérer (une partie) des information sur chaque source.

Bien qu'il existe plusieurs algorithmes, notamment pour Datalog (e.g. [1], [2], [3]), permettant de réaliser cette réécriture, il n'existe pas à notre connaissance de bibliothèque implémentant tous ces algorithmes. L'objectif de ce TER est donc de réaliser cette bibliothèque, qui constituera une brique de base pour des développements à venir dans l'équipe BD du LIRIS autour du raisonnement sur les requêtes. De ce point de vue, une attention particulière devra être apportée sur la qualité du code produit par opposition à la quantité d'algorithmes implémentés.

[1] A.Y. Halevy: “Answering queries using views: A survey”, The VLDB Journal, Vol. 10, Iss. 4, 2001

[2] J. Wang, M. Maher, R. Topor: “Rewriting Unions of General Conjunctive Queries Using Views”, Advances in Database Technology (EDBT), 2002

[3] D. Calvanese, G. De Giacomo, M. Lenzerini, and M. Y. Vardi: “Query processing under glav mappings for relational and graph databases”, Proc. VLDB Endow., 6(2):61–72, Dec. 2012.

mots-clés: Intégration de données, Datalog

Mises à jour et contrôle d'accès sur des bases de données RDF

Le web sémantique [5] est défini comme une extension du Web courant dans lequel l'information a un sens bien défini permettant à la machine de capturer la sémantique des données. Il fournit un cadre commun qui permet aux données d'être partagées et réutilisées entre les applications Web.

Le Web sémantique est basé sur le modèle de données RDF (Resource Description Framework) [6] pour représenter les données et les relations entre elles. RDF permet de décomposer l'information en portions appelées “triplets” qui sont stockées dans des entrepôts de données (triple store).

L'équipe BD du LIRIS à proposé dans [7] un modèle de contrôle d'accès évolué pour les bases de données RDF. Une première implémentation de ce modèle a été réalisée sur TDB, la base de donnée RDF native de Jena. Afin de limiter le surcoût du contrôle d'accès lors de l'exécution des requêtes, un ensemble d'informations sont précalculées et stockées dans la base. Ce mode de fonctionnement limite actuellement cette implémentation à un fonctionnement en lecture seule (les mise à jour nécessite un recalcul complet de ces informations). L'objectif de ce TER est dans un premier temps d'implémenter une mise à jour incrémentale de ces informations, puis dans un deuxième temps de mener une réflexion sur l'extension des politiques de contrôle d'accès aux opérations de mise à jour.

[5] Berners-Lee, Tim, James Hendler, and Ora Lassila. “The semantic web.” Scientific american 284.5 (2001): 28-37.

[6] Manola, Frank, Eric Miller, and Brian McBride. “RDF primer.” W3C recommendation 10.1-107 (2004).

[7] Tarek Sayah, Emmanuel Coquery, Romuald Thion, Mohand-Saïd Hacid: “Inference Leakage Detection for Authorization Policies over RDF Data.” DBSec 2015: 346-361