Projet 2014§

Votre travail consiste à proposer, par groupe de 2 à 4, un plan d’action pour la publication, sous forme de données liées en RDF, du jeu de données suivant :

Ces données sont au format CSV, donc assimilables à une table dans une base de données relationnelles. Par plan d’action, on entend le fait de dégager les contraintes à respecter et les grandes lignes des solutions envisagées, pas le fait de réaliser en détail la publication.

1/ Vous décrirez d’abord le vocabulaire que vous proposez pour modéliser le domaine, sous forme d’un ensemble

  • de classes (quelles sont les types d’entités qui existent ? — comme CreativeWork, Book, Person), et
  • de propriétés (quelles relations entretiennent ces types d’entités ? — comme author qui relie une entité de type Person à une entité de type CreativeWork).

Vous pouvez vous inspirer pour cela de la manière donc le vocabulaire Schema.org est présenté. Vous respecterez les bonnes pratiques de casse dans les dénominations des classes et des relations.

Vous ferez également des liens, quand cela est possible, entre les termes (URIs) de vocabulaire et ceux d’autres vocabulaires utilisés sur le web de données (au minimum Schema.org).

2/ Vous décrirez ensuite le principe de la conversion des données CSV (tabulaires) vers un modèle RDF (graphe) utilisant le vocabulaire décrit en 1/. Vous décrirez notamment comment forger des URIs pour toutes les entités décrites par le jeu de données (selon leur type). Vous donnerez un exemple du graphe généré à partir d’un petit extrait des données. Cet exemple mettra en jeu toutes les classes et les propriétés que vous aurez définies. NB : n’oubliez pas qu’il existe un outil en ligne permettant de dessiner le graphe correspondant à un tel exemple à partir d’une spécification en dot.

3/ Enfin, vous proposerez des méthodes pour lier (avec owl:sameAs) les différentes entités de votre graphe à des URIs de référence existant pour ces entités. Une source prometteuse de tels URIs de référence est la version française de DBPedia et la base nationalle Mérimée. Vous identifierez notamment les rapprochements qui peuvent être (partiellement automatisés) et ceux qui seront faits manuellement.

Indication : pour trouver l’URI d’une entité sur fr.dbpedia, trouvez sa page sur Wikipedia France, et remplacer dans l’URI “fr.wikipedia.org/wiki” par “fr.dbpedia.org/resource”.

4/ Individuellement, vous proposerez chacun 2 requêtes SPARQL (différentes de celles des autres membres de votre groupe) permettant d’interroger de manière pertinente ces données. Pour chaque requête, vous expliquerez en français la question à laquelle elle répond, et donnerez un exemple de résultat attendus. Ces requêtes peuvent éventuellement reposer sur des inférences, mais vous devrez alors le préciser.

Envoyez vos rapports (de préférence en PDF) à pchampin@liris.cnrs.fr pour le 12/01/2015.

Sujet précédent

Vocabulaires et méta-vocabulaires

Cette page

Slides