Web de données§

author:Pierre-Antoine Champin
license:Contrat Creative Commons

Motivation et historique§

_images/Tim_Berners-Lee.jpg

Tim Berners-Lee (Source image : Wikipedia)

Qu'est-ce que le Web ?§

Un espace documentaire décentralisé, interconnecté et interopérable.

Qu'est-ce que le Web ?§

Un espace documentaire décentralisé, interconnecté, interopérable et évolutif.

Note

Ce sont ces trois propriétés qui définissent le Web, plus que les technologies particulières qui de les assurer.

Vers un Web de données§

Un espace de données décentralisé, interconnecté et interopérable.

API Web?§

Exemple : Facebook, Twitter, Wikipedia

(voire aussi ProgrammableWeb.com)

Le Web vu par Tim Berners-Lee (1989)§

_images/tbl-proposal.png

« Vague, but exciting » (source image : CERN)

Note

On voit dans cette figure que, dès le départ, le Web ne se limite pas à un Web documentaire ; les évolutions ultérieures (Web social, Web sémantique...) étaient déjà en puissance dans l'idée de départ.

Web de ressources§

Le web est constitué de ressources, par exemple :

  • le bulletin météo du jour pour Lyon
  • le bulletin météo du jour pour le lieu courant
  • ma commande de café de jeudi dernier

Chaque ressource est identifiée par un IRI (Internationalized Resource Identifier), e.g.:

⚠ Ressource ≠ fichier§

Une ressource n'est pas un simple fichier, dont on récupèrerait le contenu. Elle est un objet actif, avec lequel on interagit.

  • le bulletin météo du jour pour Lyon :

    → le contenu change régulièrement

  • le bulletin météo du jour pour le lieu courant :

    → le contenu dépend de plus du contexte de l'utilisateur

  • ma commande de café de jeudi dernier :

    → on peut agir dessus (par exemple pour l'annuler)

Parenthèse : URL/URI/IRI§

  • URL: Uniform Resource Locator (RFC 1738, 1994)
  • URI: Uniform Resource Identifier (RFC 2396, 1998)
  • IRI: Internationalized Resource Identifier (RFC 3987, 2005)
  • technologies successives
  • même concept

Ressources et représentations§

représentation : utilisable par :
texte (HTML...) humains, moteurs de recherche
médias (image, son...) surtout humains
données structurées machines

De HTML à XML§

XML (eXtensible Markup Language) a été recommandé par le W3C en 1998. L'objectif était de pallier la sémantique « faible » de HTML.

<!-- HTML -->
<a href="http://champin.net/">
  Pierre-Antoine <strong>Champin</strong>
  (<em>Maître de conférences</em>)</a>
<!-- XML -->
<Person homepage="http://champin.net/">
  <givenName>Pierre-Antoine</givenName>
  <familyName>Champin</familyName>
  <job>Maître de conférences</job></Person>

XML et la sémantique§

On a dit tout et son contraire l'apport sémantique de XML :

Les deux ont leur part de vérité.

XML a plus de sémantique que HTML...§

... dans le sens ou il est extensible : on peut donc exprimer des choses que HTML ne permet pas d'exprimer (e.g.``<givenName>``).

<Person xmlns="http://xmlns.com/foaf/0.1/"
        xmlns:pro="http://example.com/"
     homepage="http://champin.net/">
  <givenName>Pierre-Antoine</givenName>
  <surname>Champin</surname>
  <pro:job>Maître de conférence</pro:job></Person>

XML a moins de sémantique que HTML...§

... dans la mesure ou :

XML : apports et limitations§

Le surplus de sémantique promis par XML n'est donc pas « magique » : il suppose

XML : apports et limitations (suite)§

L'apport est donc essentiellement technique : la base commune de XML permet de factoriser les efforts de développement et d'apprentissage :

De XML à RDF§

De RDF à RDF§

De RDF à RDF (2)§

_images/rdf_w3c.svg

Source image : W3C

Le mouvement OpenData§

Toute donnée publique (gouvernementale, ONU) ou publiée (scientifique) devrait être accessible sous une forme permettant le traitement automatique (en plus d'une forme lisible pour des humains).

Linked Open Data§

_images/lod-datasets_2007-11-10.png

Source image : Richard Cyganiak

Les quatre principes de Linked Data§

Ouvrir les données liées§

_images/data-badge-5.png

Source image : DERI

Projet emblématique : DBpedia§

Informations structurées dans Wikipedia§

_images/wikipedia.png

Source image : Wikipedia

Le « LOD cloud »§

_images/lod-datasets_2007-11-10.png

En 2007 (source image : Richard Cyganiak)

Le « LOD cloud »§

_images/lod-datasets_2008-09-18.png

En 2008 (source image : Richard Cyganiak)

Le « LOD cloud »§

_images/lod-datasets_2009-07-14.png

En 2009 (source image : Richard Cyganiak)

Le « LOD cloud »§

_images/lod-datasets_2010-09-22_colored.png

En 2010 (source image : Richard Cyganiak)

Le « LOD cloud »§

_images/lod-datasets_2011-09-19_colored.png

En 2011 (source image : Richard Cyganiak)

Le « LOD cloud »§

_images/lod-cloud_colored_2014-08-30.png

En 2014 (source image : Richard Cyganiak)

Rechercher et explotation des données§

Divergences et convergences§

Ces projets ont le même objectif : rendre le Web plus accessible aux machines.

Bien qu'utilisant initialement des technologies différentes, ils convergent progressivement vers RDF.

Forger des IRIs§

Problématique§

Dans tout système de gestion de données ou de connaissance, on est amené à « baptiser » chaque objet que l'on souhaite décrire, en lui forgeant un identifiant.

Note

Le terme forger (en anglais mint) est une référence à la monnaie : un identifiant est comme une pièce de monnaie, une marque (token) qui « vaut pour » autre chose.

Intérêt des IRIS§

Qui peut forger un IRI ?§

N'importe qui ayant l'autorité sur un espace de noms :

NB: pour les IRIs HTTP, cette autorité s'accompagne généralement de la capacité à publier des données à l'adresse correspondante, faisant le lien entre les deux premiers principes.

Interlude§

`I don't know what you mean by "glory,"' Alice said.

Humpty Dumpty smiled contemptuously. `Of course you don't -- till I tell you. I meant "there's a nice knock-down argument for you!"'

`But "glory" doesn't mean "a nice knock-down argument,"' Alice objected.

`When I use a word,' Humpty Dumpty said in rather a scornful tone, `it means just what I choose it to mean -- neither more nor less.'

`The question is,' said Alice, `whether you can make words mean so many different things.'

`The question is,' said Humpty Dumpty, `which is to be master -- that's all.'

Lewis Carroll

Qu'identifie un IRI ?§

Le triangle sémiotique

Qu'identifie un IRI ?§

On peut assimiler :

Cf. le troisième principe du Linked Data

Note

Bien sûr, on peut se poser la question d'identifier la représentation elle-même. Voire la discussion en annexe.

Qui peut nommer une ressource ?§

Les IRIs ont des propriétaires, mais pas (toutes) les ressources ; pour une ressource données (e.g. la Tour Eiffel), n'importe qui peut donc lui forger un IRI.

→ risque de prolifération de synonymes

Il existe une manière standard de déclarer la synonymie de deux IRIs (owl:sameAs, cf. Vocabulaires et méta-vocabulaires)

Chapitre suivant

RDF