Web de données§

author:Pierre-Antoine Champin
license:Contrat Creative Commons
1

Motivation et historique§

_images/Tim_Berners-Lee.jpg

(Source image : Wikipedia)

2

Le Web vu par Tim Berners-Lee (1989)§

_images/tbl-proposal.png

Source image : CERN

« Vague, but exciting »

Note

On présente souvent le Web initial comme un web « des documents », par opposition à ses évolutions ultérieures (web social, web sémantique...), mais on voit dans cette figure que lesdites évolutions étaient déjà en puissance dans l'idée de départ.

3

Web de ressources§

Le web est constitué de ressources, par exemple :

  • le bulletin météo du jour pour Lyon
  • le bulletin météo du jour pour le lieu courant
  • ma commande de café de jeudi dernier

Chaque ressource est identifiée par un IRI (Internationalized Resource Identifier), e.g.:

4

⚠ Ressource ≠ fichier§

Une ressource n'est pas un simple fichier, dont on récupèrerait le contenu. Elle est un objet actif, avec lequel on interagit.

  • le bulletin météo du jour pour Lyon :

    → son état change chaque jour

  • le bulletin météo du jour pour le lieu courant :

    → son état dépend de plus du contexte de l'utilisateur

  • ma commande de café de jeudi dernier :

    → on peut agir dessus (par exemple pour l'annuler)

5

Parenthèse : URL/URI/IRI§

6

Ressources et représentations§

représentation : utilisable par :
texte (HTML...) humains, moteurs de recherche
médias (image, son...) surtout humains
données structurées machines
7

De HTML à XML§

XML (eXtensible Markup Language) a été recommandé par le W3C en 1998. L'objectif était de pallier la sémantique « faible » de HTML.

<!-- HTML -->
<a href="http://champin.net/">
  Pierre-Antoine <strong>Champin</strong>
  (<em>Maître de conférences</em>)</a>
<!-- XML -->
<Person homepage="http://champin.net/">
  <givenName>Pierre-Antoine</givenName>
  <surname>Champin</surname>
  <job>Maître de conférences</job></Person>
8

XML et la sémantique§

On a dit tout et son contraire l'apport sémantique de XML :

Les deux ont leur part de vérité.

9

XML a plus de sémantique que HTML...§

... dans le sens ou il est extensible : on peut donc exprimer des choses que HTML ne permet pas d'exprimer (e.g.``<givenName>``).

<Person xmlns="http://xmlns.com/foaf/0.1/"
        xmlns:pro="http://example.com/"
     homepage="http://champin.net/">
  <givenName>Pierre-Antoine</givenName>
  <surname>Champin</surname>
  <pro:job>Maître de conférence</pro:job></Person>
10

XML a moins de sémantique que HTML...§

... dans la mesure ou :

11

XML : apports et limitations§

Le surplus de sémantique promis par XML n'est donc pas « magique » : il suppose

12

XML : apports et limitations (suite)§

L'apport est donc essentiellement technique : la base commune de XML permet de factoriser les efforts de développement et d'apprentissage :

13

De XML à RDF§

14

De RDF à RDF§

Source image : W3C

15

Le mouvement OpenData§

Toute donnée publique (gouvernementale, ONU) ou publiée (scientifique) devrait être accessible sous une forme permettant le traitement automatique (en plus d'une forme lisible pour des humains).

16

Linked Open Data§

_images/lod-datasets_2007-11-10.png

Source image : Richard Cyganiak

17

Les quatre principes de Linked Data§

18

Ouvrir les données liées§

_images/data-badge-5.png

Source image : DERI

19

Projet emblématique : DBpedia§

20

Informations structurées dans Wikipedia§

_images/wikipedia.png

Source image : Wikipedia

21

Le « LOD cloud »§

_images/lod-datasets_2007-11-10.png

Source image : Richard Cyganiak

En 2007
22

Le « LOD cloud »§

_images/lod-datasets_2008-09-18.png

Source image : Richard Cyganiak

en 2008
23

Le « LOD cloud »§

_images/lod-datasets_2009-07-14.png

Source image : Richard Cyganiak

en 2009
24

Le « LOD cloud »§

_images/lod-datasets_2010-09-22_colored.png

Source image : Richard Cyganiak

en 2010
25

Le « LOD cloud »§

_images/lod-datasets_2011-09-19_colored.png

Source image : Richard Cyganiak

en 2011
26

Rechercher et explotation des données§

27

Divergences et convergences§

Ces projets ont le même objectif : rendre le Web plus accessible aux machines.

Bien qu'utilisant initialement des technologies différentes, ils convergent progressivement vers RDF.

28