Web de données§
author: | Pierre-Antoine Champin |
---|
author: | Pierre-Antoine Champin |
---|
« Vague, but exciting »
Le web est constitué de ressources, par exemple :
- le bulletin météo du jour pour Lyon
- le bulletin météo du jour pour le lieu courant
- ma commande de café de jeudi dernier
Chaque ressource est identifiée par un IRI (Internationalized Resource Identifier), e.g.:
⚠ Un IRI n'est pas un nom de fichier (cf. exemples ci-dessus)
représentation : | utilisable par : |
---|---|
texte | humains, moteurs de recherche |
médias (image, son...) | surtout humains |
données structurées | machines |
XML (eXtensible Markup Language) a été recommandé par le W3C en 1998. L'objectif était de pallier la sémantique « faible » de HTML.
<!-- HTML -->
<a href="http://champin.net/">
Pierre-Antoine <strong>Champin</strong>
(<em>Maître de conférences</em>)</a>
<!-- XML -->
<Person homepage="http://champin.net/">
<givenName>Pierre-Antoine</givenName>
<surname>Champin</surname>
<job>Maître de conférences</job></Person>
On a dit tout et son contraire l'apport sémantique de XML :
Les deux ont leur part de vérité.
... dans le sens ou il est extensible : on peut donc exprimer des choses que HTML ne permet pas d'exprimer (e.g.``<givenName>``).
<Person xmlns="http://xmlns.com/foaf/0.1/"
xmlns:pro="http://example.com/"
homepage="http://champin.net/">
<givenName>Pierre-Antoine</givenName>
<surname>Champin</surname>
<pro:job>Maître de conférence</pro:job></Person>
... dans la mesure ou :
Le surplus de sémantique promis par XML n'est donc pas « magique » : il suppose
de créer de nouveaux langages basés sur XML (DTD, schémas),
d'écrire les logiciels qui interpréteront ces nouveaux langages,
→ chaque langage reste relativement idiosyncratique.
L'apport est donc essentiellement technique : la base commune de XML permet de factoriser les efforts de développement et d'apprentissage :
Le modèle sous-jacent de la syntaxe XML est un arbre (XML Infoset), ce qui n'est pas adapté à la structure décentralisée du Web.
L'objectif du Resource Description Framework (RDF), recommandé par le W3C en 1999, vise à munir le Web d'un modèle de données plus adapté, ayant une structure de graphe.
L'objectif est de construire le Semantic Web : un web dans lequel les machines ont (enfin) accès à la sémantique des données.
Recommandation un peu hâtive, présentant quelques défauts importants (notamment l'absence de sémantique formelle).
→ faible adoption de RDF
Toute donnée publique (gouvernementale, ONU) ou publiée (scientifique) devrait être accessible sous une forme permettant le traitement automatique (en plus d'une forme lisible pour des humains).
d'après Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html
Projet lancé par Chris Bizer en 2007.
Objectif : extraire les informations structurées (infobox) présentes dans Wikipedia pour les exposer en RDF.
En juillet 2011 (version 3.7) :
The new DBpedia data set describes more than 3.64 million things, of which 1.83 million are classified in a consistent ontology, including 416,000 persons, 526,000 places, 106,000 music albums, 60,000 films, 17,500 video games, 169,000 organizations, 183,000 species and 5,400 diseases.
En 2007
en 2008
en 2009
en 2010
en 2011
The Open Graph protocol (Facebook)
Schema.org (Bing, Google, Yahoo)