Web de données§
author: | Pierre-Antoine Champin |
---|---|
license: |
author: | Pierre-Antoine Champin |
---|---|
license: |
Un espace documentaire décentralisé, interconnecté et interopérable.
Un espace documentaire décentralisé, interconnecté, interopérable et évolutif.
Note
Ce sont ces trois propriétés qui définissent le Web, plus que les technologies particulières qui de les assurer.
Un espace de données décentralisé, interconnecté et interopérable.
Exemple : Facebook, Twitter, Wikipedia
(voire aussi ProgrammableWeb.com)
Note
On voit dans cette figure que, dès le départ, le Web ne se limite pas à un Web documentaire ; les évolutions ultérieures (Web social, Web sémantique…) étaient déjà en puissance dans l’idée de départ.
Le web est constitué de ressources, par exemple :
- le bulletin météo du jour pour Lyon
- le bulletin météo du jour pour le lieu courant
- ma commande de café de jeudi dernier
Chaque ressource est identifiée par un IRI (Internationalized Resource Identifier), e.g.:
Une ressource n’est pas un simple fichier, dont on récupérerait le contenu. Elle est un objet actif, avec lequel on interagit.
le bulletin météo du jour pour Lyon :
→ le contenu change régulièrement
le bulletin météo du jour pour le lieu courant :
→ le contenu dépend de plus du contexte de l’utilisateur
ma commande de café de jeudi dernier :
→ on peut agir dessus (par exemple pour l’annuler)
Note
Dans ce cours, on continue à parler d’IRI, car c’est la terminologie encore adoptée par le W3C.
représentation : | utilisable par : |
---|---|
texte (HTML…) | humains, moteurs de recherche |
médias (image, son…) | surtout humains |
données structurées | machines |
XML (eXtensible Markup Language) a été recommandé par le W3C en 1998. L’objectif était de pallier la sémantique « faible » de HTML.
<!-- HTML -->
<a href="http://champin.net/">
Pierre-Antoine <strong>Champin</strong>
(<em>Maître de conférences</em>)</a>
<!-- XML -->
<Person homepage="http://champin.net/">
<givenName>Pierre-Antoine</givenName>
<familyName>Champin</familyName>
<job>Maître de conférences</job></Person>
On a dit tout et son contraire l’apport sémantique de XML :
Les deux ont leur part de vérité.
... dans le sens ou il est extensible : on peut donc exprimer des choses que HTML ne permet pas d’exprimer (e.g.``<givenName>``).
<Person xmlns="http://xmlns.com/foaf/0.1/"
xmlns:pro="http://example.com/"
homepage="http://champin.net/">
<givenName>Pierre-Antoine</givenName>
<surname>Champin</surname>
<pro:job>Maître de conférence</pro:job></Person>
... dans la mesure ou :
<givenName>
ou de la balise <ονομα>
,<em>
: elle dénote un
texte à mettre en évidence selon les moyens dont il dispose, par exemple :Le surplus de sémantique promis par XML n’est donc pas « magique » : il suppose
de créer de nouveaux langages basés sur XML (DTD, schémas),
d’écrire les logiciels qui interpréteront ces nouveaux langages,
→ chaque langage reste relativement idiosyncratique.
L’apport est donc essentiellement technique : la base commune de XML permet de factoriser les efforts de développement et d’apprentissage :
Le modèle sous-jacent de la syntaxe XML est un arbre (XML Infoset), ce qui n’est pas adapté à la structure décentralisée du Web.
L’objectif du Resource Description Framework (RDF), recommandé par le W3C en 1999, vise à munir le Web d’un modèle de données plus adapté, ayant une structure de graphe.
L’objectif est de construire le Semantic Web : un web dans lequel les machines ont (enfin) accès à la sémantique des données.
Recommandation un peu hâtive, présentant quelques défauts importants (notamment l’absence de sémantique formelle).
→ faible adoption de RDF
Toute donnée publique (gouvernementale, ONU) ou publiée (scientifique) devrait être accessible sous une forme permettant le traitement automatique (en plus d’une forme lisible pour des humains).
Utiliser des IRIs pour nommer les choses (= ressources).
Utiliser des IRIs HTTP pour pouvoir obtenir des représentations de ces ressources.
Fournir ces représentations en utilisant des langages et des protocoles standards (RDF, SPARQL).
Inclure des liens pour permettre de découvrir de nouvelles ressources.
d’après Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html
Projet lancé par Chris Bizer en 2007.
Objectif : extraire les informations structurées (infobox) présentes dans Wikipedia pour les exposer en RDF.
The English version of the DBpedia knowledge base currently describes 6.0M entities of which 4.6M have abstracts, 1.53M have geo coordinates and 1.6M depictions. In total, 5.2M resources are classified in a consistent ontology, consisting of 1.5M persons, 810K places, 490K works, 275K organizations, 301K species and 5K diseases.
Altogether the DBpedia 2016-04 release consists of 9.5 billion pieces of information (RDF triples).
Microformats (Community)
The Open Graph protocol (Facebook)
Schema.org (Bing, Google, Yahoo)
Ces projets ont le même objectif : rendre le Web plus accessible aux machines.
Bien qu’utilisant initialement des technologies différentes, ils convergent progressivement vers RDF.
Dans tout système de gestion de données ou de connaissance, on est amené à « baptiser » chaque objet que l’on souhaite décrire, en lui forgeant un identifiant.
Note
Le terme forger (en anglais mint) est une référence à la monnaie : un identifiant est comme une pièce de monnaie, une marque (token) qui « vaut pour » autre chose.
N’importe qui ayant l”autorité sur un espace de noms :
champin.net
),http://liris.cnrs.fr/~pchampin/
)NB: pour les IRIs HTTP, cette autorité s’accompagne généralement de la capacité à publier des données à l’adresse correspondante, faisant le lien entre les deux premiers principes.
`I don’t know what you mean by « glory, »” Alice said.
Humpty Dumpty smiled contemptuously. `Of course you don’t – till I tell you. I meant « there’s a nice knock-down argument for you! »”
`But « glory » doesn’t mean « a nice knock-down argument, »” Alice objected.
`When I use a word,” Humpty Dumpty said in rather a scornful tone, `it means just what I choose it to mean – neither more nor less.”
`The question is,” said Alice, `whether you can make words mean so many different things.”
`The question is,” said Humpty Dumpty, `which is to be master – that’s all.”
Le triangle sémiotique
On peut assimiler :
Cf. le troisième principe du Linked Data
Note
Bien sûr, on peut se poser la question d’identifier la représentation elle-même. Voire la discussion en annexe.
Les IRIs ont des propriétaires, mais pas (toutes) les ressources ; pour une ressource données (e.g. la Tour Eiffel), n’importe qui peut donc lui forger un IRI.
→ risque de prolifération de synonymes
Il existe une manière standard de déclarer la synonymie de deux IRIs
(owl:sameAs
, cf. Vocabulaires et méta-vocabulaires)