Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

Les nouvelles frontières numériques des sciences (Adonis 2009)

De Wicri SIC
logo travaux Article en cours d'installation
Éditorial Adonis
Par Yannick Maignien, Directeur du TGE Adonis , le 9 décembre 2009


Le récent débat Google / BnF a remis au-devant de la scène les enjeux du numérique. Mais cela risque d'être un débat d'arrière garde au regard du développement actuel de l'Internet et du Web.

La BNF mettait en ligne ses documents dès fin 1997, alors que Larry Page et Sergey Brin n'ouvraient la petite start up Google qu'en 1998 : 10 ans plus tard, Google représente 210 milliards de Dollars en bourse. Mais là n'est pas l'essentiel. Créé au CERN par Tim Berners Lee en 1990, le World Wide Web est un mode de structuration hypertexte (HTML) permettant de lier et de retrouver tous les documents, indépendamment des différents systèmes d'exploitation, sur un système universel. Il n'est pas neutre de rappeler que c'est pour des besoins scientifiques que se développe ce protocole (HTTP), généralisable à toutes les activités humaines. De même, le développement de ce « web de documents » vers les applications Web 2.0 à la fin des années 90 est aussi tiré par les usages scientifiques, usages collaboratifs, organisation de communautés virtuelles, collèges invisibles, réseaux à la pointe de la socialisation et des contributions des acteurs, puis se généralisant à toutes les sphères de la vie sociale, de la communication et des loisirs.

L'enjeu du Web de données

L'enjeu est maintenant celui du Web de données (Web of data). Approfondissement et complexification des formes précédentes du Web, c'est un saut quantitatif et qualitatif sans précédent, aux conséquences socio-économiques encore largement insoupçonnées.

Pour l'heure, la révolution des données est sur le terrain scientifique. Chercheurs, étudiants et enseignants sont avides de documents numériques, textes, bases de données, iconographies, cartes, etc, afin de faire converger les usages documentaires. Mais HTML , même généralisé à XML est incapable de dépasser la « barrière documentaire » héritée des siècles analogiques passés. Au regard des pouvoirs de communication du Web, les données sont comme « verrouillées » dans les bases relationnelles.

Dans la création de connaissances, les données elles-mêmes se démultiplient de façon exponentielle : capteurs, sondes, simulateurs, camera, systèmes d'observations automatisés et processus de calculs accumulent des données non maîtrisables à l'échelle cognitive humaine. Dans les sciences sociales, la production, l'interaction des informations par les agents eux-mêmes sont sans limites, bousculant les frontières entre privé et public. Les communautés virtuelles sont engagées dans des processus illimités d'enrichissement et de traitement de données de grande masse (génétique, médicale, climatique, écologique, économique, etc.).

Ce sont enfin les objets ou machines porteurs d'informations, y compris de la vie quotidienne, qui pourront produire et échanger automatiquement des données en masse (RFID) .

Des données publiques, maintenant.

Le Web de données, appelé aussi web sémantique par Tim Berners Lee, autonomise ces données dans une sorte de ciel numérique mondial. Les données deviennent données liées (linked data) par leur expression en RDF (Ressource description format, standard du W3C), sous forme d'un triplet (Sujet, prédicat, objet), «grammaire» logique permettant de relier les données au sein du Web, lisible par les ordinateurs, et indépendamment des sites d'origine. Cela suppose des politiques de mise à disposition des données publiques, « ouvrant » les bases de données, et les exposant à de nouveaux moteurs de requêtes (SPARQL), comme l'entreprend le programme du Data.Gov d'Obama aux USA.

Dores et déjà, l'encyclopédie Wikipedia extrait ses données structurées en RDF (Dbpedia) proposant ainsi des millions de liens pour ses dataset, ensemble de données confrontées aux référentiels ou thesaurus déjà organisés. Les données « brutes » deviennent liées virtuellement au sein de graphes gigantesques. Google également s'engage dans cette voie de balisage en RDFa des pages HTML. Tim Berners Lee, avec énergie, mène campagne pour l'autonomie des données disponibles « Raw data, now ! », Des données brutes maintenant ! afin que se développe le Web du futur. Un chercheur, par exemple, pourra agréger des données épidémiologiques d'une part et des données socio-économiques de l'autre au profit d'un nouveau champ de recherche, indépendant de sites web d'origines. Des données « libérées » pour être valorisées sur ce nouveau Web, telle est la condition de l'économie de la connaissance.

Données et révolution éditoriale

Le Web de données subvertit le modèle « devant les pairs » de la communication scientifique née en 1665, avec conjointement le Journal des savants en France et les Philosophical Transactions en Angleterre. Les sciences sont évaluables moins sur leurs « résultats », que sur la qualité de traitement des données et la présentation dynamique ou les simulations de processus. Dés maintenant, les logiques de l'open access, où l'édition prend sa valeur en amont dans la constitution des données, plus qu'en aval par une demande solvable, mettent à bas les modèles économiques classiques de diffusion. De grands éditeurs comme Elsevier l'ont compris avec des solutions éditoriale par les données («Article of the future», forme multi-dimentionnelle de l'article en fonction de l'exploitation des données). De même, Thomson Reuteurs a lancé une application « OpenCalais » sur les données liées. Robert Darnton avait annoncé il y a une dizaine d'années cette révolution éditoriale. Publier un document lié aux sources et apparats critiques en ligne. Elle est maintenant possible et en train de se mettre en place grâce au Web de données.

Des infrastructures pour le Web de données

Bien évidemment, ces trois stades du Web ne s'excluent nullement. Ils viennent en intégration successive, « remontant » des données textuelles et alphanumériques, bibliothèques numériques, - le livre numérique-, pour en arriver au sein du travail scientifique en amont sur les données, collaboratif et généralisé à l'échelle planétaire. La transformation des bases de données scientifiques en Web de données est au coeur des réalisations des infrastructures numériques pour les sciences : plateformes de publication, puis collaboratives Web 2.0 ( Blogs, Wiki, etc.) et plateformes de calcul (grilles, traitement, bases de données relationnelles) ; elles doivent être des plateformes d'intégration de services, faisant converger le rôle de nombreux opérateurs différents, et d'autre part une interconnexion de données hétérogènes des laboratoires agrégées à partir de sites distribués. La France et l'Europe sont engagées, comme les USA, dans de vastes « Feuilles de route » (ESFRI ) pour préparer de grandes infrastructures numériques. Espérons qu'à cette étape stratégique du développement du Web de données, la réalisation de ces infrastructures sera bien prise en compte, notamment dans l'évaluation des investissements du futur emprunt national.

Nous signalons, sur cette question du web de données, l'exposé particulièrement intéressant proposé par Emmanuelle BERMES de la BNF en ligne sur le site de l'ADBS ----