Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

Métadonnées pour WICRI, un réseau de wikis sémantiques pour les communautés de la recherche et de l'innovation

De Wicri SIC
Révision datée du 17 septembre 2010 à 14:34 par imported>Jacques Ducloy (Un wiki pour les auteurs et les contributeurs : Wicri/Métadonnées)
Attention : page en cours d'installation (transfert depuis Artist)
Attention : Les liens sur les icônes de traduction ne fonctionneront qu'avec la version 1.14 de MediaWiki

Contribution à DC 2010
Ce texte a été soumis au comité de programme de la conférence DC 2010. Il a été accepté dans la section "report papers".
DC2010Banner.jpg
Son écriture a fait l'objet d'un traitement collectif qui est explicité dans une page tenant lieu de prologue.
Titre original
Metadata for WICRI, a Network of Semantic Wikis for Communities in Research and Innovation
Auteurs
Jacques Ducloy,i Thierry Daunois,ii
Muriel Foulonneau,iii Alice Hermann,iv
Jean-Charles Lamirel,ii Stéphane Sire,v
Jean-Pierre Thomesse,ii Christine Vanoirbeek.v


Résumé
Cet article présente les enjeux des métadonnées dans le cadre du projet WICRI, un réseau de wikis sémantiques pour les communautés de la recherche et de l'innovation. Ce réseau regroupe des wikis relatifs à une thématique scientifique, à une région ou appartenant à une institution. Les métadonnées et éléments sémantiques y jouent un rôle stratégique pour garantir la qualité et assurer la cohérence du réseau. Un point important vient de la façon de travailler sur un wiki où des spécialistes de métadonnées et des scientifiques, habitués à manipuler des formalismes abstraits, peuvent intervenir ensemble sur les mêmes pages et dans la même temporalité. L'article présente quelques premières réflexions sur l'élaboration de métadonnées. Un nouveau wiki sur les métadonnées et à structure encyclopédique est proposé, avec quelques éléments techniques.
Article en version imprimable (anglais) 
Sur le répertoire ARTIST : version finale en pdf

Introduction

500px-Flag of English language (US-UK).png

Depuis 1995 et le lancement par Ward Cunningham de WikiWikiWeb, les wikis occupent une place croissante au sein des systèmes d'information scientifique. Les métadonnées y jouent encore un rôle relativement limité car beaucoup d'applications sont isolées et de taille réduite. Cependant Wikipédia (en langue anglaise), avec ses 3 000 000 d'articles, fait déjà émerger un ensemble de modes d'utilisation de métadonnées. En janvier 2010, les statistiques font ainsi apparaître un volume de 259 000 modèles et 552 000 catégories[1].

Dans un réseau de wikis, la question devient immédiatement plus aigüe. Depuis bientôt 2 ans, nous nous confrontons à la mise en œuvre d'un réseau de wikis sémantiques et, naturellement, au besoin d'un investissement non négligeable sur les aspects métadonnées. Cet article rapporte les premières réflexions issues du démonstrateur WICRI (Wikis des Communautés de la Recherche et de l'Innovation). Ce réseau contient une soixantaine de wikis mais permet déjà de repérer les problèmes qui surviendront avec des milliers de wikis. De plus, il offre un support à l'expérimentation des wikis sémantiques, autrement dit un cadre pour une nouvelle génération de métadonnées pour la modélisation de connaissances dans une approche RDF.

Dans cet article[2], nous présenterons le réseau WICRI et les choix techniques initiaux. Les aspects prospectifs seront présentés sous deux angles : celui du contributeur confronté à la production de métadonnées et celui des concepteurs de nouveaux services.

WICRI, un réseau de wikis pour la recherche et l'innovation

500px-Flag of English language (US-UK).png

L'expérience de Wikipédia montre que la technologie wiki est adaptée à la construction d'une connaissance collective, à grande échelle et avec une diffusion vers un large public. Bien que cette encyclopédie ne soit pas directement adaptée aux besoins de la recherche, elle a donc inspiré nos choix initiaux. Comme la qualité et la fiabilité de l'information contenue dans Wikipédia sont souvent remises en cause par les institutions académiques, nous avons mis en place des dispositifs visant à garantir la transparence des contributions et leur validité scientifique. De même, certaines pratiques de Wikipédia ne pouvaient être conservées. Par exemple Wikipédia demande que toute information soit attestée par une source extérieure. Or les activités de recherches impliquent impliquent l'écriture de publications originales. Tout cela nécessite la mise en place de comités scientifiques pour contrôler ou modérer les contributions.

Le réseau WICRI héberge 2 catégories de wikis. La communauté WICRI a pour finalité de produire des wikis communs qui partagent des règles communes. En revanche, une entité institutionnelle peut également ouvrir un wiki institutionnel et le gérer de façon autonome avec des règles qui peuvent être différentes de celles qui régissent les wikis communs.

En pratique, un wiki commun est identifié avec un préfixe du type Wicri/, comme par exemple Wicri/Lorraine. La notation Wicri/Water(fr) repère le membre en langue française d'une famille multilingue et Wicri/Water(en) celui en langue anglaise. Au moment de la rédaction de cet article, le réseau WICRI contient environ 30 wikis communs sur une base régionale comme Wicri/Lorraine ou thématique comme Wicri/Water). Par exemple,Wicri/Ticri est un wiki thématique relatif aux sciences et technologies de l'information (il contient un portail dédié au Dublin Core). Quelques wikis assurent une cohérence globale du réseau. Enfin, Wicri/Wicri, sur lequel tout sujet important doit être mentionné et lié aux pages détaillées sur d'autres wikis, donne une vision globale du réseau.

FIG. 1. Le réseau WICRI (un extrait)
Le réseau WICRI

Les wikis communs contiennent principalement des textes à caractère éditorial comme des articles ou des études. Ils gèrent également d'autres types d'information qui relèvent d'une modélisation de type CRIS[3], comme des comités de programme, des références de laboratoires ou des programmes de financement. Des approches (Jeffery's (2007)) veulent coupler les CRIS avec les archives ouvertes pour obtenir les fondations d'une infrastructure en e-science. Avec WICRI, nous voudrions aller un peu plus loin en offrant à un lecteur humain une vision éditoriale grâce aux possibilités des wikis. De plus, les wikis sémantiques ouvrent une voie pour faire d'un CRIS le squelette d'un tel système d'information. Pour toutes ces raisons, nous avons choisi MediaWiki comme plateforme technique du réseau WICRI. Totalement compatible avec Wikipédia, il permet de plus d'utiliser l'extension Semantic MediaWiki (Krötzsch, 2007), particulièrement bien adaptée à cette problématique.

Écrire dans un réseau d'hypertextes avec des formules et des métadonnées

500px-Flag of English language (US-UK).png

La plupart des systèmes de gestion de contenu conçus avant les blogs et les wikis séparent clairement les activités éditoriales de la programmation ou de l'élaboration de métadonnées. Les scientifiques ayant pour habitude d'écrire principalement des articles brefs et indépendants les uns des autres, les bibliothèques numériques associées aux travaux scientifiques sont souvent réduites à une fonction de stockage de papiers isolés, sans que la question du maintien de la cohérence globale d'un domaine scientifique ne soit prise en compte. Sur un wiki, en revanche, n'importe quel acteur peut intervenir à toutes les phases du processus allant d'activités relevant de la programmation à l'écriture de contenus, et cela, sur n'importe quelle page. Il peut simultanément écrire du texte et faire de l'indexation avec des métadonnées et obtenir ainsi un « hypertexte conçu par un cerveau humain ». Écrire dans un hypertexte scientifique, lisible et distribué sur un réseau demande donc un effort conséquent pour maintenir la cohérence entre des objets scientifiques et des éléments de connaissance dans un contexte où les informations arrivent de façons différenciées et doivent satisfaire des publics diversifiés.

Des wikis sémantiques pour les objets de la science

500px-Flag of English language (US-UK).png

Les scientifiques et les ingénieurs emploient couramment des objets à caractère technique - formules, images en 3 dimensions... Si la couche initiale de MediaWiki est relativement pauvre pour prendre en charge ces objets, des extensions permettent de combler cette lacune - traitement des formules en LaTeX, par exemple[4]. Le projet Proteopedia (Hodis, 2008) va plus loin avec la manipulation d'objets de biologie moléculaire comme des protéines, l'ARN ou des fragments d'ADN[5]. Un internaute peut ainsi utiliser des « liens verts » qui permettent d'interagir sur des représentation 3D par l'intermédiaire d'un applet Java (jmol). La généralisation d'une telle approche demande une intégration plus forte de la modélisation XML, avec l'intervention de contributeurs ayant acquis une solide pratique des langages de balisage. Ceux-ci ne devraient pas avoir de problèmes particuliers avec la syntaxe des déclarations de métadonnées ou des expressions sémantiques. La vraie difficulté viendra avec l'élaboration collaborative d'une connaissance globale[6].

Concernant plus particulièrement l'utilisation de Semantic MediaWiki en science, nous avons repéré des application relevant des CRIS comme semanticWeb.org, qui propose un modèle sémantique pour les manifestations. On trouve également des applications visant à créer ou à maintenir des ontologies. Mais, à ce jour, nous n'avons pas trouvé de wikis qui utilisent des ontologies pour manipuler des objets de la science avec une perspective éditoriale. Cela dit, Semantic MediaWiki n'est pas forcément la panacée. SWiM (Lange, 2008), un wiki sémantique dédié à la gestion des connaissances en mathématiques[7] et utilisant une autre source logicielle que MediaWiki, propose une approche intéressante pour la prise en charge des formules mathématiques.

Rédiger différemment dans des contextes différents pour des publics différents

500px-Flag of English language (US-UK).png

Dans le contexte du réseau WICRI, la plupart des données sont appelées à être présentées sur différents wikis. Ainsi, chaque projet de recherche devra être cité et développé sur le wiki régional de chacun des partenaires, ainsi que sur tous les wikis thématiques d'intérêt. Le tableau 1 illustre différentes façons de traiter les relations entre une conférence sur le thème des TIC qui se déroule en Lorraine et les membres de ses comités[8].

TABLE 1: Extrait d'une page relative à une conférence à Nancy.
Les Comités tels qu'ils apparaissent sur toutes les pages.
Program Committee
  • Paul Dupont, Nancy (Fr)
  • John Smith, London (UK)
Organizing Committee
  • Jean Durand, Nancy (Fr)
Codés sur un wiki thématique (par exemple Ticri) wiki.
Les membres du comité de programme (PC members) sont qualifiés par des attributs.
Les membres du Comité d'organisation (OC members) sont traités uniquement avec des liens interwikis
==Program Committee==
*[[Has PC member::Paul Dupont]], Nancy (Fr) 
*[[Has PC member::John Smith]], London (UK)
 ==Organizing Committee== 
*[[wicri-lor.fr:Jean Durand|Jean Durand]], Nancy (Fr)
Codés sur un wiki régional (Lorraine).
Seuls les régionaux sont traités sémantiquement (qu'ils appartiennent à l'un ou l'autre comité).
==Program Committee==
* [[Has PC member::Paul Dupont]], Nancy (Fr) 
* [[ticri.en:John Smith|John Smith]], London (UK)
==Organizing Committee== 
* [[Has OC member::Jean Durand]], Nancy (Fr)

L'exemple suivant est directement lié à la vie du DCMI. Pittsburgh figure au moins sur 3 wikis distincts : sur Wicri/Ticri[9] , la ville apparait en lien avec DC 2010, et les pages qui lui sont consacrées évoquent les principales activités en matière de sciences de l'information qui s'y déroulent. Sur Wicri/Water, ce sont les aspects hydrologiques qui sont mis en avant (comment la confluence des rivières Allegheny et Monongahela forment l'Ohio. Sur Wicri/Wicri, se trouve une présentation plus générale, et regroupe les liens vers les différents wikis où Pittsburgh est citée. Bien que liées à un même thème, ces pages offrent un contenu très différencié.

Dernier exemple, l'article “Qu’est-ce qu’une bibliothèque numérique, au juste?” (Lagoze, 2005) figure sur le wiki Artist, sur lequel figure la traduction originelle[10]. Comme il s'agit d'un article de référence, une copie a été faite sur le wiki Wicri/Ticri, mais les ancres et liens mis en place sont sensiblement différents de ceux qui figurent sur Artist. Enfin, parce que l'introduction de cet article nous semble être d'intérêt général et mériter l'audience la plus large, elle figure également sur Wicri/Wicri

Gérer la cohérence du réseau

500px-Flag of English language (US-UK).png

Maintenir la cohérence du réseau est un enjeu crucial dans le projet Wicri. L'exemple suivant, appliqué aux notations géographiques l'explicite car il touche un grand nombre de pages, et avec des données comme des noms de pays, de villes ou de régions...

FIG. 3. Liens entre les objets géographiques
Cohérence du réseau

Lorsqu'une nouvelle ville est citée sur un wiki donné, le contributeur devrait, en théorie, maintenir la connectivité de l'hypertexte en réseau. La Figure 3 donne l'exemple de Nancy : sur un wiki institutionnel (Artist), la page de Nancy doit être liée aux pages Lorraine, France et Europe du même wiki (pages qui peuvent être à créer). Mais elle peut aussi être liée aux pages consacrées à Nancy sur Wicri/Ticri, Wicri/Wicri et ainsi de suite. Dans un contexte multilingue, ce graphique doit être dupliqué, en prenant garde aux singularités linguistiques[11]. Afin de rester compréhensible pour les lecteurs, cette cohérence doit être indiquée explicitement. Des outils automatisant une partie de cette démarche pourraient permettre de générer une structure initiale, mais les contributeurs devront toujours intervenir afin de rédiger les éléments explicatifs.

Ainsi, le maintien de la cohérence du réseau à l'aide des métadonnées constitue un travail collaboratif qui doit associer des spécialistes et des ordinateurs.

Un wiki pour les auteurs et les contributeurs : Wicri/Métadonnées

500px-Flag of English language (US-UK).png

La plupart des pages d'un wiki sont rédigées par des contributeurs humains, et non par des ordinateurs. Les ordinateurs peuvent apporter une aide, mais, in fine, ce sont bien les contributeurs qui écrivent les pages. Dans un réseau OAI-PMH, les protocoles informatiques partagent les métadonnées contrôlées et apportent de la cohérence. Dans un réseau de wikis, un contributeur peut écrire sur de nombreux wikis et doit interagir avec les métadonnées qui vont donc jouer un rôle crucial. Voici un exemple : comment écrire "DCMI announces that DC-2010 will be held in Pittsburgh" dans un wiki sémantique ? À la lecture du manuel d'utilisation, cela semble facile, il suffit d'entrer quelque chose comme ceci :

[[organizer::DCMI]] announces that DC-2010 will be help in [[place::Pittsburgh]]

En cliquant sur le bouton "Sauvegarder", les relations et, si nécessaire, les propriétés sont créées. Le nœud du problème n'est pas d'ordre syntaxique, mais bien d'ordre sémantique : comment choisir et nommer une propriété de façon adéquate ? Ainsi, à propos du rôle du DCMI à la conférence DC, nous pourrions écrire : organizer, has organizer, has global organizer, DC:contributor, etc[12] Dans le réseau WICRI, le problème que nous avons mis en évidence au sujet de semanticweb.org est distribué sur un réseau.

Ainsi, les aspects suivants doivent également être pris en compte. Comment savoir si une propriété existe dans le modèle sémantique du wiki ? Comment choisir un nouveau nom pour une nouvelle propriété en cohérence avec ceux qui existent déjà ? Dans une famille multilingue de wikis, comment pouvons-nous traduire les éléments de métadonnées ?

Nous proposons donc de mettre en place un wiki traitant de la question des métadonnées, dans une optique encyclopédique. Il existe plusieurs wikis consacrés aux métadonnées sur le Web. Par exemple, le DCMI (Enoksson, 2008) offre un ensemble de wikis mais qui sont généralement dédiés à des spécialistes et, souvent, liés à un schéma particulier. Ici, nous voulons être compris par les non-spécialistes[13] qui doivent faire face à de nombreux sujets en même temps.

Les métadonnées sont liées à un modèle qui peut prendre la forme d'une ontologie. Celui-ci représente la structure du wiki, ses propriétés et ses ressources. Chaque wiki peut mobiliser des modèles qui lui sont spécifiques (c'est par exemple le cas du wiki Wicri/SolsUrbains, qui exploite la classification mondiale des sols (WRB) de la FAO), associés à des modèles génériques (par exemple, le modèle de présentation des événements de la recherche développé par le semanticweb.org).

De plus, certains concepts peuvent coexister dans différentes versions linguistiques. De ce fait, certains wikis peuvent exploiter des concepts proches (voire identiques) mais de façon différenciée. Un wiki a été créé au sein du réseau, nommé Wicri/Base, pour mettre à la disposition de tous, des outils, au nombre desquels des modèles (comme les infobox sémantiques) et des séries de métadonnées. Naturellement, Wicri/Base regroupe uniquement les outils considérés comme stables : le wiki Wicri/Métadonnées est plus spécialement le lieu où ils peuvent être développés et discutés.

Suite

Attention : suite en cours de test et d'installation

Bibliographie

  • Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian (September 2009). "DBpedia - A crystallization point for the Web of Data". Web Semantics: Science, Services and Agents on the World Wide Web 7 (3): 154-165. ISSN 1570-8268
  • Correndo, G., Alani, H., & Smart, P. (2008). A community based approach for managing ontology alignments. In The 7th International Semantic Web Conference (p. 61). From http://eprints.ecs.soton.ac.uk/16673/
  • Ducloy, Jacques, Yann Nicolas, Diane Le Hénaff, Muriel Foulonneau, Luc Grivel, Jean-Paul Ducasse. Metadata towards an e-research cyberinfrastructure: the case of francophone PhD theses. Proceedings of DC 2006, Manzanillo, Mexico, 2006. , from http://dcpapers.dublincore.org/ojs/pubs/article/view/846.
  • EuroCRIS (2009). Recording Research. Report for CRIS seminar September 2009. Retrieved February 10, 2010, from http://www.eurocris.org/fileadmin/Upload/200909.pdf
  • Hodis, Eran (2008), Jaime Prilusky, Eric Martz, Israel Silman, John Moult and Joel L. Sussman. Proteopedia - a scientific 'wiki' bridging the rift between 3D structure and function of biomacromolecules, Genome Biology 2008, doi:10.1186/gb-2008-9-8-r121. From http://genomebiology.com/2008/9/8/R121
  • Jeffery, Keith (2007). Technical Infrastructure and Policy Framework for Maximising the Benefits from Research. Proc. of the 11th Int. Conf. on Electronic Publishing, Vienna, Austria 13 June 2007. Leslie Chan and Bob Martens. ISBN 978-3-85437-292-9, 2007, pp. 1-12, from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.102.5044
  • Krötzsch, Markus, Denny Vrandecic, Max Völkel, Heiko Haller, Rudi Studer (2007). Semantic Wikipedia. In: Journal of Web Semantics 5/2007, pp. 251–261. Elsevier 2007.
  • Lagoze, Carl, Dean Krafft, Sandy Payette, and Susan Jesuroga. (2005, November). What is a digital library anyway, anymore? Beyond search and access in the NSDL. D-Lib Magazine, 11(11). Retrieved, January 10, 2007, from http://www.dlib.org/dlib/november05/lagoze/11lagoze.html.
  • Lamirel, Jean-Charles (2006), and Shadi Al Shehabi. MultiSOM: a multiview neural model for accurately analyzing and mining complex data. In Proceedings of the 4th International Conference on Coordinated & Multiple Views in Exploratory Visualization (CMV), London, UK, July 2006.
  • Lange, Christoph (2008). SWiM – a semantic wiki for mathematical knowledge management. In Sean Bechhofer and al, editors, ESWC, volume 5021 of Lecture Notes in Computer Science, pages 832–837. Springer, 2008.
  • Sarre, S., Foulonneau, M. (2010) "Reusability in e-assessment : Towards a multifaceted approach for managing metadata of e-assessment resources", Fifth International Conference on Internet and Web Applications and Services.
  • Sire, Stéphane (2010), Christine Vanoirbeek, Vincent Quint, Cécile Roisin. Authoring XML all the Time, Everywhere and by Everyone. Proc. of XML Prague 2010, p. 125-149, Institute for Theoretical Computer Science, March 2010.
  • Fabian M. Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: a core of semantic knowledge. In Proceedings of the 16th international conference on World Wide Web (WWW '07). ACM, New York, NY, USA, 697-706. DOI=10.1145/1242572.1242667 http://doi.acm.org/10.1145/1242572.1242667
  • Tifous, A., El Ghali, A., Dieng-Kuntz, R., Giboin, A., Christina, C., and Vidou, G. 2007. An ontology for supporting communities of practice. In Proceedings of the 4th international Conference on Knowledge Capture (Whistler, BC, Canada, October 28 - 31, 2007). D. Sleeman and K. Barker, Eds. K-CAP '07. ACM, New York, NY, 39-46. DOI= http://doi.acm.org/10.1145/1298406.1298415
  • Tudorache, Tania (2008), Natalya F. Noy, Samson Tu and Mark A Musen. Supporting Collaborative Ontology Development in Protégé. In: Lecture Notes In Computer Science; Vol. 5318 archive Proceedings of the 7th International Conference on The Semantic Web

Notes

  1. < http://stats.wikimedia.org/EN/TablesWikipediaEN.htm#namespaces >
  2. L'article a été rédigé de façon collective comme nous avions procédé pour DC 2006 (Ducloy et al. 2006)
  3. L'acronyme CRIS désigne un Current Research Information System, ou, en français, « Système d'Information sur les recherches en cours ». Dans EuroCRIS, 2009 il est défini comme tout outil de gestion d'information qui donne accès et à des éléments relatifs à la recherche comme les personnes, projets, organisations, résultats (publications, brevets et produits), infrastructures et équipements. La Commission Européenne recommande le développement de CRIS à travers la recommandation CERIF (Common European Research Information Format - http://www.euroCRIS.org). Cette philosophie dépasse le cadre européen et est désormais en vigueur, par exemple aux États-Unis au USDA (United States Department of Agriculture - http://cwf.uvm.edu/cris/).
  4. L'installation de l'extension de LaTeX n'est pas immédiate car elle demande la disponibilité d'un environnement LaTeX à l'interface avec le système d'exploitation.
  5. < http://proteopedia.org/wiki/index.php >
  6. Par exemple, la comparaison d'éléments de classification entre plusieurs wikis de la fondation MediaWiki est instructive. Elle montre une dispersion entre 3 modes de classification, voir par exemple pour l'érable (Acer) sur les wikis :
  7. < http://wiki.openmath.org/ >
  8. L'appel à communications est dupliqué sur Wicri/Ticri et Wicri/Lorraine. Le modèle de traitement des manifestations du semanticweb.org est utilisé, avec les propriétés “Has PC member” et “Has OC member”. Paul Dupont, travaillant en Lorraine, est toujours identifié comme faisant partie du comité de programme (“PC member”). Sur Wicri/Lorraine, John Smith est uniquement rattaché à Wicri/Ticri par un lien interwiki, parce qu'il n'a pas de page "Auteur" sur Wicri/Lorraine.
  9. < http://maquettewicri.loria.fr/fr.ticri/index.php5?title=Pittsburgh >
  10. < http://maquettewicri.loria.fr/fr.artist/index.php5?title=Ametist_0_Lagoze >
  11. Par exemple, la page “Lorraine” en français est liée à la page "Lorraine (region)" en anglais.
  12. L'analyse, même rapide, de semanticweb.org illustre clairement cette difficulté. Dans l'espace de nom "Propriétés", on retrouve 773 pages, dont 768 propriétés réelles ; sur ce nombre, 277 pages sont indiquées comme étant des "propriétés recommandées" (sans autres explications). Lorsque l'on recherche DC:creator, on trouve plusieurs variantes. La version conseillée est “Has author” (fréquence : 99). Mais le terme le plus employé est “Author” (1058 occurrences). L'expression “Written by” apparaît 35 fois. “Author of”, “Content author” et “Creator” apparaissent chacun au moins une fois. (Données recueillies le 4 mars 2010).
  13. Par exemple, nous évitons de créer des liens vers des pages qui contiennent quelques centaines de lignes en RDF/XML, censées tenir lieu d'explication...