Métadonnées pour WICRI, un réseau de wikis sémantiques pour les communautés de la recherche et de l'innovation

De Wicri SIC
(Redirigé depuis DC Pittsburgh (2010) Ducloy)

Contribution à DC 2010
Ce texte a été soumis au comité de programme de la conférence DC 2010. Il a été accepté dans la section "report papers".
DC2010Banner.jpg
Son écriture a fait l'objet d'un traitement collectif qui est explicité dans une page tenant lieu de prologue.
Titre original
Metadata for WICRI, a Network of Semantic Wikis for Communities in Research and Innovation
Auteurs
Jacques Ducloy,i Thierry Daunois,ii
Muriel Foulonneau,iii Alice Hermann,iv
Jean-Charles Lamirel,ii Stéphane Sire,v
Jean-Pierre Thomesse,ii Christine Vanoirbeek.v
Présentation Wicri à DC 2010
Résumé
Cet article présente les enjeux des métadonnées dans le cadre du projet WICRI, un réseau de wikis sémantiques pour les communautés de la recherche et de l'innovation. Ce réseau regroupe des wikis relatifs à une thématique scientifique, à une région ou appartenant à une institution. Les métadonnées et éléments sémantiques y jouent un rôle stratégique pour garantir la qualité et assurer la cohérence du réseau. Un point important vient de la façon de travailler sur un wiki où des spécialistes de métadonnées et des scientifiques, habitués à manipuler des formalismes abstraits, peuvent intervenir ensemble sur les mêmes pages et dans la même temporalité. L'article présente quelques premières réflexions sur l'élaboration de métadonnées. Un nouveau wiki sur les métadonnées et à structure encyclopédique est proposé, avec quelques éléments techniques.
Article en version imprimable (anglais) 
Sur le répertoire ARTIST : version finale en pdf

Introduction

500px-Flag of English language (US-UK).png

Depuis 1995 et le lancement par Ward Cunningham de WikiWikiWeb, les wikis occupent une place croissante au sein des systèmes d'information scientifique. Les métadonnées y jouent encore un rôle relativement limité car beaucoup d'applications sont isolées et de taille réduite. Cependant Wikipédia (en langue anglaise), avec ses 3 000 000 d'articles, fait déjà émerger un ensemble de modes d'utilisation de métadonnées. En janvier 2010, les statistiques font ainsi apparaître un volume de 259 000 modèles et 552 000 catégories[1].

Dans un réseau de wikis, la question devient immédiatement plus aigüe. Depuis bientôt 2 ans, nous nous confrontons à la mise en œuvre d'un réseau de wikis sémantiques et, naturellement, au besoin d'un investissement non négligeable sur les aspects métadonnées. Cet article rapporte les premières réflexions issues du démonstrateur WICRI (Wikis des Communautés de la Recherche et de l'Innovation). Ce réseau contient une soixantaine de wikis mais permet déjà de repérer les problèmes qui surviendront avec des milliers de wikis. De plus, il offre un support à l'expérimentation des wikis sémantiques, autrement dit un cadre pour une nouvelle génération de métadonnées pour la modélisation de connaissances dans une approche RDF.

Dans cet article[2], nous présenterons le réseau WICRI et les choix techniques initiaux. Les aspects prospectifs seront présentés sous deux angles : celui du contributeur confronté à la production de métadonnées et celui des concepteurs de nouveaux services.

WICRI, un réseau de wikis pour la recherche et l'innovation

500px-Flag of English language (US-UK).png

L'expérience de Wikipédia montre que la technologie wiki est adaptée à la construction d'une connaissance collective, à grande échelle et avec une diffusion vers un large public. Bien que cette encyclopédie ne soit pas directement adaptée aux besoins de la recherche, elle a donc inspiré nos choix initiaux. Comme la qualité et la fiabilité de l'information contenue dans Wikipédia sont souvent remises en cause par les institutions académiques, nous avons mis en place des dispositifs visant à garantir la transparence des contributions et leur validité scientifique. De même, certaines pratiques de Wikipédia ne pouvaient être conservées. Par exemple Wikipédia demande que toute information soit attestée par une source extérieure. Or les activités de recherches impliquent l'écriture de publications originales. Tout cela nécessite la mise en place de comités scientifiques pour contrôler ou modérer les contributions.

Le réseau WICRI héberge 2 catégories de wikis. La communauté WICRI a pour finalité de produire des wikis communs qui partagent des règles communes. En revanche, une entité institutionnelle peut également ouvrir un wiki institutionnel et le gérer de façon autonome avec des règles qui peuvent être différentes de celles qui régissent les wikis communs.

En pratique, un wiki commun est identifié avec un préfixe du type Wicri/, comme par exemple Wicri/Lorraine. La notation Wicri/Water(fr) repère le membre en langue française d'une famille multilingue et Wicri/Water(en) celui en langue anglaise. Au moment de la rédaction de cet article, le réseau WICRI contient environ 30 wikis communs sur une base régionale comme Wicri/Lorraine ou thématique comme Wicri/Water). Par exemple,Wicri/Ticri est un wiki thématique relatif aux sciences et technologies de l'information (il contient un portail dédié au Dublin Core). Quelques wikis assurent une cohérence globale du réseau. Enfin, Wicri/Wicri, sur lequel tout sujet important doit être mentionné et lié aux pages détaillées sur d'autres wikis, donne une vision globale du réseau.

FIG. 1. Le réseau WICRI (un extrait)
Le réseau WICRI

Les wikis communs contiennent principalement des textes à caractère éditorial comme des articles ou des études. Ils gèrent également d'autres types d'information qui relèvent d'une modélisation de type CRIS[3], comme des comités de programme, des références de laboratoires ou des programmes de financement. Des approches (Jeffery's (2007)) veulent coupler les CRIS avec les archives ouvertes pour obtenir les fondations d'une infrastructure en e-science. Avec WICRI, nous voudrions aller un peu plus loin en offrant à un lecteur humain une vision éditoriale grâce aux possibilités des wikis. De plus, les wikis sémantiques ouvrent une voie pour faire d'un CRIS le squelette d'un tel système d'information. Pour toutes ces raisons, nous avons choisi MediaWiki comme plateforme technique du réseau WICRI. Totalement compatible avec Wikipédia, il permet de plus d'utiliser l'extension Semantic MediaWiki (Krötzsch, 2007), particulièrement bien adaptée à cette problématique.

Écrire dans un réseau d'hypertextes avec des formules et des métadonnées

500px-Flag of English language (US-UK).png

La plupart des systèmes de gestion de contenu conçus avant les blogs et les wikis séparent clairement les activités éditoriales de la programmation ou de l'élaboration de métadonnées. Les scientifiques ayant pour habitude d'écrire principalement des articles brefs et indépendants les uns des autres, les bibliothèques numériques associées aux travaux scientifiques sont souvent réduites à une fonction de stockage de papiers isolés, sans que la question du maintien de la cohérence globale d'un domaine scientifique ne soit prise en compte. Sur un wiki, en revanche, n'importe quel acteur peut intervenir à toutes les phases du processus allant d'activités relevant de la programmation à l'écriture de contenus, et cela, sur n'importe quelle page. Il peut simultanément écrire du texte et faire de l'indexation avec des métadonnées et obtenir ainsi un « hypertexte conçu par un cerveau humain ». Écrire dans un hypertexte scientifique, lisible et distribué sur un réseau demande donc un effort conséquent pour maintenir la cohérence entre des objets scientifiques et des éléments de connaissance dans un contexte où les informations arrivent de façons différenciées et doivent satisfaire des publics diversifiés.

Des wikis sémantiques pour les objets de la science

500px-Flag of English language (US-UK).png

Les scientifiques et les ingénieurs emploient couramment des objets à caractère technique - formules, images en 3 dimensions... Si la couche initiale de MediaWiki est relativement pauvre pour prendre en charge ces objets, des extensions permettent de combler cette lacune - traitement des formules en LaTeX, par exemple[4]. Le projet Proteopedia (Hodis, 2008) va plus loin avec la manipulation d'objets de biologie moléculaire comme des protéines, l'ARN ou des fragments d'ADN[5]. Un internaute peut ainsi utiliser des « liens verts » qui permettent d'interagir sur des représentations 3D par l'intermédiaire d'une applet Java (jmol). La généralisation d'une telle approche demande une intégration plus forte de la modélisation XML, avec l'intervention de contributeurs ayant acquis une solide pratique des langages de balisage. Ceux-ci ne devraient pas avoir de problèmes particuliers avec la syntaxe des déclarations de métadonnées ou des expressions sémantiques. La vraie difficulté viendra avec l'élaboration collaborative d'une connaissance globale[6].

Concernant plus particulièrement l'utilisation de Semantic MediaWiki en science, nous avons repéré des application relevant des CRIS comme semanticWeb.org, qui propose un modèle sémantique pour les manifestations. On trouve également des applications visant à créer ou à maintenir des ontologies. Mais, à ce jour, nous n'avons pas trouvé de wikis qui utilisent des ontologies pour manipuler des objets de la science avec une perspective éditoriale. Cela dit, Semantic MediaWiki n'est pas forcément la panacée. SWiM (Lange, 2008), un wiki sémantique dédié à la gestion des connaissances en mathématiques[7] et utilisant une autre source logicielle que MediaWiki, propose une approche intéressante pour la prise en charge des formules mathématiques.

Rédiger différemment dans des contextes différents pour des publics différents

500px-Flag of English language (US-UK).png

Dans le contexte du réseau WICRI, la plupart des données sont appelées à être présentées sur différents wikis. Ainsi, chaque projet de recherche devra être cité et développé sur le wiki régional de chacun des partenaires, ainsi que sur tous les wikis thématiques d'intérêt. Le tableau 1 illustre différentes façons de traiter les relations entre une conférence sur le thème des TIC qui se déroule en Lorraine et les membres de ses comités[8].

TABLE 1: Extrait d'une page relative à une conférence à Nancy.
Les Comités tels qu'ils apparaissent sur toutes les pages.
Program Committee
  • Paul Dupont, Nancy (Fr)
  • John Smith, London (UK)
Organizing Committee
  • Jean Durand, Nancy (Fr)
Codés sur un wiki thématique (par exemple Ticri) wiki.
Les membres du comité de programme (PC members) sont qualifiés par des attributs.
Les membres du Comité d'organisation (OC members) sont traités uniquement avec des liens interwikis
==Program Committee==
*[[Has PC member::Paul Dupont]], Nancy (Fr) 
*[[Has PC member::John Smith]], London (UK)
 ==Organizing Committee== 
*[[wicri-lor.fr:Jean Durand|Jean Durand]], Nancy (Fr)
Codés sur un wiki régional (Lorraine).
Seuls les régionaux sont traités sémantiquement (qu'ils appartiennent à l'un ou l'autre comité).
==Program Committee==
* [[Has PC member::Paul Dupont]], Nancy (Fr) 
* [[ticri.en:John Smith|John Smith]], London (UK)
==Organizing Committee== 
* [[Has OC member::Jean Durand]], Nancy (Fr)

L'exemple suivant est directement lié à la vie du DCMI. Pittsburgh figure au moins sur 3 wikis distincts : sur Wicri/Ticri[9] , la ville apparait en lien avec DC 2010, et les pages qui lui sont consacrées évoquent les principales activités en matière de sciences de l'information qui s'y déroulent. Sur Wicri/Water, ce sont les aspects hydrologiques qui sont mis en avant (comment la confluence des rivières Allegheny et Monongahela forment l'Ohio. Sur Wicri/Wicri, se trouve une présentation plus générale, et regroupe les liens vers les différents wikis où Pittsburgh est citée. Bien que liées à un même thème, ces pages offrent un contenu très différencié.

Dernier exemple, l'article “Qu’est-ce qu’une bibliothèque numérique, au juste?” (Lagoze, 2005) figure sur le wiki Artist, sur lequel figure la traduction originelle[10]. Comme il s'agit d'un article de référence, une copie a été faite sur le wiki Wicri/Ticri, mais les ancres et liens mis en place sont sensiblement différents de ceux qui figurent sur Artist. Enfin, parce que l'introduction de cet article nous semble être d'intérêt général et mériter l'audience la plus large, elle figure également sur Wicri/Wicri

Gérer la cohérence du réseau

500px-Flag of English language (US-UK).png

Maintenir la cohérence du réseau est un enjeu crucial dans le projet Wicri. L'exemple suivant, appliqué aux notations géographiques l'explicite car il touche un grand nombre de pages, et avec des données comme des noms de pays, de villes ou de régions...

FIG. 3. Liens entre les objets géographiques
Cohérence du réseau

Lorsqu'une nouvelle ville est citée sur un wiki donné, le contributeur devrait, en théorie, maintenir la connectivité de l'hypertexte en réseau. La Figure 3 donne l'exemple de Nancy : sur un wiki institutionnel (Artist), la page de Nancy doit être liée aux pages Lorraine, France et Europe du même wiki (pages qui peuvent être à créer). Mais elle peut aussi être liée aux pages consacrées à Nancy sur Wicri/Ticri, Wicri/Wicri et ainsi de suite. Dans un contexte multilingue, ce graphique doit être dupliqué, en prenant garde aux singularités linguistiques[11]. Afin de rester compréhensible pour les lecteurs, cette cohérence doit être indiquée explicitement. Des outils automatisant une partie de cette démarche pourraient permettre de générer une structure initiale, mais les contributeurs devront toujours intervenir afin de rédiger les éléments explicatifs.

Ainsi, le maintien de la cohérence du réseau à l'aide des métadonnées constitue un travail collaboratif qui doit associer des spécialistes et des ordinateurs.

Un wiki pour les auteurs et les contributeurs : Wicri/Métadonnées

500px-Flag of English language (US-UK).png

La plupart des pages d'un wiki sont rédigées par des contributeurs humains, et non par des ordinateurs. Les ordinateurs peuvent apporter une aide, mais, in fine, ce sont bien les contributeurs qui écrivent les pages. Dans un réseau OAI-PMH, les protocoles informatiques partagent les métadonnées contrôlées et apportent de la cohérence. Dans un réseau de wikis, un contributeur peut écrire sur de nombreux wikis et doit interagir avec les métadonnées qui vont donc jouer un rôle crucial. Voici un exemple : comment écrire "DCMI announces that DC-2010 will be held in Pittsburgh" dans un wiki sémantique ? À la lecture du manuel d'utilisation, cela semble facile, il suffit d'entrer quelque chose comme ceci :

[[organizer::DCMI]] announces that DC-2010 will be help in [[place::Pittsburgh]]

En cliquant sur le bouton "Sauvegarder", les relations et, si nécessaire, les propriétés sont créées. Le nœud du problème n'est pas d'ordre syntaxique, mais bien d'ordre sémantique : comment choisir et nommer une propriété de façon adéquate ? Ainsi, à propos du rôle du DCMI à la conférence DC, nous pourrions écrire : organizer, has organizer, has global organizer, DC:contributor, etc[12] Dans le réseau WICRI, le problème que nous avons mis en évidence au sujet de semanticweb.org est distribué sur un réseau.

Ainsi, les aspects suivants doivent également être pris en compte. Comment savoir si une propriété existe dans le modèle sémantique du wiki ? Comment choisir un nouveau nom pour une nouvelle propriété en cohérence avec ceux qui existent déjà ? Dans une famille multilingue de wikis, comment pouvons-nous traduire les éléments de métadonnées ?

Nous proposons donc de mettre en place un wiki traitant de la question des métadonnées, dans une optique encyclopédique. Il existe plusieurs wikis consacrés aux métadonnées sur le Web. Par exemple, le DCMI (Enoksson, 2008) offre un ensemble de wikis mais qui sont généralement dédiés à des spécialistes et, souvent, liés à un schéma particulier. Ici, nous voulons être compris par les non-spécialistes[13] qui doivent faire face à de nombreux sujets en même temps.

Les métadonnées sont liées à un modèle qui peut prendre la forme d'une ontologie. Celui-ci représente la structure du wiki, ses propriétés et ses ressources. Chaque wiki peut mobiliser des modèles qui lui sont spécifiques (c'est par exemple le cas du wiki Wicri/SolsUrbains, qui exploite la classification mondiale des sols (WRB) de la FAO), associés à des modèles génériques (par exemple, le modèle de présentation des événements de la recherche développé par le semanticweb.org).

De plus, certains concepts peuvent coexister dans différentes versions linguistiques. De ce fait, certains wikis peuvent exploiter des concepts proches (voire identiques) mais de façon différenciée. Un wiki a été créé au sein du réseau, nommé Wicri/Base, pour mettre à la disposition de tous, des outils, au nombre desquels des modèles (comme les infobox sémantiques) et des séries de métadonnées. Naturellement, Wicri/Base regroupe uniquement les outils considérés comme stables : le wiki Wicri/Métadonnées est plus spécialement le lieu où ils peuvent être développés et discutés.

Représenter les sources d'information de la recherche

500px-Flag of English language (US-UK).png

La fonction principale de Wicri/Métadonnées est de regrouper toutes les informations disponibles concernant les métadonnées liées aux sources d'information scientifique.

Ce rôle doit se concevoir à la fois dans le cadre de la démarche des CRIS (Current Research Information System) et en intégrant le fonctionnement des principaux entrepôts de données de recherche. La représentation des sources de la recherche doit être adaptée au domaine concerné, intégrer les concepts issus des CRIS et des systèmes d'organisation de la connaissance (KOS), qu'ils soient génériques ou spécifiques à un champ disciplinaire donné (voir, par exemple, Tifous, 2007). Elle doit également intégrer les formats de bibliographie (MARC ou DCMI Scholarly Work Application Profile), les modèles de formatage de données dans divers domaines (TEI, DDI, LOM, FOAF)... Dans un tel ensemble de schémas, un même concept peut être représenté de différentes façons, sous des angles complémentaires.

Wicri/Métadonnées doit permettre d'expliciter cette situation, pour en extraire des modèles stables, ou faciliter le multilinguisme (par exemple, l'attribut "A pour ville" est adapté de la propriété "Property:Has location city").

Assurer l'interopérabilité sémantique avec les autres applications

500px-Flag of English language (US-UK).png

Une stratégie intéressante consiste à trouver une "ontologie noyau" (kernel) qui puisse être utilisée sans adaptation majeure. Dans ce cas, seules les extensions doivent être expliquées dans Wicri/Metadata. Cette approche permet d'assurer un bon niveau d'interopérabilité avec d'autres applications sémantiques. Par exemple, WICRI fonctionne de cette manière pour le modèle de conférences en utilisant le modèle d'OpenResearch.org et des adaptations locales.

Cette stratégie est généralisée pour décrire les contenus scientifiques. WICRI utilise ainsi Eurovoc[14] comme ontologie générale, qui devrait être complétée par des ontologies de domaine, telles que WRB. Certaines bases, telles que OntologyPattern[15] ou Watson[16] peuvent être utilisées pour rechercher des ontologies de domaine. Cependant, les créateurs de métadonnées devront toujours chercher des propriétés spécifiques et parfois, ils trouveront des propriétés proches mais pas exactement similaires.

Cela soulève à nouveau la question des relations entre les concepts définis dans des modèles différents.

Le wiki peut-il devenir un registre de métadonnées ?

500px-Flag of English language (US-UK).png

Jusqu'à présent, le projet WICRI a choisi de définir des redirections (relations owl:sameAs) avec des concepts provenant de bases d'ontologies. Cependant, dans ce cas, la stricte équivalence entre deux concepts est rare. La création de relations entre les concepts nécessite d'encoder des relations plus riches, telles que les propriétés d'équivalence de SKOS skos:exactMatch, skos:closeMatch... Des mécanismes collaboratifs de création d'équivalences entre ontologies (Correndo, 2008) devraient être mis en œuvre. Ainsi n'importe quel contributeur créant un nouveau concept de métadonnées ou identifiant une nouvelle relation devrait être capable d'enrichir le système.

Cela devrait finalement prendre la forme d'un registre de métadonnées mis en œuvre dans un wiki, avec cependant quelques spécificités. L'architecture des wikis permet de mélanger des contenus structurés et des contenus non structurés. Ainsi des concepts scientifiques pourraient être représentés par des définitions traditionnelles, mais aussi par référence à de la littérature scientifique, des guides et recommandations, etc. Ceci est particulièrement important dans un contexte de multilinguisme, comme il est observé dans le réseau WICRI et sur d'autres plate-formes scientifiques collaboratives.

Une étude des concepts utilisés pour décrire les ressources dans un domaine de l'éducation (Sarre, 2010) montre que de nombreux concepts proposés comme métadonnées pour ce domaine ne sont pas totalement définis. Il s'agit de schémas de métadonnées, mais aussi de concepts définis dans des articles scientifiques, des guides... Il devrait donc être possible d'ajouter des concepts, même en dehors du cadre d'une ontologie pleinement spécifiée.

Enfin, les wikis sémantiques apportent un certain niveau d'intelligence qui permet de réaliser des inférences sur les relations potentielles ou existantes entre les concepts utilisés sur le réseau. Le réseau de wikis n'est donc pas seulement une interface vers les CRIS et les bases de données de la recherche. Il transforme les contenus scientifiques et les éléments de la communication scientifique en composants du Web sémantique par sa capacité à produire des ressources déréférençables et des mécanismes de raisonnement dans un environnement décentralisé et collaboratif.

Métadonnées pour les ordinateurs

500px-Flag of English language (US-UK).png

Le mode de fonctionnement des wikis met le contributeur au cœur du système d'information. Quel rôle l'ordinateur doit-t-il jouer à présent ?

Les réseaux et les applications wikis distribuées

500px-Flag of English language (US-UK).png

La gestion des réplications d'informations sur une ensemble de wikis distribués sur un réseau est un point fondamental (Rahhal, 2009). Nous avons identifié 5 types de situations.

  1. Réplication globale de wikis. Un wiki dans son ensemble est dupliqué dans un réseau avec des mécanismes de réplication de type P2P. Ce dispositif peut s'avérer utile mais dans des situations relativement limitées. Sur un plan technique, pour des raisons de disponibilité, il peut être pertinent de dupliquer un wiki stratégique tel que Wicri/Wicri. De même, sur un plan « politique », il peut répondre aux désirs de deux institutions qui cherchent à bénéficier de la visibilité d'un wiki. Mais cela ne concerne pas les aspects éditoriaux ni ceux qui sont liés aux métadonnées.
  2. Réplication de pages. Une page (ou un groupe de pages) est répliquée sur plusieurs wikis. Ce dispositif ne concerne que des pages invariables comme par exemple les modèles relatifs aux aspects sémantiques. Cette possibilité commence à être implantée comme par exemple avec DSMW[17] où le mécanisme de réplication est conduit par des métadonnées (attributs sémantiques).
  3. Réplication de paragraphes. Jusqu'à maintenant, nous n'avons pas trouvé une extension de Semantic Mediawiki susceptible d'étendre le mécanisme précédent au niveau des paragraphes. Or, ce type de besoin est extrêmement fréquent dans un réseau de wikis. Un palliatif consiste à créer un modèle pour chaque paragraphe à dupliquer. Mais ceci n'est pas généralisable pour des contributions réalisées par des êtres humains (il faudrait alors créer par exemple une page modèle pour chaque référence bibliographique d'un article).
  4. Réplication de paragraphes, avec transformations. Dans bien des cas le mécanisme précédent s'avère insuffisant car le paragraphe doit être (légèrement) transformé dans la réplication. Par exemple, pour des raisons éditoriales, le traitement des membres d'un comité d'organisation est différent pour un wiki régional et sur un wiki thématique. Dans le premier cas des liens sémantiques sont établis vers les acteurs locaux mais pas forcément dans l'autre.
  5. Réplication avec transformations d'un ensemble de plusieurs pages. Une telle situation a été montrée plus haut avec les entités géographiques.

Compte tenu de cet ensemble de problèmes non résolus, nous devons oublier la notion de système totalement automatisé pour penser en termes de « écriture hypertexte assistée par ordinateur »

Maintenir la cohérence globale du réseau WICRI

500px-Flag of English language (US-UK).png

Pour maintenir la cohérence globale du réseau, une première approche consiste à étendre les commandes déjà disponible au niveau d'un wiki. La consolidation au niveau du réseau est réalisée par des robots pilotés par la description XML du réseau.

<wicri>
  <wiki prefix="wicri.fr" type="public" title="Wicri (en)"
        server="http://maquettewicri.loria.fr" path="/en.wicri/index.php5?">
<recentChanges title="Special:Recent_changes"/></wiki></wicri>
FIG 4. Description en XML du réseau WICRI, utilisée pour piloter un robot chargé de consolider des services comme « Modifications récentes » (« RecentChanges ») au niveau du réseau.

Dans une approche plus prospective, nous voudrions utiliser des applications spécialisées en interaction avec le réseau de wikis. Par exemple, la construction d'une ontologie géographique n'est pas très fiable dès lors que peuvent intervenir simultanément des administrateurs, des robots mais également des contributeurs non spécialistes. Il parait alors préférable d'utiliser un outil spécialisé tel que Protégé pour garantir la cohérence. Dans cette perspective, des travaux relatifs à la construction collaborative d'ontologies (Tudorache, 2008) sont prometteurs.

Concernant les interfaces homme machine, les formulaires (semantic forms) de Semantic MediaWiki sont parfois utiles, par exemple pour saisir une page contenant une notice bibliographique. Malheureusement elles apparaissent insuffisantes dans un contexte éditorial. Il faudrait pouvoir utiliser des éditeurs XML, et par exemple, XTiger (Sire, 2010). Mais cela demande une meilleur traitement des objets XML par MediaWiki.

Le développement d'outils ou d'extensions tels que « structurer une page wiki en TEI » ou « implémenter des modèles avec des listes de paramètres » sont fondamentaux mais vont demander une planification à moyen terme.

Pour aider le contributeur à court terme, dans une approche un peu différente, nous pouvons l'aider à découvrir les informations nécessaires lorsqu'il démarre une nouvelle page.

Enrichir les contenus par l'importation de données du Web

500px-Flag of English language (US-UK).png

L'exploitation de Web représente un défi important pour augmenter la dynamicité, la flexibilité et la portée d'un réseau de wiki. D'une part, ce processus est obligatoire pour guider les contributeurs potentiels pendant la phase de construction de réseau en leur fournissant des directives élaborées et fiables de rédaction. D'autre part, il est également décisif pour proposer aux utilisateurs finaux de l'information exterieure au réseau dont la valeur ajoutée est de maintenir des rapports étroits avec le contexte sémantique de ce dernier.

Du point de vue des utilisateurs finaux, l'interrogation du Web a pour but de compléter et d'enrichir l'information relative à l'ensemble des thématiques présentes dans le contexte sémantique de réseau de wiki. Le réseau peut ainsi être considéré comme un support structuré d'information permettant faciliter la mise en oeuvre de processus d'interrogation et de fouille intelligente du Web, en exploitant notamment des processus de classification non supervisé (Lamirel, 2006). Du point de vue des auteurs, les rôles sémantiques utiles à la gestion du squelette structurel du réseau peuvent être identifiés en collectant et en traitant un grand nombre de données non structurées du Web. La synthèse et l'organisation des résultats de collecte peut également se fonder sur l'exploitation de processus de classification non supervisée, en combination avec l'utilisation des méta-données du réseau de wiki et celle de sources extérieures d'annotation, avec comme objectif objectif final de faciliter les décisions des auteurs.

Dans notre contexte, une tâche importante et récurrente est celle de découvrir les acteurs principaux et les institutions de référence d'un domaine. Ceci implique de mettre en lumière leurs divers rôles potentiels dans le dit domaine, aussi bien que pour caractériser la nature de leurs rapports dans les réseaux sociaux associés à leurs disciplines. Ce genre d'information ne peut être obtenue par un processus d'interrogation à large portée ramenant une quantité d'information suffisante, de manière à produire à la fois des hypothèses et des conclusions fiables. Cela revient à considérer que l'accès intelligent et guidé aux données externes peut être facilité par l'exploitation des méta-données existantes du wiki. Un des principaux défi est ainsi de pouvoir isoler l'information stratégique pour le wiki, comme les auteurs ou des noms d'établissement dans un flux de données non formatées. Cette approche se fonde elle-même sur le domaine global des techniques automatisées d'étiquetage d'entités nommées. Les approches statistiques courantes qui pourraient être employées dans ce contexte impliquent d'exploiter une grande quantité de données pré-annotées pour apprendre toutes les formes possibles d' entités nommées. Dans ce cas, il est ainsi nécessaire d'étiqueter un corpus, qui servira d'outil d'aprentissage. Puisque cette tâche est tout à fait exorbitante avec les ressources humaines limitées, des initiatives récentes telles de DBpedia (Bizer, 2009) ou Yago (Suchanek, 2009) ont pour but de fournir les corpus sémantiques pour aider à concevoir les outils d'étiquetage. Dans le même esprit, une ontologie sémantique, telle que NLGbAse [18], est en grande partie orientée vers l'étiquetage. Dans notre propre cas, le réseau de WICRI peut lui-même également jouer le rôle d'une base de données de référence particulièrement riche pour identifier de l'information d'étiquetage fiable.

Conclusion

500px-Flag of English language (US-UK).png

Il y a 18 mois nous avons lancé le démonstrateur WICRI pour montrer l'enjeu stratégique de l'approche wiki pour les communautés de la recherche et de l'innovation. Le besoin d'une organisation en réseau est apparu très rapidement et a été confirmé par la mise en route d'un ensemble de wikis autour de la thématique environnement. Ce faisant, nous avons été confrontés, et nous le sommes toujours, à de nombreuses difficultés pour lesquelles nous avons souvent du apporter des réponses partielles et insatisfaisantes. Cependant nous sommes convaincu que l'approche réseau est clairement meilleure même si elle est plus complexe à mettre en œuvre que la simple collection de services isolés.

Wicri/Métadonnées
Au delà de la création du wiki sur les métadonnées, cet article a été à l'origine de nombreuses évolution du réseau Wicri.
Pour en savoir plus...

La qualité et la cohérence du réseau sont corrélées avec celles des métadonnées. D'un point de vue technique, Semantic Mediawiki permet de franchir une étape dans une approche centrée sur les données. Plus précisément, un wiki se comporte comme un système de gestion de contenu (CMS) avec une structure très légère : un ensemble de pages en HTML. Les annotation RDF ou les micro formats apporte un enrichissement certain. Cela dit, une meilleure prise en compte de la structuration XML apparait comme fondamentale pour aller au delà.

Au niveau des pratiques, un wiki apporte un espace de collaboration entre spécialistes. De nombreux scientifiques manipulent déjà des formalismes solides comme par exemple LaTeX. Leur expérience ouvre une perspective rapide à mettre en œuvre pour l'amélioration des métadonnées et des modèles sémantiques du réseau WICRI.

Bibliographie

  • Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian (September 2009). "DBpedia - A crystallization point for the Web of Data". Web Semantics: Science, Services and Agents on the World Wide Web 7 (3): 154-165. ISSN 1570-8268
  • Correndo, G., Alani, H., & Smart, P. (2008). A community based approach for managing ontology alignments. In The 7th International Semantic Web Conference (p. 61). From http://eprints.ecs.soton.ac.uk/16673/
  • Ducloy, Jacques, Yann Nicolas, Diane Le Hénaff, Muriel Foulonneau, Luc Grivel, Jean-Paul Ducasse. Metadata towards an e-research cyberinfrastructure: the case of francophone PhD theses. Proceedings of DC 2006, Manzanillo, Mexico, 2006. , from http://dcpapers.dublincore.org/ojs/pubs/article/view/846.
  • EuroCRIS (2009). Recording Research. Report for CRIS seminar September 2009. Retrieved February 10, 2010, from http://www.eurocris.org/fileadmin/Upload/200909.pdf
  • Hodis, Eran (2008), Jaime Prilusky, Eric Martz, Israel Silman, John Moult and Joel L. Sussman. Proteopedia - a scientific 'wiki' bridging the rift between 3D structure and function of biomacromolecules, Genome Biology 2008, doi:10.1186/gb-2008-9-8-r121. From http://genomebiology.com/2008/9/8/R121
  • Jeffery, Keith (2007). Technical Infrastructure and Policy Framework for Maximising the Benefits from Research. Proc. of the 11th Int. Conf. on Electronic Publishing, Vienna, Austria 13 June 2007. Leslie Chan and Bob Martens. ISBN 978-3-85437-292-9, 2007, pp. 1-12, from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.102.5044
  • Krötzsch, Markus, Denny Vrandecic, Max Völkel, Heiko Haller, Rudi Studer (2007). Semantic Wikipedia. In: Journal of Web Semantics 5/2007, pp. 251–261. Elsevier 2007.
  • Lagoze, Carl, Dean Krafft, Sandy Payette, and Susan Jesuroga. (2005, November). What is a digital library anyway, anymore? Beyond search and access in the NSDL. D-Lib Magazine, 11(11). Retrieved, January 10, 2007, from http://www.dlib.org/dlib/november05/lagoze/11lagoze.html.
  • Lamirel, Jean-Charles (2006), and Shadi Al Shehabi. MultiSOM: a multiview neural model for accurately analyzing and mining complex data. In Proceedings of the 4th International Conference on Coordinated & Multiple Views in Exploratory Visualization (CMV), London, UK, July 2006.
  • Lange, Christoph (2008). SWiM – a semantic wiki for mathematical knowledge management. In Sean Bechhofer and al, editors, ESWC, volume 5021 of Lecture Notes in Computer Science, pages 832–837. Springer, 2008.
  • Rahhal, Charbel (2009), Hala Skaf-Molli, Pascal Molli and Stéphane Weiss: Multi-synchronous Collaborative Semantic Wikis. In Wise'09: International Conference on Web Information Systems, 2009. Retrieved, February 2010,
    from http://www.loria.fr/~molli/pmwiki/uploads/Main/Skaf09wise.pdf
  • Sarre, S., Foulonneau, M. (2010) "Reusability in e-assessment : Towards a multifaceted approach for managing metadata of e-assessment resources", Fifth International Conference on Internet and Web Applications and Services.
  • Sire, Stéphane (2010), Christine Vanoirbeek, Vincent Quint, Cécile Roisin. Authoring XML all the Time, Everywhere and by Everyone. Proc. of XML Prague 2010, p. 125-149, Institute for Theoretical Computer Science, March 2010.
  • Fabian M. Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: a core of semantic knowledge. In Proceedings of the 16th international conference on World Wide Web (WWW '07). ACM, New York, NY, USA, 697-706. DOI=10.1145/1242572.1242667 http://doi.acm.org/10.1145/1242572.1242667
  • Tifous, A., El Ghali, A., Dieng-Kuntz, R., Giboin, A., Christina, C., and Vidou, G. 2007. An ontology for supporting communities of practice. In Proceedings of the 4th international Conference on Knowledge Capture (Whistler, BC, Canada, October 28 - 31, 2007). D. Sleeman and K. Barker, Eds. K-CAP '07. ACM, New York, NY, 39-46. DOI= http://doi.acm.org/10.1145/1298406.1298415
  • Tudorache, Tania (2008), Natalya F. Noy, Samson Tu and Mark A Musen. Supporting Collaborative Ontology Development in Protégé. In: Lecture Notes In Computer Science; Vol. 5318 archive Proceedings of the 7th International Conference on The Semantic Web

Notes

  1. < http://stats.wikimedia.org/EN/TablesWikipediaEN.htm#namespaces >
  2. L'article a été rédigé de façon collective comme nous avions procédé pour DC 2006 (Ducloy et al. 2006)
  3. L'acronyme CRIS désigne un Current Research Information System, ou, en français, « Système d'information sur les recherches en cours ». Dans EuroCRIS, 2009 il est défini comme tout outil de gestion d'information qui donne accès et à des éléments relatifs à la recherche comme les personnes, projets, organisations, résultats (publications, brevets et produits), infrastructures et équipements. La Commission Européenne recommande le développement de CRIS à travers la recommandation CERIF (Common European Research Information Format - http://www.euroCRIS.org). Cette philosophie dépasse le cadre européen et est désormais en vigueur, par exemple aux États-Unis au USDA (United States Department of Agriculture - http://cwf.uvm.edu/cris/).
  4. L'installation de l'extension de LaTeX n'est pas immédiate car elle demande la disponibilité d'un environnement LaTeX à l'interface avec le système d'exploitation.
  5. < http://proteopedia.org/wiki/index.php >
  6. Par exemple, la comparaison d'éléments de classification entre plusieurs wikis de la fondation MediaWiki est instructive. Elle montre une dispersion entre 3 modes de classification, voir par exemple pour l'érable (Acer) sur les wikis :
  7. < http://wiki.openmath.org/ >
  8. L'appel à communications est dupliqué sur Wicri/Ticri et Wicri/Lorraine. Le modèle de traitement des manifestations du semanticweb.org est utilisé, avec les propriétés “Has PC member” et “Has OC member”. Paul Dupont, travaillant en Lorraine, est toujours identifié comme faisant partie du comité de programme (“PC member”). Sur Wicri/Lorraine, John Smith est uniquement rattaché à Wicri/Ticri par un lien interwiki, parce qu'il n'a pas de page "Auteur" sur Wicri/Lorraine.
  9. < http://maquettewicri.loria.fr/fr.ticri/index.php5?title=Pittsburgh >
  10. < http://maquettewicri.loria.fr/fr.artist/index.php5?title=Ametist_0_Lagoze >
  11. Par exemple, la page “Lorraine” en français est liée à la page "Lorraine (region)" en anglais.
  12. L'analyse, même rapide, de semanticweb.org illustre clairement cette difficulté. Dans l'espace de nom "Propriétés", on retrouve 773 pages, dont 768 propriétés réelles ; sur ce nombre, 277 pages sont indiquées comme étant des "propriétés recommandées" (sans autres explications). Lorsque l'on recherche DC:creator, on trouve plusieurs variantes. La version conseillée est “Has author” (fréquence : 99). Mais le terme le plus employé est “Author” (1058 occurrences). L'expression “Written by” apparaît 35 fois. “Author of”, “Content author” et “Creator” apparaissent chacun au moins une fois. (Données recueillies le 4 mars 2010).
  13. Par exemple, nous évitons de créer des liens vers des pages qui contiennent quelques centaines de lignes en RDF/XML, censées tenir lieu d'explication...
  14. < http://europa.eu/eurovoc/ >
  15. < http://ontologydesignpatterns.org >
  16. < http://ontologydesignpatterns.org >
  17. Distributed Semantic Media Wiki < http://m3p.gforge.inria.fr/pmwiki/pmwiki.php >
  18. < http://www.nlgbase.org/publi.html >

Voir aussi

Liens interwikis