Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Mémoire de fin d’études du Master deuxième année, spécialité IST-IE 2011-2012

De H2PTM
 
Titre
  • Sujet de stage : Réédition en mode hypertexte sémantique des actes de la conférence H2PTM.
  • Sujet de recherche : De l'hypertexte au réseau sémantique, l'intérêt du wiki.
Auteur
Ali Tebbakh
Affiliations
Étudiant en master 2 IST-IE à l'Université de Lorraine et stagiaire à l'INIST-CNRS de Nancy
  • tebbakhali@gmail.com

Sommaire

Résumé

L’équipe SENN (Service Edition Numérique Numérisation) dans laquelle j’ai effectué un stage de cinq mois, fait partie du pôle Recherche et Développement, Appui au Pilotage et Services à la Recherche de l’INIST (Institut de l’Information Scientifique et Technique), et travaille en collaboration étroite avec l’équipe Wicri sur l’opération H2PTM, objet même de mon sujet de stage. C’est suite à une expérience de développement de wikis sémantiques et des apports, de ces derniers, aux archives de colloques qu’est né le projet H2PTM.

Ce stage a été aussi, l’occasion pour ma part, de travailler sur un sujet de recherche « De l'hypertexte au réseau sémantique, l'intérêt du wiki ». En effet, par un temps où l’outil informatique est devenu un moyen de recherche, par excellence, le Libre Accès aux informations issues de la recherche scientifique et technique est devenu crucial. Aussi, la connaissance de toutes les techniques utiles à la mise à disposition, et à l’exploitation optimale de toutes les données disponibles sur le Web trouve son intérêt, chez les spécialistes. J’ai tâché alors à faire une étude systémique faisant le lien entre les deux sujets.

Mots-clés 
Wiki sémantique; Web sémantique; Intelligence collective; Libre accès; Wiki, Information; Ontologie; H2PTM; Wicri; Ticri.




« J’ai un double rêve pour le Web.D’une part, je le vois devenir un moyen très puissant de coopération entre les
êtres humains. Et dans un second temps, j’aimerais que ce soit les ordinateurs qui coopèrent. Quand mon rêve
sera réalisé,le Web sera un univers où la fantaisie de l’être humain et la logique de la machine pourront coexister
pour former un mélange idéal et puissant
Tim Berners-Lee




Remerciement

Ce stage est ma première réelle expérience en milieu professionnel dans ma spécialité. Aussi, je tiens à remercier toutes les personnes qui m’ont encadré tout au long de mon stage à l’INIST- CNRS, et qui m’ont permis d’acquérir tout ce que je connais désormais sur le métier de l’édition numérique et sur les wikis sémantiques.

Je tiens à exprimer toute ma gratitude à M. Jacques Ducloy, à Mmes Catherine Morel-Pair et Sylvie Steffann qui m’ont permis de passer mon stage au sein de l’INIST- CNRS et de m’avoir donné cette chance de participer au grand projet H2PTM, qui est au service de la communauté de recherche et surtout de la communauté française d’hypertexte.

Mes remerciements vont aussi à M. Stéphane Goria pour avoir accepté d’être mon tuteur-enseignant et aussi à Mme Sylvie STEFFANN, ma tutrice de stage. Je les remercie aussi pour leur patience et leur disponibilité.

Je remercie encore MM. Jacques DUCLOY et Thierry DAUNOIS pour la confiance qu’ils m’ont accordé, pour le temps précieux qu’ils m’ont consacré et pour m’avoir formé tout au long des tâches qu’ils m’ont confiées.

J’ai été bien encadré par l’équipe Wicri et par le Service d’Edition Numérique et Numérisation, et toutes mes questions avaient une réponse rapide.

Je remercie également M. Philipe HOUDRY pour ses encouragements.

Mes remerciements vont aussi à Adela QUESADA, à Souad BENNANI et à mon père.

Introduction

J’ai été encadré, durant mon stage de fin d’études à l’INIST-CNRS, par l’équipe Wicri et par le Service d’Edition Numérique et Numérisation ; j’ai alors eu la chance de participer au grand projet H2PTM, qui est au service de la communauté de recherche et surtout de la communauté française d’hypertexte.

Dans un premier temps, je vais vous présenter la première partie de ce travail, consacrée à mon sujet de stage qui porte sur la « Réédition en mode hypertexte sémantique des actes de la conférence H2PTM». Je commencerai par présenter l’historique du projet Wicri depuis la genèse jusqu’à la définition des ambitions du projet ; puis, je parlerai du lieu de mon stage et de l’équipe d’accueil, avant de présenter le contexte général de l’opération H2PTM et des différentes tâches et missions du stage qui m’ont été confiées par les équipes d’encadrement , le processus d’intelligence économique et son application au cours du stage. Pour finir, je citerai les difficultés rencontrées ainsi que les apports personnels sur le rapport de stage, à proprement parler.

Dans une seconde partie, je vous proposerai une réflexion sur mon mémoire de recherche intitulé : « De l'hypertexte au réseau sémantique, l'intérêt du wiki ». Devant l’importance croissante des bases de données disponibles sur le Web, il est devenu indispensable de recenser l’existant et de mettre en avant l’intérêt du wiki pour une publication d’articles scientifiques et techniques, assurant une meilleure présentation et exploitation optimale des informations. Après une présentation du contexte, j’enchainerai sur un historique du Web, puis sur la définition des concepts. Un point sera consacré aux projets des wikis sémantiques et puis leurs apports. Je terminerai par l’évocation des contraintes et des limites, avant de conclure.

Première partie : Rapport de stage

Introduction

La première partie de ce travail est consacrée à mon sujet de stage, intitulé : « Réédition en mode hypertexte sémantique des actes de la conférence H2PTM»». Je vais y présenter l’opération au quelle j’ai participé depuis le début de mon stage à l’INIST- CNRS, et les tâches confiées par les équipes d’encadrement. Pour ce faire, je vais présenter d’abord l’historique du projet Wicri depuis la genèse jusqu’à la définition des ambitions du projet ; puis, je parlerai du lieu de mon stage et de l’équipe d’accueil, avant de présenter le contexte général de l’opération H2PTM et les différentes missions du stage, le processus d’intelligence économique[1] et son application au cours du stage. Pour terminer, je citerai les difficultés rencontrées ainsi que les apports personnels.

Historique

La mission TICRI (Technologies de l’Information et de la Communication pour les communautés de la Recherche et de l’Innovation) initialisée par la Délégation Régionale à la Recherche et à la Technologie (DRRT[2]) Lorraine, avec le soutien du Centre National de la Recherche Scientifique (CNRS) a vu le jour en 2008.

Cette mission, pilotée par M. Jacques DUCLOY, a été motivée par le constat d’une situation de la recherche française jugée difficile par rapport à ses relations avec l’information scientifique et technique. Cette mission avait pour ambition d’étudier la création d’infrastructures permettant de mutualiser les efforts, les moyens et l’expertise des chercheurs autour des informations numériques.

De par une expérience vécue tous les jours, à travers ses contributions sur le wiki Wikipédia, Jacques DUCLOY s’est très vite aperçu que cette plateforme multidisciplinaire pourrait répondre aux attentes du projet, surtout au niveau de la viabilité d’un espace coopératif de connaissances.

Cette conviction s’est forgée avec la mise en place d’un démonstrateur Wicri (wikis des Communautés de la Recherche et de l’Innovation). Son objectif est de démontrer l’intérêt des technologies wikis sémantiques pour la valorisation des résultats de la recherche et de l’innovation et d’encourager le transfert de la recherche vers l’industrie (laboratoires, universités, institutions, entreprises…).

Après une phase expérimentale, cet outil collaboratif financé par le Fonds Européen de Développement Régional (FEDER), dans le cadre du programme INTERREG IV A Grande Région[3] pour la période 2007-2013 a permis, en septembre 2009, de poser les bases d’une plateforme numérique (Wicri). Depuis janvier 2012, avec la création de l’Université de Lorraine, le projet Wicri s’est vu rattaché au Centre d’Innovation Partenariale de la Direction des partenariats. Son objectif est de développer un pôle d’expertise au service des communautés régionales de la recherche et de l’innovation .[DOM 2012].

Présentation du lieu de stage

Mon stage s’est déroulé au sein du service Edition Numérique et Numérisation (SENN), qui fait partie du pôle Recherche et Développement, Appui au Pilotage et Services à la Recherche (PRAPS) de l’INIST- CNRS (Institut de l’Information Scientifique et Technique), et qui travaille en collaboration étroite avec l’équipe Wicri sur l’opération H2PTM, objet même de mon sujet de stage.

Le service SENN est composé de huit personnes dont le responsable est Mme Catherine MOREL-PAIR. Ce service gère et propose 4 types de prestations :

Cette plateforme de publication numérique permet de mettre en ligne des revues et actes de congrès mais aussi des livres numériques, des lettres de laboratoires … accompagnés de ressources satellites telles que des images et des vidéos.

  • 2. LARA, Libre Accès aux Rapports scientifiques et techniques français, http://lara.INIST- CNRS.fr

Il s’agit d’une Bibliothèque des rapports scientifiques et techniques, où est valorisé à la fois la littérature grise disponible dans le fonds INIST- CNRS et celle, complémentaire, d’organismes partenaires volontaires. Cette bibliothèque contient plus de 1500 rapports en ligne.

  • 3. Plate-forme de publication électronique des productions scientifiques de l'Inserm et des Instituts thématiques, http://ipubli-inserm.inist.fr

Cette plate-forme n’est pas encore ouverte au public.

  • 4. Activité de numérisation, ou « rétronumérisation »

Cette activité permet d’alimenter les plateformes citées ci-dessus et de répondre à des demandes de numérisation externes.

Le contexte général de l’opération H2PTM

H2PTM est une série de colloques, lancés en 1989 par le laboratoire Paragraphe, laboratoire de recherche interdisciplinaire rattaché à l'École doctorale n°224 Cognition, Langage et Interaction (CLI) de l'Université Paris 8[4] . Cette série de colloque, est dévolue depuis ses origines à une thématique unique, que résume bien son sigle: "H²PTM", comme hypertextes, hypermédia, ou plutôt l’hypertexte sous toutes ses formes dans le champ des sciences de l'information.

L’équipe Wicri, dans son expérience de développement de wikis sémantiques a, à titre de démonstration, traité certains programmes du colloque. Les deux acteurs particulièrement concernés étaient Jacques Ducloy, chargé de mission à l'Université de Lorraine et conseiller scientifique du projet Wicri à la DRRT, et Imad Saleh, directeur du laboratoire Paragraphe de Paris 8 et l'un des fondateurs des conférences H²PTM, dont il est le président permanent. Ce travail préliminaire leur a donné l’idée d’aller plus loin en mettant en place un wiki sémantique nommé H²PTM, pour y rééditer en mode hypertexte sémantique les actes des colloques H²PTM organisés par l’Université de Paris 8. Le but est de voir ce que peut apporter une action de type wiki, notamment un wiki sémantique par rapport aux archives de colloques. Qu’est-ce que cela peut changer dans la vision et les services pratiques proposables autour de l’ensemble des données sur les colloques ? Les colloques l’étant probablement aussi, est-ce une façon de structurer une communauté, qui est la communauté française des hypertextes. Ce sont les idées principales qui les ont guidés vers l’idée de donner naissance au wiki H²PTM.

L’opération avait commencé en février 2012 avec une stagiaire de Paris 8 qui a mis en ligne pratiquement tous les résumés de toutes les conférences H²PTM et les actes de H²PTM 2007dans leur intégralité. Par la suite, le laboratoire CREM (Le Centre de recherche sur les médiations [5] ) de l'Université de Lorraine a également soutenu l'opération, par le biais du financement d’un poste de stagiaire à l’INST-CNRS (où s’est déroulé mon stage de fin d’études) qui couvre toute la durée du stage, depuis son démarrage le 2 mai 2012 jusqu’à la fin du mois de septembre 2012.

Trois pôles actifs se répartissent le travail nécessaire à ce projet et y contribuent : il s’agit de l’Université de Paris 8, de l’équipe Wicri et de l'INIST-CNRS. Un autre partenaire, le CREM, montre son intérêt par son apport financier.

Ils sont présentés dans le schéma suivant :

Figure 1.Partenaires du projet wiki sémantique H²PTM
  • L’équipe Wicri :

Cette équipe est composée de Jacques DUCLOY et de Thierry DAUNOIS, Chef de projet Wicri - Direction des partenariats – Université de Lorraine. Ils sont les opérateurs techniques ou, de préférence, les pilotes du projet Wicri qui est constitué du réseau Wicri (un réseau de wikis sémantiques dont H²PTM fait partie).

  • L’INIST-CNRS :

Les métadonnées sont à la base des techniques du Web sémantique, ou Web de données, car au delà des simples liens hypertextes (hyperliens) que l’on peut retrouver dans un site « classique », on a des liens sémantiques c'est-à-dire enrichis de métadonnées (données structurées permettant de décrire, ou de représenter d’autres sources et d’autres données : publications, personnes, organismes…) utilisables par des processus automatisés pour en faciliter la recherche.

Soulignons que pour l’INIST- CNRS, les métadonnées sont un de ses cœurs de métier traditionnel. Il produit catalogues et bases de données bibliographiques de volume important (20 millions de notices bibliographiques propres).

Intéressé par le fait que le besoin en métadonnées de qualité est devenu crucial, que les standards et pratiques évoluent, l’INIST- CNRS a rejoint le projet de wiki sémantique H2PTM dans le but d'expérimenter des pratiques éditoriales hypertextuelles pour l'élaboration d'une revue scientifique numérique, avec la possibilité plus forte de mettre les liens sémantiques et pour participer à la modélisation des données de la recherche.

Les deux partenaires qui restent à présenter sont, à la fois, des partenaires et des demandeurs. Il s’agit de :

  • Un principal qui est le laboratoire Paragraphe de Paris 8 :

Imad SALEH, directeur du laboratoire Paragraphe, a axé les travaux de son unité de recherches sur les hypertextes. Il voulait créer un wiki sémantique pour la communauté française d’hypertexte, qui serait un wiki de référence contenant un maximum d’articles sur cette thématique.

  • Le second demandeur est le CREM :

Le responsable de l’équipe Pixel du centre de recherche sur les médiations (CREM) à l’Université de Lorraine, Luc MASSOU, qui soutient le projet H2PTM et, plus précisément, est intéressé par les actes de la conférence 2011 qui s'est tenu à Metz.

Wiki sémantique H2PTM

Le wiki H2PTM est un wiki fédéré dans un wiki de référence Ticri ; le tout dans un réseau généraliste appelé Wicri (Wikis des Communautés de la Recherche et de l’Innovation) qui contient environ 139 wikis interconnectés et répartis entre 54 familles. Une famille de wikis est un ensemble de wikis traitant d’un même sujet, avec la même structure ; par exemple, un ensemble de versions rédigées dans différentes langues (fr, an,…) ou un wiki public couplé avec un autre privé[6]

Le wiki H2PTM a permis de mettre en place deux autres wikis : VSST et CIDE. Cela lui a ainsi permis de devenir un wiki pilote d’un ensemble de wikis de conférences en sciences de l’information.

Quelques chiffres

  • Le wiki H²PTM contient actuellement 1175 pages.
  • Parmi 259 articles déjà indexés, il y’a 55 correspondent à des actes en version intégrale.
  • 211 articles correspondent à des actes en version résumé.
  • Tous les articles des actes de conférence H2PTM 1997 sont indexés selon différentes catégories (nous reverrons ce point dans la partie : Indexation thématique et factuelle)
Figure 2. Nombre de consultations

De plus, 3807 notices environ ont été rassemblées, autour de la thématique d’hypertexte, par Jacques Ducloy pour faciliter l’enrichissement sémantique des pages :

  • 2300 notices de l'INIST- CNRS (Pascal + Francis)
  • 130 proviennent de HAL, archive ouverte institutionnelle française
  • 1377 proviennent de Medline, base de données bibliographique biomédicale.

Un système d’information sur les recherches (CRIS[7] ) est en cours de démarrage sur une base wiki sémantique "totale" :

  • 180 auteurs font l'objet d'une fiche descriptive avec des liens sur les affiliations et insertion dans le réseau Wicri et dans le wiki régional qui leur correspond.
  • 59 universités sont décrites de la même façon (avec insertion dans le réseau Wicri et le wiki régional)
  • 21 laboratoires sont décrits de la même façon, et un certains nombre d’organismes.
  • 24 villes sont décrites de la même façon, en plus des régions et des pays.

Structuration du réseau Wicri

Le réseau Wicri, comme on peut le constater dans la figure ci-dessous, est un ensemble de wikis thématiques, de wikis régionaux et de wikis spécialisés.

Mon intervention, dans le cadre de ma mission de stage, va se concentrer en général au niveau des wikis thématiques tels que CIDE et H²PTM et les wikis régionaux tels qu’ils sont présentés dans le schéma suivant :

Figure 3. Structuration du réseau Wicri

Missions de stage

Plusieurs étapes se sont succédées lors de ces quelques mois, correspondant à des missions de complexité croissante et au sein d’un même processus de la chaine documentaire.

Traitement et mise en ligne des articles sur les wikis des colloques CIDE et H²PTM

Dès mon arrivée sur le lieu du stage, et eu égard à l’importance de la connaissance de l’environnement wiki pour les cinq mois qui allaient suivre, il était indispensable de connaître les notions de base de la syntaxe wiki et de son fonctionnement. Le premier jour de mon stage, l’équipe Wicri, présentée par Jacques DUCLOY - Conseiller à l'INPL et à la DRRT Lorraine en collaboration avec le Service Edition Numérique et Numérisation (l’INIST-CNRS) m’ont mis sur les rails qui mènent au cœur du projet du Wiki sémantique H²PTM, à travers l’organisation d’une journée et demi de formation sur la syntaxe wiki.

A la fin de cette formation, et pour débuter ma part de contribution à la réalisation de ce projet, M. DUCLOY m’a confié la première mission, qui consiste à alimenter le wiki nommé CIDE, qui est un wiki associé au réseau Wicri et plus particulièrement au sous-réseau Ticri, par des actes issus de la dixième édition du colloque international sur le document électronique (CIDE) publiés dans la revue CIDE[8] de l’INIST- CNRS, et qui traitent le thème suivant: « le document numérique dans le monde de la science et de la recherche ».

Avant de commencer l’alimentation du wiki H²PTM, Imad SALEH - qui est le Directeur du laboratoire Paragraphe et l'un des fondateurs des conférences H²PTM dont il est le président permanent - a négocié avec l’éditeur Hermès [9] la possibilité de mettre en ligne tous les textes à l'exception des deux derniers millésimes (qui seront sur le wiki privé). Ceci dans le but d’éviter de faire face à l’un des problèmes majeurs de l’édition numérique, qu’on peut rencontrer lors de la mise en ligne des actes du colloque H²PTM : le respect des droits d’auteur et de la propriété intellectuelle.

En effet, les articles publiés sur CIDE et H²PTM sont présentés généralement de la manière suivante :

Figure 4

Pour passer à la mise en forme wiki des articles et commencer leur structuration sémantique, un compromis a été pris. Ce dernier a été fondé sur une proposition qui avait été faite par la cellule Wicri par rapport à la structuration du document, à l’issue de notre 3ème réunion, et qui exigeait de structurer l’information telle qu’elle est présentée dans la version originale du livre ou d’article et non telle que nous la concevions. Autrement dit, nous étions tenus de respecter la version originale.

Dans cette partie d’alimentation, j’ai d’abord republié les articles qui étaient déjà publiés dans la revue CIDE, mais sous forme wiki avec le résumé, les mots clés, le texte intégral, les références bibliographiques et les notes de bas de page. J’ai également identifié quelques auteurs ainsi que leurs affiliations.

J’ai ensuite mis en ligne trois articles du colloque (H²PTM 2007) qui étaient les premiers et les derniers articles que j’ai pu récupérer de Paris 8, en version électronique : texte intégral, références bibliographiques et notes de bas de pages. Ceci complète en partie le travail de mise en ligne, par la stagiaire de Paris 8 de tous les résumés de toutes les conférences H²PTM, comme je l’ai mentionné dans le contexte de l’opération H²PTM.

Pour la mise en forme du contenu de la bibliographie et des notes de bas de page, j’ai été amené à utiliser deux modèles [10] différents que Jacques DUCLOY et Thierry DAUNOIS avaient mis en place. Le premier est le « Modèle:H²PTM citation [11] », avec lequel nous pouvons faire un appel de citation dans le texte. Le deuxième est le « Modèle:H²PTM biblio » que nous utilisons pour les éléments de la bibliographie.

Je passai ensuite à l’étape d’identification des acteurs tels que auteurs, affiliations et entités géographiques associées, pour l’enrichissement sémantique.

Identifier un auteur désigne la création d’une page décrivant cet auteur (personne) sur le wiki sémantique. Il faut que chaque auteur dispose d’une page. Ceci se fait généralement par le biais d’un modèle afin de créer de l’information de structure homogène, de simplifier la saisie des données et la création des relations sémantiques [12] . Ce modèle est le modèle Infobox sémantique « personne », sachant que ce modèle est utilisé partout dans le réseau Wicri.

Figure 5.Modèle infobox sémantique personne

On voit clairement, sur la figure ci-dessus, que les informations saisies sur les personnes sont les suivantes : nom, prénom, université, affiliation, laboratoire, fonction, site personnel (s’il y en a un), ville, pays, et si c’est possible, de mettre une petite description sur cette personne. Si un champ n’est pas renseigné, ou ne contient aucune information sur cette fiche,(par exemple le numéro de téléphone) , il est strictement conseillé de le supprimer.

Dans cette démarche d’identification des personnes, forcément consommatrice de temps en recherche d’information, une consigne m’a été donnée par Jacques DUCLOY : dans le cas où on trouve qu’un auteur a très peu de publications, ou n’est pas cité dans d’autres publications, alors ça ne mérite pas qu’on s’attarde sur lui et qu’on perdre du temps lors de la création de sa page. Pour évaluer la notoriété d’un auteur, nous avons choisi, d’aller chercher cet auteur sur Google scholar[13] . Nous avons la possibilité de voir combien de fois ce même auteur a été cité dans des articles et ce qu’il a publié.

Néanmoins, j’ai eu quelques difficultés dans cette tâche d’identification des personnes, que je vais détailler dans la partie « des difficultés rencontrées ».

Une fois la page personne créée, on passe à l’identification des affiliations (c’est-à-dire université, laboratoire, ou en général l’organisme) et des entités géographiques associées. De la même manière que pour la création de la page personne, on crée la page université, laboratoire ou organisme. Nous avons utilisé trois autres modèles [14] : (Infobox sémantique université), (Infobox sémantique laboratoire) et (Infobox sémantique organisme).

Si, à titre d’exemple, on applique le modèle d’Infobox sémantique université sur l’université de Lorraine, ceci va générer ce qui est présenté dans la figure 3.

Figure 6. Université de Lorraine

La page de l’université de Lorraine comporte une arborescence d’entités géographiques associées à cette dernière, ce qui nous permet d’avoir un accès géographique grâce aux liens hypertextes qui nous permettent de naviguer, successivement, de la page d’accueil Wiki Wicri /Ticri à la page du continent, puis pays de cette université, région de cette université et, finalement, à l’université elle-même comme le montre le schéma suivant :

Figure 7. Schéma d'arborescence d'entités géographiques de l'université de Lorraine

Ceci est fait grâce à ce modèle :

<small>{{Accès géographique}} > [[Europe]] > [[France]] > [[Lorraine]] > [[Université de Lorraine]]</small><hr/>

Numérisation et mise en ligne des actes H²PTM 1989

Pour cette mission, il m’a été demandé par l’équipe Wicri de procéder à une réédition numérique de l’ensemble des actes du 1er colloque H²PTM 1989 eu égard à son importance et à sa valeur, puis de les mettre en ligne sur le wiki sémantique H²PTM pour les rendre utilisables et consultables par toute la communauté d’hypertexte.

Il faut savoir qu’il n’y avait qu’un seul exemplaire disponible de la première édition de ce colloque, sous la forme d’un document en version papier uniquement, et qui était localisé à l’université de Paris 8. Cet exemplaire a été mis, par la suite, à la disposition de Jacques DUCLOY.

Pour parvenir à le rééditer en version électronique et, par la suite, le mettre intégralement sur la page consacrée aux actes de H²PTM 1989 sur le wiki H²PTM, j’ai procédé à sa numérisation en suivant les étapes de la chaîne de numérisation telles qu’elles sont présentées dans le schéma ci-après.

Figure 8. Chaîne de numérisation

La numérisation de ce document papier et sa mise en ligne sur le wiki H²PTM m’ont pris environ 22 jours au total. La numérisation du document 1er colloque H²PTM 1989 s’est déroulée en trois étapes essentielles.

La Scannerisation

Cette étape consiste à récupérer le document papier sous forme d’images et dans le format TIFF (le format utilisé pour l'instant à l’INIST- CNRS), à travers l’utilisation d’un scanner.

Cette étape est primordiale car c’est la phase préparatoire du document à saisir.

Le Pré-traitement

Cette étape a son importance aussi ; elle consiste à traiter, à retoucher les images du document récupérées lors de l’étape précédente par le biais d’un logiciel de traitement d’images et de retouche « Photoshop 6 ».

Les tâches concernant le traitement et la retouche d’images consistent à redresser l’image, à la nettoyer, à supprimer le bruit (griffonnage, annotation…) et toutes les informations redondantes, et enfin à sélectionner les zones de traitement utiles.

L’Océrisation

Cette étape est principale dans le traitement, qui concerne la reconnaissance du contenu ou plutôt la reconnaissance des caractères avec l’OCR[15] (Abby Fine Reader 11), qui permet de distinguer et de repérer le type de données contenues dans une page entre tout ce qui est texte et tout ce qui est image. Cela permet ainsi d’identifier tout ce qui est linéaire et tabulaire et la structuration du contenu, et d’effectuer la correction et la validation du contenu du document (cette opération peut se faire soit automatiquement par l'utilisation de dictionnaires, ou manuellement au travers d'interfaces dédiées) avant la mise en exploitation du document final. Cette étape nous permet de réaliser un gain considérable du point de vue de la productivité par rapport à une saisie purement manuelle. Ensuite, dans la phase d’exploitation du document final ou édition finale, on doit prendre en compte deux niveaux de traitement :

  1. la réédition d’un article en version électronique (PDF).
  2. L’exportation du produit (congrès) en HTML.

Cette activité de numérisation nécessaire pour disposer de la ressource m’a permis de découvrir un métier spécifique. C’est pendant cette étape que j’ai été confronté à nombre de difficultés que je vais détailler dans le chapitre « Difficultés et apports » ; mon intervention était donc nécessaire et a été porteuse de solutions.

La mise en ligne de ces articles sur le wiki H²PTM était conditionnée par la valeur de l’article en lui-même., Dans le cas où l’article n’est pas intéressant[16] , alors on le laisse en version PDF, et seuls les articles intéressants vont être soumis à la restructuration du texte et seront mis sur le wiki, par la suite.

Après avoir mis les articles sur le wiki H²PTM, nous avons procédé à la création des pages personnes avec leurs affiliations, de la même manière qu’évoquée dans la première tâche de la mission de stage. Puis nous sommes passés à la structuration sémantique (ou sémantisation), que je vais détailler dans la 3ème tâche effectuée lors de ma mission de stage.

Sémantisation (H²PTM 2011 Metz)

Dans cette étape, je suis allé plus loin en termes de généricité et de modélisation, après avoir saisi le contenu et avoir identifié un grand nombre d’acteurs (auteur, affiliations et entités géographiques associées). J’ai créé des pages personnes, organismes, laboratoires, universités, régions et villes correspondant à des modèles comme nous l’avons expliqué dans la première tâche de ma mission de stage. Ceci a permis d’obtenir une quantité importante d’informations structurées sur le wiki H²PTM.

Sur ce constat, l’équipe Wicri a estimé qu’il serait intéressant d’avoir quelque chose d’exemplaire avec le programme et les communications du dernier colloque (H²PTM 2011 Metz) sur les wikis Ticri, Lorraine et H²PTM. L’idée est toute simple : lorsqu’on crée la page d’une personne, par exemple, sur le wiki H²PTM, il est impératif de créer sa page de référence sur le wiki régional qui la concerne[17] (c'est-à-dire la région où il exerce sa profession) et puis, à partir de sa page de référence, de créer le lien entre toutes les pages qui la concerne dans le réseau (des liens interwikis) afin de maintenir la cohérence de l’ensemble.

Pour cette tâche, les acteurs sur le wiki Ticri ont été déjà identifiés par Jacques Ducloy, mais les règles et modèles évoluent avec le temps, les question et l’expérience, et les pages en question sur Ticri ne respectent pas toujours les règles actuelles. Par exemple, les liens vers H²PTM ne sont pas signalés et ils ne sont généralement pas installés sur les wikis régionaux... Alors, j’ai été obligé d’intervenir sur le wiki H²PTM et tous les wikis concernés. Pour illustrer la démarche suivie, je vais prendre comme exemple l’intervenant Marc Nanard, qui dispose d’une page sur le wiki H²PTM telle qu’elle est présentée dans la figure ci-dessous.

Figure 9

Sur le wiki H²PTM, cette page est générée par la syntaxe suivante :

{{Infobox sémantique personne

| nom = Marc Nanard

| Site =www.lirmm.fr/~mnanard/

| Ville = Montpellier

| Affiliation = Université Montpellier 2
| Pays = France
}}
Marc Nanard est à la retraite depuis octobre 2008. . Marc Nanard a dirigé l'équipe Interaction Homme-Machine et Hypermédias depuis 1990.

==Voir aussi==

{{H²PTM personne|référence=France}}

{{DEFAULTSORT:Nanard, Marc}}

{{H²PTM personne|référence=France}} est un modèle pour créer un lien avec la page de référence.

Une page sur le wiki régional (France) est générée par la syntaxe suivante :

{{Infobox sémantique personne

| nom = Marc Nanard

| Site =www.lirmm.fr/~mnanard/

| Ville = Montpellier

| Affiliation = Université Montpellier 2
| Pays = France
}}
Marc Nanard est à la retraite depuis octobre 2008. . Marc Nanard a dirigé l'équipe Interaction Homme-Machine et Hypermédias depuis 1990.

==Voir aussi==
{{Wicri voir|rdec=personne}} Marc Nanard est cité sur les wikis {{Wicri lien|wiki=Ticri}} et {{Wicri lien|wiki=H²PTM}}.

{{DEFAULTSORT:Nanard, Marc}}

Une page sur le wiki Ticri, est générée par la syntaxe suivante :

{{Infobox sémantique personne

| nom = Marc Nanard

| Site =www.lirmm.fr/~mnanard/

| Ville = Montpellier

| Affiliation = Université Montpellier 2
| Pays = France
}}
Marc Nanard est à la retraite depuis octobre 2008. . Marc Nanard a dirigé l'équipe Interaction Homme-Machine et Hypermédias depuis 1990.

==Voir aussi==
{{Wicri voir|référence=France}} Marc Nanard est cité sur le wiki {{Wicri lien|wiki=H²PTM}}

{{DEFAULTSORT:Nanard, Marc}}

Enfin, il convient d’intervenir sur les affiliations et les entités géographiques associées de la même manière utilisée pour la page auteur ou intervenant, aussi bien que sur la page de référence.

Réalisation de tableaux de synthèse ou de suivi

Cette tâche de réalisation de tableaux de synthèse ou de suivi est le résultat d’une première idée novatrice, et qui vise l’analyse de l’évolution de la communauté française de l’hypertexte à partir du wiki sémantique.

Il s'agit de faire des requêtes sémantiques. C’est une étape qui consiste à faire des tableaux de correspondance; par exemple, pour un pays comme la France, estimer l’évolution du nombre de publications sachant que nous disposons de 11 colloques sur cette thématique.

Pour pouvoir répondre à la demande de l’équipe Wicri, j’ai été amené à réaliser deux tableaux en m’inspirant de ce que mon collègue, Nicolas DOMENJOUD, avait fait pour les projets européens.

Le premier tableau réalisé répond à la question suivante : quel est le nombre de publications pour un pays comme la France, et aussi pour l’ensemble des pays européens[18] ?

Le deuxième tableau réalisé répond à une autre question qui est suivante : quel est le nombre de publications selon les régions de France ?

Pour ce faire, nous avons utilisé la requête intégrée à l’extension Semantic MediaWiki[19] « ask », qui est une requête destinée à trouver un nombre de pages qui satisfait à notre demande.

Cette requête répond à trois questions : Quelles sont les pages demandées ? Dans notre cas, « ask » retrouve toutes les pages qui correspondent à des articles en version intégrale, ou les pages correspondant à des articles en version résumé, et qui ont été publiés en France.

Quelles informations doivent être affichées ? Là, on veut afficher : le titre de la page, le titre de l’article et le pays. Sous quel format, ces informations seront-elles affichées ? On a choisi le format tableau pour l’affichage des informations.

Ci-après un exemple d’une requête faite pour connaître le nombre de publications au niveau de la France :

=Articles France ({{#ask:[[Catégorie:Article de conférence]][[A pour pays::France]] OR [[Catégorie:Référence bibliographique, article de conférence]] [[A pour pays::France]]|format = count}})=

{{#ask:[[Catégorie:Article de conférence]][[A pour pays::France]] OR [[Catégorie:Référence bibliographique, article de conférence]] [[A pour pays::France]]|mainlabel=Publications|format = table |? A pour titre=Titre de l'article|? A pour pays=Pays}}

Ces tableaux réalisés au niveau de cette mission m’ont permis de conclure, qu’à partir des résultats estimés des requêtes sémantiques, on peut détecter les incohérences au niveau des métadonnées et, surtout, au niveau des affiliations et d’entamer une correction à ce niveau si la responsabilité nous en incombe.

Indexation thématique et factuelle

Cette mission d’indexation thématique est la dernière mission qui m’a été confiée lors de mon stage. Elle constitue la suite logique du travail fait antérieurement et qui a résidé dans le traitement et la mise en ligne du contenu avec une structuration sémantique de l’ensemble des acteurs. Cette mission vient pour répondre à une question majeure : « Comment représenter le contenu d’un document ou d’un article ? Comment le repérer et le retrouver ? » .

En effet, à l’heure actuelle, comme Jacques DUCLOY disait : « Nous avons des ilots de connaissances dans un océan de vide ». C'est à ce moment même qu’intervient l’indexation pour faciliter le classement de l’ensemble des articles du wiki sémantique H²PTM et d'en feuilleter utilement le fond.

Mais avant de présenter ce qui m’a été demandé pendant cette mission, j'ai jugé judicieux de faire un tour d'horizon du processus de l’indexation au sein de l’INIST- CNRS (organisation orientée métier[20] ), tel qu’il est présenté dans le schéma ci-dessous :

Figure 10. Indexation au sein de l'INIST - CNRS

On peut voir clairement que cette partie de la chaine de description du contenu ne s’effectue pas au sein du Service Edition Numérique et Numérisation, mais plutôt par la Cellule Coordination Terminologie. Donc, quand le Service Edition Numérique et Numérisation a besoin d’indexer un document lambda, il doit faire une demande auprès de la Cellule Coordination Terminologie qui, à son tour, classifie, trie et indexe ce document d’une manière assistée ou automatique puis le retourne au service SENN.

Dans ce cas, le problème qui se pose est au niveau du temps. De ce fait, il y a de forts risques que cette étape essentielle ne puisse être faite assez rapidement et, sans cette étape primordiale, le service ne peut pas accomplir la chaine de production et d’édition numérique.

Après cet aperçu, il apparaît opportun d'entrer dans les détails de cette mission. En premier lieu, quelles étaient les directives de l’équipe Wicri ? Il m'a été demandé de répondre à la question suivante : combien d’articles sont présents dans le wiki H²PTM ? Il m’a aussi été demandé, de commencer l’indexation de tous les articles présentés sur le wiki, selon deux catégories :

  • Acte de conférence qui correspond à des articles en version "intégrale", de la manière suivante : [[Catégorie:Article de conférence]].

Ceci génère ce qui suit :

Figure 11.Catégorie: Référence bibliographique, article de conférence
  • Référence bibliographique et article de conférence qui correspondent à des articles en version "résumés" de la manière suivante : [[Catégorie:référence bibliographique, article de conférence]].

Ceci génère ce qui suit :

Figure 12. Catégorie: Article de conférence

Après avoir indexé tous les articles selon les deux catégories requises, Jacques DUCLOY m’a demandé de travailler sur l’indexation proprement dite, en croisant la base de données Pascal[21] avec le thésaurus multilingue EuroVoc[22] de l'Union européenne.

Dans cette partie, nous avons procédé à deux types d’indexation :

  • une indexation par mot clé[23] ,
  • et une indexation par descripteurs[24] , c’est-à-dire que la classification est faite dans un des domaines de la connaissance (on peut y distinguer des classes et des sous classes).

On peut dire que l’indexation est une tâche difficile, dépendant en partie du contexte et des usages prévisibles. Il faut de plus parcourir la notice d’un descripteur et son environnement hiérarchique dans le thésaurus EuroVoc.

Figure 13

Voici un exemple d’indexation par descripteur, en prenant l’exemple du descripteur « Système gestion base donnée » :

Figure 14

Une précision : dans une démarche d’indexation, parfois un descripteur peut être à la fois un mot vide et un mot utile, selon le contexte ; par exemple, le descripteur « Hypertexte » peut être considéré comme un mot vide sur un wiki thématique spécifique comme H²PTM tellement il serait commun. Il est alors inutile de l’utiliser pour l’indexation, contrairement à son utilité pour l’indexation sur les autres wikis sémantiques du réseau Wicri. Il faut donc l’utiliser à bon escient, sur les pages d’accueil/génériques. L’exemple qui correspond à notre explication est illustré ci-dessous :

Figure 15.Catégorie: Hypertexte

L’application du processus d’intelligence économique au cours du stage

Si le processus d’intelligence économique n’apparait pas d’une manière explicite, mais plutôt d’une manière implicite dans mon rapport de stage, ceci est dû à la nature ingénierie de l’IST du projet du wiki sémantique H²PTM. Cela dit, au fil des tâches effectuées lors de ma mission de stage, certaines connaissances acquises tout au long de ma formation en intelligence économique ont pu être utilisées.

Ce processus d’IE est le suivant :

Figure 16. Processus de l'IE [25]

Dans le contexte du stage, et à travers les nombreuses réunions organisées par Jacques DUCLOY, et le Service d’Edition Numérique et Numérisation auxquelles j’ai été invité et au cours desquelles j’ai pu cerner les problèmes décisionnels et les transformer en problèmes de recherche d’information.

En effet, les demandes de Jacques DUCLOY étaient nettes, claires et précises. Dans les cas où j’avais des problèmes de compréhension, le demandeur était toujours joignable et disponible, pour me fournir plus d’informations sur la tâche envisagée. Je peux dire aussi que j’ai été chanceux, sur le lieu de mon stage, d’être en contact direct et quotidien avec des professionnels, dans le domaine de la chaîne de traitement du document numérique et de la chaine de traitement de l’information qui m’ont permis de trouver des solutions à quelques ambigüités ; ils m'ont transmis leur savoir-faire et partagé, avec moi, leurs idées et leurs connaissances, ce qui m’a permis de mener au mieux les tâches que l’équipe Wicri m’a confié.

Pour la partie d’identification et de validation des sources pertinentes, j’ai eu un travail de recherche, d’évaluation et de sélection important car les sources que j’ai dû utiliser pour qualifier personnes et organismes proviennent de sites et d'organismes différents et hétérogènes, tels que les laboratoires, les universités…, et les pages personnelles des auteurs. A noter que, pour pouvoir assurer l’interopérabilité entre tous les systèmes d’information et la cohérence au sein du réseau Wicri, il était indispensable de s’accorder sur l’utilisation de la même appellation que Wikipédia utilise pour nommer par exemple : des laboratoires et des universités.

Soulignons, que l’une des ambitions de l’équipe Wicri est de rendre ce réseau de wikis thématiques Wicri: "Un Wikipédia adapté aux besoins des acteurs lorrains de la recherche et de l'innovation[26]" .

Il est désormais clair qu’au niveau des informations liées aux organismes et aux universités, Wikipédia reste une source fiable, du fait qu’il possède des pages bien renseignées sur ces derniers, même si on critique sa subjectivité.

Pour la partie de collecte et de traitement de l’information, elle tourne en général autour des acteurs (personnes et leurs affiliations) ; dans cette partie, Jacques m’a laissé libre cours en ce qui concerne l’organisation et le résultat de ces deux tâches. Ensuite, la validation a été assurée par Thierry.

Puis il était de la compétence de Jacques DUCLOY, décideur, de s'occuper de l'interprétation et de la décision, plutôt que de la mienne.

Dans un contexte de “production” différent, ce travail m’a donc permis de pratiquer les différentes étapes décrites en intelligence économique.

Difficultés et apports

Les difficultés rencontrées

Au cours des différentes missions qui m’ont été confiées, j'ai été confronté à un certain nombre de difficultés, détaillées dans cette partie. Ces difficultés étaient de différents degrés.

Au niveau de la syntaxe wiki

Avant mon arrivée en stage, je n’avais pas de connaissance sur la syntaxe wiki et j’ai dû l’apprendre. Cela a été possible grâce à la formation organisée par l’équipe wiki en collaboration avec l’INIST-CNRS.

Au niveau de la structuration du réseau Wicri

Dans la tâche de sémantisation, j’ai rencontré un problème avec l’identification des wikis sur lesquels je devais intervenir lors de la création d’une page d’un auteur par exemple, parce que je ne connaissais pas bien la structuration du réseau Wicri. Il m’a été nécessaire de cartographier le réseau Wicri pour pouvoir, par la suite, structurer les informations sur les acteurs (auteurs, affiliations et entités géographiques associées) d’une manière correcte, qui permet d’assurer une cohérence et une interopérabilité au sein du réseau Wicri (Figure 3. Structuration du réseau Wicri)

Au niveau du contenu des articles

Certains articles ont un contenu qui demande plus de temps pour les représenter en syntaxe wiki, notamment ceux qui contiennent des tableaux; à titre d’exemple, le tableau suivant qui est composé de 7 colonnes et de 4 lignes:

Figure 17

La syntaxe wiki qui nous permet de créer le tableau ci-dessus, est la suivante:


{|border="1" cellspacing="0" cellpadding="2" width=600px

!Mot-clé
!a
!b
!c
!Rappel
!Précision
!F1
|-
!حرب
|11
|110
|64
|14.67
|9.09
|11.22
|-
!المجلس
|11
|2023
|17
|39.28
|0.54
|1.065
|-
!Moyen
|11
|1066.5
|40.5
|26.975
|4.815
|6.1425
|}

Cette opération est un peu complexe et chronophage. Alors, pour éviter de perdre du temps avec ce genre de tableaux, j’ai proposé de récupérer les tableaux sous forme d’images ; qui a été accepté par le demandeur. Ceci permet l’obtention du même résultat en affichage, avec un gain de temps considérable. Ceci m'a permis, par la suite, de consacrer le temps "économisé" à d'autres tâches. Le principe wiki permet facilement de reprendre si utile ultérieurement une structuration dans la syntaxe correspondante.

Au niveau de l’insertion des formules mathématiques

On ne peut pas écrire des formules mathématiques sur le wiki sans recourir à l’aide de la syntaxe TeX. Cela m’a amené à apprendre quelques notions de base de la syntaxe TeX pour pouvoir écrire quelques formules mathématiques, comme par exemple :

Ali.formuleM.png

Cette formule s’écrit de la manière suivante avec la syntaxe Tex et toujours entre les balises <math>…</math> :

'''Précision''' = <math>(\dfrac{a}{a+b}).100%</math>
Au niveau de la bibliographie et des notes de bas de pages

Selon les documents, les auteurs indiquent leur bibliographie sous deux formes : soit les références bibliographiques sont intégralement contenues dans le texte, soit partiellement dans les notes de bas de page ; c’est une pratique courante dans les actes du colloque H²PTM 1989.

Prenons l’exemple de cette note de bas de page dans laquelle est cité l’auteur « Vincent Quint » :

Figure 18

Le problème qui se pose, c’est que les robots intégrés au wiki vont traiter cette référence bibliographique comme une note de bas de page et non pas comme une bibliographie. Dans ce cas, nous ne pouvons pas utiliser le modèle de bibliographie [Modèle:H²PTM biblio] tel qu’il est présenté :

Figure 19

Ceci parce qu’il n’y a pas d'identifiant de la référence bibliographique dans le texte qui permette faire un appel de citation avec le modèle [Modèle:H²PTM citation] de cette manière :

Figure 20

Il s'avère donc crucial de savoir identifier une référence bibliographique dans une note de bas de page. Pour y parvenir on doit ajouter, au moment de l’insertion d'une annotation dans le texte, les balises <ref> et </ref> pour encadrer la relation sémantique [[A pour auteur cité::VincentQuint|V. Quint]], de la même manière que ci-dessous dans la partie marquée en rouge :

Figure 21

Ceci va générer le résultat suivant :

Ali.Frelatifs.Vq.h2ptm.png

Cette démarche aboutit à la publication d’une fiche auteur plus détaillée, et surtout permet de voir clairement les articles dans lesquels « Vincent Quint » a été cité.

Figure 22
Au niveau de l’identification des régions

L’identification des régions n’est pas facile d’un pays à un autre, du fait que la notion de région n’est pas déterminée d’une façon unique selon les pays. Prenons l’exemple du Luxembourg et le problème de polysémie qui l’accompagne :

Selon le modèle Nomenclature d’unités territoriales de toute l’EUROPE (NUTS)[27] , Luxembourg est à la fois une ville, une région et un pays. Luxembourg (le pays) est divisé en trois districts, eux-mêmes divisés en 12 cantons et en 106 communes : Diekirch, Grevenmacher, Luxembourg. Donc, il faut faire très attention pour identifier une région car les normes européennes pour les régions ne sont pas les mêmes.

Au niveau de la numérisation

A ce niveau, j’ai été confronté à bon nombre de problèmes. Parmi ceux-ci, on peut évoquer :

  1. L’Océrisation d’un document, qui contient 262 pages, n’est pas facile en général. C'est une étape chronophage qui peut prendre du temps machine selon la taille de l’article traité. S’y ajoute le fait que la version de l’OCR (Abby Fine Reader 11) que j’ai installée sur mon poste de travail et utilisée pour cette démarche était une version d’essai seulement, qui ne dure que 15 jours. J'étais alors dans une course contre le temps car j’ai été amené au compromis suivant : mettre en ligne rapidement chaque article numérisé sur le wiki H²PTM, pour rester connecté avec la syntaxe wiki et la structuration du document numérisé dans le wiki tout en avançant l’Océrisation pour éviter que le logiciel expire au fil du temps, et que je me trouve face à un problème majeur qui est l’absence d’un outil primordial dans cette phase.
  2. Lors de l’OCR, les processus d’analyse et de lecture prennent également du temps. Si par exemple, on essaie de corriger une erreur qui n’était pas prise en compte lors d’une analyse, on est obligé de refaire le processus d’analyse à partir de l’endroit où la correction a été faite, même si tout le reste du document est bien analysé et bien corrigé.
  3. Un autre problème fréquent, c’est que l’OCR mélange encore souvent dans la conversion certains caractères, par exemple : entre les lettres « l » en minuscule, « I »en majuscule et le numéro « 1 ».
  4. Lors d’une lecture d’une page par exemple, l'OCR parvient à lire un texte ou un tableau et à les mettre en forme. Par contre, les images peuvent être prises pour un texte, il nous incombe donc de spécifier à l’OCR que la zone traitée est une image et non pas un texte.
  5. Lors d’un manque d’information ou de caractères légèrement effacés, l’OCR n’arrive pas à lire les caractères et du coup il faut procéder à la correction manuelle. En général, ce problème est dû au mauvais réglage lors de la scannérisation qui demande une pratique régulière et une maîtrise de l’outil.Ceci nous amène à dire que la réussite d’un bon fonctionnement de l’OCR est liée étroitement à la réussite d’une bonne scannerisation.
  6. Problème de reconnaissance des formules mathématiques.
  7. Le fascicule des actes du colloque H²PTM 1989 est relativement ancien et il était difficile de récupérer des images de qualité, tellement elles étaient peu lisibles. De ce fait, et pour une bonne exploitation de ces images, je les ai retravaillées avec l’outil de dessin de retouche photo « Paint » avant le chargement des données sur le wiki.
Au niveau des affiliations auteur

Le problème d’identification de la bonne affiliation d’un auteur est assez fréquent lors de la structuration sémantique (sémantisation) des entités personnes et des affiliations associées.

On peut trouver un auteur, par exemple, sous plusieurs affiliations car il a publié anciennement un article sous une affiliation et récemment, il ait publié ses articles sous d’autres affiliations, s’il a changé d’université, de laboratoire, de pays…

La règle à suivre dans ce cas est de garder l’ancienne affiliation au niveau de l’article, mais d’enrichir la page auteur, en ajoutant une nouvelle relation sémantique, qui est : [[ancien membre de :: …]], comme le montre la figure qui suit, en prenant l’exemple de Luc Grivel :

Figure 23

Cette relation sert à faire l’historique des affiliations d’un auteur d’une façon automatique, en générant ce qui suit :

Ali.his.Grivel.png

La question de l’identification des auteurs (homonymie, polysémie), des organismes de rattachement et des liens entre les deux est souvent un vrai challenge dans l’analyse de corpus. Ce travail de sémantisation, thésaurisé une fois pour toutes pour des usages ultérieurs, et évolutif si utile, donne à ce type d’application une vraie valeur ajoutée. C’est cependant un long processus, comme en témoignent les difficultés suivantes.

Au niveau des limites de la sémantisation

Chaque création de page personne, organisme, université nécessite de renseigner de nombreuses caractéristiques, souvent à renseigner pour elles-mêmes une page dédiée … il reste souvent beaucoup de termes en rouge sur la page, généralement ce sont des liens hypertexte : soit la page cible n’est pas encore renseignée, soit ils débouchent sur une page qui n’existe pas encore.

L’idéal est évidemment de faire passer ces liens hypertextes de rouge à bleu, en traitant l’information jusqu’au bout. Du coup, on aura affaire à de nombreuses ramifications, et on peut s’y perdre si on ne se met pas de limites dans le traitement de l’information en cernant bien les objectifs actuels.

Au niveau de l’identification des personnes

Un nommage correct des personnes est fondamental pour la cohérence sémantique du wiki H²PTM dans le réseau Wicri. La plus grande difficulté ici a été de savoir comment parvenir à éviter le problème d’homonymie, en parvenant à identifier la bonne personne alors que, dans la plupart des cas, on ne dispose que de l’initiale du prénom suivi du nom.

Pour parvenir à repérer la bonne personne, nous avions suivi la démarche suivante :

D’abord, voir si cette personne a d’autres occurrences dans le réseau Wicri: généralement, nous utilisions la boite de dialogue avec l’onglet « rechercher » en entrant le nom par exemple , et puis aller sur le lien «Wicri Inpl via Google» qui envoie la requête sur le réseau :

Figure 24

Ceci nous permet de localiser la page de cette personne sur le réseau au cas où elle est renseignée.

Sinon, on va associer le titre à l’auteur ou l’affiliation à l’auteur comme croisement de critères pour rechercher de la pertinence; mais malheureusement un autre problème dû aux affiliations surgissait aussitôt; en effet, parfois, ces affiliations même ne sont pas bonnes, écrites de manière variée, trop anciennes (selon les cas, où les auteurs avaient changé d’université, de pays ou encore avaient pris leur retraite ou étaient décédés). Alors, dans ce cas, nous étions obligés de réaliser une nouvelle recherche pour identifier la nouvelle affiliation, et cette tâche est vraiment complexe. Il existe une autre astuce pour identifier le nom d’une personne, c’est d’essayer de chercher sa photo en recherche image sur Google. Après avoir identifié la bonne personne, et pour chercher sa page personnelle si elle existait, nous avons utilisé d’autres stratégies : le recours aux réseaux sociaux tels Linkedin, Viadéo, à la page d’université, de laboratoire, aux moteurs de recherche de sociétés tel que Corporama.com (pour la France).

Apports

Cette expérimentation menée sur le sujet de « la réédition en mode hypertexte sémantique, les actes de la conférence H²PTM », au sein du Service Edition Numérique et Numérisation (SENN), à l’INIST- CNRS, m’a apporté des compétences professionnelles théoriques et pratiques.

En premier lieu, elle m’a permis de cerner deux visions différentes de l’information numérique scientifique :

  • Une vision basée sur la production des bases de données, des références bibliographiques, et de la terminologie comme objets “séparés” des ressources numériques : c’est celle de l’INIST- CNRS.
  • Et une vision basée sur la production d’ilots de connaissances structurées au sein et en lien direct avec les ressources : c’est celle du réseau Wicri.

En second lieu, elle m’a permis d’avoir un regard croisé sur deux types différents de la structuration des informations d’une publication selon le style éditorial des wikis sémantiques (Wicri) et des revues de l’INIST- CNRS.

Fort est de constater que les données présentées sur le wiki sont appelées à évoluer, c'est-à-dire que les informations enrichissent en permanence les documents, notamment avec les entités : auteurs repérés, affiliations repérées, et les entités régions, villes, organisations… et qu’à l’a une de l’expérience, les modèles eux-mêmes doivent parfois évoluer, contrairement aux données de l’INIST- CNRS qui sont plus figées.

Par ailleurs, ce stage m’a permis de développer mon sens de l'autonomie à travers la confiance qui m’a été accordée par l’équipe Wicri et l’équipe du service Edition Numérique et Numérisation. C’était une occasion pour moi de travailler en équipe sur un même projet et dans un but commun et, en même temps, de constater que chacun de nous peut apporter sa touche personnelle.

De plus, le stage m’a permis de mettre en pratique les connaissances acquises lors de ma formation en IST-IE et d’acquérir des nouvelles connaissances qui m’ont rendu plus polyvalent, et capable de mener à bien ou d’encadrer toute une opération d’édition numérique intégrant toute la chaine du traitement documentaire : de la scannérisation d’un document papier jusqu'à la structuration, la sémantisation, l’indexation et la diffusion d’un ensemble de publications sur un wiki sémantique.

Pistes de réflexion

Cette expérience sur l’indexation sémantique au cours de mon stage m’a amené à quelques réflexions, et j’espère qu’elles fassent retentir leur écho.

Pour la base de données Pascal, qui est une base de données multidisciplinaire et multilingue de références bibliographiques en sciences, technologies, et médecine, il me parait important de faire un audit (technique, linguistique et terminologique) régulier, pour parvenir à bien répondre aux attentes des indexeurs et utilisateurs, et aussi afin d’assurer la cohérence d’une bonne indexation. Cela permet de mettre à jour la base encore, de voir s’il faut ajouter de nouveaux descripteurs, des mots clés, ou aussi d’améliorer les termes qui existent déjà dans cette base.

Le nombre important de visiteurs sur le wiki H²PTM (voir la figure2 : Nombre de consultation) montre l’intérêt du monde de la recherche et de l’innovation pour la thématique Hypertexte et Hypermédia. A partir de ce constat, il pourrait être intéressant de créer à partir de Pascal, une base sur ces thèmes. Ce corpus permettrait aussi l’élaboration d’un thésaurus thématique à partir de son indexation.

Une autre piste de réflexion que j’ai eu durant mon stage a émergé lors de ma relation directe avec le service de veille scientifique de l’'INIST- CNRS. Ce dernier, presque quotidiennement, diffuse des informations pertinentes et utiles, mais en version brute (simple format texte ou PDF pour affichage et lecture).

Or ces informations pourraient être utiles à d’autres acteurs, et valorisées plus largement. Il me paraîtrait intéressant d’envisager les livrables sous la forme d’un wiki. Trois options, non exclusives, seraient possibles:

  • Pour la diffusion interne, un wiki privé avec sémantisation en lien avec les autres wikis privés.
  • Pour la diffusion externe, un wiki privé ou public sans sémantisation.
  • Pour la diffusion externe, un wiki privé ou public avec sémantisation et liens, pourquoi pas avec Wicri.

Conclusion

Mon stage de fin d’étude, effectué au sein du Service Edition Numérique et Numérisation à l’INIST- CNRS-CNRS, est ma première réelle expérience en milieu professionnel dans ma spécialité.

Ce stage m’a permis de développer mon sens de l'autonomie à travers la confiance qui m’a été accordée par l’équipe Wicri et l’équipe du service Edition Numérique et Numérisation. C’était une occasion pour moi de travailler en équipe sur un même projet et dans un but commun et, en même temps, de voir que chacun de nous peut apporter sa touche personnelle.

De plus, le stage m’a permis de mettre en pratique les connaissances acquises lors de ma formation en IST-IE et d’acquérir des nouvelles connaissances qui m’ont rendu plus polyvalent et capable de mener ou d’encadrer toute une opération d’édition numérique intégrant l’ensemble de la chaine de traitement documentaire : de la scannérisation d’un document papier jusqu'à la structuration, la sémantisation, l’indexation et la diffusion d’un ensemble de publications sur un wiki sémantique.

Ce stage a été vraiment enrichissant pour moi tant sur le plan professionnel que personnel. Cela m’a permis d’envisager l’avenir avec confiance et de me rendre compte de la solidité de ma formation et de mes capacités d’intégration et d’adaptation rapides à un domaine qui m’était inconnu jusqu’alors. Élément très positif car, souvent, l’expérience du stage de fin d’études est un tremplin pour l’étudiant – futur cadre. Cela m’a permis aussi de repérer quelques pistes, pour des travaux futurs, susceptibles de servir le monde de la recherche et de l’innovation.





« Lorsqu'on rêve tout seul, ce n'est qu'un rêve alors que lorsqu'on rêve à plusieurs,
c'est déjà une réalité. L'utopie partagée c'est le ressort de l'Histoire.» Elder Camara





Deuxième partie : Mémoire de recherche

Introduction

La richesse et la croissance du volume des informations issues des résultats de la recherche scientifique et technique a connu, depuis quelques années, une véritable révolution sous la pression des nouvelles technologies. Ces informations présentent, désormais, un apport indispensable pour la recherche et l’innovation.

Cependant, cette mine d’or d’informations présentées sur internet a donné naissance à un vrai problème, qui préoccupe les chercheurs et les spécialistes de l’information scientifique et technique. Ce problème est comment parvenir à tirer le meilleur profit pour une exploitation optimale de ces informations, pour des besoins de recherche d’information. Ceci a poussé les chercheurs et les spécialistes à réfléchir à un nouveau système de publication, qui est différent du système actuel de publication d’articles dans des revues en libre accès (la voie dorée) ou dans des archives ouvertes (la voie verte). Ce nouveau système se doit aussi d’assurer une meilleure présentation de ces informations et, par la suite, une meilleure exploitation.

Je détaillerai cette problématique, dans ce qui suit, après avoir parlé du contexte. J’enchainerai donc sur un historique du Web, puis sur la définition des concepts. Un point sera consacré aux projets des wikis sémantiques et puis leurs apports. Je terminerai par l’évocation des contraintes et des limites, avant de conclure.

Contexte

Le Libre Accès à l’information scientifique, ou plutôt aux publications scientifiques dont les auteurs souhaitent donner librement accès ou mettre à la disposition des lecteurs est devenu, non seulement un enjeu politique d’envergure, mais aussi un enjeu vital au profit de la recherche et de la société dans son ensemble.

Ceci est parti du constat d’une situation critique de la recherche, par rapport à ses relations avec l’information scientifique et technique au goulet d’étranglement représenté par l’édition commerciale (tarifs, délais…). Cette conjoncture a poussé alors toute une communauté de chercheurs et de scientifiques, du monde entier, à se mobiliser dans un mouvement pour le libre accès aux résultats des recherches scientifiques.

Aussi, l’extrait de la Déclaration de Berlin sur le Libre Accès à la Connaissance en Sciences exactes, en Sciences de la vie, en Sciences humaines et sociales, n’est qu’un témoin poignant d’une prise de conscience des conséquences tragiques qui peuvent surgir suite à un accès insuffisant aux publications. Ce qui incarne, dans nos esprits, l’idée « qu’un chercheur qui ne publie pas signe son arrêt de mort scientifique » [KYH 2005].

« … Nous remplissons par trop imparfaitement notre mission de diffusion de la connaissance si l’information n’est pas mise rapidement et largement à la disposition de la société. De nouvelles possibilités de diffusion de la connaissance, non seulement sous des formes classiques, mais aussi, et de plus en plus, en s’appuyant sur le paradigme du libre accès via l’Internet, doivent être soutenues. Nous définissons le libre accès comme une source universelle de la connaissance humaine et du patrimoine culturel ayant recueilli l’approbation de la communauté scientifique… »[28] .

En France, suite aux propositions issues du rapport des États généraux de la recherche, l’appropriation de la connaissance a pris une place importante au cœur de la recherche publique.

«La connaissance scientifique présente des traits spécifiques, qui en font un bien aux propriétés particulières : un bien public. Toute connaissance ne peut être diminuée par le partage ; le fait qu’un individu y accède n’en prive pas les autres. En outre, nul ne peut être exclu de la connaissance scientifique car la publication en assure le libre accès. L’appropriation de la connaissance est ainsi illégitime et incohérente avec la démarche scientifique : on ne peut, et on ne doit pas, breveter les concepts ou les idées mais seulement les procédures et techniques qui en sont issues »[29].

En effet, le Web représente, aujourd'hui, un enjeu de taille pour la diffusion la plus large possible des résultats de la recherche [POU 2005], issus des valeurs fondamentales de la recherche, telles que : l'échange, la gratuité, l'égalité, l'innovation, l'universalité et la collaboration [MON 2006].

Une étude a été menée en 2010 sur les statistiques d’utilisation des archives ouvertes en France, sur la base des données relatives aux années 2008 et 2009. La comparaison des résultats, entre ces deux années, montre un accroissement spectaculaire de l’offre, aussi bien en nombre d’archives qu’en nombre de documents; ainsi :

  • En 2008, 56 archives sont recensées;
  • En 2009, s’y ajoutent 94 autres archives.

On dénombre 703 178 items en 2008 et 1 878 520 en 2009 [SCH&PRO 2010] ; on en déduit que cela a plus que doublé en l’espace d’une année.

Devant cette masse croissante de données disponibles sur le web, la maîtrise de l’accès à l’information est devenue une tâche primordiale qui préoccupe les chercheurs et les scientifiques, autant dans le domaine de la recherche que dans celui de la vieille scientifique et technique. L’exploitation de ces données, pour la construction de l'information puis de la connaissance, nécessite la mise en œuvre d’un outil qui répond aux valeurs de la recherche fondamentales, telles que nous les avons cités auparavant. Il doit permettre, aussi, un accès intelligent à l’information par la mise en œuvre d'une nouvelle méthode de recherche et de navigation fondée sur l’hypertexte et le web sémantique.

Une volonté réelle était de tirer le meilleur parti de cette évolution du web sémantique, pour la création d’une édition numérique thématique sur les actes du colloque H²PTM ainsi que de réaliser ce projet dans une démarche d’intelligence collective. L’équipe Wicri s’est ainsi approprié un nouvel outil qui permet la participation et la contribution active de toute une communauté (Wicri). Ce choix pris par l’équipe Wicri m’incite à poser ma problématique qui est la suivante :

Qu’est-ce que peut apporter un wiki par rapport au glissement de l’hypertexte à la sémantique pour valoriser un ensemble de publications de colloque ? Quelles sont les contraintes et qu’est-ce que ça apporte ?


Dans un premier temps, je vais donner un aperçu sur l’évolution du web. Puis je vais tenter de définir quelques termes qui me paraissent indispensables dans notre démarche. Par la suite, je donnerai quelques exemples des projets des wikis sémantiques, dont les objectifs se rapprochent du notre.

Pour répondre à notre problématique, je vais vous présenter les apports des wikis sémantiques à partir de l’expérimentation menée sur le wiki H²PTM. A la fin, et pour conclure, je parlerai des contraintes.

L’évolution du Web

Depuis 1990 à nos jours, le web, n’a pas cessé d’évoluer. Il a connu, jusqu’à l’heure actuelle, trois grandes périodes qui se superposent et enrichissent les périodes précédentes. (Voir Figure 25. Evolution du Web)

Web 1.0 (Web des institutions

Qu’il s’agisse de pages composées de textes et d’images reliées entre elle à l’aide des liens hypertexte, la diffusion des contenus se faisait d’une manière univoque, des producteurs (entreprises) vers les utilisateurs. C’était un nouveau mode de diffusion de l’information mais il n’était toujours pas ciblé et s’adressait à l’ensemble de la communauté des internautes. Le consommateur ou l’internaute, peut alors obtenir des informations sur les sites institutionnels de la toile et envoyer des emails.

Web 2.0 (Web Social

Le nombre d’utilisateurs sur le web a explosé en 2004, ceci a eu lieu suite à la rentrée dans l’ère du numérique. La télévision et la radio, sont diffusés sur le web. Le web est devenu plus participatif. La mise en place de nouvelles plateformes permet aux utilisateurs de créer leurs pages et de partager des contenus Web riches, tels que la musique, des textes …. C’est l’avènement de l’interactivité. L’utilisateur prend le pouvoir ; il ne reçoit plus les informations passivement mais il est à la fois, consommateur et producteur de contenu. On voit alors apparaître les sites de partage vidéos, de photos, de musiques, les blogs[30] ; les flux RSS [31] ; le système de nuages de « tags[32]  »; ainsi que la prolifération des réseaux sociaux.

Le Web 3.0(Web Sémantique ou web de données)

C’est le Web en temps réel. Les systèmes sont interopérables. Une véritable société numérique se met en place au sein de laquelle humains et agents intelligents collaborent pour générer des connaissances utilisables par les humains et les machines. Tout le monde devient, à la fois, consommateur et producteur.

Figure 25. Evolution du web

Définition des concepts

Il est toujours indispensable, pour mener à bien un travail de recherche, de bien cerner le domaine de notre sujet. Pour cela, j’ai été amené à repérer quelques concepts qui me paraissent utiles et les définir, par la suite, pour éviter toute confusion.

Libre Accès

Les idées principales qui ont guidé MM. Jacques DUCLOY et Imad SALEH vers la naissance du wiki H²PTM, s’inscrivent dans la démarche du Libre Accès (Open Access) aux données issues de la recherche scientifique et technique. Le wiki sémantique H²PTM est un moyen mis à la disposition des chercheurs pour accéder et mettre en ligne, gratuitement, toute une série de colloques organisés par l’Université de Paris 8 sur la thématique d’hypertexte. Ceci a été pensé pour que ce soit présenté de façon telle que les auteurs aient une garantie de contrôle sur l’intégrité de leurs travaux et le droit à être correctement reconnus et cités (c’est le rôle de copyright[33] ). La publication de ces actes a été faite suite à un accord avec l’éditeur Hermès.

Hypertexte

Le concept d’ « hypertexte », est décrit par Yankelovich et Meyrowitz comme «Une écriture et une lecture non linéaire (…) permettant aux créateurs de lier les informations, de définir des chemins à travers un corpus, d’annoter des textes existants et de créer des notes et points de lecture, soit dans des données bibliographiques, soit dans le corps d’un texte » [CHA & SUT 1989]

Ontologie

Une ontologie contient un vocabulaire formalisé regroupant, pour une discipline donnée, l'ensemble des concepts et de leurs relations. Les définitions associées à chaque concept sont issues d'un consensus entre les différents acteurs et futurs utilisateurs de l'ontologie [HEM 2012].

Web sémantique ou web de données

La vision du Web Sémantique ou web de données [BER 2007 ] initiée en 1998 par Sir Tim Berners-Lee [BER 2001 ] a pour objectif de structurer les informations disponibles sur le Web. Pour cela, les ressources, textuelles ou multimédias, doivent être sémantiquement étiquetées par des métadonnées afin que les agents logiciels puissent les exploiter. [AMA 2007 ] Cela permet aux utilisateurs de trouver, partager et combiner les informations plus facilement.

Wiki sémantique

Les wikis sont des sites Web permettant la création et l’édition collaborative de contenus de manière simple. Ils sont nés du rapprochement des wikis et du Web sémantique. Ils reposent généralement sur un ensemble de pages éditables, organisées en catégories et reliées par des liens hypertextes. Ils sont devenus le symbole de l’interactivité promue à travers le Web 2.0. L’un des principes fondateurs des wikis, qui constitue également le principal vecteur de leur popularité, est leur simplicité d’utilisation. Les wikis sont créés et maintenus grâce à des systèmes spécifiques de gestion de contenus, les moteurs de wiki tel que Mediawiki. [MEI&al 2011]

Information et connaissance

Une connaissance est le résultat de l’interprétation d’une information. En effet, la structuration d’une donnée brute permet de la transformer en information, et replacer cette information dans un contexte interprétable constitue une connaissance [HEM 2012].

Intelligence collective

Le travail mené sur le projet H²PTM, est un travail d’équipe de nature collaborative sur un même projet et dans un but commun. Ce travail s’inscrit dans une démarche d’intelligence collective. D’où la nécessité de définir le concept d’intelligence collective (concept pluridisciplinaire) qui reste peu aisé à cerner eu égard au nombre de définitions existantes et parmi lesquelles je cite :

« L'intelligence collective désigne les capacités cognitives d'une communauté résultant des interactions multiples entre ses membres (ou agents). Les éléments portés à la connaissance des membres de la communauté font qu'ils ne possèdent qu'une perception partielle de l'environnement[34] et n'ont pas conscience de la totalité des éléments qui influencent le groupe. Des agents au comportement très simple peuvent ainsi accomplir des tâches apparemment très complexes grâce à un mécanisme fondamental appelé synergie. Sous certaines conditions particulières, la synergie créée par la collaboration fait émerger des facultés de représentation, de création et d'apprentissage supérieures à celles des individus isolés ». (Source : Wikipédia)

D’après Jean Michel PENALVA(2004) :

« L’intelligence collective est une hypothèse relative à la capacité d’un groupe d’agents cognitifs (dans le cas général, ces agents peuvent être de nature humaine, animale ou artificielle) à atteindre dans l’action une performance d’un niveau supérieur. Elle sous-tend l’existence et la mise à profit de processus cognitifs d’apprentissage, de représentation, de décision, mais aussi de processus sociaux comme le partage, l’échange, la négociation, l’auto-organisation, ou encore de processus relationnels (ou de socialisation), comme la reconnaissance, la compétition, l’implication».[GRE 2007].

Projets des wikis sémantiques

Les wikis sémantiques ont déjà été mis à l’épreuve dans différents domaines d’applications. Parmi ceux-ci, citons :

Heidiwiki (https://webgate.ec.europa.eu/sanco/heidi/index.php/Main_Page)

Depuis mai 2012, la direction générale de la santé et des consommateurs de la Commission européenne a lancé le wiki «Heidi» sur la santé. Le système Heidi (acronyme de Health in Europe: Information and Data Interface) est un nouveau moyen de diffusion d'informations sur la santé en Europe, que la Commission teste actuellement. Bien qu’Heidi ait été conçu par la DG Santé et consommateurs, ce n'est pas la Commission qui fournira les articles publiés sur le wiki, mais des experts européens de la santé. L'objectif du projet Heidi est, donc, de créer un système durable et simple à mettre à jour proposant des informations pertinentes et fiables en matière de santé. En adoptant un format de type wiki, la Commission espère faire participer les experts afin de partager, de comparer et de développer les informations en matière de santé dans toute l’Europe.

Kolflow (http://kolflow.univ-nantes.fr/mediawiki/index.php/Main_Page)

Ce projet de wiki sémantique, a été lancé depuis le 1er février 2011et se terminant en Juillet 2014, financé par l'Agence Nationale de la Recherche (ANR)[35] . Le but de ce projet est de construire un espace social et sémantique au sein duquel humains et agents logiciels collaborent pour construire de la connaissance utilisable par les humains et les machines. Les humains doivent comprendre l'action des agents automatiques. Les agents automatiques doivent comprendre l'action des humains.

Vikidia (http://fr.vikidia.org/wiki/Accueil)

Vikidia est un projet encyclopédique francophone en ligne, en wiki, destiné aux 8-13 ans comme lecteurs mais aussi comme participants, non exclusivement. Le site est indépendant de la fondation Wikimédia dont dépend Wikipédia. Il a été lancé en novembre 2006.

Wikitaaable (http://wikitaaable.loria.fr/index.php/Main_Page)

Wikitaaable est un wiki sémantique utilisé dans la gestion de recette de cuisine. Le but du wiki est principalement d’enrichir le système grâce à une communauté d’utilisateurs. Ceux-ci peuvent consulter, modifier ou ajouter des recettes de cuisine formalisées, en les reliant avec une hiérarchie d’ingrédients. Ces recettes peuvent être annotées et indexées, et rendues utilisables par un moteur de raisonnement à partir de cas, qui peut proposer des adaptations.

Apport des wikis sémantiques

Nouveau modèle pour l’édition scientifique

Il est clair que l’édition scientifique est en pleine mutation. Certains modèles de publications scientifiques dites Libre Accès, ont été proposés par certains éditeurs commerciaux tels que le « Gold Open Access ». Ces modèles de publications ne sont pas gratuits pour les auteurs qui doivent payer au départ pour que l’article soit en accès libre (en somme, il faut acheter la gratuité de la diffusion post-publication) [GAÏ 2012].

Face à la perversité de certains éditeurs commerciaux, des outils de publication tels que les Wikis sémantiques, ont été adaptés aux activités d’édition collaborative. Cette plateforme collaborative, répond au besoin des utilisateurs de travailler en groupe. En leur permettant d’écrire, de modifier, de supprimer des nouvelles pages, toutes liées les unes aux autres par des liens hypertexte. Et à titre d’exemple l’interaction au sein du wiki H2TM, qui n’est non seulement avec les humains (entre moi, l’équipe Wicri et la stagiaire de Paris8) mais aussi avec les agents intelligents[36] afin de produire des connaissances partagées[LE& al. 2012]. Ceci, était, le rêve de Tim Berners-Lee, qui, grâce aux wikis sémantiques est devenu une réalité.

La réussite de projets tels que Wikipédia, n’est qu’un témoin flagrant de l’intérêt de ce nouveau modèle de publication. Au début de 2011, le nombre d’articles publiés sur Wikipédia a atteint 17 millions, avec un nombre de visiteurs de 410 millions [SANT 2011].

Les wikis sémantiques, permettent l’accès libre et gratuit aux résultats de recherche scientifique et technique. C’est le cas du wiki sémantique H²PTM, qui est actuellement devenu un wiki de référence sur la thématique d’hypertexte et le nombre de consultation n’est qu’un témoin (voir : Figure2.Nombre de consultations). Ce modèle de publication, permet en même temps de préserver les intérêts des différents acteurs (auteurs, éditeur, bibliothèques, laboratoires, organismes financeurs).

Les wikis sémantiques sont amenés à devenir des réservoirs de connaissances qui pourraient être accessibles via une sémantisation par rapport aux auteurs et aux affiliations.

Veille scientifique et technique

Le monde de la recherche scientifique ne cesse pas d’évoluer avec l’utilisation des nouvelles technologies du web 2.0, tels que les wikis sémantiques. Le web sémantique a, pratiquement, changé la manière de navigation sur le web, et la recherche d’information est devenue une activité de construction d’univers [FEA 1997]. Ce qui signifie que la structuration des données sur le Wiki sémantique est devenue active. De même, les données présentées sur le wiki sémantique sont appelées à évoluer. C’est-à-dire que les informations enrichissent, en permanence, les documents notamment avec les entités : auteurs repérés, affiliations repérées, et les entités régions, villes, organisations… ceci contrairement aux données de l’INIST- CNRS qui sont plutôt figées (dans le cas du wiki H²PTM).

Il s’avère que, face à ce déluge de données présentées sur le web, la maîtrise de l’accès à l’information, d’une manière intelligente et rapide, est devenue l’une des principales préoccupations des chercheurs ou spécialistes de l’information scientifique et technique.

Dans cette optique, on peut dire que les wikis sémantiques peuvent amener des progrès considérables dans toutes les applications liées à la veille ou à la fouille de données. A titre d’exemple, le wiki H²PTM offre trois possibilités d’accés à un document : un accès à partir des métadonnées, un accès à l’article en version intégrale et un accès à la notice seulement.

Cela permettra, également, de tirer le meilleur profit pour une exploitation optimale et meilleure de données structurées, pour des besoins de recherche d’information.

Extraction terminologique et création d’ontologie

Mon expérience menée sur l’indexation sémantique au cours de mon stage m’a amené à une réflexion déjà faite dans la partie de stage. Celle que les wikis sémantiques, tels que Wicri, permettent l’élaboration des thésaurus, des classifications ou des ontologies.

De la même façon, la base DBpedia[37] a obtenu, à partir de Wikipédia, en exploitant un travail terminologique sans précédent, l'identification de plusieurs millions de concepts sur la Wikipédia anglaise . La seule différence, entre Wicri et DBpedia, c’est que l’extraction terminologique faite par DBpedia est limitée sur une base unique qui est Wikipédia. Or, pour Wicri, l’extraction est faite depuis des bases diverses en croisant la base de données Pascal[38] avec le thésaurus multilingue EuroVoc[39] de l'Union européenne.

Métadonnées et intéropérabilité

Les métadonnées sont des données structurées permettant de décrire, ou de représenter d’autres sources et d’autres données : publications, personnes, organismes…

Les métadonnées sont à la base des techniques du Web sémantique, ou Web de données car, au delà des simples liens hypertextes (hyperliens) que l’on peut retrouver dans un site « classique », on a des liens sémantiques. Autrement dit, des lien enrichis de métadonnées utilisables par des processus automatisés pour en faciliter la recherche. Ce sont eux qui détiennent la clé de la sémantisation.

Ceci rejoint les idées de Philippe Picouet et Jean-Marc Saglio concernant le web sémantique, quand ils expliquent que : « En ajoutant des métadonnées aux documents, on souhaite rajouter au web la sémantique qui lui manquait » [PHI&SAG 2002].

Les métadonnées sont liées étroitement avec la notion d’intéropérabilité des données. Une meilleure description des données, permet une meilleure interprétation des machines (Agent intelligent).

Contraintes

Dans le contexte de Libre Accès et du wiki sémantique, j’ai repéré quelques contraintes que je vais décrire. On a vu que la phase de publication des résultats issus de la recherche scientifique et technique, dans le Libre Accès, est toujours conditionnée par un accord effectué avec les éditeurs et les auteurs. Dans ce contexte d’édition numérique, le monde commercial, peut être vu comme une contrainte ou un frein. En effet, si pour certains éditeurs commerciaux, l’apparition de nouveaux outils de publication en Libre Accès, tel que le wiki sémantique, est considéré comme un danger face à leurs intérêts ; à ce niveau, il se peut qu’il n’y ait pas d’accord, chose qui n’arrangera pas ces éditeurs. Donc pour éviter toute conséquence malsaine de la part de ces éditeurs, il serait souhaitable que les pouvoirs publics et la communauté des chercheurs et des spécialistes de l’information scientifique et technique se mobilisent sur ces questions. Et comme proposition pour motiver les chercheurs à mettre leurs travaux en Libre Accès. Il faut que l’état, modifie le système de notation des chercheurs basé sur des revues à fort facteur d'impact, en le basculant sur l’open source.

Un autre problème qu’on a pu identifier, réside au niveau des ontologies et des métadonnées. Le wiki sémantique est centré sur le travail collaboratif, et tous les utilisateurs peuvent contribuer en même temps. Si, par exemple, un parmi les contributeurs n’identifiait pas la bonne métadonnée, à titre d’exemple les affiliations d’un auteur ; dans ce cas, se posera le problème d’incohérence au sein du wiki et d’interopérabilité avec les autres systèmes.

Au niveau de construction des ontologies et de la définition des concepts. Il y’a une contrainte liée à la présence de diverse communautés, qui peuvent s’intéresser au même concept mais avec des points de vues différentes. Les ontologies et les concepts, ne sont pas figés, ils s’évoluent avec l’évolution des sciences ou des pensées.

D’autres contraintes, techniques cette fois-ci, peuvent être liées à la syntaxe wiki. En effet, c’est une nouvelle syntaxe qui n’est pas difficile à apprendre ; toutefois, elle demande du temps pour parvenir à la maîtriser. Or, pour pouvoir contribuer dans un wiki, il est indispensable d’en maitriser la syntaxe.

Conclusion

Devant l’importance croissante des publications et bases de données disponibles sur le Web, il est devenu indispensable de recenser l’existant et de mettre en avant l’intérêt des wikis sémantique pour une publication d’articles scientifiques et techniques, assurant une meilleure présentation et exploitation optimale des informations.

A partir de mon expérimentation menée sur le Wiki H²PTM, je peux dire que les wikis sémantiques peuvent apporter beaucoup de chose au monde de la recherche et de l’innovation. Et il me semble intéressant d’explorer les pistes : Métadonnées et intéropérabilité, Nouveau modèle pour l’édition scientifique ; Veille scientifique et technique ; Extraction terminologique et création d’ontologie.

De plus, le libre accès aux informations de la recherche scientifique et technique est un enjeu politique d’envergure, il serait souhaitable que les pouvoirs publics et la communauté des chercheurs et des spécialistes de l’information scientifique et technique se mobilisent sur ces questions.

Bibliographie

[GAÏ 2012] Gaïa Universitas, «Les britanniques vont basculer vers le Gold Open Access. » (17 juillet 2012). [En ligne] http://rachelgliese.wordpress.com/2012/07/17/les-britanniques-vont-basculer-vers-le-gold-open-access/ (consulté le 24 juillet 2012)

[DOM 2012] Nicolas Domenjoud, «  Recherche d'informations, mise en forme et structuration, mise en ligne dans un réseau d'hypertextes », Mémoire de fin d’études du Master deuxième année, spécialité IST-IE 2011-2012, Université de Nancy 2.

[LE& al. 2012] Anh-Hoang LE, Marie LEFEVRE et Amélie CORDIER, « Collecter les traces d’interaction de wikis sémantiques distribués pour assister leurs utilisateurs ». 20ème atelier français de raisonnement à partir de cas (RàPC 2012), Paris, France, 25 juin 2012. [En ligne] http://liris.cnrs.fr/Documents/Liris-5584.pdf

[HEM 2012] Mounir HEMAM, « Développement des ontologies multi-points de vue: une approche basée sur la logique de descriptions » (09 janvier 2012) http://bu.umc.edu.dz/theses/informatique/HEM6086.pdf

[SAN 2011] Frédéric SANTOS, « Les 10 chiffres-clés de Wikipédia » (17 janvier2011), Mémoclic. [En ligne] http://www.memoclic.com/640-wikipedia/13569-chiffres-wikipedia.html

[MEI&al 2011] Thomas MEILENDER, et al.« Les moteurs de wikis sémantiques : un état de l’art » (3décembre 2011), HAL [En ligne] http://hal.archives-ouvertes.fr/docs/00/57/38/21/PDF/article.pdf

[SCH & PRO 2010] Joachim SCHÖPFEL et Hélène Prost, « Les statistiques d’utilisation d’archives ouvertes - Etat de l’art » (4 mais 2010).

[DIA 2008] Loïc DIAS DA SILVA, « L’inépuisable renouveau du World Wilde Web » (2008), thèse de fin d’étude [En ligne] https://docs.google.com/file/d/1p-FkzRLC0A3WytMR_n-VWfLdNEf_HJfRVMZURkqa1SFWqn7pcEXDBxLPsINa/edit?pli=1

[BER 2007] Tim BERNERS-LEE, « Le web va changer de dimension » (2007), La Recherche, 413, pp. 34-38. [En ligne] http://www.larecherche.fr/content/recherche/article?id=6566

[AMA 2007] Florence AMARDELH, « Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle », Thèse de Doctorat de l'Université de Paris X - Nanterre, 274 p, (mai 2007) [En ligne] http://tel.archives-ouvertes.fr/docs/00/14/62/13/PDF/These_Amardeilh_-_OntoPop_-_version_definitive.pdf

[GRE 2007] Olfa ZAÏBET GRESELLE, « Vers l’intelligence des équipes de travail : une étude de cas » (octobre 2007), Cairn.info. [En ligne] http://www.cairn.info/revue-management-et-avenir-2007-4-page-41.htm

[MON 2006] Erwane MONTHUBERT, A propos d’Internet et du mouvement « sauvons la recherche». [En ligne] (Consulté 1 août 2012). http://droit.dentree.free.fr/hopfichiers/DEL%2012,%20Monthubert.pdf

[POU 2005] Gautier POUPEAU, «  Du livre électronique au wiki. Comprendre les enjeux techniques de l'édition électronique » (8 septembre 2005). [En ligne] http://www.youscribe.com/catalogue/rapports-et-theses/savoirs/sciences-humaines-et-sociales/du-livre-electronique-au-wiki-comprendre-les-enjeux-techniques-de-1535769 (consulté le 10 juin 2012).

[KYH 2005] Rossitza KYHENG, "DE LA SÉMANTIQUE DES TEXTES AU WEB SÉMANTIQUE- L'édition scientifique sur le web : quel avenir ? » http://www.revue-texto.net/Redaction/Dossier_EE/Kyheng/Kyheng_Semantique.html (Consulté le 20 juillet 2012).

[PHI&SAG 2002] Philippe PICOUET et Jean-Marc SAGLIO, « Définition de parcours sur un Web Communautaire » (09 mars 2002) [En ligne] http://www.infres.enst.fr/people/saglio/etudes/e-parcours/papers/GETe-parcours.pdf

[BER 2001] Tim BERNERS-LEE, James HENDLER et Ora LASSILA, « The Semantic Web. A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities» (17 mai 2001), Scientific American. [En ligne] http://trac.assembla.com/soray/export/230/user/Marcell/readings/Semantics/The%20Semantic%20Web.pdf / (Consulté le 23 mai 2012).

[FEA 1997] Jym FEAT, « Pour une navigation intuitive », hypertexte et hypermédias. Volume 1-n° 2-3-4/1997, pages 157à 164.

[CHA & SUT 1989] Jacques CHAUMIER et Eric SUTTER, « L’HYPERTEXTE : une nouvelle approche de l ‘information » (mars –avril 1989). http://www.ifi.auf.org/site_data/rapports/theses/these-Luong_Phuc_Hiep.pdf

Sitographie

http://documents.irevues.INIST- CNRS.fr/handle/2042/8538

http://eureka.lorraine.eu/jahia/Jahia/cache/bypass/pid/1968?actu=18617

http://eurovoc.europa.eu/drupal/?q=fr

http://eurovoc.europa.eu/drupal/?q=fr

http://fr.vikidia.org/wiki/Accueil

http://fr.wikipedia.org/wiki/Agent_%28informatique%29

http://fr.wikipedia.org/wiki/Nomenclature_d%27unit%C3%A9s_territoriales_statistiques

http://handilearning.eu/revue/content/view/27/93/1/0/

http://kolflow.univ-nantes.fr/mediawiki/index.php/Main_Page

http://lodel.irevues.INIST- CNRS.fr/cide/index.php?id=56

http://openaccess.inist.fr/?+-Copyright-+

http://ticri.inpl-nancy.fr/ticri-H²PTM.fr/index.php/Paragraphe_%28laboratoire%29

http://ticri.inpl-nancy.fr/Wicri.fr/index.php/Syst%C3%A8me_d%27information_sur_les_recherches_en_cours

http://ticri.inpl-nancy.fr/Wicri.fr/index.php?title=H²PTM

http://urfist.u-strasbg.fr/index.php/ressources/modes-d-emploi/moteurs-de-recherche-internet

http://wikitaaable.loria.fr/index.php/Main_Page

http://www.agence-nationale-recherche.fr/missions-et-organisation/missions/

http://www.univ-metz.fr/ufr/sha/crem/

http://fr.wikipedia.org/wiki/DBpedia

http://www.ifi.auf.org/site_data/rapports/theses/these-Luong_Phuc_Hiep.pdf

http://www.interreg-4agr.eu/fr/page.php?pageId=345

http://www.journaldunet.com/ebusiness/le-net/laure-sauvage-chat-laure-sauvage-benchmark-group/nuages-de-tags.shtml

http://www.journaldunet.com/solutions/0410/041029_faq_rss.shtml

Notes

  1. D'après Bernard BESSON et Jean-Claude POSSIN : « "l'intelligence économique est la maîtrise concertée de l'information et de la coproduction de connaissances nouvelles. Elle est l'art de détecter les menaces et les opportunités en coordonnant le recueil, le tri, la mémorisation, la validation, l'analyse et la diffusion de l'information utile ou stratégique à ceux qui en ont besoin. Elle impliquera une protection adaptée à tous les stades de son élaboration : acquisition, traitement, exploitation, et au patrimoine en résultant avec une attention particulière aux prémisses (...). Pour l'essentiel, l'intelligence économique est un cycle d'informations dont la finalité est la production de renseignements stratégiques et tactiques à "haute valeur" ajoutée" »
  2. Le DRRT joue un rôle d'animateur et d'interface entre les différents partenaires de la recherche et de la technologie en région. Il peut coordonner l'action des établissements et organismes publics de recherche sur des opérations particulières en région sans avoir, pour autant, autorité sur ces établissements publics et faciliter ainsi la création et le développement de nouveaux pôles de recherche. (Source : MINIST- CNRS ère de l'Enseignement Supérieur et de la Recherche).
  3. Le programme INTERREG IV A Grande Région vise à renforcer la coopération transfrontalière par la réalisation de projets locaux et régionaux entre opérateurs issus des territoires qui composent la Grande Région. http://www.interreg-4agr.eu/fr/page.php?pageId=345
  4. http://ticri.inpl-nancy.fr/ticri-H²PTM.fr/index.php/Paragraphe_%28laboratoire%29
  5. http://www.univ-metz.fr/ufr/sha/crem/
  6. Un wiki public est destiné à diffuser plus largement les travaux de cette communauté. Des techniques sémantiques seront utilisées notamment pour offrir des fonctions d'observatoire des travaux sur l'hypertexte et les hypermédias. Un wiki privé est destiné aux membres de cette communauté (auteurs ou membres des comités) afin de permettre des travaux collectifs en accès restreint.http://ticri.inpl-nancy.fr/Wicri.fr/index.php?title=H²PTM
  7. Un Système d'information sur les recherches en cours désigne un service informationnel qui diffuse et donne accès à des informations sur le fonctionnement des institutions de la recherche et de l'innovation. Cette expression est la traduction de Current Research Information System, également connue sous l'acronyme CRIS. Plus précisément, un CRIS est constitué d'un modèle de données décrivant les entités d'un système de recherche et d'innovation, et d'un ensemble d'outils permettant de gérer les données relatives à ce modèle. http://ticri.inpl-nancy.fr/Wicri.fr/index.php/Syst%C3%A8me_d%27information_sur_les_recherches_en_cours
  8. http://lodel.irevues.INIST- CNRS.fr/cide/index.php?id=56
  9. Une revue de l'Institut des sciences de la communication du CNRS http://documents.irevues.INIST- CNRS.fr/handle/2042/8538
  10. Un modèle est un code paramétrable permettant de reproduire, sur plusieurs pages, un même « objet numérique »
  11. Voir Annexe 3 : Modèle:H²PTM citation & Modèle:H²PTM biblio
  12. Prenons l’exemple de l’affiliation d’une personne. Le fait de renseigner son affiliation (université, laboratoire ou organisme), ceci créé systématiquement, à travers le modèle, une relation sémantique telle que, par exemple, la relation A pour membre: « Le laboratoire INIST-CNRS A pour membre Catherine Morel-Pair ».
  13. Google Scholar est un moteur de recherche multidisciplinaire spécialisé dans la littérature universitaire : articles évalués par les pairs, thèses, livres, abstracts, rapports techniques, citations, etc ...). Tous ces documents sont issus des publications des éditeurs commerciaux, des sociétés savantes, de sites d'archives ouvertes, des laboratoires de recherche, écoles et universités, ...). http://urfist.u-strasbg.fr/index.php/ressources/modes-d-emploi/moteurs-de-recherche-internet
  14. Voir Annexe 4 : Modèle:H²PTM citation&Modèle:H²PTM biblio
  15. Optical Character Recognition (Reconnaissance Optique de Caractères).
  16. Un article peut être intéressant dans deux cas : 1. Si cet article est cité par plusieurs auteurs, ceci nous montre son importance et sa valeur. Généralement, on peut vérifier cela sur la fiche d’auteur, où on peut voir où son article était cité. 2. Un article peut être intéressant même s’il n’était pas cité par d’autres auteurs, notamment quand un auteur est le fondateur d’une idée.
  17. Selon le schéma de la structuration du réseau Wicri.
  18. Voir l’annexe
  19. Extension de MediaWiki, le moteur utilisé parWikipédia.
  20. Dans une organisation orientée métier, chaque service ne fait que ce qui correspond à son métier
  21. Base de données multidisciplinaire et multilingue de références bibliographiques en sciences, technologies, et médecine
  22. EuroVoc est un thésaurus multilingue et multidisciplinaire couvrant la terminologie des domaines d'activité de l'Union européenne, avec un accent sur l'activité parlementaire. EuroVoc est disponible dans 22 langues officielles de l'Union européenne. ( http://eurovoc.europa.eu/drupal/?q=fr )
  23. Mot choisi en vue de représenter le contenu d’un document. Ces mots clés sont généralement extraits à partir du titre du document, de son résumé et parfois de la conclusion.
  24. Mot clé choisi parmi un ensemble de termes équivalents pour représenter, sans ambiguïté, un concept. Il fait, en général, partie d’un vocabulaire organisé et hiérarchisé de type "thésaurus".
  25. D’après le document de Monsieur Amos DAVID, « L’Intelligence Économique et les Systèmes d’Informations : Problématiques et approches de solutions »
  26. http://eureka.lorraine.eu/jahia/Jahia/cache/bypass/pid/1968?actu=18617
  27. http://fr.wikipedia.org/wiki/Nomenclature_d%27unit%C3%A9s_territoriales_statistiques
  28. Open Access, « Déclaration de Berlin » (22 octobre 2003) http://handilearning.eu/revue/content/view/27/93/1/0/
  29. Rapport des Etats Généraux de la Recherche – Novembre 2004 http://www.ladocumentationfrancaise.fr/var/storage/rapports-publics/044000563/0000.pdf
  30. Le terme « Blog » est une abréviation de weblog, qui peut se traduire par « journal sur Internet ». Défini souvent comme un site personnel, il s’agit d’un espace individuel d’expression, créé pour donner la parole à tous les internautes (particuliers, entreprises, artistes, hommes politiques, associations…). http://www.over-blog.com/offres-blog/definition-blog.php
  31. Il s'agit d'un fichier texte particulier (voir plus loin) dont le contenu est produit automatiquement (sauf cas exceptionnels) en fonction des mises à jour d'un site Web. http://www.journaldunet.com/solutions/0410/041029_faq_rss.shtml
  32. En termes de parcours de navigation, les nuages de "tags" ou de mots clés constituent un moyen intéressant d'amener le visiteur vers le contenu qu'il recherche. Cet outil reste cependant prisé des utilisateurs avancés du Web et est encore peu connu de l'ensemble du grand public. http://www.journaldunet.com/ebusiness/le-net/laure-sauvage-chat-laure-sauvage-benchmark-group/nuages-de-tags.shtml
  33. Le copyright couvre les droits exclusifs accordés aux auteurs d’œuvres originales fixées sur un support matériel : droits de reproduction, d’adaptation, de distribution... Il est très proche du droit d’auteur. Il est souvent assimilé et réduit au « droit de copie » qui ne représente qu’une partie des droits. http://openaccess.inist.fr/?+-Copyright-+
  34. C’est l'aptitude à bien comprendre son environnement, afin d'y agir en connaissance de cause.
  35. Une structure de financement sur projets au service de la recherche, a pour mission d’augmenter la dynamique du système français de recherche et d’innovation en lui donnant davantage de souplesse. A ce titre, l’ANR doit favoriser l’émergence de nouveaux concepts, accroitre les efforts de recherche sur des priorités économiques et sociétales, intensifier les collaborations public-privé et développer les partenariats internationaux. L’ANR accompagne l’ensemble des communautés scientifiques publiques et privées. (Voir : http://www.agence-nationale-recherche.fr/missions-et-organisation/missions/)
  36. L’agent intelligent est l'équivalent d'un robot logiciel. il est utilisés pour faire à la place des humains les recherches et les corrélations entre les résultats de ces recherches. (Source : Wikipédia http://fr.wikipedia.org/wiki/Agent_%28informatique%29)
  37. DBpedia est un projet communautaire d'exploration et extraction automatiques de données à partir de Wikipédia pour en proposer une version structurée, accessible aux internautes ou aux « robots du web », via internet, à partir de requêtes éventuellement complexes, et intégrée dans le « web sémantique ». http://fr.wikipedia.org/wiki/DBpedia
  38. Base de données multidisciplinaire et multilingue de références bibliographiques en sciences, technologies, et médecine
  39. EuroVoc est un thésaurus multilingue et multidisciplinaire couvrant la terminologie des domaines d'activité de l'Union européenne, avec un accent sur l'activité parlementaire. EuroVoc est disponible dans 22 langues officielles de l'Union européenne. ( http://eurovoc.europa.eu/drupal/?q=fr )

Annexes

Annexe1 : Organigramme de l’INIST- CNRS - CNRS

Organisation de l'INIST.jpg

Annexe 2 : Évolution du réseau Wicri depuis 2008

Ali.wicri2008-2009.png

Respectivement, le réseau initial en décembre 2008 et le réseau en février 2009 (19 wikis répartis entre 8 familles).

Ali.wicriaoût2012.png

Le réseau Wicri en août 2012 (138 wikis répartis entre 54 familles).

Annexe 3 : Modèle: H²PTM citation & Modèle: H²PTM biblio

Ali.modèleh2ptmbiblio.jpg
Ali.modèleh2ptmcitation.jpg

Annexe 4

Modèle:Infobox sémantique laboratoire : ce modèle simplifie la création de pages homogènes concernant des laboratoires.

Ali.Infobox sémantique laboratoire.png

Modèle:Infobox sémantique université : ce modèle simplifie la création de pages homogènes concernant les universités.

Ali.Infobox sémantique univ.png

Modèle:Infobox sémantique organisme : Ce modèle simplifie la création de pages concernant des organismes.

Ali.Infobox sémantique organisme.png

Annexe5 : tableaux de croisement et de suivi

Ali.tableau de synthèse1.jpg
Ali.tableau de synthèse2.jpg