LorExplor

De Artist
Révision datée du 7 décembre 2012 à 00:00 par imported>Jacques Ducloy

LorExplor est un acronyme qui signifie : Exploration des enjeux et besoins de l'Université de Lorraine sur l'exploration des connaissances.

Ce projet est en cours d'élaboration par l'équipe Ticri en vue d'une soumission auprès des instances de pilotage du projet ISTEX. Il est rédigé par un groupe de travail initial en vue de l'appropriation de cet investissement par des communautés de l'Université de Lorraine.

Pour faciliter un travail collaboratif; nous avons choisi de terminer cette phase propositionnelle dans un espace public.

logo travaux Ce document est en cours de rédaction. Un bandeau de travaux indique la limite entre la partie stabilisée mais à améliorer avec celle qui n'est pas encore stabilisée


LorExplor, Exploration des enjeux et besoins de l'Université de Lorraine sur l'Exploration des connaissances


L’Université de Lorraine, agissant pour la CPU, porte le projet ISTEX qui met un ensemble gigantesque de connaissances numériques (60 M€) à la disposition de la recherche et de l'enseignement supérieur. Dans cette perspective, l'équipe Ticri[1] propose une action pour informer, analyser les besoins et évaluer les moyens à mettre en œuvre pour l'appropriation de cet investissement.

Pour cela, nous disposons d'une plateforme technique qui aborde l'ensemble du paysage l'information scientifique. Elle n'a pas la prétention de résoudre tous les besoins mais permet de les expérimenter et d'en affiner l'expression. Nous proposons de mener, avec un panel d'équipes, un ensemble de projets de courte durée avec comme objectif de faire émerger les problèmes liés à l'appropriation et de mesurer les moyens nécessaires en termes de formation et de soutien logistique. Une retombée est l'amélioration de la plateforme afin qu'elle soit capable de résoudre les besoins courants.

Les enjeux

Le projet ISTEX donne accès à un ensemble gigantesque de ressources numériques, négociées avec les éditeurs pour un usage qui va bien au delà du simple accès au document pour permettre des traitements de contenus. l'Université de Lorraine bénéficie ainsi d'un dispositif majeur pour son positionnement autour de l'ingénierie de la connaissance. Elle dispose également d'un outil pour répondre aux ambitions affichées sur son site, où elle promeut la mutualisation des savoirs. Des sciences fondamentales aux sciences humaines, elle crée des éco-systèmes trans-disciplinaires au service de l’innovation, qui accélèrent le passage de la connaissance aux applications.

Cela dit, l'appropriation effective des ressources numériques implique un bouleversement profond. La NSF parle à ce propos de changement de paradigme. En effet, depuis l'invention des bibliothèques sous l'Antiquité, les relations avec les documents sont indépendantes des disciplines. Par exemple, en première approximation, une action telle que «transporter ou dupliquer un document» est identique quel que soit le sujet traité. Ceci est encore vrai pour les formats numériques en PDF. Avec l'accès au contenu, les documents se différencient de multiples manières en fonction de leur thématique, de leur vocabulaire mais également de leur format. De la même façon, les traitements deviennent spécifiques à chaque type de besoin. Il faut donc maintenant maitriser « l'infodiversité ».

Cette acquisition massive va donc bouleverser en profondeur la relation des acteurs de la recherche avec l'IST. Le fait de pouvoir exploiter directement les données de la recherche sans passer par les "filtres" classiques peut ouvrir des voies de recherche inexplorées jusqu'ici, du moins aux chercheurs qui feront la démarche d'apprendre à manipuler de nouveaux outils". Les enseignants vont pouvoir interpeller les étudiants sur le rôle stratégique de l'information numérique, mais là encore, à condition de se former en conséquence.

Autrement dit, un dispositif d'accompagnement à la hauteur des investissement apparait comme indispensable. Dans une bibliothèque classique, un chercheur qui accède à un article, sous forme numérique ou traditionnelle, peut le lire immédiatement. Il n'a pas besoin d'être accompagné. Dans une bibliothèque de corpus, un chercheur peut décharger des dizaines de milliers de documents en texte intégral. Que peut-il en faire sans outils et formation spécifique ? Les médiateurs de l'information, bibliothécaires ou documentalistes, qui encore majoritairement chargés de fournir des documents, vont devoir migrer vers l'accompagnement de l'exploration des connaissances.

La mission Ticri propose une action d'interpellation sur ces enjeux, pour sensibiliser les acteurs à l'intérêt de ces ressources, assurer un premier niveau de formation et évaluer plus précisément les besoins nécessaires à l'appropriation du projet ISTEX.

Partir des besoins pour expérimenter l'ensemble de la chaîne numérique

Le traitement avancé des contenus scientifiques est très fortement intégré aux pratiques de recherche. Pour une analyse fine des besoins, nous proposons donc de prendre en compte l'ensemble des activités numériques de la recherche, et pas seulement la seule activité d'exploitation de corpus. De même, nous proposons d'opérer dans un paysage informationnel plus vaste que celui d'ISTEX (notamment dans une perspective de coopération internationale ou de transfert de technologie). Pour cela nous disposons d'une solution initiale encore limitée mais que nous avons déjà mis en œuvre. Elle permet de mener des expérimentations sur l'ensemble du processus informationnel de la recherche.

Pour simplifier la gestion de l'infodiversité, nous distinguerons deux types principaux d'applications :

  • les applications transversales, communes aux communautés scientifiques, comme par exemple la veille ou l'aide au pilotage. On y utilise fortement les métadonnées ou des parties fortement structurées telles que la bibliographie. Notre projet vise aussi à proposer des outils ou pratiques génériques, appliqués aux collections hétérogènes.
  • les applications verticales, ou thématiques, propres à une pratique scientifique. Il convient ici de distinguer deux catégories : celles qui relèvent de communautés internationales qui bénéficient d'une forte expérience dans les pratiques numériques (telles que la génomique), et les autres, celles qui ne sont pas encore autonomes et que nous considèrerons en priorité.

Nous considèrerons également deux autres types d'expérimentations :

  • les applications pédagogiques, en visant notamment la sensibilisation des étudiants en master 2 aux traitements de l'information numérique scientifique.
  • la culture scientifique et technique (CST). Cette activité, au cœur des ambitions de l'Université, est une passerelle entre les applications transversales et thématiques, avec comme particularité la production d'une information compréhensible par un large public. Elle nous parait fondamentale dans une stratégie d'appropriation d'ISTEX par les professionnels de l'information car elle leur permet de s'impliquer totalement dans les pratiques numériques en coopération étroite avec les chercheurs.

Nous proposons un programme d'expérimentations en trois phases avec comme priorités successives : les applications transversales, la CST, et enfin les applications spécialisées.

Annexe 1 - Éléments scientifiques et techniques

Cette annexe décrit le programme d'expérimentation que nous proposons dans le contexte ISTEX. Elle présente la plateforme technique sur laquelle nous comptons nous appuyer et la démarche que nous pensons déployer.

Une remarque préalable s'impose à ce niveau. La plateforme est une intégration d'outils ou de solutions pour lesquelles nous sommes très attentifs aux contraintes d'interopérabilité. Elle sera utilisée comme un outil de démonstration, formation ou maquetage, qui ne préjuge pas des choix qui seront faits par les équipes visitées. Cependant, une retombée recherchée dans ce programme est d'obtenir une solution technique capable de résoudre des problèmes courants.

Parmi la grande variété des applications qui relèvent des traitements de corpus, nous visons comme exemple médian la réalisation de dossiers, de volume conséquent, dans la culture scientifique et technique. En effet, cette démarche demande une activité exploratoire conséquente qui relève pleinement de l'utilisation de corpus pour permettre à un rédacteur de découvrir des informations qu'il ne connaît pas a priori.

Ces dossiers de synthèses font également appel à une large panoplie de traitements plus courants en matière éditoriale de recherche d'information. Autrement dit la technicité acquise sur la culture scientifique et technique sera applicable à une large gamme de problèmes plus courants.

La limite de la plateforme se situe au niveau des applications thématiques dès qu'il s'agira de traiter des données proprement dites, et surtout si elles s'avèrent spécifiques d'un domaine donné. En revanche l'ingénierie Xml mise en œuvre dans la plateforme pourra s'avérer utile dans l'élaboration de solutions finalisées.

Un atelier flexible sur l'ensemble du paysage numérique

L'élaboration d'un dossier de synthèse par un groupe de travail demande un assemblage de différentes solutions techniques :

  • des outils de construction collective de textes scientifiques, c'est à dire capable de traiter des objets complexes, formules mathématiques, graphiques en mode vectoriel, intégration de simulation ou d'animation (par exemple sur des molécules complexes en 3 dimensions)
  • des mécanismes de structuration formelle des connaissances dès que la taille du dossier devient consistante ou que l'on souhaite intégrer ces dossiers dans en ensemble plus vaste de navigation (accès unifié à une collection thématique). Ces mécanismes relèvent d'une part des outils d'indexation et d'autre part des approches sémantiques.
  • des outils d'analyse de corpus de connaissances pour découvrir la globalité des approches à présenter. Il s'agit ici de combiner des outils de recherche d'information avec des outils d'exploration (statistiques, classification) dans un contexte de très forte hétérogénéité.

La variété des situations que nous prévoyons de rencontrer demande une très grande flexibilité des solutions retenues. C'est pourquoi nous avons retenu l'appellation « d'atelier flexible ». Dans l'état de nos réflexions, nous prévoyons de démarrer avec une solution initiale « clé en main » mais qui sera généralement profondément modifiée dans une stratégie itérative d'appropriation.

Une solution initiale

En pratique, nous nous appuyons sur 3 ensembles de solutions technologiques correspondant aux trois axes du paragraphe précédent :

  • Pour les besoins éditoriaux, nous utilisons le moteur MediaWiki, souche de Wikipédia et d'un très grand nombre de wikis scientifiques dans le monde. Plus précisément, le réseau Wicri, qui croise une collection de wikis thématiques et régionaux, permet de traiter tout problème informationnel dans un contexte pré-existant (ou relativement facile à créer).
  • Sur les aspects sémantiques, nous utilisons actuellement l'extension Semantic MediaWiki développée par l'Université de Karlsruhe. Dans le cadre du projet LorExplor, nous serons probablement amenés à faire quelques développements annexes pour intégrer des ontologies existantes (généralisation d'EuroVoc ou introduction de l'UMLS.
  • Pour les aspects directement liés à l'utilisation de corpus, nous partons de la bibliothèque Dilib qui avait été initialement développée au Loria, puis étendue à l'INIST.

Cet ensemble nous permet d'installer très rapidement (1/2 heure dans les cas simples) un environnement permettant d'explorer et de consolider (dans les wikis sémantiques) les résultats obtenus par les recherches dans les corpus

WicriIstex.png

D'un point de vue technique, la plateforme gère des « flux de curation » qui convergent vers un flux terminal. Un flux est composé d'un ensemble d'étapes qui génèrent des versions successives de systèmes de navigation et de recherche d'information.

WicriIstex2.png

Les différentes étapes utilisent différents types d'outils en fonction du type de donnée à homogénéiser. Par exemple, dans nos premières expérimentations, les pays d'affiliations sont homogénisés dans le passage entre la base Corpus et la base Curation, et les régions dans l'étape suivante (avec des algorithmes particuliers pour les pays concernés).

Nous prévoyons d'utiliser les wikis pour la curation de données, notamment pour gérer les règles associées ou pour gérer des données (ou ontologies) de convergence. Les options d'interopérabilité retenues permettent de substituer n'importe quel élément et ainsi de faire évoluer les applications.

Un protocole à affiner

Pour une opération de sensibilisation, d'expérimentation et de définition de besoin, on peut ainsi imaginer, avec une équipe de recherche, une petite coopération avec les étapes suivantes :

  1. Préparation par l'équipe Ticri d'une application, construite à partir de corpus de première approche (bases bibliographique) sur la thématique du laboratoire. On peut ainsi montrer quelques pages sur les relations du laboratoire (transversal) avec un exemple de rendu "Communication scientifique et technique) sur un sujet très limité.
  2. Organisation d'une séance de sensibilisation (et de première formation) sur la base de cette application. Cette étape permet notamment de faire exprimer un premier ensemble de questions (essentiellement de type transversal dans un premier temps).
  3. À partir de quelques besoins assez faciles à résoudre on construit un ensemble d'actions de sensibilisation qui permettent aux chercheurs de mieux comprendre les outils mis en œuvre dans les traitements de corpus
  4. On peut alors passer à un montage analogue sur des questions thématiques.

Chaque opération de ce type permet de sensibiliser une équipe de lui apporter un premier ensemble de réponses et de collecter des besoins. Nous comptons également profiter de chacune de ces opérations pour enrichir le démonstrateur en données de curation et pour améliorer la boîte à outils.

Pour chacune de ces opérations nous pouvons associer des spécialistes de l'information, documentalistes ou bibliothécaires, dans une perspective de formation d'accompagnateurs.

Enfin, en fonction des problèmes observés, on peut également associer des chercheurs sur les outils ou pratiques.

logo travaux suite encore réduite à un ensemble de notes

Annexe 2 - Programme prévisionnel des travaux

Nous proposons d'analyser 3 types de besoins, de complexité croissante :

  • identification des acteurs d'un système de recherche ou d'innovation (CRIS),
  • culture scientifique et technique,
  • analyse des besoins thématiques en liaison forte avec les données de la recherche.

Ceci se traduit par un programme en 3 phases :

janvier à juin 2013 - démonstrateur initial
Cette étape vise à mettre au point un démonstrateur. préfiguration de la plateforme à partir de données disponibles dans le domaine public et des premiers corpus ISTEX,
juin 2013 à juin 2014 - analyse des besoins transversaux
premier déploiement d'actions principalement axées sur des besoins de type transversal, sur une plateforme interne à l'équipe ISTEX,
juin 2014 à juin 2015 - du transversal au thématiques
déploiement d'actions avec composante thématique sur une plateforme qui peut être installée dans les laboratoires.

Notes

  1. L'équipe Ticri (Technologies de l'Information Communication pour les Communautés de la Recherche et de l'Innovation) a été initiée par la DRRT Lorraine puis reprise par l'Université de Lorraine.

Voir aussi