Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Utilisateur:Jacques Ducloy/Investigations aussoyennes sur les poissons acidophiles

De Wicri Eau

En juillet 2015, lors d'une discussion amicale au centre Paul Langevin à Aussois, un témoignage sur la survie des poissons en milieu acide a servi de sujet pour une sensibilisation sur le programme d'investissement d'avenir ISTEX, sur le réseau Wicri et sur les wikis sémantiques.

Plus précisément, Yves Laprie (BlasonMiniRougeOr.jpg) a parlé d'une de ses premières expériences professionnelles dans les mines d'uranium au Niger. Il y avait vu des poissons évoluant dans des eaux fortement polluées par le traitement des minerais.

D'où un sujet d'investigation :

  • quels sont les poissons qui sont capables de vivre dans des eaux dont le pH est très faible ?

Pour y répondre, j'ai proposé d'utiliser l'approche développée dans le projet LorExplor. En effet, cet exemple donne une excellente opportunité pour une sensibilisation sur l'ingénierie de la connaissance numérique. Pour montrer la variété des approches possibles, un deuxième sujet sera également traité :

  • quelle est la place d'Aussois dans la littérature scientifique ?[1]

On plante le décor sur le réseau Wicri

Sur ce wiki, on définit : ISTEX, LorExplor, Wicri et les wikis sémantiques.[2]

Concernant Aussois, il faut créer un « espace éditorial » pour décrire cette localité et constituer un point d'entrée pour les démonstrations. Aussois est une localité française qui n'a pas de liens particuliers avec l'eau. On va donc créer une page Aussois sur un autre wiki : Wicri/France. Pour maintenir la cohérence de cette démonstration, on introduit également une page Aussois sur ce wiki, avec un contenu minimal (une citation vers un article sur les aménagements hydrauliques de la Haute Maurienne. Ces deux pages sont reliées par des liens dits « interwiki ».

Concernant « acidophile », le concept de collection de wikis thématiques demande réflexion. En effet, ce terme peut s'appliquer dans des contextes variés. Par exemple, une investigation sur les poissons acidophiles a sa place sur ce wiki, Wicri/Eau. Mais on trouve également des arbres acidophiles (Wicri/Bois) ou des traitements industriels qui provoquent une acidification des sols (Wicri/SolsUrbains). Le concept va donc être défini sur Wicri/Wicri( LogoWicriWicriFrMars2010.png ), le wiki d'entrée du réseau et décliné dans les wikis, et notamment ici, sur la page « Acidophile ».

On construit des "serveurs d'exploration"

Un serveur d'exploration est un outil expérimental pour explorer un corpus sur un sujet donné. Il est développé de façon incrémentale en s'appuyant sur des démonstrations. Pour cette action de sensibilisation aussoyenne, des corpus vont être extraits du serveur ISTEX. Trois exemples vont être traités :

  • Sur Wicri/France, un serveur sur l'activité scientifique liée à Aussois. Un corpus de 1500 documents contenant au moins une apparition du terme « Aussois » a pu être constitué.
  • Sur ce wiki, on va installer un serveur d'exploration très spécialisé sur les organismes acidophiles qui survivent dans les eaux issues des traitements de l'uranium. Des premiers sondages montrent une petite taille (entre 100 et 300 documents). Il va peut-être permettre de répondre à la question posée.
  • Sur Wicri/Wicri, on abordera le domaine des organismes acidophiles en général (les sondages donnent un ordre de grandeur d'environ 20.000 documents).

Premières expérimentations sur Aussois, émergence des problèmes

TP Paris 8 2015 Diapositive04.jpg

Les technologies utilisées dans la démarche LorExplor ont différents niveaux de développement :

  • Les solutions WediaWiki et Semantic MediaWiki sont maintenant largement utilisées au niveau international. Elles sont stabilisées d'un point de vue informatique. Leur maîtrise demande un savoir-faire en cours d'acquisition par le réseau Wicri.
  • la plateforme ISTEX et son API sont développés par l'INIST dans le cadre d'un plan de développement de plusieurs années. Les spécifications évoluent au cours du temps et demandent une adaptation permanente des outils de proximité.
  • La boîte à outils DILIB, avec laquelle sont réalisés les serveurs d'exploration et des investigations spécifiques, est une solution de proximité dans un état encore très expérimental. Conçue à la façon d'un Meccano ou d'un jeu de Lego, elle offre des solutions quasi clé-en-main dans des cas simples mais demande plus souvent des manipulations sous Unix.

Les expérimentations proposées ici sur Aussois ou les organismes acidophiles devraient être traités en quelques heures avec des solutions achevées. Dans l'état actuel, chaque expérimentation met en évidence des bugs ou des fonctions manquantes qui demandent des jours ou des semaines de développement ou de mise au point.

Aussois, les colloques cachent la montagne

Une première expérimentation sur Aussois est visible dans un état de type « visite de chantier » sur Wicri/France. Un serveur (1500 documents) a été généré avec le dernier niveau de la boîte à outils DILIB (sans adaptations spécifiques).

L'index des mots des titres d'articles en anglais, trié par ordre de fréquence décroissante, montre manifestement un rapport très lointain avec la montagne. Cet index, obtenu par une procédure standard, est visible ici.

Le tableau ci-dessous en montre un extrait qui a été fabriqué « à la main », avec la boîte à outils. Il montre également le script-shell[3] qui a permis de l'obtenir.

Les 10 premiers termes Le shell de fabrication de cette liste
EXPLOR_AREA=$WICRI_ROOT/Wicri/France/corpus/AussoisV1

head -10 $EXPLOR_AREA/Data/Main/Exploration/Title.i.sort   \
  | SxmlSelect -g idx/f/1 -g idx/kw/1 -p "* @g1 \
   {{Explor lien                  \
     |wiki=Wicri/France           \
     |area=AussoisV1              \
     |flux=Main                   \
     |étape=Exploration           \
     |type=indexItem              \
     |index=Title.i               \
     |clé=@g2|texte=@g2}}"

Une analyse, toujours « à la main » confirme cette omniprésence des références de colloques. Seuls, moins d'une dizaine de documents (sur 1500), sont effectivement relatifs à Aussois.

Aussois, les colloques dans leur infodiversité

Le corpus Aussois rassemble donc 1500 documents faisant référence à une manifestation ayant eu lieu à Aussois.

D'où quelques questions :

  • quelles sont les communautés scientifiques les plus présentes à Aussois ?
  • quels sont les colloques marquants, en termes de réputation internationale ?

Du côté des communautés scientifiques, le serveur d'exploration donne un index des ISSN qui est ici très utile pour un premier « débroussaillage ». En effet, pour 1.500 articles, il montre la présence de 340 ISSN, et donc 340 revues. Deux revues se détachent nettement :

Aussois, une barre rocheuse (normative) gène la progression

Une analyse plus poussée sur les colloques aussoyens fait émerger un ensemble de problèmes techniques qui vont demander de nouveaux développements informatiques.

Le plus important est lié à une évolution de l'API ISTEX. Pour les spécialistes, les métadonnées des articles ISTEX étaient centrées sur le format MODS. Elles offrent maintenant une version TEI. La TEI avait été choisie comme format de convergence dans LorExplor, et cette possibilité est plutôt intéressante. Malheureusement, la TEI propose des choix multiples et ceux qui ont été retenus dans ISTEX sont relativement différents de ceux qui avaient été faits pour LorExplor. Les données relatives aux évènements (colloques...) sont au cœur de cette différence. Il a donc été choisi de faire converger LorExplor vers ISTEX. Cela implique des développements significatifs. Pour leur mise au point, un corpus d'entraînement de taille réduite est souhaitable. Les poissons acidophiles dans des déchets d'uranium offrent un cadre de choix.

logo travaux suite en cours de rédaction

Premières expérimentations sur les organismes acidophiles et « uraniophiles »

Un nouveau serveur d'exploration a donc été installé, sur ce wiki, avec un point d'entrée sur la page Acidophile. Pour essayer de cerner directement la question induite par Yves, il a été spécialisé sur l'uranium avec, pour constituer le corpus, l'extraction ISTEX suivante :

acidophil* AND uranium AND water

Retombées techniques

Limité à 350 documents, les traitements informatiques sur ce corpus ne dépassent pas la minute. Il peut donc jouer un rôle d'application pilote pour l'amélioration des outils. En voici le détail pour les spécialistes.

Deux petites actions ont été menées au démarrage.

  • Amélioration de la procédure de création des pages wikis associées au serveur.
  • Mise en conformité légale des références bibliographiques accessibles au public.

Un bide sur les poissons

Une analyse des mots du titre montre une omniprésence de travaux sur les micro-organismes. Les serveurs d'exploration disposent de fonctions de classification qui permettent de mettre en évidence des signaux faibles (voir par exemple les classes repérées par une méthode assez basique de classification. Là encore, on ne trouve rien de significatif sur les poissons. Le problème initialement posé ayant un aspect assez marginal, ceci n'est pas anormal.

On a cependant essayé d'aller plus loin en filtrant les documents avec des outils de filtrage qui donnent des listes telles que :

000105  istex/fulltext/istex:fulltextTEI/text/body/div/p[219]/l[2]  Samples for        FISH were collected into
000105  istex/fulltext/istex:fulltextTEI/text/body/div/p[223]/l[6]  during preliminary FISH experiments on cave

Mais ici FISH signifie « Fluorescence In Situ Hybridization », en français « Hybridation in situ en fluorescence », une technique de biologie moléculaire.

La seule apparition ainsi repérée est celle du Mosquitofish ou Gambusie (Gambusia affinis) pour éviter la prolifération de moustiques. Voici le paragraphe correspondant :

Mosquitofish were stocked in the wetlands and bat as well as bird houses were installed and erected as precautions to avoid mosquitoes in the wetland.

Autrement dit, il va falloir une autre stratégie dans des corpus plus importants, ce qui va demander de développer un outil de filtrage à partir des noms de poissons en latin.

Un feu d'artifice de sérendipité

Le petit corpus n'a donc pas permis de résoudre le problème initialement posé. Son analyse a cependant permis d'obtenir un ensemble de résultats très intéressants, n'ayant parfois aucun rapport avec le problème initial.

  • Une bactérie significative : Thiobacillus,
  • Le site MicrobeWiki,
  • Sur un plan technique l'adaptation TEI des documents ISTEX produits par l'INIST.

Le thiobacillus

...

MicrobeWiki

MicrobeWiki est un site wiki réalisé dans un contexte pédagogique par un réseau d'étudiants (avec l'assistance et le contrôle de leurs enseignants). Il contient un ensemble d'articles sur les micro-organismes, avec notamment une partie systématique.

Pour le réseau Wicri, il s'agit d'une référence particulièrement significative d'une réalisation nord-américaine fondée sur des bases très proches.

L'analyse de ses participants révèle un réseau d'acteurs académiques avec un centre de gravité entre au Nord-Est des Etats-Unis (Ohio, Massachusetts, Illinois).

Icône de détail Article détaillé : MicrobeWiki.

Adaptation TEI des documents ISTEX

Ici, il s'agit plus d'un imprévu que d'une sérendipité au sens strict. En approfondissant les mécanismes de signalement des manifestions dans ISTEX (en liaison avec Aussois), une différence notable a été constatée entre la structuration des métadonnées TEI dans ISTEX et les options qui avaient été retenues dans Wicri.

Cet élément a été corroboré par un problème de correspondance entre les ISSN et les titres de revues. Il est explicité au paragraphe suivant.

Visibilité de l'activité scientifique à Aussois, problèmes et résultats

Problème de correspondance entre les ISSN et titre de revues

Le problème a en fait émergé avec la génération de listes de titres de revues, où seuls les ISSN avaient été pris en compte dans les serveurs d'exploration du réseau Wicri. En étudiant comment prendre en compte les titres de revues nous nous sommes rendu compte que les options prises dans l'interprétation TEI pour Wicri (depuis 2013) étaient différentes de celles qui avaient été retenues dans ISTEX (dans le courant du premier semestre 2015).

Le problème est d'autant plus aigu que les recommandations ou les pratiques de la TEI ne sont pas très claires sur ce point, pour ne pas dire franchement confuses et contradictoires. Ceci explique peut-être pourquoi la TEI qui a réussi à s'imposer sur la codification numérique de nombreux types de documents anciens ne la pas été pour les productions de revues scientifiques et notamment en Science de la Vie.

Pour illustrer une partie de la difficulté, voici une petite commande mise au point en 10 minutes pour donner la liste des titres de revues :

HfdCat Data/Main/Corpus/biblio.hfd         \
  | SxmlSelect -g record/istex/metadata/mods/relatedItem@type=host/titleInfo/title/1 -p @g1 -p @1 \
  | sort | IndexBuildRec | SxmlSelect -g idx/f/1 -g idx/k/1 -p @g1 -p @g2 | sort -rn | more

Voici la réponse obtenue,

51      Nuclear Physics, Section A
36      Remote Sensing of Environment
35      Nuclear Inst. and Methods in Physics Research, A
29      Journal of Photochemistry & Photobiology, B: Biology
28      Physics Letters B
28      Electrochimica Acta
27      Solid State Communications
26      Nuclear Inst. and Methods in Physics Research, B
24      Physica A: Statistical Mechanics and its Applications
23      Physikalische Blätter
23      Biochimie
22      BioEssays
20      Journal of Geophysical Research: Atmospheres
19      Journal of Crystal Growth
18      Optics Communications
17      Physics Letters A
16      Ultramicroscopy
15      Independent Component Analysis and Blind Signal Separation
14      physica status solidi (b)
14      Trends in Biochemical Sciences
14      Nachrichten aus Chemie, Technik und Laboratorium
14      Materials Science & Engineering A
14      Journal of Neuroscience Research
13      Surface Science
13      Glycoconjugate Journal
12      physica status solidi (a)
12      Chemical Physics Letters
10      Nachrichten aus der Chemie
10      Journal of Sound and Vibration
10      Journal of Non-Crystalline Solids
10      Chemical Physics
9       Materials Research Bulletin
9       Journal of Synchrotron Radiation
9       ISPRS Journal of Photogrammetry and Remote Sensing
9       Applied Surface Science
9       Acta Crystallographica Section A

les Lecture Notes in Computer Science ont disparues !

Pour les spécialistes, cette revue possède un ISSN mais comme elle est essentiellement constituée d'actes de congrès, le format dit MODS, ici utilisé, introduit une confusion que l'on retrouve dans la version TEI ISTEX.

Résolution (partielle) des problèmes liés à l'identification des revues

Deux types d'actions ont été menées :

  • En premier lieu une analyse comparative des métadonnées de signalement des articles de revues a été entrepris. Ceci a donné lieu à un ensemble de pages concernant les éléments TEI sur le wiki Wicri/Métadonnées. Le travail le plus conséquent concerne les éléments sourceDesc( LogoWicriWicriFrMars2010.png ), biblStruct( LogoWicriWicriFrMars2010.png ), monogr( LogoWicriWicriFrMars2010.png ) et series( LogoWicriWicriFrMars2010.png ).
  • Puis la bibliothèque Dilib a été améliorée, avec l'introduction des éléments de signalement de revues dans les flux ISTEX, Pascal, BHA, PubMed et PubMed Central. Les modules de navigation php ont été modifiés pour l'affichage d'une zone source. Quelques serveurs ont été ré-générés pour tester ces extensions (et notamment celui sur Aussois (Flag of France.svg)).

Une nouvelle version de Dilib, qui introduit toutes ces extensions a été mise en ligne.

Petite visite du réseau Wicri à partir d'Aussois

Les investigations purement aussoyennes (sur Aussois) m'ont amené à faire un important travail de vulgarisation qu'il m'a semblé pertinent d'élargir pour en faire une démonstration utilisable en démarrage d'une session de formation (ou pour une visite de sensibilisation).

Voici quelques actions menées dans ce sens :

  • la page sur Aussois dans Wicri/France a été améliorée avec notamment la mise au point d'une infobox sur les communes de France.
  • toujours sur Wicri/France, une page de visite commentée a été créée,
  • La rédaction de cette page a entrainé un important travail d'amélioration sur tous les sujets abordés sur cette page - Ce travail n'est par terminé.

Vers l'identification des poissons dans les documents

Le nom binomial est l'outil terminologique central pour l'identification des poissons. D'un point de vue informatique, l'usage de termes latins avec très peu de synonymie lui donne un atout important.

On trouve dans la littérature de nombreuses listes basées sur des noms binomiaux, voir par exemple la liste de poissons endémiques de France métropolitaine.

Dans cette perspective, nous avons fait évoluer l'outil SxmlFindText pour traiter des listes de termes dans un premier temps, puis des listes de noms binomiaux.

Identification des documents relatifs à la Maurienne

La page Aussois sur Wicri/France a servi de cadre à une première expérimentation pour identifier les documents relatifs à « l'activité d'Aussois en Maurienne ».

Une liste de termes a été définie sur une page de l'espace des métadonnées Wicri : wicri-france.fr:Wicri:Maurienne.

Une première adaptation du filtre SxmlFindText a permis de repérer une poignée de documents pertinents, dont l'un nous a paru particulièrement significatif :

  • Etude de l'accumulation du fluor dans les lichens d'une vallee alpine polluee par Juliette Asta, laboratoire de biologie alpine, Université de Grenoble I, et Jean-Pierre Garrec, in Environmental Pollution. Series A, Ecological and Biological (1980)
      • Résumé : L'accumulation du fluor est étudiée chez diverses espèces lichéniques corticoles, terricoles et saxicoles durant trois années successives dans une vallée alpine polluée dont on présente les caractéristiques. La teneur en fluor des thalles diffère selon les espèces et reflète aussi les variations du niveau de pollution fluorée de l'air dans l'espace et dans le temps, comme celle de la végétation phanérogamique. La concentration en fluor des lichens corticoles présente des variations saisonnières en relation avec les précipitations et montre un parallélisme avec la teneur en fluor des phanérogames, alors que celle des lichens terricoles ne subit pas de telles variations et semble sous l'influence d'autres facteurs. On constate l'existence d'une teneur naturelle en fluor de lichens témoins prélevés dans des régions non polluées.

En effet, aucune référence explicite à Aussois et à la Maurienne ne figure dans les métadonnées associées à ce document. Seule l'analyse du corpus en utilisant une liste d'identification a permis de le repérer.

Identification des documents liés à la recherche forestière

On passe aux poissons

Voir Liste des familles de poissons

Les poissons dans les colloques à Aussois

Tentative sur les mines d'uranium

Voir aussi

Notes
  1. Dans un premier temps, j'avais imaginé le sujet sur Aussois comme une première initiation simple. En fait le sujet s'est révélé relativement complexe.
  2. On notera que ces 4 pages sont localisées sur ce wiki.
  3. Ce shell part d'un fichier trié. Il en extrait la fréquence d'apparition et le terme. Il génère un script wiki qui contient des liens vers le serveur.