Séminaire technique ISTEX illustré par Mozart

Wolfgang Amadeus Mozart
Sa vie - Son œuvre - Serveur d'exploration - Mozart et Salieri
navigation - observations - séminaire ISTEX

Pour les spécialistes : paramétrage - curation - expérimentations - archive

Les 25 et 26 avril 2016, le projet LorExplor, qui a créé ce wiki comme espace de démonstration appliqué à la musique, doit présenter ses résultats à un séminaire technique ISTEX.

Compte tenu des nombreux exemples pris sur le Serveur d'exploration sur Mozart, cette page accueille les supports utilisés pour cette réunion, avec l'organisation suivante :

un paragraphe accompagne chaque diapositive qui sera projetée ;
une version PDF et une version PowerPoint sont disponibles ;
les exemples ne seront pas traités pendant la présentation orale ;
un paragraphe de discussion peut être ouvert pour chaque diapositive.

Apprentissage collectif de faits musicaux par enrichissement d'une collection hypertexte en explorant des ressources numériques. Les participants sont encadrés par des musicologues et assistés par des spécialistes des technologies numériques.

Sommaire

1 Introduction
2 Infrastructure logicielle et informationnelle
3 Bibliothèque de composants XML
- 3.1 Ilib, Dilib, Sgml, Xml, Sxml
- 3.2 Les structures HFD
4 Serveurs d'exploration
- 4.1 Exploration des index
- 4.2 Outils plus avancés
5 Création de serveurs et de plateformes
6 Curation de données
7 Investigations et observations
8 Conclusion
- 8.1 Conclusion technique
- 8.2 Conclusion politique
9 Notes

Introduction

Présomption de compétence: Michel Serres : « Anciennement, quand je rentrais dans mon amphi, il était entendu que le sujet du cours était relativement inconnu des élèves. Aujourd’hui quand je rentre dans le même amphi, quelle est la probabilité que les étudiants, et combien, aient cherché la veille sur Wikipedia le sujet de mon cours ? Il y avait une présomption d’incompétence, comme dans la relation du médecin au patient, et même, d’une certaine manière pour l’homme politique. Aujourd’hui, s’installe une présomption de compétence, ce qui crée une rééquilibration dans la relation pédagogique ».
Conséquence sur ISTEX et les services en IST

présomption d'incompétence = sous-traitance, validation a priori, chaîne de production ;
présomption de compétence = accompagnement, modération scientifique, réseau de contributions.

Commentaires/discussion

Pour les personnes disposant d'un compte Wicri, une page de discussion est ouverte avec un plan qui est aligné sur cette page.

Discussion : Présomption de compétence

Une priorité, l'exploration des connaissances

Recherche: On sait qu'une information existe, mais on a perdu le chemin pour y accéder.
Exploration: On recherche des informations que l'on ne connait pas :

Quelle est l’œuvre de Mozart la plus citée ?
- Sonate pour deux pianos (Mozart)

Pour la plus ancienne référence à l'hypertexte voir sur le wiki Ticri/H²PTM :

Serveur d'exploration hypertexte et hypermédia (Un exemple avec manipulation du texte intégral)

Recherche débouchant sur des explorations

Où trouver une explication compréhensible sur la relation entre les 8 tons de l'office (magnificats de la Renaissance) et les tonalités classiques (Do majeur...) ?

Objectifs du projet LorExplor

Le projet LorExplor s'attaque aux résolutions de problèmes éventuellement complexes menées dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, deux cibles sont privilégiées :

Aide au pilotage stratégique

La réponse à des besoins d'exploration avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel à projets européens : quelles sont, par exemple, les principales équipes européennes avec lesquelles l'Université François-Rabelais de Tours pourrait s'allier sur une thématique portant sur la musique de la Renaissance.
A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre 50 000 à 150 000 par an.

Association site encyclopédique - formation

Stratégie développée dans les universités américaines et approfondie dans une étude (IDEFI) sur la formation des ingénieurs

La constitution de sites encyclopédique de références, donc sur du long terme. Par exemple, sur ce wiki, des portails sur des musiciens comme Mozart, Monteverdi ou Heinrich Schütz, ou sur des genres musicaux comme l'Opéra ou la musique sacrée à travers le Magnificat.
Le scénario qui avait été examiné dans le cadre de formations en Master ou en dernière année d'école d'ingénieur repose sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois). Pratiquement tous les masters et toutes les thèses sont concernées. On arrive donc à un ordre de grandeur de 30 000 par an.
On peut également envisager d'inclure dans tout cursus de formation dans l'enseignement supérieur une séance d'initiation aux technologies numériques « avancées », soit 200 000 à 300 000 par an...

Remarques méthodologiques par rapport à ISTEX

Complémentarité des stratégies

La démarche encyclopédique amène à traiter un corpus avec une grande précision pour les éléments qui seront mis en ligne et qui devront être lisibles par un large public,
Haut niveau de travail collectif : enseignants, apprenants (thésards, master), experts...
Concernant les études à court terme, l'existence d'un réseau de règles de curation joue un rôle fondamental.

Le plan

Infrastructure logicielle et informationnelle

LorExplor veut couvrir l'ensemble des activités relevant de l'information scientifique et culturelle et notamment la phase rédactionnelle.

Cette section présente l'infrastructure informationnelle sur laquelle vont s'appuyer les travaux liés plus précisément à ISTEX.

MediaWiki

La nature de l'information, culturelle ou scientifique, amène de fortes contraintes éditoriales. La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.

Exemples plus significatifs

Sur ce wiki :
- cette présentation pour le séminaire ISTEX est enrichie par un ensemble de démonstrations, avec notamment des liens vers des serveurs d'exploration dont le contenu évolue dans le temps.
- l'adaptation de la traduction française de la pièce de Pouchkine Mozart et Salieri demande de manipuler un outil de notation musicale (LilyPond).
- elle est intégrée dans un dossier Mozart qui donne accès à environ 15 000 documents (en majorité ISTEX).
Dans le réseau Wicri, le wiki H²PTM accueille par exemple :
- des supports de cours pour des travaux d'étudiants (avec des démonstrations),
- une version numérique hypertextuelle des actes des colloques H2PTM|H² (voir, par exemple, les actes de la conférence H2PTM 2007 Hammamet) ;
- avec une large bibliographie complémentaire (voir le Serveur d'exploration hypertexte et hypermédia).

Aspects techniques concernant MediaWiki

La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs.

Blocages « politiques »

Semantic MediaWiki

La souche MediaWiki est déjà très riche par ses mécanismes d'indexation et l'utilisation de modèles. Cette page contient d'ailleurs un grand nombre d'appels de modèles, visualisables par l'onglet « modifier ou voir le texte source ».

Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.

Sur ce wiki, on trouvera une introduction avec les relations qui lient les opéras avec leurs compositeurs et les auteurs de livrets. Par exemple :

la page Les Noces de Figaro contient un lien dans lequel on a inséré un attribut sémantique :

sur un livret de [[A pour auteur de livret::Lorenzo da Ponte]]

le bas de cette page contient un cartouche avec un ensemble de faits ainsi repérés.
on peut alors naviguer sur la relation A pour auteur de livret.
sur la page Lorenzo da Ponte, on trouvera un exemple de requêtes montrant que Mozart et Salieri ont eu recours au même parolier.

Cette requête peut d'ailleurs être adaptée ici :

{{#ask:[[a pour auteur de livret::{{Lorenzo da Ponte}}]]
| format=ul
| ?A pour compositeur=compositeur :
| sep=,_ 
| headers=hide
| intro=''le résultat''}}

le résultat

Applications des modèles et liens sémantiques aux corpus ISTEX

Voir, par exemple :

sur ce wiki, la page Serveur d'exploration qui exploite les données numériques sur les corpus.

Remarque sur l'interopérabilité de la solution

L'ensemble des relations sémantiques est exploitable en RDF.

Le réseau Wicri

Un même sujet peut être traité de façon différente sur différents wikis.

Exemple, pour le même article, on peut constater des différences significatives de l'indexation sémantique ^[1] :

Sur ce wiki : Alain Bonardi, Le patch comme document numérique : support de création et de constitution de connaissances
Sur le wiki CIDE : CIDE (2007) Bonardi.

Pour se repérer dans le réseau

Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage. Mais il ne dispose pas de forces éditoriales et la navigation n'est pas toujours évidente. Voici quelques éléments simples :

sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
l'onglet communauté permet également de s'orienter au sein du réseau de wikis.

Quelques points d'entrée (wikis communs)

Le wiki point d'accueil principal du réseau : Wicri/Wicri.
le premier wiki régional : Wicri/Lorraine.
le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.

Apport ISTEX, distribution des règles de curation

Les règles de curation vont être distribuées (et contextualisées) dans l'ensemble du réseau. Par exemple :

Sur ce wiki : Liste de musicologues,
Sur le wiki Wicri/Amérique : Liste de grandes universités américaines.

Bibliothèque de composants XML

Si les wikis jouent un rôle fondamental dans l'interface homme machine avec les corpus, les travaux de curation et d'exploration sont réalisés avec une bibliothèque de composants XML.

Pour un corpus donné, cette bibliothèque va notamment permettre de réaliser :

un serveur d'exploration qui devrait être accessible à un public assez large mais averti.
une plateforme de curation et d'exploration. Il s'agit d'un ensemble de serveurs intermédiaires destinés aux spécialistes.

Les serveurs d'exploration sont réalisés sur une machine Unix avec des composants logiciels écrits en langage C.

Les modules de navigation sont réalisés en php.

Ces modules sont intégrés dans la bibliothèque Dilib. Elle est principalement documentée sur le wiki Wicri/Outils.

Ilib, Dilib, Sgml, Xml, Sxml

L'origine de Dilib remonte en 1990 où l'INIST cherchait une solution pour manipuler facilement des formats MARC. En effet ce formalisme (ISO 2709) était utilisé pour la production des bases Pascal et Francis. Un exemple de notice Pascal, structurée en 2 niveaux, est visible dans l'exemple ci-dessous :

La fin de Don Giovanni : L'entrée en scène du libertin chez Mozart et Stravinsky

Ce type de structure ne se manipule pas facilement dans un SGBD relationnel. C'est pourquoi la norme SGML apparaissait pertinente dès cette époque. Une première bibliothèque nommée Ilib a alors été développée au sein de l'INIST. Elle était très spécialisée pour le traitement des notices Pascal.

L'INIST s'était opposée en 1992 à la diffusion de Ilib afin de préserver son monopôle dans l'exploitation des données relatives à Pascal. Les travaux ont été alors été poursuivis au Loria dans une approche qui anticipait la norme XML. Une nouvelle bibliothèque nommée Dilib a alors été développée avec une généralisation dans l'optique de traiter de grands volumes de documents de métadonnées d'origine quelconque.

Les travaux sur Dilib ont été repris par l'INIST en 2000 puis arrêtés en 2003 (là encore avec le même type de stratégie pour préserver un monopôle d'exploitation).

Avec ISTEX, il faut manipuler de vastes corpus de documents plein texte avec des DTD très diverses. Ceci a donné l'occasion de reprendre les développements pour répondre à cette nouvelle classe de problèmes.

Par rapport à XML, le parser DILIB évolue pour traiter tous les types de documents offerts par ISTEX. Pour les traitements proprement dits, une recommandation nommée Sxml a été introduite. Pour en savoir plus, voir sur Wicri/Métadonnées les flux de documents Sxml.

Cela dit, compte tenu de l'absence de moyens institutionnels, le développement de Dilib est strictement opportuniste en fonction des besoins.

Utilisabilité ISTEX

La bibliothèque est en open/source. Elle est donc utilisable par toute équipe voulant exploiter des données ISTEX. Encore faut-il qu'un minimum de suivi et de maintenance soit assuré. L'abandon, par l'INIST, d'une stratégie de monopôle d'exploitation (passage de l'offre de sous-traitance à l'accompagnement) serait naturellement un atout important. Le NCBI aux Etats-Unis montre clairement l'intérêt de ce type d'approche.

Les structures HFD

Attention : les numéros internes sont donnés à titre indicatif. En effet, ils varient pour chaque génération d'un serveur

Attention : Cette démonstration a un aspect technologique avancé et n'est pas facilement compréhensible par un non spécialiste

Les structures HFD, un logo pour la construction de serveurs d'exploration

Une démonstration sur le thème :

Mozart souffrait-il d'un hématome intracrânien. En effet ceci est suggéré par l'article : Did Mozart have a chronic extradural haematoma?

En allant sur ce lien, on se rend sur le zoom « France » (un ensemble de moins de 200 notices) de la plateforme Mozart. On constate que ce document possède « 000175 » comme numéro interne. Cela dit, le contexte limité à la recherche française de ce zoom est très pauvre en termes de navigation (par exemple le lien sur l'entrée « skull » du MeSH ne donne rien.

Sur un plan technique, cette notice se trouve dans un ensemble de 100 notices XML qui sont visibles à cette URL :

http://ticri.univ-lorraine.fr/Wicri/Musique/corpus/MozartV1/Data/France/Analysis/biblio.hfd/00.dd/01.df

Chaque notice est identifiée par une clé à 5 chiffres, en descendant on localise facilement la clé 000175 qui correspond à notre document. On notera dans l'URL le chemin « biblio.hfd/00.dd/01.df » qui correspond à la décomposition explicitée dans la figure ci-jointe.

En repartant de la notice en forme éditée, on constate une rubrique « Links toward previous steps (curation, corpus...) » qui contient la ligne :

to stream Main, to step Exploration: 004A26

En allant sur ce lien, on retrouve cette notice dans un contexte plus large (14 000 documents). Ici une navigation sur skull donne un résultat nettement plus intéressant :

une dizaine de documents qui reprennent cette hypothèse.

Sur un plan technique, on peut maintenant examiner l'index des entrées du MeSH. Le contenu de l'URL qui suit permet d'accéder à une partie de ce fichier inverse :

http://ticri.univ-lorraine.fr/Wicri/Musique/corpus/MozartV1/Data/Main/Exploration/Mesh.i.hfd/00.dd/09.df

On y trouve notamment le document xml :

000941
<idx>
  <kw>Skull</kw>
  <lc>skull</lc>
  <f>10</f>
  <l>
    <e>001272</e>
    <e>001635</e>
    <e>003301</e>
    <e>003305</e>
    <e>003A50</e>
    <e>003E54</e>
    <e>003E56</e>
    <e>003E66</e>
    <e>004597</e>
    <e>004A26</e>
  </l>
</idx>

On y retrouve notre notice ayant pour clé HFD : 004A26

Pour accélerer les recherches une table permet d'atteindre rapidement le fichier index pertinent :

http://ticri.univ-lorraine.fr/Wicri/Musique/corpus/MozartV1/Data/Main/Exploration/Mesh.i.hid

Serveurs d'exploration

Exploration des index

Un serveur d'exploration donne notamment accès à un ensemble d'index triés par ordre de fréquences décroissantes. Voici quelques exemple sur le Serveur d'exploration sur Mozart :

Un index s'est avéré très intéressant à l'usage. Il combine les noms d'auteurs avec l'initiale de leur premier prénom et leurs différentes affiliations.

les combinaisons auteurs et affiliation

Destiné initialement à la curation des auteurs et affiliations il s'avère très intéressant pour des recherche rapides sur les principaux acteurs d'un domaine.

Dans le réseau Wicri

On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.

Voici quelques exemples :

Sur Ticri/H²PTM : Serveur d'exploration sur l'hypertexte,
Sur Wicri/Terre : Serveur d'exploration sur l'europium.
Sur Wicri/Linguistique : Serveur d'exploration sur la philologie
Sur Wicri/Eau : Serveur d'exploration Lota lota (lotte de rivière).
Sur Wicri/Luxembourg : Serveur d'exploration sur la visibilité du Luxembourg à la NLM.

Outils plus avancés

Les serveurs d'exploration sont organisés en flux avec une interface de navigation iconographique introduite par ce type de cartouche.

Pour en savoir plus voir sur ce wiki les pages :

Des outils de classification (clusters) sont disponibles. Ils sont repérables en tête de page d'index par des mentions telles que :

Ils permettent d'atteindre des associations telles que :

Syndrome associé à Tourette

Navigation géographique

Projection de l'activité scientifique en Europe

La carte ci-joint montre les projections de l'activité scientifique autour de Mozart en Europe.

Plus précisément, elle est construite à partir des affiliations des auteurs des articles du serveur.

La surface des cercles est proportionnelle à l'activité scientifique sur le sujet. Le Royaume-Uni, avec plus de 500 publications est en première position.

En cliquant sur le cercle, on peut aller explorer le serveur à partir du pays en question.

En cliquant sur le toponyme, on reste sur le wiki en allant simplement sur la page du pays.

S'agissant du Royaume-Uni le serveur d'exploration dispose d'un flux spécialisé (zoom UK). Sur ce flux, l'index auteur permet de repérer des chercheurs ayant travaillé sur Mozart : Margaret A. Boden et Adrian C. North.

On trouvera d'autres exemples :

sur ce wiki : Serveur d'exploration sur Mozart, navigation géographique
sur Wicri/Terre : Serveur d'exploration sur l'europium.

Création de serveurs et de plateformes

Explorations rapides

Documentation (sur le wiki Wicri/Outils) :

commande IstexGetCorpus,
- pour obtenir simplement la taille d'un corpus
commande IstexFlashCorpus,
- pour visualiser quelques éléments d'un corpus
commande IstexExplorCorpus,
- pour créer un serveur d'exploration (non paramétrable)
commande NlmPubMedGetCorpus.

Exemple de travaux pratiques, observation de la stabilité d'une requête :

IstexGetCorpus -q "monteverdi mozart" -s 5 | grep title
IstexGetCorpus -q "monteverdi AND mozart" -s 5 | grep title
IstexGetCorpus -q "monteverdi mozart" -s 5 -f 20 | grep title
IstexGetCorpus -q "monteverdi AND mozart" -s 5 -f 20 | grep title

Voir d'autres exemples sur Wicri/Manuel :

Requêtes sur ISTEX.

Plateformes paramétrables

Exemple de protocole

génération de pages de paramétrage (voir Serveur d'exploration sur Mozart, paramétrage)
téléchargement des corpus
création de la plateforme et premières observations
introduction de règles de curation dans le réseau de wikis
importation des règles dans Dilib/Data
compilation Dilib
reprise en 3

Mutualisation

Toute règle introduite dans un wiki commun, notamment géographique, sera intégrée dans toutes les nouvelles générations de tous les serveurs.

Par exemple, pour la plateforme sur Heinrich Schütz, tous les organismes apparaissant dans l'index associé ont été introduits par des actions antérieures, quelques-unes liées à ce wiki (comme la Bibliothèque du Congrès - 8 publications) et pour la très grande majorité sur d'autres disciplines (eau, informatique, santé...)^[2].

Pérennisation des liens vers les articles

Les liens internes (HFD) sont recalculés à chaque itération et n'auront donc aucune pérennité. Pour y remédier un identifiant nommé RBID a été défini. Par exemple, pour citer cet article :

Looking backwards: Baroque opera and the ending of the Orpheus myth

on utilise le wikicode ci-dessous (ce code est donné en fin de page article sur le serveur de façon à faciliter les copier/coller) :

{{Explor lien
   |wiki=    Wicri/Musique
   |area=    MonteverdiV1
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     ISTEX:506EF84431CD6E14DE71FAA288F4233280049966
   |texte=   Looking backwards: Baroque opera and the ending of the Orpheus myth
}}

Actualisation des données numériques

De même les données numériques sont susceptibles d'être modifiées à chaque itération. Un texte comme « L'index auteur du Serveur d'exploration sur Monteverdi contient 1993 entrées » est généré par le script :

L'{{Explor lien
   |wiki=    Wicri/Musique
   |area=    MonteverdiV1
   |url=Main/Exploration/indexHead.php?index=Author.i
   |texte=index auteur
}} du [[Serveur d'exploration sur Monteverdi]] contient 
{{MonteverdiV1, Explor size|stream=Main |step=Exploration |index=Author}} entrées

Un modèle comme MozartV1, Explor size est généré à partir d'un paramétrage défini sur la page Wicri:MozartV1/Liste de clés.

Acquisition de documents ISTEX

Niveaux de complexité rencontrés :

plateforme limitée à un flux de métadonnées MODS
- 5 minutes (une fois le paramétrage défini)
plateforme comportant du full text avec moins de 3000 documents
- 20 minutes
plateforme de moins de 15000 documents sans problème réseau
- une à deux heures, voir Wicri:MozartV1
plateforme de plus de 15000 documents avec problème réseau
- une à deux journées, voir ticri-h2ptm.fr:Wicri:HypertextV7

ISTEX, Mise en évidence d'un dysfonctionnement actuel majeur

Les temps de transferts donné ci-dessus sont ceux qui sont obtenu en dehors de l'INIST. Les performances réelles obtenues dans les locaux de l'INIST sont très nettement meilleures.

Est-ce une volonté de préserver un monopôle d'exploitation ?

Plateformes multi-sources avec dédoublonnage

Sur ce wiki, dans le serveur d'exploration sur Mozart :

Un document ISTEX avec une indexation MeSH et une indexation Pascal
- The Mozart effect: Tracking the evolution of a scientific legend
Une notice avec indexation Francis sur un document archivé sur PudMed Central
- Mozart: The Toothache Of A Genius

Sur le wiki Wicri/Santé

La revue Movement Disorders avec une volumétrie initiale de 21 634 références dont :
- 7 052 documents ISTEX
- 5 910 documents Pascal ou Francis
- 8 132 documents en provenance de la base PubMed (MEDLINE).
avec une volumétrie finale de 10 338.

Curation de données

Attention : Cette partie, déjà présentée il y a un an, sera seulement citée pendant la présentation orale

Dans l'état actuel des développements, la curation de données concerne essentiellement celles qui sont relatives aux acteurs :

auteurs,
organisme d'affiliation,
pays d'affiliation,
région d'affiliation.

Les flux traités en priorité sont :

Istex,
Pascal et Francis
PubMed et PubMed Central
HAL

Des essais ont été menés sur

HAL INRA
ArXiv
BHA

Pays par code ISO

Sur Wicri/Métadonnées :

la table ISO 3166-1

Sur ce wiki,

un document avec un code ISO à 3 caractères (en zone A66)
- Chuck Tilly and Mozart
Sur HAL, un document qui contient de multiples mentions de code ISO à 3 caractères
- Description and evaluation of the Model for Ozone and Related chemical Tracers, version 4 (MOZART-4)

Pays par liste de pays

Dans les cas simples

Sur Wicri/Métadonnées, la table Table des noms de pays en anglais

Sur ce wiki :

un document où l'Allemagne est codée par Germany :
- Adaptive Musical Expression from Automatic Realtime Orchestration and Performance
un document où l'Allemagne est codée par « W. Germany »
- Vivaldi's esoteric instruments

Avec des affiliations incomplètes

Sur Wicri/Europe, la table des noms de villes européennes couramment utilisées dans les affiliations à la place d'un pays.

- Liste de villes universitaires européennes

Sur ce wiki :

Un document ISTEX où la mention d'affiliation est limitée à Oxford
- Schubert, Theory and Analysis

Curation des régions

De façon générale les régions ne figurent pas explicitement dans les adresses.

Elles peuvent apparaître avec la curation des auteurs. Par exemple, dans le Serveur d'exploration sur Monteverdi, l'auteur le plus cité dans le corpus ISTEX est Tim Carter.

Liste des auteurs avant curation

En fait, il apparait la plupart du temps sans affiliation. Sur ce wiki on trouvera une

Liste de musicologues
où l'on trouve les principales affiliations de Tim Carter avec en particulier : l'Université de Caroline du Nord à Chapel Hill.

Sur le wiki Wicri/Amérique, on trouve une :

Liste de grandes universités américaines

Après curation, (étape Checkpoint) la nouvelle liste des auteurs contient le nom Tim Carter avec la mention musicologue :

Liste des auteurs après curation

Dans cette étape la Caroline du Nord devient significative :

liste des publications avec une affiliation en Caroline du Nord

Utilisation des codes postaux

Une fois le pays reconnu, l'utilisation des codes postaux devient déterminante pour identifier une région.

Pour la France, la page Liste des régions, départements et préfectures de France permet de déterminer les régions françaises.

Pour l'Allemagne, le mécanisme est plus complexe, notamment en raison de la fusion. Un objectif est de définir une table de codes par Land :

sur Wicri/Allemagne : Liste de codes postaux du Bade-Wurtemberg
de même pour Wicri/Rhénanie-Palatinat, Wicri/Sarre.
de façon temporaire, une page résume les autres régions sur Wicri/Allemagne.

Voici un extrait d'une table qui associe à un code postal sa localisation

01067-01328
------ 1
<place>
  <placeName>
    <settlement type="city">Dresde</settlement>
    <region type="land" nuts="1">Saxe (Land)</region>
    <region type="district" nuts="2">District de Dresde</region>
  </placeName>
</place>
=============================================
01465
------ 1
<place>
  <placeName>
    <settlement type="city">Dresde</settlement>
    <region type="land" nuts="1">Saxe (Land)</region>
    <region type="district" nuts="2">District de Dresde</region>
  </placeName>
</place>
=============================================
04103-04358
------ 1
<place>
  <placeName>
    <settlement type="city">Leipzig</settlement>
    <region type="land" nuts="1">Saxe (Land)</region>
    <region type="district" nuts="2">District de Leipzig</region>
  </placeName>
</place>

Curation à partir des noms d'organismes

Enfin, de nombreuses mentions d'organismes sont relativement faciles à identifier dans les adresses, et plus particulièrement les universités.

On trouvera donc une série de pages réparties dans les wikis, et par exemple, sur Wicri/Europe :

Liste de grandes universités européennes

Investigations et observations

Filtrage par expression régulière

En pratique on utilise la commande SxmlFindText qui analyse un flot de documents Sxml avec par exemple une expression régulière en donnant pour chaque chaîne reconnue :

le numéro interne (HFD) du document
un SxPath purement numérique (non W3C)
un SxPath compatible au W3C
un offset permettant de localiser la chaîne reconnue
un contexte avant (facultatif)
la chaîne reconnue
un contexte après.

Par exemple, la suite de commandes :

HfdCat Data/Main/Exploration/biblio.hfd            \
    | SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*"  \
                    -a 10 -b 10

génère :

000003  1/1/2/1/1       record/TEI/front/div/p  48      to Mozart       K.448    enhances 
000003  1/1/2/1/1       record/TEI/front/div/p  466     he Mozart       K.448    has posit
000020  1/1/2/1 record/TEI/front/div    328      Mozart's       K448     or "
000043  1/1/2/1/1       record/TEI/front/div/p  431     to Mozart       K.448   . Until no

On peut alors filtrer cette liste (SxmlSelect), la trier et construire un index :

HfdCat Data/Main/Exploration/biblio.hfd             \
   | SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*"    \
   | SxmlSelect -p @5 -p @1 | sort | IndexBuildRec

On obtient alors une liste telle que

<idx><k>K. 465</k><f>1</f><l><e>001311</e></l></idx>
<idx><k>K. 486</k><f>2</f><l><e>004420</e><e>004420</e></l></idx>
<idx><k>K. 491</k><f>2</f><l><e>003132</e><e>003132</e></l></idx>
<idx><k>K. 492</k><f>2</f><l><e>004376</e><e>004376</e></l></idx>
<idx><k>K. 502</k><f>1</f><l><e>000661</e></l></idx>

On peut alors repérer « à l’œil nu » la Sonate K 448.

Dans les cas plus ambigus, on filtre à nouveau le fichier inverse.

            
HfdCat Data/Main/Exploration/biblio.hfd                   \
       | SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*"      \
       | SxmlSelect -p @5 -p @1 | sort | IndexBuildRec    \
       | SxmlSelect -g idx/f/1 -g idx/k/1 -p @g1 -p @g2   \
       | sort -rn

On obtient alors :

102	K.448
12	K1
9	K3
8	K.545
8	K. 448
6	K. 527
5	K6
5	K448
4	KV 448
4	K9
4	K7
4	K. 620
4	K. 384

Cette sonate ayant été repérée, on peut alors générer une liste à insérer dans le wiki.

HfdCat Data/Main/Exploration/biblio.hfd             \
   | grep "K[Vv]*[ \.]*448"                         \
   | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1       \
                -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/title/1 \
                -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/author/name/1 \
                -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/author/affiliation/country/1 \
                -g record/TEI/teiHeader/fileDesc/publicationStmt/date/1       \
       -p "* {{Explor lien|wiki=Wicri/Musique|area=MozartV1|flux=Main|étape=Exploration|type=RBID|clé=@g1|texte=@g2}} @g3 (@g4 - @g5)"

Le résultat est visible sur Sonate pour deux pianos (Mozart).

Filtrage par liste de termes

Le même mécanisme de filtrage peut être utilisé pour repérer des listes de termes significatifs.

Sur Wicri/Eau

On peut trouver des listes de poissons construites à partir de FishBase :

Liste des poissons d'eau douce en France métropolitaine

Ces listes permettent de créer des tables qui vont être utilisés dans des actions de filtrage.

Par exemple, voici le script qui permet de repérer les poissons d'eau douces qui, dans le corps de l'article, sont le plus souvent associés à la perche commune (perca fluviatilis).

HfdCat Import/IstexRepository.hfd   \
  | head -500                    \
  | SxmlFindText    \
     -lD $WICRI_ROOT/Wicri/Eau/Sources/FishBase/listGenrePoissonFrance.dict     \
     -B $WICRI_ROOT/Wicri/Eau/Sources/FishBase/listSpeciesPoissonFrance.dict    \
  | grep fulltext | grep body      \
  | SxmlSelect -p @5 -p @1 | sort | IndexBuildRec  \
  | SxmlSelect -g idx/f/1 -g idx/k/1 -p @g1 -p @g  \
  | sort -rn | more

On obtient alors :

1403    perca fluviatilis
864     rutilus rutilus
572     esox lucius
269     abramis brama
200     salmo trutta
162     cyprinus carpio
154     anguilla anguilla
138     alburnus alburnus
135     sander lucioperca
123     gasterosteus aculeatus
115     gymnocephalus cernua

Sur ce wiki

Ce mécanisme a été utilisé sur la revue American Journal of Dance Therapy.

Un filtrage par une liste de chorégraphes américains permet de retrouver Martha Graham et de repérer Pearl Lang, Jean Erdman, doris humphrey, nora kaye, daniel nagrin, alwin nikolais.

Construction de graphes d'évolution des coopérations

Faute de machine virtuelle, cette démonstration n'est visible que sur un ordinateur individuel.

Voir, sur Wicri/Lorraine, l'article: Feature selection and complex networks methods for an analysis of collaboration evolution in science: an application to the ISTEX digital library (ISKO 2015).

Variabilité des corpus ISTEX

Chaque corpus pose des problèmes spécifiques en fonction du type de données, de sa volumétrie et du type de résultats attendus.

Exemples

Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.
Le résultat sera très différent pour une revue en sciences humaines comportant de nombreuses revues de livres regroupés dans un seul article.

Conclusion

Conclusion technique

Sur un plan purement technique, et s'il ne s'agissait que d'un travail purement individuel, les résultats obtenus par LorExplor pourraient être jugés comme très positifs.

Ils ont pu être obtenus par une API pour lesquels des choix pertinents ont été définis. La jeune équipe ISTEX a accompli un travail tout à fait remarquable.

Cela dit, nous avons rencontré de nombreux problèmes pour lesquels l'absence totale de prise en compte des aspects collaboratifs des travaux, même peu avancés, sur ISTEX, s'est avérée bloquante.

Conclusion politique

Objectif 20.000 actions numériques sur 5 ans ?

Nous avons cité plus haut des chiffres annuels potentiels avec un ordre de grandeur de 100.000.

Peut-on, dans un premier temps viser 20.000 sur 4 à 5 ans ?

Combien de formateurs et d'accompagnants ?

100 à 400 actions par université (exemple : dossier approfondi d'étude de l'existant).

=> 10 à 20 accompagnateurs par université,

dont un noyau (2 à 3) permanents dont un expert en technologie numérique,

=> noyau dur de 200 personnes avec une formation accentuée (1 homme année)

+ 1000 à 2000 avec une formation plus légère (1 homme mois)

Sur 4 à 5 ans, comment former :

50 (noyau dur) par an
10 sessions de 50 personnes sur 1 mois

Quelle organisation :

à peu près le contraire des pratiques institutionnelles (hiérarchisées) courantes : de la chaîne au réseau ...
structure de type groupement ?

Retombée informationnelle

un dossier = 5 à 50 pages de contenu, 50 à 200 pages de métadonnées, terminologie...
- volumétrie potentielle : 500.000 pages de contenu, 2.000.000 de métadonnées

Notes

↑ Visible dans les boîtes en fin de page.
↑ A la date où ce paragraphe a été rédigé.

[1] Visible dans les boîtes en fin de page.

[2] A la date où ce paragraphe a été rédigé.

[1]

[2]