Séminaire technique ISTEX illustré par Mozart

De Wicri Musique

Les 25 et 26 avril 2016, le projet LorExplor, qui a créé ce wiki comme espace de démonstration appliqué à la musique, doit présenter ses résultats à un séminaire technique ISTEX.

Compte tenu des nombreux exemples pris sur le Serveur d'exploration sur Mozart, cette page accueille les supports utilisés pour cette réunion, avec l'organisation suivante :

Wolfgang-amadeus-mozart 1.jpg
  • un paragraphe accompagne chaque diapositive qui sera projetée ;
  • une version PDF et une version PowerPoint sont disponibles ;
  • les exemples ne seront pas traités pendant la présentation orale ;
  • un paragraphe de discussion peut être ouvert pour chaque diapositive.
Apprentissage collectif de faits musicaux par enrichissement d'une collection hypertexte en explorant des ressources numériques. Les participants sont encadrés par des musicologues et assistés par des spécialistes des technologies numériques.

Introduction

Séminaire ISTEX 2016 V3 Diapositive01.jpg
Présomption de compétence
Michel Serres : « Anciennement, quand je rentrais dans mon amphi, il était entendu que le sujet du cours était relativement inconnu des élèves. Aujourd’hui quand je rentre dans le même amphi, quelle est la probabilité que les étudiants, et combien, aient cherché la veille sur Wikipedia le sujet de mon cours ? Il y avait une présomption d’incompétence, comme dans la relation du médecin au patient, et même, d’une certaine manière pour l’homme politique. Aujourd’hui, s’installe une présomption de compétence, ce qui crée une rééquilibration dans la relation pédagogique ».
Conséquence sur ISTEX et les services en IST
  • présomption d'incompétence = sous-traitance, validation a priori, chaîne de production ;
  • présomption de compétence = accompagnement, modération scientifique, réseau de contributions.
Commentaires/discussion 

Pour les personnes disposant d'un compte Wicri, une page de discussion est ouverte avec un plan qui est aligné sur cette page.


Une priorité, l'exploration des connaissances

Séminaire ISTEX 2016 V3 Diapositive02.jpg
Recherche
On sait qu'une information existe, mais on a perdu le chemin pour y accéder.
Exploration
On recherche des informations que l'on ne connait pas :

Pour la plus ancienne référence à l'hypertexte voir sur le wiki Ticri/H2PTM :

Recherche débouchant sur des explorations
  • Où trouver une explication compréhensible sur la relation entre les 8 tons de l'office (magnificats de la Renaissance) et les tonalités classiques (Do majeur...) ?

Objectifs du projet LorExplor

Séminaire ISTEX 2016 V2 Diapositive02.jpg

Le projet LorExplor s'attaque aux résolutions de problèmes éventuellement complexes menées dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, deux cibles sont privilégiées :

Aide au pilotage stratégique
  • La réponse à des besoins d'exploration avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel à projets européens : quelles sont, par exemple, les principales équipes européennes avec lesquelles l'Université François-Rabelais de Tours pourrait s'allier sur une thématique portant sur la musique de la Renaissance.
  • A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre 50 000 à 150 000 par an.
Association site encyclopédique - formation

Stratégie développée dans les universités américaines et approfondie dans une étude (IDEFI) sur la formation des ingénieurs

  • La constitution de sites encyclopédique de références, donc sur du long terme. Par exemple, sur ce wiki, des portails sur des musiciens comme Mozart, Monteverdi ou Heinrich Schütz, ou sur des genres musicaux comme l'Opéra ou la musique sacrée à travers le Magnificat.
  • Le scénario qui avait été examiné dans le cadre de formations en Master ou en dernière année d'école d'ingénieur repose sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois). Pratiquement tous les masters et toutes les thèses sont concernées. On arrive donc à un ordre de grandeur de 30 000 par an.
  • On peut également envisager d'inclure dans tout cursus de formation dans l'enseignement supérieur une séance d'initiation aux technologies numériques « avancées », soit 200 000 à 300 000 par an...

Remarques méthodologiques par rapport à ISTEX

Complémentarité des stratégies
  • La démarche encyclopédique amène à traiter un corpus avec une grande précision pour les éléments qui seront mis en ligne et qui devront être lisibles par un large public,
  • Haut niveau de travail collectif : enseignants, apprenants (thésards, master), experts...
  • Concernant les études à court terme, l'existence d'un réseau de règles de curation joue un rôle fondamental.

Le plan

Séminaire ISTEX 2016 V3 Diapositive04.jpg

Infrastructure logicielle et informationnelle

LorExplor veut couvrir l'ensemble des activités relevant de l'information scientifique et culturelle et notamment la phase rédactionnelle.

Cette section présente l'infrastructure informationnelle sur laquelle vont s'appuyer les travaux liés plus précisément à ISTEX.

MediaWiki

Séminaire ISTEX 2016 V3 Diapositive05.jpg

La nature de l'information, culturelle ou scientifique, amène de fortes contraintes éditoriales. La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.

Exemples plus significatifs
Aspects techniques concernant MediaWiki

La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs.

Blocages « politiques »

Semantic MediaWiki

Séminaire ISTEX 2016 V3 Diapositive06.jpg

La souche MediaWiki est déjà très riche par ses mécanismes d'indexation et l'utilisation de modèles. Cette page contient d'ailleurs un grand nombre d'appels de modèles, visualisables par l'onglet « modifier ou voir le texte source ».

Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.

Sur ce wiki, on trouvera une introduction avec les relations qui lient les opéras avec leurs compositeurs et les auteurs de livrets. Par exemple :

  • la page Les Noces de Figaro contient un lien dans lequel on a inséré un attribut sémantique :
sur un livret de [[A pour auteur de livret::Lorenzo da Ponte]]
  • le bas de cette page contient un cartouche avec un ensemble de faits ainsi repérés.
  • on peut alors naviguer sur la relation A pour auteur de livret.
  • sur la page Lorenzo da Ponte, on trouvera un exemple de requêtes montrant que Mozart et Salieri ont eu recours au même parolier.

Cette requête peut d'ailleurs être adaptée ici :

{{#ask:[[a pour auteur de livret::{{Lorenzo da Ponte}}]]
| format=ul
| ?A pour compositeur=compositeur :
| sep=,_ 
| headers=hide
| intro=''le résultat''}}

le résultat

Applications des modèles et liens sémantiques aux corpus ISTEX

Voir, par exemple :

Remarque sur l'interopérabilité de la solution

L'ensemble des relations sémantiques est exploitable en RDF.


Le réseau Wicri

Séminaire ISTEX 2016 V3 Diapositive07.jpg
Un même sujet peut être traité de façon différente sur différents wikis.

Exemple, pour le même article, on peut constater des différences significatives de l'indexation sémantique [1] :

Pour se repérer dans le réseau

Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage. Mais il ne dispose pas de forces éditoriales et la navigation n'est pas toujours évidente. Voici quelques éléments simples :

  • sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
  • l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
Quelques points d'entrée (wikis communs) 
  • Le wiki point d'accueil principal du réseau : Wicri/Wicri.
  • le premier wiki régional : Wicri/Lorraine.
  • le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.
Apport ISTEX, distribution des règles de curation

Les règles de curation vont être distribuées (et contextualisées) dans l'ensemble du réseau. Par exemple :

Bibliothèque de composants XML

Séminaire ISTEX 2016 V3 Diapositive08.jpg

Si les wikis jouent un rôle fondamental dans l'interface homme machine avec les corpus, les travaux de curation et d'exploration sont réalisés avec une bibliothèque de composants XML.

Pour un corpus donné, cette bibliothèque va notamment permettre de réaliser :

Les serveurs d'exploration sont réalisés sur une machine Unix avec des composants logiciels écrits en langage C.

Les modules de navigation sont réalisés en php.

LogoDilib.gif

Ces modules sont intégrés dans la bibliothèque Dilib. Elle est principalement documentée sur le wiki Wicri/Outils.


Ilib, Dilib, Sgml, Xml, Sxml

Séminaire ISTEX 2016 V3 Diapositive09.jpg

L'origine de Dilib remonte en 1990 où l'INIST cherchait une solution pour manipuler facilement des formats MARC. En effet ce formalisme (ISO 2709) était utilisé pour la production des bases Pascal et Francis. Un exemple de notice Pascal, structurée en 2 niveaux, est visible dans l'exemple ci-dessous :

Ce type de structure ne se manipule pas facilement dans un SGBD relationnel. C'est pourquoi la norme SGML apparaissait pertinente dès cette époque. Une première bibliothèque nommée Ilib a alors été développée au sein de l'INIST. Elle était très spécialisée pour le traitement des notices Pascal.

L'INIST s'était opposée en 1992 à la diffusion de Ilib afin de préserver son monopôle dans l'exploitation des données relatives à Pascal. Les travaux ont été alors été poursuivis au Loria dans une approche qui anticipait la norme XML. Une nouvelle bibliothèque nommée Dilib a alors été développée avec une généralisation dans l'optique de traiter de grands volumes de documents de métadonnées d'origine quelconque.

Les travaux sur Dilib ont été repris par l'INIST en 2000 puis arrêtés en 2003 (là encore avec le même type de stratégie pour préserver un monopôle d'exploitation).

Avec ISTEX, il faut manipuler de vastes corpus de documents plein texte avec des DTD très diverses. Ceci a donné l'occasion de reprendre les développements pour répondre à cette nouvelle classe de problèmes.

Par rapport à XML, le parser DILIB évolue pour traiter tous les types de documents offerts par ISTEX. Pour les traitements proprement dits, une recommandation nommée Sxml a été introduite. Pour en savoir plus, voir sur Wicri/Métadonnées les flux de documents Sxml.

Cela dit, compte tenu de l'absence de moyens institutionnels, le développement de Dilib est strictement opportuniste en fonction des besoins.

Utilisabilité ISTEX

La bibliothèque est en open/source. Elle est donc utilisable par toute équipe voulant exploiter des données ISTEX. Encore faut-il qu'un minimum de suivi et de maintenance soit assuré. L'abandon, par l'INIST, d'une stratégie de monopôle d'exploitation (passage de l'offre de sous-traitance à l'accompagnement) serait naturellement un atout important. Le NCBI aux Etats-Unis montre clairement l'intérêt de ce type d'approche.


Les structures HFD

Attention : les numéros internes sont donnés à titre indicatif. En effet, ils varient pour chaque génération d'un serveur
Attention : Cette démonstration a un aspect technologique avancé et n'est pas facilement compréhensible par un non spécialiste
Les structures HFD, un logo pour la construction de serveurs d'exploration
Séminaire ISTEX 2016 V3 Diapositive10.jpg

Une démonstration sur le thème :

En allant sur ce lien, on se rend sur le zoom « France » (un ensemble de moins de 200 notices) de la plateforme Mozart. On constate que ce document possède « 000175 » comme numéro interne. Cela dit, le contexte limité à la recherche française de ce zoom est très pauvre en termes de navigation (par exemple le lien sur l'entrée « skull » du MeSH ne donne rien.

Sur un plan technique, cette notice se trouve dans un ensemble de 100 notices XML qui sont visibles à cette URL :

Chaque notice est identifiée par une clé à 5 chiffres, en descendant on localise facilement la clé 000175 qui correspond à notre document. On notera dans l'URL le chemin « biblio.hfd/00.dd/01.df » qui correspond à la décomposition explicitée dans la figure ci-jointe.

En repartant de la notice en forme éditée, on constate une rubrique « Links toward previous steps (curation, corpus...) » qui contient la ligne :

  • to stream Main, to step Exploration: 004A26

En allant sur ce lien, on retrouve cette notice dans un contexte plus large (14 000 documents). Ici une navigation sur skull donne un résultat nettement plus intéressant :

Sur un plan technique, on peut maintenant examiner l'index des entrées du MeSH. Le contenu de l'URL qui suit permet d'accéder à une partie de ce fichier inverse :

On y trouve notamment le document xml :

000941
<idx>
  <kw>Skull</kw>
  <lc>skull</lc>
  <f>10</f>
  <l>
    <e>001272</e>
    <e>001635</e>
    <e>003301</e>
    <e>003305</e>
    <e>003A50</e>
    <e>003E54</e>
    <e>003E56</e>
    <e>003E66</e>
    <e>004597</e>
    <e>004A26</e>
  </l>
</idx>

On y retrouve notre notice ayant pour clé HFD : 004A26

Pour accélerer les recherches une table permet d'atteindre rapidement le fichier index pertinent :

Serveurs d'exploration

Exploration des index

Séminaire ISTEX 2016 V3 Diapositive11.jpg

Un serveur d'exploration donne notamment accès à un ensemble d'index triés par ordre de fréquences décroissantes. Voici quelques exemple sur le Serveur d'exploration sur Mozart :

Un index s'est avéré très intéressant à l'usage. Il combine les noms d'auteurs avec l'initiale de leur premier prénom et leurs différentes affiliations.

Destiné initialement à la curation des auteurs et affiliations il s'avère très intéressant pour des recherche rapides sur les principaux acteurs d'un domaine.

Dans le réseau Wicri

On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.

Voici quelques exemples :


Outils plus avancés

Séminaire ISTEX 2016 V2 Diapositive12.jpg

Les serveurs d'exploration sont organisés en flux avec une interface de navigation iconographique introduite par ce type de cartouche.

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Pour en savoir plus voir sur ce wiki les pages :

Des outils de classification (clusters) sont disponibles. Ils sont repérables en tête de page d'index par des mentions telles que :

Ils permettent d'atteindre des associations telles que :

Navigation géographique
 
Projection de l'activité scientifique en Europe
                       

La carte ci-joint montre les projections de l'activité scientifique autour de Mozart en Europe.

Plus précisément, elle est construite à partir des affiliations des auteurs des articles du serveur.

La surface des cercles est proportionnelle à l'activité scientifique sur le sujet. Le Royaume-Uni, avec plus de 500 publications est en première position.

En cliquant sur le cercle, on peut aller explorer le serveur à partir du pays en question.

En cliquant sur le toponyme, on reste sur le wiki en allant simplement sur la page du pays.

S'agissant du Royaume-Uni le serveur d'exploration dispose d'un flux spécialisé (zoom UK). Sur ce flux, l'index auteur permet de repérer des chercheurs ayant travaillé sur Mozart : Margaret A. Boden et Adrian C. North.

On trouvera d'autres exemples :

Création de serveurs et de plateformes

Explorations rapides

Séminaire ISTEX 2016 Diapositive12.jpg

Documentation (sur le wiki Wicri/Outils) :

Exemple de travaux pratiques, observation de la stabilité d'une requête :

IstexGetCorpus -q "monteverdi mozart" -s 5 | grep title
IstexGetCorpus -q "monteverdi AND mozart" -s 5 | grep title
IstexGetCorpus -q "monteverdi mozart" -s 5 -f 20 | grep title
IstexGetCorpus -q "monteverdi AND mozart" -s 5 -f 20 | grep title

Voir d'autres exemples sur Wicri/Manuel :


Plateformes paramétrables

Séminaire ISTEX 2016 V2 Diapositive14.jpg
Exemple de protocole 
  1. génération de pages de paramétrage (voir Serveur d'exploration sur Mozart, paramétrage)
  2. téléchargement des corpus
  3. création de la plateforme et premières observations
  4. introduction de règles de curation dans le réseau de wikis
  5. importation des règles dans Dilib/Data
  6. compilation Dilib
  7. reprise en 3
Mutualisation

Toute règle introduite dans un wiki commun, notamment géographique, sera intégrée dans toutes les nouvelles générations de tous les serveurs.

Par exemple, pour la plateforme sur Heinrich Schütz, tous les organismes apparaissant dans l'index associé ont été introduits par des actions antérieures, quelques-unes liées à ce wiki (comme la Bibliothèque du Congrès - 8 publications) et pour la très grande majorité sur d'autres disciplines (eau, informatique, santé...)[2].

Pérennisation des liens vers les articles

Les liens internes (HFD) sont recalculés à chaque itération et n'auront donc aucune pérennité. Pour y remédier un identifiant nommé RBID a été défini. Par exemple, pour citer cet article :

on utilise le wikicode ci-dessous (ce code est donné en fin de page article sur le serveur de façon à faciliter les copier/coller) :
{{Explor lien
   |wiki=    Wicri/Musique
   |area=    MonteverdiV1
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     ISTEX:506EF84431CD6E14DE71FAA288F4233280049966
   |texte=   Looking backwards: Baroque opera and the ending of the Orpheus myth
}}
Actualisation des données numériques

De même les données numériques sont susceptibles d'être modifiées à chaque itération. Un texte comme « L'index auteur du Serveur d'exploration sur Monteverdi contient 1993 entrées » est généré par le script :

L'{{Explor lien
   |wiki=    Wicri/Musique
   |area=    MonteverdiV1
   |url=Main/Exploration/indexHead.php?index=Author.i
   |texte=index auteur
}} du [[Serveur d'exploration sur Monteverdi]] contient 
{{MonteverdiV1, Explor size|stream=Main |step=Exploration |index=Author}} entrées

Un modèle comme MozartV1, Explor size est généré à partir d'un paramétrage défini sur la page Wicri:MozartV1/Liste de clés.


Acquisition de documents ISTEX

Séminaire ISTEX 2016 Diapositive14.jpg

Niveaux de complexité rencontrés :

  1. plateforme limitée à un flux de métadonnées MODS
    • 5 minutes (une fois le paramétrage défini)
  2. plateforme comportant du full text avec moins de 3000 documents
    • 20 minutes
  3. plateforme de moins de 15000 documents sans problème réseau
  4. plateforme de plus de 15000 documents avec problème réseau
ISTEX, Mise en évidence d'un dysfonctionnement actuel majeur

Les temps de transferts donné ci-dessus sont ceux qui sont obtenu en dehors de l'INIST. Les performances réelles obtenues dans les locaux de l'INIST sont très nettement meilleures.

Est-ce une volonté de préserver un monopôle d'exploitation ?


Plateformes multi-sources avec dédoublonnage

Séminaire ISTEX 2016 Diapositive15.jpg

Sur ce wiki, dans le serveur d'exploration sur Mozart :

Sur le wiki Wicri/Santé

  • La revue Movement Disorders avec une volumétrie initiale de 21 634 références dont :
    • 7 052 documents ISTEX
    • 5 910 documents Pascal ou Francis
    • 8 132 documents en provenance de la base PubMed (MEDLINE).
  • avec une volumétrie finale de 10 338.

Curation de données

Attention : Cette partie, déjà présentée il y a un an, sera seulement citée pendant la présentation orale
Séminaire ISTEX 2016 V2 Diapositive17.jpg

Dans l'état actuel des développements, la curation de données concerne essentiellement celles qui sont relatives aux acteurs :

  • auteurs,
  • organisme d'affiliation,
  • pays d'affiliation,
  • région d'affiliation.

Les flux traités en priorité sont :

  • Istex,
  • Pascal et Francis
  • PubMed et PubMed Central
  • HAL

Des essais ont été menés sur

  • HAL INRA
  • ArXiv
  • BHA

Pays par code ISO

Séminaire ISTEX 2016 V2 Diapositive18.jpg

Sur Wicri/Métadonnées :

Sur ce wiki,


Pays par liste de pays

Séminaire ISTEX 2016 V2 Diapositive19.jpg
Dans les cas simples

Sur ce wiki :

Avec des affiliations incomplètes 

Sur Wicri/Europe, la table des noms de villes européennes couramment utilisées dans les affiliations à la place d'un pays.

Sur ce wiki :


Curation des régions

Séminaire ISTEX 2016 V2 Diapositive20.jpg

De façon générale les régions ne figurent pas explicitement dans les adresses.

Elles peuvent apparaître avec la curation des auteurs. Par exemple, dans le Serveur d'exploration sur Monteverdi, l'auteur le plus cité dans le corpus ISTEX est Tim Carter.

En fait, il apparait la plupart du temps sans affiliation. Sur ce wiki on trouvera une

Sur le wiki Wicri/Amérique, on trouve une :

Après curation, (étape Checkpoint) la nouvelle liste des auteurs contient le nom Tim Carter avec la mention musicologue :

Dans cette étape la Caroline du Nord devient significative :


Utilisation des codes postaux

Séminaire ISTEX 2016 V2 Diapositive21.jpg

Une fois le pays reconnu, l'utilisation des codes postaux devient déterminante pour identifier une région.

Pour la France, la page Liste des régions, départements et préfectures de France permet de déterminer les régions françaises.

Pour l'Allemagne, le mécanisme est plus complexe, notamment en raison de la fusion. Un objectif est de définir une table de codes par Land :

Voici un extrait d'une table qui associe à un code postal sa localisation

01067-01328
------ 1
<place>
  <placeName>
    <settlement type="city">Dresde</settlement>
    <region type="land" nuts="1">Saxe (Land)</region>
    <region type="district" nuts="2">District de Dresde</region>
  </placeName>
</place>
=============================================
01465
------ 1
<place>
  <placeName>
    <settlement type="city">Dresde</settlement>
    <region type="land" nuts="1">Saxe (Land)</region>
    <region type="district" nuts="2">District de Dresde</region>
  </placeName>
</place>
=============================================
04103-04358
------ 1
<place>
  <placeName>
    <settlement type="city">Leipzig</settlement>
    <region type="land" nuts="1">Saxe (Land)</region>
    <region type="district" nuts="2">District de Leipzig</region>
  </placeName>
</place>

Curation à partir des noms d'organismes

Séminaire ISTEX 2016 V2 Diapositive22.jpg

Enfin, de nombreuses mentions d'organismes sont relativement faciles à identifier dans les adresses, et plus particulièrement les universités.

On trouvera donc une série de pages réparties dans les wikis, et par exemple, sur Wicri/Europe :

Investigations et observations

Filtrage par expression régulière

Séminaire ISTEX 2016 V1 Diapositive23.jpg

En pratique on utilise la commande SxmlFindText qui analyse un flot de documents Sxml avec par exemple une expression régulière en donnant pour chaque chaîne reconnue :

  • le numéro interne (HFD) du document
  • un SxPath purement numérique (non W3C)
  • un SxPath compatible au W3C
  • un offset permettant de localiser la chaîne reconnue
  • un contexte avant (facultatif)
  • la chaîne reconnue
  • un contexte après.

Par exemple, la suite de commandes :

HfdCat Data/Main/Exploration/biblio.hfd            \
    | SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*"  \
                    -a 10 -b 10

génère :

000003  1/1/2/1/1       record/TEI/front/div/p  48      to Mozart       K.448    enhances 
000003  1/1/2/1/1       record/TEI/front/div/p  466     he Mozart       K.448    has posit
000020  1/1/2/1 record/TEI/front/div    328      Mozart's       K448     or "
000043  1/1/2/1/1       record/TEI/front/div/p  431     to Mozart       K.448   . Until no

On peut alors filtrer cette liste (SxmlSelect), la trier et construire un index :

HfdCat Data/Main/Exploration/biblio.hfd             \
   | SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*"    \
   | SxmlSelect -p @5 -p @1 | sort | IndexBuildRec

On obtient alors une liste telle que

<idx><k>K. 465</k><f>1</f><l><e>001311</e></l></idx>
<idx><k>K. 486</k><f>2</f><l><e>004420</e><e>004420</e></l></idx>
<idx><k>K. 491</k><f>2</f><l><e>003132</e><e>003132</e></l></idx>
<idx><k>K. 492</k><f>2</f><l><e>004376</e><e>004376</e></l></idx>
<idx><k>K. 502</k><f>1</f><l><e>000661</e></l></idx>

On peut alors repérer « à l’œil nu » la Sonate K 448.

Dans les cas plus ambigus, on filtre à nouveau le fichier inverse.

            
HfdCat Data/Main/Exploration/biblio.hfd                   \
       | SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*"      \
       | SxmlSelect -p @5 -p @1 | sort | IndexBuildRec    \
       | SxmlSelect -g idx/f/1 -g idx/k/1 -p @g1 -p @g2   \
       | sort -rn

On obtient alors :

102	K.448
12	K1
9	K3
8	K.545
8	K. 448
6	K. 527
5	K6
5	K448
4	KV 448
4	K9
4	K7
4	K. 620
4	K. 384

Cette sonate ayant été repérée, on peut alors générer une liste à insérer dans le wiki.

HfdCat Data/Main/Exploration/biblio.hfd             \
   | grep "K[Vv]*[ \.]*448"                         \
   | SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1       \
                -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/title/1 \
                -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/author/name/1 \
                -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/author/affiliation/country/1 \
                -g record/TEI/teiHeader/fileDesc/publicationStmt/date/1       \
       -p "* {{Explor lien|wiki=Wicri/Musique|area=MozartV1|flux=Main|étape=Exploration|type=RBID|clé=@g1|texte=@g2}} @g3 (@g4 - @g5)"

Le résultat est visible sur Sonate pour deux pianos (Mozart).


Filtrage par liste de termes

Séminaire ISTEX 2016 V1 Diapositive24.jpg

Le même mécanisme de filtrage peut être utilisé pour repérer des listes de termes significatifs.

Sur Wicri/Eau

On peut trouver des listes de poissons construites à partir de FishBase :

Ces listes permettent de créer des tables qui vont être utilisés dans des actions de filtrage.

Par exemple, voici le script qui permet de repérer les poissons d'eau douces qui, dans le corps de l'article, sont le plus souvent associés à la perche commune (perca fluviatilis).

HfdCat Import/IstexRepository.hfd   \
  | head -500                    \
  | SxmlFindText    \
     -lD $WICRI_ROOT/Wicri/Eau/Sources/FishBase/listGenrePoissonFrance.dict     \
     -B $WICRI_ROOT/Wicri/Eau/Sources/FishBase/listSpeciesPoissonFrance.dict    \
  | grep fulltext | grep body      \
  | SxmlSelect -p @5 -p @1 | sort | IndexBuildRec  \
  | SxmlSelect -g idx/f/1 -g idx/k/1 -p @g1 -p @g  \
  | sort -rn | more

On obtient alors :

1403    perca fluviatilis
864     rutilus rutilus
572     esox lucius
269     abramis brama
200     salmo trutta
162     cyprinus carpio
154     anguilla anguilla
138     alburnus alburnus
135     sander lucioperca
123     gasterosteus aculeatus
115     gymnocephalus cernua
Sur ce wiki

Ce mécanisme a été utilisé sur la revue American Journal of Dance Therapy.

Un filtrage par une liste de chorégraphes américains permet de retrouver Martha Graham et de repérer Pearl Lang, Jean Erdman, doris humphrey, nora kaye, daniel nagrin, alwin nikolais.


Construction de graphes d'évolution des coopérations

Séminaire ISTEX 2016 V2 Diapositive25.jpg

Faute de machine virtuelle, cette démonstration n'est visible que sur un ordinateur individuel.

Voir, sur Wicri/Lorraine, l'article: Feature selection and complex networks methods for an analysis of collaboration evolution in science: an application to the ISTEX digital library (ISKO 2015).


Variabilité des corpus ISTEX

Séminaire ISTEX 2016 V1 Diapositive26.jpg

Chaque corpus pose des problèmes spécifiques en fonction du type de données, de sa volumétrie et du type de résultats attendus.

Exemples 
  • Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.
  • Le résultat sera très différent pour une revue en sciences humaines comportant de nombreuses revues de livres regroupés dans un seul article.

Conclusion

Conclusion technique

Séminaire ISTEX 2016 V1 Diapositive27.jpg

Sur un plan purement technique, et s'il ne s'agissait que d'un travail purement individuel, les résultats obtenus par LorExplor pourraient être jugés comme très positifs.

Ils ont pu être obtenus par une API pour lesquels des choix pertinents ont été définis. La jeune équipe ISTEX a accompli un travail tout à fait remarquable.

Cela dit, nous avons rencontré de nombreux problèmes pour lesquels l'absence totale de prise en compte des aspects collaboratifs des travaux, même peu avancés, sur ISTEX, s'est avérée bloquante.


Conclusion politique

Séminaire ISTEX 2016 V2 Diapositive28.jpg
Objectif 20.000 actions numériques sur 5 ans ?

Nous avons cité plus haut des chiffres annuels potentiels avec un ordre de grandeur de 100.000.

Peut-on, dans un premier temps viser 20.000 sur 4 à 5 ans ?

Combien de formateurs et d'accompagnants ?

  • 100 à 400 actions par université (exemple : dossier approfondi d'étude de l'existant).
=> 10 à 20 accompagnateurs par université,
dont un noyau (2 à 3) permanents dont un expert en technologie numérique,
=> noyau dur de 200 personnes avec une formation accentuée (1 homme année)
+ 1000 à 2000 avec une formation plus légère (1 homme mois)

Sur 4 à 5 ans, comment former :

  • 50 (noyau dur) par an
  • 10 sessions de 50 personnes sur 1 mois

Quelle organisation :

  • à peu près le contraire des pratiques institutionnelles (hiérarchisées) courantes : de la chaîne au réseau ...
  • structure de type groupement ?
Retombée informationnelle 
  • un dossier = 5 à 50 pages de contenu, 50 à 200 pages de métadonnées, terminologie...
    • volumétrie potentielle : 500.000 pages de contenu, 2.000.000 de métadonnées

Notes

  1. Visible dans les boîtes en fin de page.
  2. A la date où ce paragraphe a été rédigé.