Séminaire technique ISTEX illustré par Mozart
Sa vie - Son œuvre - Serveur d'exploration - Mozart et Salieri navigation - observations - séminaire ISTEX Pour les spécialistes : paramétrage - curation - expérimentations - archive |
Les 25 et 26 avril 2016, le projet LorExplor, qui a créé ce wiki comme espace de démonstration appliqué à la musique, doit présenter ses résultats à un séminaire technique ISTEX.
Compte tenu des nombreux exemples pris sur le Serveur d'exploration sur Mozart, cette page accueille les supports utilisés pour cette réunion, avec l'organisation suivante :
- un paragraphe accompagne chaque diapositive qui sera projetée ;
- une version PDF et une version PowerPoint sont disponibles ;
- les exemples ne seront pas traités pendant la présentation orale ;
- un paragraphe de discussion peut être ouvert pour chaque diapositive.
Sommaire
Introduction
- Présomption de compétence
- Michel Serres : « Anciennement, quand je rentrais dans mon amphi, il était entendu que le sujet du cours était relativement inconnu des élèves. Aujourd’hui quand je rentre dans le même amphi, quelle est la probabilité que les étudiants, et combien, aient cherché la veille sur Wikipedia le sujet de mon cours ? Il y avait une présomption d’incompétence, comme dans la relation du médecin au patient, et même, d’une certaine manière pour l’homme politique. Aujourd’hui, s’installe une présomption de compétence, ce qui crée une rééquilibration dans la relation pédagogique ».
- Conséquence sur ISTEX et les services en IST
- présomption d'incompétence = sous-traitance, validation a priori, chaîne de production ;
- présomption de compétence = accompagnement, modération scientifique, réseau de contributions.
- Commentaires/discussion
Pour les personnes disposant d'un compte Wicri, une page de discussion est ouverte avec un plan qui est aligné sur cette page.
Une priorité, l'exploration des connaissances
- Recherche
- On sait qu'une information existe, mais on a perdu le chemin pour y accéder.
- Exploration
- On recherche des informations que l'on ne connait pas :
- Quelle est l’œuvre de Mozart la plus citée ?
Pour la plus ancienne référence à l'hypertexte voir sur le wiki Ticri/H2PTM :
- Recherche débouchant sur des explorations
- Où trouver une explication compréhensible sur la relation entre les 8 tons de l'office (magnificats de la Renaissance) et les tonalités classiques (Do majeur...) ?
Objectifs du projet LorExplor
Le projet LorExplor s'attaque aux résolutions de problèmes éventuellement complexes menées dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, deux cibles sont privilégiées :
- Aide au pilotage stratégique
- La réponse à des besoins d'exploration avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel à projets européens : quelles sont, par exemple, les principales équipes européennes avec lesquelles l'Université François-Rabelais de Tours pourrait s'allier sur une thématique portant sur la musique de la Renaissance.
- A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre 50 000 à 150 000 par an.
- Association site encyclopédique - formation
Stratégie développée dans les universités américaines et approfondie dans une étude (IDEFI) sur la formation des ingénieurs
- La constitution de sites encyclopédique de références, donc sur du long terme. Par exemple, sur ce wiki, des portails sur des musiciens comme Mozart, Monteverdi ou Heinrich Schütz, ou sur des genres musicaux comme l'Opéra ou la musique sacrée à travers le Magnificat.
- Le scénario qui avait été examiné dans le cadre de formations en Master ou en dernière année d'école d'ingénieur repose sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois). Pratiquement tous les masters et toutes les thèses sont concernées. On arrive donc à un ordre de grandeur de 30 000 par an.
- On peut également envisager d'inclure dans tout cursus de formation dans l'enseignement supérieur une séance d'initiation aux technologies numériques « avancées », soit 200 000 à 300 000 par an...
Remarques méthodologiques par rapport à ISTEX
- Complémentarité des stratégies
- La démarche encyclopédique amène à traiter un corpus avec une grande précision pour les éléments qui seront mis en ligne et qui devront être lisibles par un large public,
- Haut niveau de travail collectif : enseignants, apprenants (thésards, master), experts...
- Concernant les études à court terme, l'existence d'un réseau de règles de curation joue un rôle fondamental.
Le plan
Infrastructure logicielle et informationnelle
LorExplor veut couvrir l'ensemble des activités relevant de l'information scientifique et culturelle et notamment la phase rédactionnelle.
Cette section présente l'infrastructure informationnelle sur laquelle vont s'appuyer les travaux liés plus précisément à ISTEX.
MediaWiki
La nature de l'information, culturelle ou scientifique, amène de fortes contraintes éditoriales. La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.
- Exemples plus significatifs
- Sur ce wiki :
- cette présentation pour le séminaire ISTEX est enrichie par un ensemble de démonstrations, avec notamment des liens vers des serveurs d'exploration dont le contenu évolue dans le temps.
- l'adaptation de la traduction française de la pièce de Pouchkine Mozart et Salieri demande de manipuler un outil de notation musicale (LilyPond).
- elle est intégrée dans un dossier Mozart qui donne accès à environ 15 000 documents (en majorité ISTEX).
- Dans le réseau Wicri, le wiki H2PTM accueille par exemple :
- des supports de cours pour des travaux d'étudiants (avec des démonstrations),
- une version numérique hypertextuelle des actes des colloques H2PTM|H2 (voir, par exemple, les actes de la conférence H2PTM 2007 Hammamet) ;
- avec une large bibliographie complémentaire (voir le Serveur d'exploration hypertexte et hypermédia).
- Aspects techniques concernant MediaWiki
La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs.
- Blocages « politiques »
Semantic MediaWiki
La souche MediaWiki est déjà très riche par ses mécanismes d'indexation et l'utilisation de modèles. Cette page contient d'ailleurs un grand nombre d'appels de modèles, visualisables par l'onglet « modifier ou voir le texte source ».
Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.
Sur ce wiki, on trouvera une introduction avec les relations qui lient les opéras avec leurs compositeurs et les auteurs de livrets. Par exemple :
- la page Les Noces de Figaro contient un lien dans lequel on a inséré un attribut sémantique :
sur un livret de [[A pour auteur de livret::Lorenzo da Ponte]]
- le bas de cette page contient un cartouche avec un ensemble de faits ainsi repérés.
- on peut alors naviguer sur la relation A pour auteur de livret.
- sur la page Lorenzo da Ponte, on trouvera un exemple de requêtes montrant que Mozart et Salieri ont eu recours au même parolier.
Cette requête peut d'ailleurs être adaptée ici :
{{#ask:[[a pour auteur de livret::{{Lorenzo da Ponte}}]]
| format=ul
| ?A pour compositeur=compositeur :
| sep=,_
| headers=hide
| intro=''le résultat''}}
le résultat
- Axur, re d'Ormus (Antonio Salieri)
- Così fan tutte (Wolfgang Amadeus Mozart)
- Don Giovanni (Wolfgang Amadeus Mozart)
- Les Noces de Figaro (Wolfgang Amadeus Mozart)
- Applications des modèles et liens sémantiques aux corpus ISTEX
Voir, par exemple :
- sur ce wiki, la page Serveur d'exploration qui exploite les données numériques sur les corpus.
- Remarque sur l'interopérabilité de la solution
L'ensemble des relations sémantiques est exploitable en RDF.
Le réseau Wicri
- Un même sujet peut être traité de façon différente sur différents wikis.
Exemple, pour le même article, on peut constater des différences significatives de l'indexation sémantique [1] :
- Sur ce wiki : Alain Bonardi, Le patch comme document numérique : support de création et de constitution de connaissances
- Sur le wiki CIDE : CIDE (2007) Bonardi.
- Pour se repérer dans le réseau
Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage. Mais il ne dispose pas de forces éditoriales et la navigation n'est pas toujours évidente. Voici quelques éléments simples :
- sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
- l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
- Quelques points d'entrée (wikis communs)
- Le wiki point d'accueil principal du réseau : Wicri/Wicri.
- le premier wiki régional : Wicri/Lorraine.
- le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.
- Apport ISTEX, distribution des règles de curation
Les règles de curation vont être distribuées (et contextualisées) dans l'ensemble du réseau. Par exemple :
- Sur ce wiki : Liste de musicologues,
- Sur le wiki Wicri/Amérique : Liste de grandes universités américaines.
Bibliothèque de composants XML
Si les wikis jouent un rôle fondamental dans l'interface homme machine avec les corpus, les travaux de curation et d'exploration sont réalisés avec une bibliothèque de composants XML.
Pour un corpus donné, cette bibliothèque va notamment permettre de réaliser :
- un serveur d'exploration qui devrait être accessible à un public assez large mais averti.
- une plateforme de curation et d'exploration. Il s'agit d'un ensemble de serveurs intermédiaires destinés aux spécialistes.
Les serveurs d'exploration sont réalisés sur une machine Unix avec des composants logiciels écrits en langage C.
Les modules de navigation sont réalisés en php.
Ces modules sont intégrés dans la bibliothèque Dilib. Elle est principalement documentée sur le wiki Wicri/Outils.
Ilib, Dilib, Sgml, Xml, Sxml
L'origine de Dilib remonte en 1990 où l'INIST cherchait une solution pour manipuler facilement des formats MARC. En effet ce formalisme (ISO 2709) était utilisé pour la production des bases Pascal et Francis. Un exemple de notice Pascal, structurée en 2 niveaux, est visible dans l'exemple ci-dessous :
Ce type de structure ne se manipule pas facilement dans un SGBD relationnel. C'est pourquoi la norme SGML apparaissait pertinente dès cette époque. Une première bibliothèque nommée Ilib a alors été développée au sein de l'INIST. Elle était très spécialisée pour le traitement des notices Pascal.
L'INIST s'était opposée en 1992 à la diffusion de Ilib afin de préserver son monopôle dans l'exploitation des données relatives à Pascal. Les travaux ont été alors été poursuivis au Loria dans une approche qui anticipait la norme XML. Une nouvelle bibliothèque nommée Dilib a alors été développée avec une généralisation dans l'optique de traiter de grands volumes de documents de métadonnées d'origine quelconque.
Les travaux sur Dilib ont été repris par l'INIST en 2000 puis arrêtés en 2003 (là encore avec le même type de stratégie pour préserver un monopôle d'exploitation).
Avec ISTEX, il faut manipuler de vastes corpus de documents plein texte avec des DTD très diverses. Ceci a donné l'occasion de reprendre les développements pour répondre à cette nouvelle classe de problèmes.
Par rapport à XML, le parser DILIB évolue pour traiter tous les types de documents offerts par ISTEX. Pour les traitements proprement dits, une recommandation nommée Sxml a été introduite. Pour en savoir plus, voir sur Wicri/Métadonnées les flux de documents Sxml.
Cela dit, compte tenu de l'absence de moyens institutionnels, le développement de Dilib est strictement opportuniste en fonction des besoins.
- Utilisabilité ISTEX
La bibliothèque est en open/source. Elle est donc utilisable par toute équipe voulant exploiter des données ISTEX. Encore faut-il qu'un minimum de suivi et de maintenance soit assuré. L'abandon, par l'INIST, d'une stratégie de monopôle d'exploitation (passage de l'offre de sous-traitance à l'accompagnement) serait naturellement un atout important. Le NCBI aux Etats-Unis montre clairement l'intérêt de ce type d'approche.
Les structures HFD
- Les structures HFD, un logo pour la construction de serveurs d'exploration
Une démonstration sur le thème :
- Mozart souffrait-il d'un hématome intracrânien. En effet ceci est suggéré par l'article : Did Mozart have a chronic extradural haematoma?
En allant sur ce lien, on se rend sur le zoom « France » (un ensemble de moins de 200 notices) de la plateforme Mozart. On constate que ce document possède « 000175 » comme numéro interne. Cela dit, le contexte limité à la recherche française de ce zoom est très pauvre en termes de navigation (par exemple le lien sur l'entrée « skull » du MeSH ne donne rien.
Sur un plan technique, cette notice se trouve dans un ensemble de 100 notices XML qui sont visibles à cette URL :
Chaque notice est identifiée par une clé à 5 chiffres, en descendant on localise facilement la clé 000175 qui correspond à notre document. On notera dans l'URL le chemin « biblio.hfd/00.dd/01.df » qui correspond à la décomposition explicitée dans la figure ci-jointe.
En repartant de la notice en forme éditée, on constate une rubrique « Links toward previous steps (curation, corpus...) » qui contient la ligne :
- to stream Main, to step Exploration: 004A26
En allant sur ce lien, on retrouve cette notice dans un contexte plus large (14 000 documents). Ici une navigation sur skull donne un résultat nettement plus intéressant :
Sur un plan technique, on peut maintenant examiner l'index des entrées du MeSH. Le contenu de l'URL qui suit permet d'accéder à une partie de ce fichier inverse :
On y trouve notamment le document xml :
000941
<idx>
<kw>Skull</kw>
<lc>skull</lc>
<f>10</f>
<l>
<e>001272</e>
<e>001635</e>
<e>003301</e>
<e>003305</e>
<e>003A50</e>
<e>003E54</e>
<e>003E56</e>
<e>003E66</e>
<e>004597</e>
<e>004A26</e>
</l>
</idx>
On y retrouve notre notice ayant pour clé HFD : 004A26
Pour accélerer les recherches une table permet d'atteindre rapidement le fichier index pertinent :
Serveurs d'exploration
Exploration des index
Un serveur d'exploration donne notamment accès à un ensemble d'index triés par ordre de fréquences décroissantes. Voici quelques exemple sur le Serveur d'exploration sur Mozart :
Un index s'est avéré très intéressant à l'usage. Il combine les noms d'auteurs avec l'initiale de leur premier prénom et leurs différentes affiliations.
Destiné initialement à la curation des auteurs et affiliations il s'avère très intéressant pour des recherche rapides sur les principaux acteurs d'un domaine.
- Dans le réseau Wicri
On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.
Voici quelques exemples :
- Sur Ticri/H2PTM : Serveur d'exploration sur l'hypertexte,
- Sur Wicri/Terre : Serveur d'exploration sur l'europium.
- Sur Wicri/Linguistique : Serveur d'exploration sur la philologie
- Sur Wicri/Eau : Serveur d'exploration Lota lota (lotte de rivière).
- Sur Wicri/Luxembourg : Serveur d'exploration sur la visibilité du Luxembourg à la NLM.
Outils plus avancés
Les serveurs d'exploration sont organisés en flux avec une interface de navigation iconographique introduite par ce type de cartouche.
Pour en savoir plus voir sur ce wiki les pages :
- Serveur d'exploration sur Mozart
- Serveur d'exploration sur Mozart, navigation
- Serveur d'exploration sur Mozart, navigation détaillée
Des outils de classification (clusters) sont disponibles. Ils sont repérables en tête de page d'index par des mentions telles que :
Ils permettent d'atteindre des associations telles que :
- Navigation géographique
|
La carte ci-joint montre les projections de l'activité scientifique autour de Mozart en Europe.
Plus précisément, elle est construite à partir des affiliations des auteurs des articles du serveur.
La surface des cercles est proportionnelle à l'activité scientifique sur le sujet. Le Royaume-Uni, avec plus de 500 publications est en première position.
En cliquant sur le cercle, on peut aller explorer le serveur à partir du pays en question.
En cliquant sur le toponyme, on reste sur le wiki en allant simplement sur la page du pays.
S'agissant du Royaume-Uni le serveur d'exploration dispose d'un flux spécialisé (zoom UK). Sur ce flux, l'index auteur permet de repérer des chercheurs ayant travaillé sur Mozart : Margaret A. Boden et Adrian C. North.
On trouvera d'autres exemples :
- sur ce wiki : Serveur d'exploration sur Mozart, navigation géographique
- sur Wicri/Terre : Serveur d'exploration sur l'europium.
Création de serveurs et de plateformes
Explorations rapides
Documentation (sur le wiki Wicri/Outils) :
- commande IstexGetCorpus,
- pour obtenir simplement la taille d'un corpus
- commande IstexFlashCorpus,
- pour visualiser quelques éléments d'un corpus
- commande IstexExplorCorpus,
- pour créer un serveur d'exploration (non paramétrable)
- commande NlmPubMedGetCorpus.
Exemple de travaux pratiques, observation de la stabilité d'une requête :
IstexGetCorpus -q "monteverdi mozart" -s 5 | grep title
IstexGetCorpus -q "monteverdi AND mozart" -s 5 | grep title
IstexGetCorpus -q "monteverdi mozart" -s 5 -f 20 | grep title
IstexGetCorpus -q "monteverdi AND mozart" -s 5 -f 20 | grep title
Voir d'autres exemples sur Wicri/Manuel :
Plateformes paramétrables
- Exemple de protocole
- génération de pages de paramétrage (voir Serveur d'exploration sur Mozart, paramétrage)
- téléchargement des corpus
- création de la plateforme et premières observations
- introduction de règles de curation dans le réseau de wikis
- importation des règles dans Dilib/Data
- compilation Dilib
- reprise en 3
- Mutualisation
Toute règle introduite dans un wiki commun, notamment géographique, sera intégrée dans toutes les nouvelles générations de tous les serveurs.
Par exemple, pour la plateforme sur Heinrich Schütz, tous les organismes apparaissant dans l'index associé ont été introduits par des actions antérieures, quelques-unes liées à ce wiki (comme la Bibliothèque du Congrès - 8 publications) et pour la très grande majorité sur d'autres disciplines (eau, informatique, santé...)[2].
- Pérennisation des liens vers les articles
Les liens internes (HFD) sont recalculés à chaque itération et n'auront donc aucune pérennité. Pour y remédier un identifiant nommé RBID a été défini. Par exemple, pour citer cet article :
- on utilise le wikicode ci-dessous (ce code est donné en fin de page article sur le serveur de façon à faciliter les copier/coller) :
{{Explor lien
|wiki= Wicri/Musique
|area= MonteverdiV1
|flux= Main
|étape= Exploration
|type= RBID
|clé= ISTEX:506EF84431CD6E14DE71FAA288F4233280049966
|texte= Looking backwards: Baroque opera and the ending of the Orpheus myth
}}
- Actualisation des données numériques
De même les données numériques sont susceptibles d'être modifiées à chaque itération. Un texte comme « L'index auteur du Serveur d'exploration sur Monteverdi contient 1993 entrées » est généré par le script :
L'{{Explor lien
|wiki= Wicri/Musique
|area= MonteverdiV1
|url=Main/Exploration/indexHead.php?index=Author.i
|texte=index auteur
}} du [[Serveur d'exploration sur Monteverdi]] contient
{{MonteverdiV1, Explor size|stream=Main |step=Exploration |index=Author}} entrées
Un modèle comme MozartV1, Explor size est généré à partir d'un paramétrage défini sur la page Wicri:MozartV1/Liste de clés.
Acquisition de documents ISTEX
Niveaux de complexité rencontrés :
- plateforme limitée à un flux de métadonnées MODS
- 5 minutes (une fois le paramétrage défini)
- plateforme comportant du full text avec moins de 3000 documents
- 20 minutes
- plateforme de moins de 15000 documents sans problème réseau
- une à deux heures, voir Wicri:MozartV1
- plateforme de plus de 15000 documents avec problème réseau
- une à deux journées, voir ticri-h2ptm.fr:Wicri:HypertextV7
- ISTEX, Mise en évidence d'un dysfonctionnement actuel majeur
Les temps de transferts donné ci-dessus sont ceux qui sont obtenu en dehors de l'INIST. Les performances réelles obtenues dans les locaux de l'INIST sont très nettement meilleures.
Est-ce une volonté de préserver un monopôle d'exploitation ?
Plateformes multi-sources avec dédoublonnage
Sur ce wiki, dans le serveur d'exploration sur Mozart :
- Un document ISTEX avec une indexation MeSH et une indexation Pascal
- Une notice avec indexation Francis sur un document archivé sur PudMed Central
Sur le wiki Wicri/Santé
- La revue Movement Disorders avec une volumétrie initiale de 21 634 références dont :
- 7 052 documents ISTEX
- 5 910 documents Pascal ou Francis
- 8 132 documents en provenance de la base PubMed (MEDLINE).
- avec une volumétrie finale de 10 338.
Curation de données
Dans l'état actuel des développements, la curation de données concerne essentiellement celles qui sont relatives aux acteurs :
- auteurs,
- organisme d'affiliation,
- pays d'affiliation,
- région d'affiliation.
Les flux traités en priorité sont :
- Istex,
- Pascal et Francis
- PubMed et PubMed Central
- HAL
Des essais ont été menés sur
- HAL INRA
- ArXiv
- BHA
Pays par code ISO
Sur Wicri/Métadonnées :
- la table ISO 3166-1
Sur ce wiki,
- un document avec un code ISO à 3 caractères (en zone A66)
- Sur HAL, un document qui contient de multiples mentions de code ISO à 3 caractères
Pays par liste de pays
- Dans les cas simples
- Sur Wicri/Métadonnées, la table Table des noms de pays en anglais
Sur ce wiki :
- un document où l'Allemagne est codée par Germany :
- un document où l'Allemagne est codée par « W. Germany »
- Avec des affiliations incomplètes
Sur Wicri/Europe, la table des noms de villes européennes couramment utilisées dans les affiliations à la place d'un pays.
Sur ce wiki :
- Un document ISTEX où la mention d'affiliation est limitée à Oxford
Curation des régions
De façon générale les régions ne figurent pas explicitement dans les adresses.
Elles peuvent apparaître avec la curation des auteurs. Par exemple, dans le Serveur d'exploration sur Monteverdi, l'auteur le plus cité dans le corpus ISTEX est Tim Carter.
En fait, il apparait la plupart du temps sans affiliation. Sur ce wiki on trouvera une
- Liste de musicologues
- où l'on trouve les principales affiliations de Tim Carter avec en particulier : l'Université de Caroline du Nord à Chapel Hill.
Sur le wiki Wicri/Amérique, on trouve une :
Après curation, (étape Checkpoint) la nouvelle liste des auteurs contient le nom Tim Carter avec la mention musicologue :
Dans cette étape la Caroline du Nord devient significative :
Utilisation des codes postaux
Une fois le pays reconnu, l'utilisation des codes postaux devient déterminante pour identifier une région.
Pour la France, la page Liste des régions, départements et préfectures de France permet de déterminer les régions françaises.
Pour l'Allemagne, le mécanisme est plus complexe, notamment en raison de la fusion. Un objectif est de définir une table de codes par Land :
- sur Wicri/Allemagne : Liste de codes postaux du Bade-Wurtemberg
- de même pour Wicri/Rhénanie-Palatinat, Wicri/Sarre.
- de façon temporaire, une page résume les autres régions sur Wicri/Allemagne.
Voici un extrait d'une table qui associe à un code postal sa localisation
01067-01328
------ 1
<place>
<placeName>
<settlement type="city">Dresde</settlement>
<region type="land" nuts="1">Saxe (Land)</region>
<region type="district" nuts="2">District de Dresde</region>
</placeName>
</place>
=============================================
01465
------ 1
<place>
<placeName>
<settlement type="city">Dresde</settlement>
<region type="land" nuts="1">Saxe (Land)</region>
<region type="district" nuts="2">District de Dresde</region>
</placeName>
</place>
=============================================
04103-04358
------ 1
<place>
<placeName>
<settlement type="city">Leipzig</settlement>
<region type="land" nuts="1">Saxe (Land)</region>
<region type="district" nuts="2">District de Leipzig</region>
</placeName>
</place>
Curation à partir des noms d'organismes
Enfin, de nombreuses mentions d'organismes sont relativement faciles à identifier dans les adresses, et plus particulièrement les universités.
On trouvera donc une série de pages réparties dans les wikis, et par exemple, sur Wicri/Europe :
Investigations et observations
Filtrage par expression régulière
En pratique on utilise la commande SxmlFindText qui analyse un flot de documents Sxml avec par exemple une expression régulière en donnant pour chaque chaîne reconnue :
- le numéro interne (HFD) du document
- un SxPath purement numérique (non W3C)
- un SxPath compatible au W3C
- un offset permettant de localiser la chaîne reconnue
- un contexte avant (facultatif)
- la chaîne reconnue
- un contexte après.
Par exemple, la suite de commandes :
HfdCat Data/Main/Exploration/biblio.hfd \
| SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*" \
-a 10 -b 10
génère :
000003 1/1/2/1/1 record/TEI/front/div/p 48 to Mozart K.448 enhances 000003 1/1/2/1/1 record/TEI/front/div/p 466 he Mozart K.448 has posit 000020 1/1/2/1 record/TEI/front/div 328 Mozart's K448 or " 000043 1/1/2/1/1 record/TEI/front/div/p 431 to Mozart K.448 . Until no
On peut alors filtrer cette liste (SxmlSelect), la trier et construire un index :
HfdCat Data/Main/Exploration/biblio.hfd \
| SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*" \
| SxmlSelect -p @5 -p @1 | sort | IndexBuildRec
On obtient alors une liste telle que
<idx><k>K. 465</k><f>1</f><l><e>001311</e></l></idx>
<idx><k>K. 486</k><f>2</f><l><e>004420</e><e>004420</e></l></idx>
<idx><k>K. 491</k><f>2</f><l><e>003132</e><e>003132</e></l></idx>
<idx><k>K. 492</k><f>2</f><l><e>004376</e><e>004376</e></l></idx>
<idx><k>K. 502</k><f>1</f><l><e>000661</e></l></idx>
On peut alors repérer « à l’œil nu » la Sonate K 448.
Dans les cas plus ambigus, on filtre à nouveau le fichier inverse.
HfdCat Data/Main/Exploration/biblio.hfd \
| SxmlFindText -r "[K][Vv]*[ \.]*[0-9][0-9]*" \
| SxmlSelect -p @5 -p @1 | sort | IndexBuildRec \
| SxmlSelect -g idx/f/1 -g idx/k/1 -p @g1 -p @g2 \
| sort -rn
On obtient alors :
102 K.448 12 K1 9 K3 8 K.545 8 K. 448 6 K. 527 5 K6 5 K448 4 KV 448 4 K9 4 K7 4 K. 620 4 K. 384
Cette sonate ayant été repérée, on peut alors générer une liste à insérer dans le wiki.
HfdCat Data/Main/Exploration/biblio.hfd \
| grep "K[Vv]*[ \.]*448" \
| SxmlSelect -g record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1 \
-g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/title/1 \
-g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/author/name/1 \
-g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/analytic/author/affiliation/country/1 \
-g record/TEI/teiHeader/fileDesc/publicationStmt/date/1 \
-p "* {{Explor lien|wiki=Wicri/Musique|area=MozartV1|flux=Main|étape=Exploration|type=RBID|clé=@g1|texte=@g2}} @g3 (@g4 - @g5)"
Le résultat est visible sur Sonate pour deux pianos (Mozart).
Filtrage par liste de termes
Le même mécanisme de filtrage peut être utilisé pour repérer des listes de termes significatifs.
- Sur Wicri/Eau
On peut trouver des listes de poissons construites à partir de FishBase :
Ces listes permettent de créer des tables qui vont être utilisés dans des actions de filtrage.
Par exemple, voici le script qui permet de repérer les poissons d'eau douces qui, dans le corps de l'article, sont le plus souvent associés à la perche commune (perca fluviatilis).
HfdCat Import/IstexRepository.hfd \
| head -500 \
| SxmlFindText \
-lD $WICRI_ROOT/Wicri/Eau/Sources/FishBase/listGenrePoissonFrance.dict \
-B $WICRI_ROOT/Wicri/Eau/Sources/FishBase/listSpeciesPoissonFrance.dict \
| grep fulltext | grep body \
| SxmlSelect -p @5 -p @1 | sort | IndexBuildRec \
| SxmlSelect -g idx/f/1 -g idx/k/1 -p @g1 -p @g \
| sort -rn | more
On obtient alors :
1403 perca fluviatilis 864 rutilus rutilus 572 esox lucius 269 abramis brama 200 salmo trutta 162 cyprinus carpio 154 anguilla anguilla 138 alburnus alburnus 135 sander lucioperca 123 gasterosteus aculeatus 115 gymnocephalus cernua
- Sur ce wiki
Ce mécanisme a été utilisé sur la revue American Journal of Dance Therapy.
Un filtrage par une liste de chorégraphes américains permet de retrouver Martha Graham et de repérer Pearl Lang, Jean Erdman, doris humphrey, nora kaye, daniel nagrin, alwin nikolais.
Construction de graphes d'évolution des coopérations
Faute de machine virtuelle, cette démonstration n'est visible que sur un ordinateur individuel.
Voir, sur Wicri/Lorraine, l'article: Feature selection and complex networks methods for an analysis of collaboration evolution in science: an application to the ISTEX digital library (ISKO 2015).
Variabilité des corpus ISTEX
Chaque corpus pose des problèmes spécifiques en fonction du type de données, de sa volumétrie et du type de résultats attendus.
- Exemples
- Sur le wiki Wicri/Santé, la revue Movement Disorders donne un résultat très intéressant où un corpus de 20.000 documents est transformé en une base de données de 10.000 documents et références bénéficiant d'une multiple indexation.
- Le résultat sera très différent pour une revue en sciences humaines comportant de nombreuses revues de livres regroupés dans un seul article.
Conclusion
Conclusion technique
Sur un plan purement technique, et s'il ne s'agissait que d'un travail purement individuel, les résultats obtenus par LorExplor pourraient être jugés comme très positifs.
Ils ont pu être obtenus par une API pour lesquels des choix pertinents ont été définis. La jeune équipe ISTEX a accompli un travail tout à fait remarquable.
Cela dit, nous avons rencontré de nombreux problèmes pour lesquels l'absence totale de prise en compte des aspects collaboratifs des travaux, même peu avancés, sur ISTEX, s'est avérée bloquante.
Conclusion politique
- Objectif 20.000 actions numériques sur 5 ans ?
Nous avons cité plus haut des chiffres annuels potentiels avec un ordre de grandeur de 100.000.
Peut-on, dans un premier temps viser 20.000 sur 4 à 5 ans ?
Combien de formateurs et d'accompagnants ?
- 100 à 400 actions par université (exemple : dossier approfondi d'étude de l'existant).
- => 10 à 20 accompagnateurs par université,
- dont un noyau (2 à 3) permanents dont un expert en technologie numérique,
- => noyau dur de 200 personnes avec une formation accentuée (1 homme année)
- + 1000 à 2000 avec une formation plus légère (1 homme mois)
- => 10 à 20 accompagnateurs par université,
Sur 4 à 5 ans, comment former :
- 50 (noyau dur) par an
- 10 sessions de 50 personnes sur 1 mois
Quelle organisation :
- à peu près le contraire des pratiques institutionnelles (hiérarchisées) courantes : de la chaîne au réseau ...
- structure de type groupement ?
- Retombée informationnelle
- un dossier = 5 à 50 pages de contenu, 50 à 200 pages de métadonnées, terminologie...
- volumétrie potentielle : 500.000 pages de contenu, 2.000.000 de métadonnées