Utilisateur:Jacques Ducloy/Dossiers/Stage L3
Cette page introduit les étapes du projet mené par Asma Lahssini et William Tardot.
Sommaire
- 1 Trois axes de réflexion technologique et organisationnelle
- 2 Phase 1, découverte du réseau wiki et des wikis sémantiques
- 3 Phase 2, exploration de corpus
- 4 Phase 3, développement d'un utilitaire réseau
Trois axes de réflexion technologique et organisationnelle
- Organisation par thématique (ou zones géographiques) en regroupant les fonctions sur un même site grâce à la généricité de MediaWiki, dopé par les extensions sémantiques
- Exploration et curation de corpus, comment gérer l'incertitude
- Assurer un forme d'intégrité dans un réseau de sites.
Phase 1, découverte du réseau wiki et des wikis sémantiques
Rééditions de documents issus de Gallica
- Observer sommairement l'utilisation de Gallica dans le réseau Wicri.
- Sur ce wiki, analyser le travail de réédition entre :
- des pages ou chapitres terminés, exemple La grippe ou influenza (1908) André/Pronostic
- des pages brutes d'OCR.
- Sur Wicri/Lorraine voir l'organisation de wicri-lor.fr:Le Palais ducal de Nancy (1852) Lepage
- voir notamment l'annexe Figure et légendes.
- Traiter quelques chapitres pages :
- sur d'autres wikis
- sur ce wiki, la grippe ou influenza.
Découverte des sources d'information
Un article d'introduction :
- Sur Wicri/Science ouverte, Métadonnées pour WICRI, un réseau de wikis sémantiques pour les communautés de la recherche et de l'innovation
Premières visites des serveurs d'explorations
- Sur le wiki Wicri/France, voir la page Aussois, centre de vacances utilisés par des colloques scientifiques.
- exercice, naviguer à partir des cartes pour trouver des chercheurs de Nancy en vérifiant cette affiliation dans la structure XML des articles.
- Sur le wiki des colloques CIDE, voir sommairement Cours Master 2 Doc Num UL/Modèle sémantique des acteurs
- Sur ce wiki : Espace Covid/Serveurs
Exploration des sources d'information sur les technologies wikis
- Le tutoriel sur Wicri/Manuel
- les rubriques d'aide sur Wikipédia
- A partir des logos en bas de page à droite :
- Le logiciel MediaWiki
- Les extensions Semantic MediaWiki
Maîtrise des liens
- Voir les liens simples:
- Formation à la syntaxe wiki Étape 3
- wikipedia:Aide:Lien
Pour les liens interwikis sur le réseau Wicri :
Mise à jour des entités géographiques
L'idée générale est de renseigner les entités géographiques citées dans les serveurs d'exploration liées au Covid.
Pays
- prendre connaissance de l'aide sur les entités géographiques sur ce wiki, et plus précisément des consignes pour les pays.
- Pour tous les pays cités dans les serveurs, vérifier que les liens vers Wikipédia sont présents (les rajouter sinon).
- Pour les pays encore en rouge dans les listes des serveurs Covid, créer les pages nécessaires :
- aller les chercher sur les wikis des continents
- aller voir la liste de wikis contenant une page, et sélectionner celle qui vous parait la plus correcte.
- créer la page sur le wiki Santé
- ajouter des appels du Modèle:Wicri Santé lien serveur qui vous paraissent intéressants
- Voir un exemple d'appel sur Italie et la liste des codes sur la page du modèle
Initiation aux téléversement d'images
- Utiliser la page Paris comme modèle à imiter.
- Choisir sur Wikimedia Commons quelques illustrations d'hôpitaux pour agrémenter quelques pages de villes déjà présentes sur le wiki.
- Sur ce wiki, prendre connaissance de la rubrique d'aide sur les images.
Initiation aux modèles
Sur Wicri/Linguistique,
- lire le modèle sur l'utilisation du Tifinagh
- plus précisément Manipulation du tifinagh sous MediaWiki
- Voir l'article Tifinagh sur Wikipédia
- Exercice
- compléter les modèles relatifs au Tifinagh pour écrire Ouarzazate et Djebel Toukal en Tifinagh
- aspects organisationnels (organisation d'un micro projet à 2 personnes)
- Pour chacun : créer une page utilisateur sur Wicri/Linguistique
- Introduire un paragraphe test pour faire quelques essais d'utilisation des modèles Tininagh
- Pour Asma, créer un paragraphe coordination (il servira à répartir entre vous le traitement des mots et des lettres)
- Pour chacun : créer une page utilisateur sur Wicri/Linguistique
- aspects techniques, détails du micro projet
- Sur Wikipédia regarder comment s'écrivent Ouarzazate et Djebel Toubkal en tifinagh.
- Identifier lés caractères manquants à partir des catégories Tifinagh
- se répartir « de façon équitable » le travail
Liens sémantiques
- Refaire un survol des documents proposés plus haut pour mieux comprendre les relations sémantiques
- avec un approfondissement sur le manuel utilisateur de Semantic MediaWiki
- Examiner sur ce wiki, l'emploi de Attribut:A pour région
Régions et villes
En prenant comme exemple Paris et Île-de-France traiter une série de villes et de régions citées dans les listes des 8 serveurs d'exploration sur le Covid
Mise à jour des manifestations, personnes et affiliations
Universités, utilisation des infobox
En prenant comme exemple la page Université de Toronto, traiter les universités apparaissant dans les listes principales des serveurs sur le Covid-19.
Veiller à ce que la hiérarchie géographique soit correcte (avec les pages villes et régions dans lesquelles l'université doit apparaître).
Utiliser l'Infobox sémantique université.
- aller chercher les informations sur le Web (Wikipédia par exemple)
- mettre un image en rapport avec l'activité médicale de l'université
- ne pas remplir le paramètre président
Faire le lien vers la page de référence (en corrigeant cette page si besoin le cas échéant).
Mettre des images éventuellement différentes (générale sur la page de référence, en relation avec la santé sur l'autre)
Sur Wicri/Santé, rédiger, si possible, un petit paragraphe sur les points forts de l'université en Santé.
Approfondir les liens vers les serveurs
Refaire un passage sur la documentation
Les serveurs sont générés sous Unix avec une interface gérée en php.
Pour établir des liens entre le wiki et les serveurs, on utilise des modèles qui sont générés automatiquement.
Un premier exemple : Modèle:CovidV1, include
- cliquer sur « modifier le code » (Mais ne modifiez rien)
- essayer de comprendre (en gros) son fonctionnement (il est appelé par Serveur d'exploration Covid)
- dans une partie Test de votre page utilisateur, faire un appel de ce modèle avec la liste des pays.
De même, examiner Modèle:CovidV1, Explor size key
- Voici un exemple d'appel :
{{CovidV1, Explor size key
|stream=Main
|step=Exploration
|index=AffPays
|key=Canada}}
- Il génère : 92
- Faites un test dans votre page utilisateur avec Tokyo.
Regardez maintenant le code de Modèle:Wicri Santé lien serveur.
Test solution unix sur votre ordinateur
Sur la page : Aide:Réédition numérique#Extraction de références
- Vous trouverez un programme lex qui extrait les appels de notes bibliographiques dans une page d'un rapport de synthèse.
Reproduire la compilation sur votre ordinateur.
Tester sur une page en utilisant l'option curl.
Personnes à partir des serveurs d'exploration
Voir la page Aide:Personne
Prendre comme modèle Jan Balzarini.
Répartissez vous les premiers auteurs du serveur sur la chloroquine.
- Pour renseigner sur l'Université d'appartenance, il faut aller dans les publications et plonger dans les notices en xml...
Traitez (ou vérifier) l'arborescence :
- personne / université / ville / région / pays
- en particulier, vérifier que les réquêtes sémantiques fonctionnent (personnes dans les villes par exemple).
Manifestations
Refaire un passage sur la documentation
Il n'y a pas d'exemples significatifs sur ce wiki.
En revanche, il y en a beaucoup sur « Wicri/Science ouverte » (ce wiki s'appelait Ticri, mais ce changement de nom est très récent).
Voir par exemple :
J'ai déposé 3 amorces pour les colloques EMOIS :
Réédition numérique
Voir aide:Gallica
Le point d'amorce est Etude sur les sels de quinine (1872) Colin.
Le lien Gallica est : https://gallica.bnf.fr/ark:/12148/bpt6k61364846
Pour récupérer le texte en OCR, vous devez jouer avec les onglets de la colonne gauche de Gallica.
Les chapitres seront des sous-pages ( avec un / dans le nom de page ).
Vous devrez utiliser des modèles comme pour le livre de Gustave André (avec les mêmes conventions de nommage).
Vous aurez peut être une difficulté avec le découpage du livre en chapitres.
Liens sémantiques dans les rééditions
Phase 2, exploration de corpus
Installation
- installation Unix
Prise de contact
Voir sur Wicri/Manuel wicri-man.fr:Exploration de corpus avec des outils XML
Première étape
Dans un premier temps :
Aller sur la page Naples de Wicri/Santé :
- https://lorexplor.istex.fr/Wicri/Sante/fr/index.php/Naples
- regarder le lien vers l'article de G. Andre
- suivre ce lien, et voir comment il a été réalisé par un balisage avec span et une ancre
- Traiter d'autres exemples sur cette page (sur d'autres villes, régions, voire pays...)
Serveur Grippe et Belgique
créer le serveur d'exploration : GrippeBelgiqueV2
cd $WICRI_ROOT/Sante/explor/GrippeBelgique.storage
NlmPubMedExplorCorpus -q "(influenza) AND (belgium[MeSH Terms])" \
-s 200 -d GrippeBelgiqueV2
il est visible sur ce wiki : Serveur d'exploration sur la grippe en Belgique.
Corpus ISTEX
Le serveur PandemieGrippaleV1 doit se trouver à l'adresse disque :
$WICRI_ROOT/Sante/explor/PandemieGrippale.storage/PandemieGrippaleV1
Créer les répertoires d'accueil du Serveur :
cd $WICRI_ROOT/Sante/explor/
mkdir PandemieGrippale.storage
cd PandemieGrippale.storage
mkdir PandemieGrippaleV1
cd PandemieGrippaleV1
mkdir ImportIstex
Récupération des répertoires publics :
wget https://lorexplor.istex.fr/Wicri/Sante/explor/PandemieGrippaleV1/Site.tar.gz
wget https://lorexplor.istex.fr/Wicri/Sante/explor/PandemieGrippaleV1/ImportMetadata.tar.gz
wget https://lorexplor.istex.fr/Wicri/Sante/explor/PandemieGrippaleV1/Data.tar.gz
Expansion des répertoires publics
gunzip Site.tar.gz
tar -xvf Site.tar
gzip Site.tar
gunzip Data.tar.gz
tar -xvf Data.tar
gzip Data.tar
gunzip ImportMetadata.tar.gz
tar -xvf ImportMetadata.tar
gzip ImportMetadata.tar
- Récupération du répertoire ISTEX
Ces données ne doivent pas être laissées accessibles. Le lien sera cassé après les téléchargements.
Attention, le changement de répertoire est impératif. En effet, le répertoire Import est rangé en 2 parties qu'il faut reconstituer (d'où les changements de nom).
cd ImportIstex
pwd
wget https://lorexplor.istex.fr/Wicri/Sante/explor/PandemieGrippaleV1/ImportIstex.tar.gz
mv ImportIstex.tar.gz Import.tar.gz
gunzip Import.tar.gz
tar -xvf Import.tar
gzip Import.tar
Vérification : « ls Import » doit donner 2 éléments IstexRepository.hcs et IstexRepository.hfd
Assemblage :
cd ..
mv ImportIstex/Import/IstexRepository.hcs Import/IstexRepository.hcs
mv ImportIstex/Import/IstexRepository.hfd Import/IstexRepository.hfd
Phase 3, développement d'un utilitaire réseau
2 procédures (une pour chacun) devront être réalisées :
- identification des dernières modifications sur l'ensemble du réseau
- produire un modèle de page wiki donnant le nombre de documents, de pages et de fichiers pour l'ensemble du réseau
Pré-requis
Cette phase va demander de savoir utiliser l'API de MediaWiki , de consolider des informations XML et de compléter une table des wikis.
Pour l'utilisation de l'api, voir sur Wicri/Manuel :
Précisions générales
La table des wikis est gérée sur Wicri/Base 1.30 : wicri-base130.fr:Site LorExplor.
Elle est utilisée par la commande :
Vous devez la compiler et tester à partir des exemples donnés sur cette page.
Solutions initiales
Votre programme doit boucler sur le résultat de WicriExpandApiFromList
Pour cela inspirez vous de : Impression de toutes les clés et premiers fils d'un fichier contenant des enregfistrements Sxml
#include "SxmlNode.h"
main()
{
SxmlNode *docu ,*son;
while(docu=SxmlInputGetDocumentElement())
{
printf ("%s\n", SxmlInputRecordKey);
if ((son=SxmlFirstChild(docu))) SxmlPrint(son);putchar('\n');
}}};
}
Dernières modifications sur le réseau
- Première étape
Partir de cette commande (en modifiant éventuellement les paramètres - voir mediawikiwiki:API:RecentChanges):
cat testDilib/wiki.dict \
| ./testDilib/WicriExpandApiFromList \
-a "list=recentchanges&rcprop=title|ids|sizes|flags|user|timestamp&rclimit=3"
Écrire un programme qui liste les wikis qui ont été modifiés depuis 10 jours.
Pour la mise en œuvre, modifier la page :
Nombre de pages et documents, précisions
- Première étape
A partir du résultat de cette commande :
cat testDilib/wiki.dict \
| ./testDilib/WicriExpandApiFromList -a "meta=siteinfo&siprop=statistics"
écrire un programme C qui :
- imprime la liste des wikis avec le nombre de pages sous forme d'un tableau en wikitexte.
- calcule le nombre total de pages du réseau Wicri.
Pour la mise en œuvre, modifier la page :