Utilisateur:Jacques Ducloy/Dossiers/Stage L3

De Wicri Santé

Cette page introduit les étapes du projet mené par Asma Lahssini et William Tardot.

Trois axes de réflexion technologique et organisationnelle

  • Organisation par thématique (ou zones géographiques) en regroupant les fonctions sur un même site grâce à la généricité de MediaWiki, dopé par les extensions sémantiques
  • Exploration et curation de corpus, comment gérer l'incertitude
  • Assurer un forme d'intégrité dans un réseau de sites.

Phase 1, découverte du réseau wiki et des wikis sémantiques

Rééditions de documents issus de Gallica

  • Observer sommairement l'utilisation de Gallica dans le réseau Wicri.

Découverte des sources d'information

Un article d'introduction :

Premières visites des serveurs d'explorations

Exploration des sources d'information sur les technologies wikis

  • Le tutoriel sur Wicri/Manuel
  • les rubriques d'aide sur Wikipédia
  • A partir des logos en bas de page à droite :
    • Le logiciel MediaWiki
    • Les extensions Semantic MediaWiki

Maîtrise des liens

Pour les liens interwikis sur le réseau Wicri :

Mise à jour des entités géographiques

L'idée générale est de renseigner les entités géographiques citées dans les serveurs d'exploration liées au Covid.

Pays

  • prendre connaissance de l'aide sur les entités géographiques sur ce wiki, et plus précisément des consignes pour les pays.
  • Pour tous les pays cités dans les serveurs, vérifier que les liens vers Wikipédia sont présents (les rajouter sinon).
  • Pour les pays encore en rouge dans les listes des serveurs Covid, créer les pages nécessaires :
    • aller les chercher sur les wikis des continents
    • aller voir la liste de wikis contenant une page, et sélectionner celle qui vous parait la plus correcte.
    • créer la page sur le wiki Santé
    • ajouter des appels du Modèle:Wicri Santé lien serveur qui vous paraissent intéressants
      • Voir un exemple d'appel sur Italie et la liste des codes sur la page du modèle

Initiation aux téléversement d'images

  • Utiliser la page Paris comme modèle à imiter.
  • Choisir sur Wikimedia Commons quelques illustrations d'hôpitaux pour agrémenter quelques pages de villes déjà présentes sur le wiki.
  • Sur ce wiki, prendre connaissance de la rubrique d'aide sur les images.

Initiation aux modèles

Sur Wicri/Linguistique,

Exercice 
compléter les modèles relatifs au Tifinagh pour écrire Ouarzazate et Djebel Toukal en Tifinagh
  • aspects organisationnels (organisation d'un micro projet à 2 personnes)
    • Pour chacun : créer une page utilisateur sur Wicri/Linguistique
      • Introduire un paragraphe test pour faire quelques essais d'utilisation des modèles Tininagh
    • Pour Asma, créer un paragraphe coordination (il servira à répartir entre vous le traitement des mots et des lettres)
  • aspects techniques, détails du micro projet
    • Sur Wikipédia regarder comment s'écrivent Ouarzazate et Djebel Toubkal en tifinagh.
    • Identifier lés caractères manquants à partir des catégories Tifinagh
    • se répartir « de façon équitable » le travail

Liens sémantiques

  • Refaire un survol des documents proposés plus haut pour mieux comprendre les relations sémantiques
    • avec un approfondissement sur le manuel utilisateur de Semantic MediaWiki
  • Examiner sur ce wiki, l'emploi de Attribut:A pour région

Régions et villes

En prenant comme exemple Paris et Île-de-France traiter une série de villes et de régions citées dans les listes des 8 serveurs d'exploration sur le Covid

Mise à jour des manifestations, personnes et affiliations

Universités, utilisation des infobox

En prenant comme exemple la page Université de Toronto, traiter les universités apparaissant dans les listes principales des serveurs sur le Covid-19.

Veiller à ce que la hiérarchie géographique soit correcte (avec les pages villes et régions dans lesquelles l'université doit apparaître).

Utiliser l'Infobox sémantique université.

  • aller chercher les informations sur le Web (Wikipédia par exemple)
  • mettre un image en rapport avec l'activité médicale de l'université
  • ne pas remplir le paramètre président

Faire le lien vers la page de référence (en corrigeant cette page si besoin le cas échéant).

Mettre des images éventuellement différentes (générale sur la page de référence, en relation avec la santé sur l'autre)

Sur Wicri/Santé, rédiger, si possible, un petit paragraphe sur les points forts de l'université en Santé.

Approfondir les liens vers les serveurs

Refaire un passage sur la documentation

Les serveurs sont générés sous Unix avec une interface gérée en php.

Pour établir des liens entre le wiki et les serveurs, on utilise des modèles qui sont générés automatiquement.

Un premier exemple : Modèle:CovidV1, include

  • cliquer sur « modifier le code » (Mais ne modifiez rien)
  • essayer de comprendre (en gros) son fonctionnement (il est appelé par Serveur d'exploration Covid)
  • dans une partie Test de votre page utilisateur, faire un appel de ce modèle avec la liste des pays.

De même, examiner Modèle:CovidV1, Explor size key

  • Voici un exemple d'appel :
{{CovidV1, Explor size key
 |stream=Main
 |step=Exploration
 |index=AffPays
 |key=Canada}}
Il génère : 92
  • Faites un test dans votre page utilisateur avec Tokyo.

Regardez maintenant le code de Modèle:Wicri Santé lien serveur.

Test solution unix sur votre ordinateur

Sur la page : Aide:Réédition numérique#Extraction de références

  • Vous trouverez un programme lex qui extrait les appels de notes bibliographiques dans une page d'un rapport de synthèse.

Reproduire la compilation sur votre ordinateur.

Tester sur une page en utilisant l'option curl.

Personnes à partir des serveurs d'exploration

Voir la page Aide:Personne

Prendre comme modèle Jan Balzarini.

Répartissez vous les premiers auteurs du serveur sur la chloroquine.

  • Pour renseigner sur l'Université d'appartenance, il faut aller dans les publications et plonger dans les notices en xml...

Traitez (ou vérifier) l'arborescence :

  • personne / université / ville / région / pays
  • en particulier, vérifier que les réquêtes sémantiques fonctionnent (personnes dans les villes par exemple).

Manifestations

Refaire un passage sur la documentation

Il n'y a pas d'exemples significatifs sur ce wiki.

En revanche, il y en a beaucoup sur « Wicri/Science ouverte » (ce wiki s'appelait Ticri, mais ce changement de nom est très récent).

Voir par exemple :

J'ai déposé 3 amorces pour les colloques EMOIS :

Réédition numérique

Voir aide:Gallica

Le point d'amorce est Etude sur les sels de quinine (1872) Colin.

Le lien Gallica est : https://gallica.bnf.fr/ark:/12148/bpt6k61364846

Pour récupérer le texte en OCR, vous devez jouer avec les onglets de la colonne gauche de Gallica.

Les chapitres seront des sous-pages ( avec un / dans le nom de page ).

Vous devrez utiliser des modèles comme pour le livre de Gustave André (avec les mêmes conventions de nommage).

Vous aurez peut être une difficulté avec le découpage du livre en chapitres.

Liens sémantiques dans les rééditions

Phase 2, exploration de corpus

Installation

  • installation Unix

Prise de contact

Voir sur Wicri/Manuel wicri-man.fr:Exploration de corpus avec des outils XML

Première étape

Dans un premier temps :

Aller sur la page Naples de Wicri/Santé :

Serveur Grippe et Belgique

créer le serveur d'exploration : GrippeBelgiqueV2

cd $WICRI_ROOT/Sante/explor/GrippeBelgique.storage
NlmPubMedExplorCorpus -q "(influenza) AND (belgium[MeSH Terms])"  \
  -s 200 -d GrippeBelgiqueV2

il est visible sur ce wiki : Serveur d'exploration sur la grippe en Belgique.

Corpus ISTEX

Le serveur PandemieGrippaleV1 doit se trouver à l'adresse disque :

$WICRI_ROOT/Sante/explor/PandemieGrippale.storage/PandemieGrippaleV1

Créer les répertoires d'accueil du Serveur :

cd $WICRI_ROOT/Sante/explor/
mkdir PandemieGrippale.storage
cd PandemieGrippale.storage
mkdir PandemieGrippaleV1
cd PandemieGrippaleV1
mkdir ImportIstex

Récupération des répertoires publics :

wget https://lorexplor.istex.fr/Wicri/Sante/explor/PandemieGrippaleV1/Site.tar.gz
wget https://lorexplor.istex.fr/Wicri/Sante/explor/PandemieGrippaleV1/ImportMetadata.tar.gz
wget https://lorexplor.istex.fr/Wicri/Sante/explor/PandemieGrippaleV1/Data.tar.gz

Expansion des répertoires publics

gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar

gunzip ImportMetadata.tar.gz 
tar -xvf ImportMetadata.tar 
gzip ImportMetadata.tar
Récupération du répertoire ISTEX

Ces données ne doivent pas être laissées accessibles. Le lien sera cassé après les téléchargements.

Attention, le changement de répertoire est impératif. En effet, le répertoire Import est rangé en 2 parties qu'il faut reconstituer (d'où les changements de nom).

cd ImportIstex
pwd
wget https://lorexplor.istex.fr/Wicri/Sante/explor/PandemieGrippaleV1/ImportIstex.tar.gz
mv ImportIstex.tar.gz Import.tar.gz
gunzip Import.tar.gz 
tar -xvf Import.tar 
gzip Import.tar

Vérification : « ls Import » doit donner 2 éléments IstexRepository.hcs et IstexRepository.hfd

Assemblage :

cd ..
mv ImportIstex/Import/IstexRepository.hcs Import/IstexRepository.hcs
mv ImportIstex/Import/IstexRepository.hfd Import/IstexRepository.hfd

Phase 3, développement d'un utilitaire réseau

2 procédures (une pour chacun) devront être réalisées :

  • identification des dernières modifications sur l'ensemble du réseau
  • produire un modèle de page wiki donnant le nombre de documents, de pages et de fichiers pour l'ensemble du réseau

Pré-requis

Cette phase va demander de savoir utiliser l'API de MediaWiki , de consolider des informations XML et de compléter une table des wikis.

Pour l'utilisation de l'api, voir sur Wicri/Manuel :

Précisions générales

La table des wikis est gérée sur Wicri/Base 1.30 : wicri-base130.fr:Site LorExplor.

Elle est utilisée par la commande :

Vous devez la compiler et tester à partir des exemples donnés sur cette page.

Solutions initiales

Votre programme doit boucler sur le résultat de WicriExpandApiFromList

Pour cela inspirez vous de : Impression de toutes les clés et premiers fils d'un fichier contenant des enregfistrements Sxml

#include "SxmlNode.h"
main()
{
  SxmlNode *docu ,*son;
  while(docu=SxmlInputGetDocumentElement())
    {
       printf ("%s\n", SxmlInputRecordKey);
       if ((son=SxmlFirstChild(docu))) SxmlPrint(son);putchar('\n');
    }}};
}

Dernières modifications sur le réseau

Première étape

Partir de cette commande (en modifiant éventuellement les paramètres - voir mediawikiwiki:API:RecentChanges):

cat testDilib/wiki.dict    \
  | ./testDilib/WicriExpandApiFromList  \
    -a  "list=recentchanges&rcprop=title|ids|sizes|flags|user|timestamp&rclimit=3"

Écrire un programme qui liste les wikis qui ont été modifiés depuis 10 jours.

Pour la mise en œuvre, modifier la page :

Nombre de pages et documents, précisions

Première étape

A partir du résultat de cette commande :

cat testDilib/wiki.dict   \
 | ./testDilib/WicriExpandApiFromList -a "meta=siteinfo&siprop=statistics"

écrire un programme C qui :

  • imprime la liste des wikis avec le nombre de pages sous forme d'un tableau en wikitexte.
  • calcule le nombre total de pages du réseau Wicri.

Pour la mise en œuvre, modifier la page :