Wicri:PittsburghV1

De Wicri Amérique

Cette page introduit les aspects techniques de la version PittsburghV1 du « Serveur d'exploration sur Pittsburgh ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Initialisations

Génération des pages wikis
source IstexGetCorpusSize -q "pittsburgh"
 IstexGenerAreaPages \
       -a PittsburghV1   \
       -m   \
       -g Pittsburgh   \
        -x 3         \
       -p Amerique   \
       -w wicri-amerique.fr  \
       -W Wicri/Amérique   \
       -s PascalFrancis   \
       -s Hal   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -z France   \
       -z UK   \
       -z Allemagne   \
       -z Canada      \
       -q "le havre"   \
       -t "Serveur d'exploration sur Pittsburgh"
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Amerique/explor/Pittsburgh.storage/PittsburghV1
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Amerique/explor/Pittsburgh.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import

Sur la machine LorExplor

newgrp wicri
source /applis/lorexplor/Dilib/init.sh
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Amerique/explor/Pittsburgh.storage/PittsburghV1
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Amerique/explor/Pittsburgh.storage
mkdir $WICRI_ROOT/Amerique/explor/Pittsburgh.storage/PittsburghV1.corpus
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
En mise à jour
newgrp wicri
source /applis/lorexplor/Dilib/init.sh
EXPLOR_AREA=$WICRI_ROOT/Amerique/explor/Pittsburgh.storage/PittsburghV1.new
export EXPLOR_AREA
export LC_ALL='C'
cd $EXPLOR_AREA

Téléchargement ISTEX

Creation list

Sous $WICRI_ROOT/Amerique/explor/Pittsburgh.storage/Pittsburgh.corpus

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Explications à caractère pédagogique
L'idée générale est d'obtenir une image significative de l'activité scientifique de Pittburgh en s'appuyant sur une fenêtre autour de 2014, commune aux bases ISTEX, Pascal et PubMed.

Le corpus ISTEX est constitué par la fusion de 2 sous-ensembles :

  • 4000 documents contenant Pittsburgh en affiliation, avec les critères de classement de l'API qui privilégient les occurrences multiples
  • 4000 documents publiés entre 2012 et 2016

La commande sort -u réalise l'union de ces 2 ensembles avec réduction des doublons.

(
 IstexGetCorpus -q "author.affiliations:pittsburgh" -l -s 4000
 IstexGetCorpus -q "author.affiliations:pittsburgh AND publicationDate:[2012 TO 2016]" -l -s 4000
) | sort -u > IstexRepository.list
time head -2000 IstexRepository.list  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart00000
HfdCat IstexPart00000.hfd | SxmlIndent | grep "</istex>" | wc
time head -4000 IstexRepository.list |tail -2000  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart02000
time head -6000 IstexRepository.list |tail -2000  \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart04000
time tail -328 IstexRepository.list   \
     | IstexGetCorpusById -A                  \
     | SxmlUnIndent                            \
     | HfdBuild -bh IstexPart06000

Constitution du Repository

(
  HfdCat IstexPart00000.hfd 
  HfdCat IstexPart02000.hfd 
  HfdCat IstexPart04000.hfd 
  HfdCat IstexPart06000.hfd 
) | SgmlFast -c1 | HfdBuild -bh  IstexRepository
HfdCat IstexRepository.hfd | SxmlIndent | grep "</istex>" | wc
cat IstexRepository.hcs
cd $EXPLOR_AREA/Import
ln -s ../../PittsburghV1.corpus/IstexRepository.* .

Construction des métadonnées ISTEX

ISTEX, création du HFD Corpus Biblio
En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | IstexCleanFullText                           \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus  -c ISTEX -s Corpus -S Istex \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Sur la machince de développement

Téléchargement des autres corpus

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requête :

(pittsburgh[Affiliation]) AND ("2014"[Date - Publication] : "2014"[Date - Publication])

Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml

Envoyer sur machine LorExplor par :

scp Import/pubmed_result.xml $ISTEX_SCP:$WICRI_TARGET_ROOT/Amerique/explor/Pittsburgh.storage/PittsburghV1/Import
PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc

Requête :

(Pittsburgh[Affiliation]) AND ("2014"[Electronic Publication Date] : "2014"[Electronic Publication Date])

Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml

PascalFrancis

Site :http://stan2.demo.inist.fr/fr/

Requête :

af = pittsburgh
2012 -> 2015  

Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt 
Hal

Sur : https://hal.archives-ouvertes.fr/

qa[structure_t][]=pittsburgh

Sur la machine de développement

Récupération des modèles

scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Amerique/explor/Pittsburgh.storage/PittsburghV1/exportSize.xml .
scp $ISTEX_PAR $ISTEX_SCP:$WICRI_TARGET_ROOT/Amerique/explor/Pittsburgh.storage/PittsburghV1/exportMaps.xml .
scp $ISTEX_SCP:$WICRI_TARGET_ROOT/Amerique/explor/Pittsburgh.storage/PittsburghV1/exportInclude.xml .