Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Wicri:HypertextV7

De H2PTM

Cette page introduit les aspects techniques de la version HypertextV7 du « Serveur d'exploration hypertexte et hypermédia ».

Voir aussi :

logo travaux Cette nouvelle version reprend l'essentiel de la précédente, avec cependant 4 éléments complémentaires :
  • test de la dernière version de l'API ISTEX,
  • actualisation des modules DILIB
  • introduction d'un flux INRA
  • introduction d'un flus ArXiv - non encore disponible

Mise en œuvre

Sur la machine de développement

Initialisation

Génération des pages wikis

Comme pour HypertextV6, compte tenu de la complexité de l'application le générateur de pages n'a pas été utilisé.

Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Ticri/H2ptm/corpus/Hypertext.storage/HypertextV7
export EXPLOR_AREA
export LC_ALL='C'
Création répertoires
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import

Récupération des corpus ISTEX

Compte tenu du volume du corpus (ordre de grandeur 20 000), le téléchargement est découpé en 9 étapes de 2500 documents.

IstexGetCorpusSize -q "hypertext* OR hypermedia"
22752
En cas de reprise complète au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexDownload.*.h*

Première étape téléchargements avec problèmes au delà de 10.000.

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.00000

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.02500

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 5000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.05000

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 7500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.07500

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 1600 -f 10000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.10000.1

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 900 -f 11600 -A    \
     | IstexToSxml        \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.10000.2


time IstexGetCorpus -q "hypertext* OR hypermedia" -s 1200 -f 12500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.12500.1

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 300 -f 13700 -A    \
     | IstexToSxml               \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.12500.2

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 1000 -f 14000 -A    \
     | IstexToSxml         \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.12500.3

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 15000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.15000

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 17500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.17500

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 3000 -f 20000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.20000

Renommage partiel des hfd à problème:

mv Import/IstexDownload.10000.1.hcs Import/IstexDownload.10000.hcs
mv Import/IstexDownload.10000.1.hfd Import/IstexDownload.10000.hfd
mv Import/IstexDownload.10000.2.hcs Import/IstexDownload.11600.hcs
mv Import/IstexDownload.10000.2.hfd Import/IstexDownload.11600.hfd
mv Import/IstexDownload.12500.1.hcs Import/IstexDownload.12500.hcs
mv Import/IstexDownload.12500.1.hfd Import/IstexDownload.12500.hfd
mv Import/IstexDownload.12500.2.hcs Import/IstexDownload.13700.hcs
mv Import/IstexDownload.12500.2.hfd Import/IstexDownload.13700.hfd
mv Import/IstexDownload.12500.3.hcs Import/IstexDownload.14000.hcs
mv Import/IstexDownload.12500.3.hfd Import/IstexDownload.14000.hfd

Après détection pb au niveau 10.000 :

time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 10000 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.10000
Vérification

Vérfier l'identité de résultats des 2 commandes :

HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd | wc

IstexGetCorpusSize -q "hypertext* OR hypermedia"

Un résultat de "IstexGetCorpusSize" différent de celui du départ signifie une évolution de la plateforme INIST pendant le téléchargement. Il faut alors reprendre l'ensemble de l'opération.

Un résultat du HfdCat différent du IstexCorpusSize indique (au moins) un transfert partiel erroné. Il faut alors localiser et faire un téléchargement partiel.

Construction du repository ISTEX plein texte

Ce repository contient les documents en texte intégral. Il doit rester sur la machine de développement (ou être limité en lecture sur un site accessible par internet).

En cas de reprise au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
time HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd \
 | SgmlFast -c 1  | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository

Construction du Repository de métadonnées

Celui ci est en fait la base biblio de l'étape Corpus elle est alignée par les clé HFD sur le repository fulltext.

En cas de reprise
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
time HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | IstexCleanFullText                         \
  | SgmlFast -c1                               \
  | IstexToTei                                \
  | TeiPutRefToIdno -t wicri:Area/ISTEX/Corpus \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

ProdINRA

Requête :

hypertexte ou hypermédia

33 documents -> prodInra.xml

ArXiv

Requête

http://export.arxiv.org/api/query?search_query=all:hypertext&start=0&max_results=1000

Faire Code source de la page et téléverser.

Autres corpus

Dans un premier temps (test ISTEXT) les autres corpus sont simplement ceux de la V6 avec des liens.

Génération des FTP

cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 

rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar

Voir