Wicri:HypertextV7
Cette page introduit les aspects techniques de la version HypertextV7 du « Serveur d'exploration hypertexte et hypermédia ».
Voir aussi :
- Wicri:HypertextV7/Paramètres, data - génération des données
- Wicri:HypertextV7/Paramètres, fr - génération de l'interface
- Wicri:HypertextV7/Paramètres, génération des cartes - génération de cartes géographiques
- Wicri:HypertextV7/Études techniques
Sommaire
Mise en œuvre
Sur la machine de développement
Initialisation
- Génération des pages wikis
Comme pour HypertextV6, compte tenu de la complexité de l'application le générateur de pages n'a pas été utilisé.
- Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Ticri/H2ptm/corpus/Hypertext.storage/HypertextV7
export EXPLOR_AREA
export LC_ALL='C'
- Création répertoires
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import
Récupération des corpus ISTEX
Compte tenu du volume du corpus (ordre de grandeur 20 000), le téléchargement est découpé en 9 étapes de 2500 documents.
IstexGetCorpusSize -q "hypertext* OR hypermedia" 22752
- En cas de reprise complète au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexDownload.*.h*
Première étape téléchargements avec problèmes au delà de 10.000.
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.00000
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 2500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.02500
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 5000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.05000
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 7500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.07500
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 1600 -f 10000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.10000.1
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 900 -f 11600 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.10000.2
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 1200 -f 12500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.12500.1
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 300 -f 13700 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.12500.2
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 1000 -f 14000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.12500.3
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 15000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.15000
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 17500 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.17500
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 3000 -f 20000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.20000
Renommage partiel des hfd à problème:
mv Import/IstexDownload.10000.1.hcs Import/IstexDownload.10000.hcs
mv Import/IstexDownload.10000.1.hfd Import/IstexDownload.10000.hfd
mv Import/IstexDownload.10000.2.hcs Import/IstexDownload.11600.hcs
mv Import/IstexDownload.10000.2.hfd Import/IstexDownload.11600.hfd
mv Import/IstexDownload.12500.1.hcs Import/IstexDownload.12500.hcs
mv Import/IstexDownload.12500.1.hfd Import/IstexDownload.12500.hfd
mv Import/IstexDownload.12500.2.hcs Import/IstexDownload.13700.hcs
mv Import/IstexDownload.12500.2.hfd Import/IstexDownload.13700.hfd
mv Import/IstexDownload.12500.3.hcs Import/IstexDownload.14000.hcs
mv Import/IstexDownload.12500.3.hfd Import/IstexDownload.14000.hfd
Après détection pb au niveau 10.000 :
time IstexGetCorpus -q "hypertext* OR hypermedia" -s 2500 -f 10000 -A \
| IstexToSxml \
| HfdBuild -bh $EXPLOR_AREA/Import/IstexDownload.10000
- Vérification
Vérfier l'identité de résultats des 2 commandes :
HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd | wc
IstexGetCorpusSize -q "hypertext* OR hypermedia"
Un résultat de "IstexGetCorpusSize" différent de celui du départ signifie une évolution de la plateforme INIST pendant le téléchargement. Il faut alors reprendre l'ensemble de l'opération.
Un résultat du HfdCat différent du IstexCorpusSize indique (au moins) un transfert partiel erroné. Il faut alors localiser et faire un téléchargement partiel.
Construction du repository ISTEX plein texte
Ce repository contient les documents en texte intégral. Il doit rester sur la machine de développement (ou être limité en lecture sur un site accessible par internet).
- En cas de reprise au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
time HfdCat $EXPLOR_AREA/Import/IstexDownload.*.hfd \
| SgmlFast -c 1 | HfdBuild -bh $EXPLOR_AREA/Import/IstexRepository
Construction du Repository de métadonnées
Celui ci est en fait la base biblio de l'étape Corpus elle est alignée par les clé HFD sur le repository fulltext.
- En cas de reprise
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
- Construction corpus biblio
time HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| IstexCleanFullText \
| SgmlFast -c1 \
| IstexToTei \
| TeiPutRefToIdno -t wicri:Area/ISTEX/Corpus \
| HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata
ProdINRA
Requête :
hypertexte ou hypermédia
33 documents -> prodInra.xml
ArXiv
Requête
http://export.arxiv.org/api/query?search_query=all:hypertext&start=0&max_results=1000
Faire Code source de la page et téléverser.
Autres corpus
Dans un premier temps (test ISTEXT) les autres corpus sont simplement ceux de la V6 avec des liens.
Génération des FTP
cd $EXPLOR_AREA
rm Site.tar.gz
tar -cvf Site.tar Site
gzip Site.tar
rm Data.tar.gz
tar -cvf Data.tar Data
gzip Data.tar
rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar