Aide:Création d'un serveur d'exploration
Cette page doit servir de guide pour des opérations de type « travaux pratiques, construire un serveur d'exploration » avec des hypothèses simplificatrices :
- un seul flux (ISTEX),
- volumétrie limitée à 1000 documents,
- sujet en rapport avec l'hypertexte et les hypermédias.
Deux exemples seront utilisés :
- Serveur d'exploration hypertexte et hypermédia au Brésil,
- Journal of the Association for Information Science and Technology.
Sommaire
Mise au point d'une requête d'extraction
On part de la requête qui a servi à générer le Serveur d'exploration hypertexte et hypermédia.
hypertext* OR hypermedia
Dans les cas simples (exemple le Brésil), il suffit d'une simple conjonction. Par exemple, la commande
IstexGetCorpusSize -q "(hypertext* OR hypermedia) AND brazil"
permet d'évaluer la volumétrie du corpus.
Commandes IstexFlashCorpus IxtexExplorCorpus.
Travail préparatoire sur le wiki
Un premier travail de nomenclature doit définir :
- la page d'introduction du serveur, par exemple : Serveur d'exploration hypertexte et hypermédia au Brésil,
- le nom de code générique du serveur, exemple
HyperBrazil
. - le nom de code du wiki, exemple
HyperBrazilV1
.
On peut alors, dans le wiki, placer un pointeur vers la page d'introduction. Pour le Brésil, une mention dans la rubrique « Voir aussi » de la page Brésil suffit.
Génération des pages de paramétrage
Cette opération se réalise sous l'environnement Unix. Avec la hiérarchie Dilib recommandée, il faut se placer sous :
$WICRI_ROOT/Ticri/H2ptm/corpus
On peut alors utiliser la commande IstexGenerAreaPages( ).
Pour les TP sur ce wiki les 4 premiers paramètres de l'exemple qui suit sont fixes, les trois derniers doivent être adaptés. Pour le Brésil, il faut donc faire :
source IstexGetCorpusSize -q "(hypertext* OR hypermedia) AND brazil"
(Ceci permet de mémoriser la taille du corpus) puis :
IstexGenerAreaPages \
-m \
-w ticri-h2ptm.fr \
-W Ticri/H2ptm \
-g HyperBrazil \
-a HyperBrazilV1 \
-t "Serveur d'exploration hypertexte et hypermédia au Brésil"
Il faut alors créer la page d'accueil et les 4 pages de paramétrage par des copier/coller.
Quelques modifications devront être introduites au fur et à mesure des opérations.
Récupération du corpus Istex
Dans le première page de paramétrage (exemple Wicri:HyperBrazilV1), il faut remplacer le texte « query » par la requête effective dans le paragraphe « Récupération des corpus ».
La première opération vise à télécharger le corpus pour créer le référentiel $EXPLOR_AREA/Import/IstexRepository.hfd
qui contient l'intégralité du corpus en texte intégral.
Après la récupération du corpus, une vérification est conseillée.
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd | wc
On doit trouver le même nombre de documents que par IstexGetCorpusSize
On peut alors créer le répertoire de métadonnées : $EXPLOR_AREA/Import/IstexMetadata.hfd
Génération du serveur
La génération des données se fait à partir de la page dont le titre est de la forme :
Wicri:codePlateforme/Paramètres, data
Exemple :
Wicri:HyperBrazilV1/Paramètres, data
La génération des données se fait à partir de la page dont le titre est de la forme :
Wicri:codePlateforme/Paramètres, fr
Exemple :
Wicri:HyperBrazilV1/Paramètres, fr
La table de paramètre doit être légèrement modifiée. Le paramètre linkPage
dot contenir l'URL exacte de la page d'accueil du serveur (procéder par copier/coller).
Cette modification faite, il suffit de suivre les indications.
Génération des FTP, transfert et installation
Il faut revenir à la « page d'accueil technique » (par exemple Wicri:HyperBrazilV1
).
La création des FTP ne pose généralement pas de problèmes.
Le transfert doit se faire sous VPN.
La procédure permet de conserver plusieurs sous-versions (de la même version) en ligne. Pour cela un répertoire principal est suffixé par .storage
. Il contient une ou plusieurs versions suffixées par une date ISO, par exemple : HyperBrazilV1.20150923
.