Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Aide:Création d'un serveur d'exploration

De H2PTM

Cette page doit servir de guide pour des opérations de type « travaux pratiques, construire un serveur d'exploration » avec des hypothèses simplificatrices :

  • un seul flux (ISTEX),
  • volumétrie limitée à 1000 documents,
  • sujet en rapport avec l'hypertexte et les hypermédias.

Deux exemples seront utilisés :

Mise au point d'une requête d'extraction

On part de la requête qui a servi à générer le Serveur d'exploration hypertexte et hypermédia.

 hypertext* OR hypermedia

Dans les cas simples (exemple le Brésil), il suffit d'une simple conjonction. Par exemple, la commande

IstexGetCorpusSize -q "(hypertext* OR hypermedia) AND brazil"

permet d'évaluer la volumétrie du corpus.

Commandes IstexFlashCorpus IxtexExplorCorpus.

Travail préparatoire sur le wiki

Un premier travail de nomenclature doit définir :

On peut alors, dans le wiki, placer un pointeur vers la page d'introduction. Pour le Brésil, une mention dans la rubrique « Voir aussi » de la page Brésil suffit.

Génération des pages de paramétrage

Cette opération se réalise sous l'environnement Unix. Avec la hiérarchie Dilib recommandée, il faut se placer sous :

$WICRI_ROOT/Ticri/H2ptm/corpus

On peut alors utiliser la commande IstexGenerAreaPages( LogoWicriWicriFrMars2010.png ).

Pour les TP sur ce wiki les 4 premiers paramètres de l'exemple qui suit sont fixes, les trois derniers doivent être adaptés. Pour le Brésil, il faut donc faire :

source IstexGetCorpusSize -q "(hypertext* OR hypermedia) AND brazil"

(Ceci permet de mémoriser la taille du corpus) puis :

 IstexGenerAreaPages     \
     -m                  \
     -w ticri-h2ptm.fr   \
     -W Ticri/H2ptm      \
     -g HyperBrazil      \
     -a HyperBrazilV1    \
     -t "Serveur d'exploration hypertexte et hypermédia au Brésil"

Il faut alors créer la page d'accueil et les 4 pages de paramétrage par des copier/coller.

Quelques modifications devront être introduites au fur et à mesure des opérations.

Récupération du corpus Istex

Dans le première page de paramétrage (exemple Wicri:HyperBrazilV1), il faut remplacer le texte « query » par la requête effective dans le paragraphe « Récupération des corpus ».

La première opération vise à télécharger le corpus pour créer le référentiel $EXPLOR_AREA/Import/IstexRepository.hfd qui contient l'intégralité du corpus en texte intégral.

Après la récupération du corpus, une vérification est conseillée.

 HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd | wc

On doit trouver le même nombre de documents que par IstexGetCorpusSize

On peut alors créer le répertoire de métadonnées : $EXPLOR_AREA/Import/IstexMetadata.hfd

Génération du serveur

La génération des données se fait à partir de la page dont le titre est de la forme :

 Wicri:codePlateforme/Paramètres, data

Exemple :

 Wicri:HyperBrazilV1/Paramètres, data

Génération de l'interface de navigation

La génération des données se fait à partir de la page dont le titre est de la forme :

 Wicri:codePlateforme/Paramètres, fr

Exemple :

 Wicri:HyperBrazilV1/Paramètres, fr

La table de paramètre doit être légèrement modifiée. Le paramètre linkPage dot contenir l'URL exacte de la page d'accueil du serveur (procéder par copier/coller).

Cette modification faite, il suffit de suivre les indications.

Génération des FTP, transfert et installation

Il faut revenir à la « page d'accueil technique » (par exemple Wicri:HyperBrazilV1).

La création des FTP ne pose généralement pas de problèmes.

Le transfert doit se faire sous VPN.

La procédure permet de conserver plusieurs sous-versions (de la même version) en ligne. Pour cela un répertoire principal est suffixé par .storage. Il contient une ou plusieurs versions suffixées par une date ISO, par exemple : HyperBrazilV1.20150923.