Introduction aux serveurs d'exploration sous Unix : Différence entre versions

Version du 18 juin 2020 à 08:16

Exploration de corpus (Tutoriel)
Introduction aux serveurs d'exploration sous Unix
< = Introduction à la programmation en C des arbres Xml

Ce module donne des premiers éléments pour l'exploration de serveurs d'exploration sous Unix.

Les exemples seront donnés sur le Serveur d'exploration sur la grippe en Belgique.

Sommaire

1 Organisation HFD
- 1.1 Principe
- 1.2 Première exploration
2 Organisation physique d'un serveur d'exploration

Organisation HFD

Les serveurs d'exploration utilisent une organisation de fichiers spécifique qui a pour nom : HFD ( Hierarchical File organisation for Documentation ).

Principe

Organisation HFD avec clé décimale

Ils gèrent des collections de documents XML et plus précisément sur une ligne physique (Stream XML).

Chaque document est identifié par une clé séquentielle de longueur fixe (6 caractères). En notation décimale il est possible de ranger 1 000 000 objets.

Dans ce cas, à chaque document Sxml est associé une clé à 6 chiffres (de 000000 à 999999).

les 2 premiers chiffres repèrent un répertoire (suffixé par dd),
les 2 chiffres du milieu repèrent un fichier (suffixé par df),
les 3 derniers repèrent le document dans le fichier (en fait chaque document Sxml est précédé par la clé complète).

Par exemple, la document 123456 sera :

le 57^ème document Sxml
d'un fichier nommé 34.df
rangé dans le répertoire 12.dd

Son adresse dans le système de fichier Unix sera alors :

maBiblio.hfd/12.dd/34.df

En fait de façon implicite, l'organisation repose sur des clés hexadécimales.

Première exploration

Pour le serveur GrippeBelgiqueV2, la plateforme Unix d'exploration est située ici :

$WICRI_ROOT/Sante/explor/GrippeBelgique.storage/GrippeBelgiqueV2

Observer le résultat des commandes suivantes :

cd $WICRI_ROOT/Sante/explor/GrippeBelgique.storage/GrippeBelgiqueV2
ls
ls Data
ls Data/Main
ls Data/Main/Exploration
ls Data/Main/Exploration/biblio.hfd
ls Data/Main/Exploration/biblio.hfd/00.dd
ls Data/Main/Exploration/biblio.hfd/00.dd/00.df 
more Data/Main/Exploration/biblio.hfd/00.dd/00.df 
cat Data/Main/Exploration/biblio.hfd/00.dd/00.df | SxmlIndent | more

ls Data/Main/Exploration/Author.i.hfd/00.dd/
head -5 Data/Main/Exploration/Author.i.hfd/00.dd/00.df

ls Data/Main/Exploration/AbsEn.i.hfd/00.dd/
head -5 Data/Main/Exploration/AbsEn.i.hfd/00.dd/00.df

Organisation physique d'un serveur d'exploration

A la racine d'un serveur, la commande précédente ls montre un ensemble de répertoires :

- GrippeBelgiqueV2 -+                  $EXPLOR_AREA
                    +- Data
                    +- Import
                    +- Input
                    +- Make
                    +- Site
                    +- bin

Le répertoire Data

Le répertoire Data, dans les cas simples, (hors ISTEX), contient l'ensemble des données dans leur forme exploratoire (en XML, autour de la DTD TEI, avec des homogénéisations de vocabulaires).

Il est organisé en flux (stream) et étapes (step).

Dans le cas d'un serveur monosource (ici PubMed) il y a un seul flux nommé Main.

Ce flux est organisé en 3 étapes : Corpus, Curation, Exploration.

Pour chaque étape, on trouve un ensemble de « fichiers HFD » :

un fichier biblio.hfd qui contient les documents dans leurs différents stades d'élaboration.
des fichiers d'index (fichiers inverses), exemple AffPays.i.hfd.

Le répertoire Site

Ce répertoire Data peut être exploré sous Unix, ou par les fonction php qui sont regroupées dans le répertoire Site.

Le répertoire Site est organisé dans la perspective d'une version multilingue.

En faisant « ls Site/fr/Main » vous retrouvez (entre autres choses) des répertoires liés aux étapes.

Vous pouvez comparer :

La page d'accueil sur le site lorexplor
le fichier Site/fr/index.html

Ou encore (observer également l'url) :

La page d'accueil de l'étape Exploration
le fichier Site/Main/Exploration/fr/index.html

Le répertoire Import

Il contient les données brutes :

les téléchargements de corpus (ici pubmed_result.xml),
des copies de pages de paramètres

@@ Ligne 91 : / Ligne 91 : @@
 * {{Explor lien|wiki=Sante|ftp=GrippeBelgiqueV2/Site/fr/Main/Exploration/index.html|texte=La page d'accueil de l'étape Exploration}}
 * le fichier Site/Main/Exploration/fr/index.html
+===Le répertoire Import===
+Il contient les données brutes :
+* les téléchargements de corpus (ici pubmed_result.xml),
+* des copies de pages de paramètres

Introduction aux serveurs d'exploration sous Unix : Différence entre versions

Version du 18 juin 2020 à 08:16

Sommaire

Organisation HFD

Principe

Première exploration

Organisation physique d'un serveur d'exploration

Le répertoire Data

Le répertoire Site

Le répertoire Import

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils