Dilib, module CharSet, commande CharSetTr

De Wicri Outils
Révision datée du 16 juin 2017 à 18:42 par imported>Jacques Ducloy (1 révision importée)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
LogoDilib.gif
Panneau travaux.png
Bibliothèque Dilib (ressources numériques)
Module CharSet

La commande CharSet permet de réaliser des transcodages élémentaires sur des flots de données.

 

Synopsis

CharSetTR option < inputStream > outputStream

Options

Cette commande accepte une et une seule option.

Options recommandées

a2o : Cette option permet de convertir une flot ASCII dans la convention CharSetO.
o2a : Cette option permet de reconstruire un flot ASCII à partir de sa représentation en convention CharSetO.
a2x : Cette option permet de convertir une flot ASCII dans la convention CharSetX.
x2a : Cette option permet de reconstruire un flot ASCII à partir de sa représentation en convention CharSetX.

Options obsolètes

-AtoO ASCII toCharSetO (octal).

Exemples d'emploi

Visualisation de caractères

La principale utilisation de cette commande est la visualisation de caractères dans les flots de données en cours d'analyse.

Exemple, sur le wiki Terre, dans le serveur d'exploration sur l'Europium (Europium V1) à l'étape Corpus les formules chimiques dans les titres apparaissent dans une codification propre à l'éditeur Springer (exemple pour l'auteur M. Malki).

La suite de commandes qui suit permet d'extraire, par HfdIndexSelect, le document index associé, puis, via HfdSelect les documents eux-mêmes, via SxmlSelect d'en extraire le titre. CharSetTr permet alors de visualiser les caractères de contrôle de la formule chimique.

 EXPLOR_STEP=EuropiumV1/Data/Main/Exploration
 HfdIndexSelect -h $EXPLOR_STEP/Author.i -Sk "M. Malki" \
         | HfdSelect -Kh $EXPLOR_STEP/biblio.hfd        \
         | SxmlSelect -g record/istex/title/1 -p @g1    \
         | CharSetTr a2o

permet d'obtenir :

Electronic and ... europium compound: Eu\356\200\20214\356\200\203Cl\356\200\20233\356\200\203

On peut alors en déduire que Springer utilise des séquences Unicode \356\200\202 ou \356\200\203 pour structurer ses formules chimiques.