Dilib, module CharSet, commande CharSetTr
Module CharSet |
La commande CharSet permet de réaliser des transcodages élémentaires sur des flots de données.
Liste des modules Dilib
Module CharSet
|
Synopsis
CharSetTR option
< inputStream > outputStream
Options
Cette commande accepte une et une seule option.
Options recommandées
a2o
: Cette option permet de convertir une flot ASCII dans la convention CharSetO.o2a
: Cette option permet de reconstruire un flot ASCII à partir de sa représentation en convention CharSetO.a2x
: Cette option permet de convertir une flot ASCII dans la convention CharSetX.x2a
: Cette option permet de reconstruire un flot ASCII à partir de sa représentation en convention CharSetX.
Options obsolètes
-AtoO
ASCII toCharSetO (octal).
Exemples d'emploi
Visualisation de caractères
La principale utilisation de cette commande est la visualisation de caractères dans les flots de données en cours d'analyse.
Exemple, sur le wiki Terre, dans le serveur d'exploration sur l'Europium (Europium V1) à l'étape Corpus les formules chimiques dans les titres apparaissent dans une codification propre à l'éditeur Springer (exemple pour l'auteur M. Malki).
La suite de commandes qui suit permet d'extraire, par HfdIndexSelect, le document index associé, puis, via HfdSelect les documents eux-mêmes, via SxmlSelect d'en extraire le titre. CharSetTr
permet alors de visualiser les caractères de contrôle de la formule chimique.
EXPLOR_STEP=EuropiumV1/Data/Main/Exploration
HfdIndexSelect -h $EXPLOR_STEP/Author.i -Sk "M. Malki" \
| HfdSelect -Kh $EXPLOR_STEP/biblio.hfd \
| SxmlSelect -g record/istex/title/1 -p @g1 \
| CharSetTr a2o
permet d'obtenir :
Electronic and ... europium compound: Eu\356\200\20214\356\200\203Cl\356\200\20233\356\200\203
On peut alors en déduire que Springer utilise des séquences Unicode \356\200\202
ou \356\200\203
pour structurer ses formules chimiques.