Dilib, module Utf8
Module Utf8 |
Le module Utf8 contient un ensemble de fonctions et de commandes autour du codage unicode UTF-8.
Il contient également des (petits) outils linguistiques qui sont complétés dans des modules spécifiques à une langue donnée (voir Dilib, module Eng).
Liste des modules Dilib
|
Commandes orientées utilisateur
Commande Utf8ToLc
Cette commande réalise des transcodages à partir de données en Utf8. Cette commande permet de convertir des textes codées en UTF 8 dans une forme dérivée.
- Synopsis
- Utf8ToLc -ks [-K keySeparator]
- Options
-k
(key) : cette option limite le transcodage à la première partie d'un enregistrement Sxml.- Exemple
Le script suivant :
Utf8ToLc -k -K ";" <<...
Élément ; Élément
...
produit :
élément ; Élément
Fonctions orientées utilisateur
Fonctions orientées développement
Type Utf8Converter
Le type Utf8Converter est utilisé pour gérer des transformations de chaines en codage UTF8. Il contient trois éléments :
- un pointeur sur la chaîne en cours de conversion,
- un élément de type Buffer pour le texte résultant,
- un indicateur de traitement.
Outils expérimentaux orientés TAL
En attendant la mise en place d'outils plus consistants dans l'environnement Wicri, une commande permet d'effectuer un premier niveau de lemmatisation pour extraire des termes d'un texte en utilisant des listes de mots vides.