Dilib, module Utf8

De Wicri Outils
LogoDilib.gif
Panneau travaux.png
Bibliothèque Dilib (ressources numériques)
Module Utf8

Le module Utf8 contient un ensemble de fonctions et de commandes autour du codage unicode UTF-8.

Il contient également des (petits) outils linguistiques qui sont complétés dans des modules spécifiques à une langue donnée (voir Dilib, module Eng).

 

Commandes orientées utilisateur

Commande Utf8ToLc

Cette commande réalise des transcodages à partir de données en Utf8. Cette commande permet de convertir des textes codées en UTF 8 dans une forme dérivée.

Synopsis

Utf8ToLc -ks [-K keySeparator]

Options
-k (key) : cette option limite le transcodage à la première partie d'un enregistrement Sxml.
Exemple

Le script suivant :

Utf8ToLc -k -K ";" <<...
Élément ; Élément
...

produit :

élément ; Élément

Fonctions orientées utilisateur

Fonctions orientées développement

Type Utf8Converter

Le type Utf8Converter est utilisé pour gérer des transformations de chaines en codage UTF8. Il contient trois éléments :

  • un pointeur sur la chaîne en cours de conversion,
  • un élément de type Buffer pour le texte résultant,
  • un indicateur de traitement.

Outils expérimentaux orientés TAL

En attendant la mise en place d'outils plus consistants dans l'environnement Wicri, une commande permet d'effectuer un premier niveau de lemmatisation pour extraire des termes d'un texte en utilisant des listes de mots vides.