Dilib, flots de données Sxml
Cette page introduit un petit ensemble de recommandation pour la manipulation de documents XML au sein d'un système Unix et plus particulièrement avec la bibliothèque Dilib.
Sommaire
Introduction
Dans les applications purement orientées Web le respect des spécifications du W3C s'impose pour des raisons évidentes d'interopérabilité. Un navigateur doit donc être capable de traiter n'importe quel type de documents.
La bibliothèque Dilib utilise Xml comme un élément universel de structuration pour un large spectre d'applications où l'on peut vouloir manipuler des dizaines de milliers de documents de structures beaucoup plus simples qu'une page web. Il est donc essentiel de pouvoir manipuler facilement de simples fragments Xml sans vouloir les rattacher explicitement à un schéma ou à une DTD.
Flots de donnes DILIB
Flots de données tabulées Unix
La plateforme Dilib est très fortement insérée dans le système Unix, initialement conçu pour des applications de génie logiciel dans lesquelles la documentation et la gestion des sources sont une contrainte importante.
Unix contient donc un nombre important de commandes de base, par exemple grep, qui permettent de manipuler des flots de ligne.
Un ensemble d'outils Unix ont également été développés pour gérer des enregistrements de type « tuple d'une base de données » en utilisant la tabulation comme séparateur de zones.
Flots de données Sxml
Pour permettre l'utilisation de ces commandes avec des données XML des conventions particulières symbolisées par le code Sxml ont été adoptées. La principale est la suivante :
- pour permettre une gestion Unix d'un flot de documents XML, le caractère saut de ligne est un séparateur de document. Son usage est interdit au sein d'un document.
Conventions de codage
Les caractères « saut de ligne » et « tabulation » sont strictement réservés à la structuration du flot de données.
Clé Sxml
De nombreuses commandes Dilib utilisent un préfixage de documents Sxml par une donnée séparée du document proprement dit par une tabulation. On désignera cette première partie par « clé Sxml ».
Par exemple, un début de fichier Hfd aura la forme suivante (on précisera ici clé HFD):
- 000000 ⇥ <record> premier document Sxml </record>
- 000001 ⇥ <record> deuxième document Sxml </record>
Les clés Sxml sont alors respectivement 000000 et 000001.
Voir aussi
- Dans le réseau Wicri :
Ceci est la page de référence de « Dilib, flots de données Sxml » Cette recommandation est :
- utilisée sur Wicri/Outils pour le développement d'outils logiciels sur les arbres Sxml,
- citée sur Wicri/Manuel