Flots de données Sxml
Cette page introduit un résumé des conventions de la spécification Stream XML, utilisée par la bibliothèque Dilib.
Sommaire
Les applications visées par la spécification Sxml
Dans les applications purement orientées Web le respect des spécifications du W3C s'impose pour des raisons évidentes d'interopérabilité. Un navigateur doit être capable de traiter n'importe quel type de documents.
La bibliothèque Dilib utilise XML comme un élément universel de structuration pour un large spectre d'applications où l'on peut vouloir manipuler des dizaines de milliers de documents de structures beaucoup plus simples qu'une page web. Il est donc essentiel de pouvoir manipuler facilement de simples fragments XML sans vouloir les rattacher explicitement à un schéma ou à une DTD.
Conventions de codage
Codage des caractères
Dans la normalisation actuelle, la recommandation UTF 8 est la seule soutenue.
Les caractères « saut de ligne » et « tabulation » sont strictement réservés à la structuration du flot de données.
Structure des flots de données
Pour devenir manipulables par des outils Unix, par exemple le tri (sort), les flots de données sont composés exclusivement de documents ou de fragments XML. Les déclarations correspondant aux versions et DTD sont éliminés, de même pour les balisages de début et de fin de liste globale.
Clé Sxml
De nombreuses commandes Dilib utilisent un préfixage de documents Sxml par une donnée séparée du document proprement dit par une tabulation. On désignera cette première partie par « clé Sxml ».
Exemple un début de fichier Hfd aura la forme suivante :
- 000000 ⇥ <record> premier document Sxml </record>
- 000001 ⇥ <record> deuxième document Sxml </record>
Les clés Sxml sont alors respectivement 000000 et 000001.
Voir aussi
- Dans le réseau Wicri :
La page de référence « Flots de données Sxml » est sur le wiki Wicri/Métadonnées. Cette recommandation est notamment utilisée sur Wicri/Outils pour le développement d'outils logiciels sur les arbres Sxml.