Dilib, flots de données Sxml

De Wicri Métadonnées
(Redirigé depuis Flots de données Sxml)

Cette page introduit un petit ensemble de recommandation pour la manipulation de documents XML au sein d'un système Unix et plus particulièrement avec la bibliothèque Dilib.

Introduction

Dans les applications purement orientées Web le respect des spécifications du W3C s'impose pour des raisons évidentes d'interopérabilité. Un navigateur doit donc être capable de traiter n'importe quel type de documents.

La bibliothèque Dilib utilise Xml comme un élément universel de structuration pour un large spectre d'applications où l'on peut vouloir manipuler des dizaines de milliers de documents de structures beaucoup plus simples qu'une page web. Il est donc essentiel de pouvoir manipuler facilement de simples fragments Xml sans vouloir les rattacher explicitement à un schéma ou à une DTD.

Flots de donnes DILIB

Flots de données tabulées Unix

La plateforme Dilib est très fortement insérée dans le système Unix, initialement conçu pour des applications de génie logiciel dans lesquelles la documentation et la gestion des sources sont une contrainte importante.

Unix contient donc un nombre important de commandes de base, par exemple grep, qui permettent de manipuler des flots de ligne.

Un ensemble d'outils Unix ont également été développés pour gérer des enregistrements de type « tuple d'une base de données » en utilisant la tabulation comme séparateur de zones.

Flots de données Sxml

Pour permettre l'utilisation de ces commandes avec des données XML des conventions particulières symbolisées par le code Sxml ont été adoptées. La principale est la suivante :

  • pour permettre une gestion Unix d'un flot de documents XML, le caractère saut de ligne est un séparateur de document. Son usage est interdit au sein d'un document.

Conventions de codage

Les caractères « saut de ligne » et « tabulation » sont strictement réservés à la structuration du flot de données.

Clé Sxml

De nombreuses commandes Dilib utilisent un préfixage de documents Sxml par une donnée séparée du document proprement dit par une tabulation. On désignera cette première partie par « clé Sxml ».

Par exemple, un début de fichier Hfd aura la forme suivante (on précisera ici clé HFD):

000000 ⇥ <record> premier document Sxml </record>
000001 ⇥ <record> deuxième document Sxml </record>

Les clés Sxml sont alors respectivement 000000 et 000001.

Utilisation avec les parsers XML

Les flots de données Sxml ont été définis pour répondre aux besoins des applications de la bibliothèque DILIB. Le parser DILIB accepte des documents XML conformes, avec déclaration XML et un seul document. Il peut également des flots de données qui les font refuser par d'autres parsers pour l'absence de déclaration XML et la présence de plusieurs documents.

L'utilisation de flots Sxml peut donc demander des adaptations légères pour être acceptée par d'autres parsers.

Voir aussi

Dans le réseau Wicri :

Ceci est la page de référence de « Dilib, flots de données Sxml » Cette recommandation est :