Introduction à la programmation en C des arbres Xml : Différence entre versions

De Wicri Manuel
imported>Jacques Ducloy
(SxmlElement)
imported>Jacques Ducloy
(Les attributs)
 
(21 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
 +
{{Exploration corpus, header
 +
|module=Introduction à la programmation en C des arbres Xml
 +
|précédent=Prise de contact avec XML
 +
|suivant=Introduction aux serveurs d'exploration sous Unix
 +
}}
 +
 
Cette page reprend une section du cours qui était donné pour l'utilisation de la plateforme Dilib.
 
Cette page reprend une section du cours qui était donné pour l'utilisation de la plateforme Dilib.
  
Ligne 37 : Ligne 43 :
 
La méthode permettant d'accéder au premier fils est :
 
La méthode permettant d'accéder au premier fils est :
 
<source lang="c">
 
<source lang="c">
   SxmlNode *SxmlFirstChild (SgmlNode *nx)
+
   SxmlNode *SxmlFirstChild (SgmlNode *nx);
 
</source>
 
</source>
Les méthodes peuvent être combinées. Voici un exemple de programme que vous pouvez reproduire et adapter.
+
Les méthodes peuvent être combinées. Voici un exemple de programme que vous pouvez reproduire et d'adapter.
 
<source lang="c">
 
<source lang="c">
 
#include "SxmlNode.h"
 
#include "SxmlNode.h"
Ligne 98 : Ligne 104 :
  
 
:Création d'un élément qui n'a pas encore de contenu.  
 
:Création d'un élément qui n'a pas encore de contenu.  
<pre>
+
<source lang="c">
 
SxmlNode *SxmlElementCreate(tag);
 
SxmlNode *SxmlElementCreate(tag);
 
           char *tag;
 
           char *tag;
</pre>
+
</source>
 
:Création d'un élément avec son contenu textuel. .
 
:Création d'un élément avec son contenu textuel. .
 
<pre>
 
<pre>
Ligne 147 : Ligne 153 :
 
===Exercices===
 
===Exercices===
  
Modifier le programme précédent pour qu'il imprime le document XML donné en introduction de ce chapitre : :
+
<span id="exercice 1">Modifier le programme précédent pour qu'il imprime le document XML donné en introduction de ce chapitre : ([[Discussion:Introduction à la programmation en C des arbres Xml#Premier exercice|solution en page discussion]])
 
<pre>
 
<pre>
 
   &lt;a&gt;a1&lt;b&gt;b1&lt;/b&gt;&lt;c&gt;c1&lt;/c&gt;&lt;/a&gt;
 
   &lt;a&gt;a1&lt;b&gt;b1&lt;/b&gt;&lt;c&gt;c1&lt;/c&gt;&lt;/a&gt;
 
</pre>
 
</pre>
Écrire un programme qui produise le document suivant:
+
<span id="exercice 2">Écrire un programme qui produise le document suivant : ([[Discussion:Introduction à la programmation en C des arbres Xml#Deuxième exercice|solution en page discussion]])
<pre>
+
<source lang="xml">
 
   <doc>
 
   <doc>
       <tit>Tintin au Congo</tit>
+
       <title>Tintin au Congo</title>
       <auteurs>
+
       <authors>
             <auteur>Hergé</auteur>
+
             <author>Hergé</author>
       </auteurs>
+
       </authors>
 
       <lkw>
 
       <lkw>
           <kw type="person">Tintin</kw>
+
           <kw>Tintin</kw>
 
           <kw>Milou</kw>
 
           <kw>Milou</kw>
 
     </lkw>
 
     </lkw>
 
   </doc>
 
   </doc>
</pre>
 
 
==Accès à l'environnement d'un nœud==
 
 
===Les voisins ou parents===
 
<p>
 
Toutes les fonctions retournent un pointeur NULL en cas d'échec.</p>
 
<source lang="c">
 
SxmlNode *SgmlNextSibling(SxmlNode *node);
 
 
</source>
 
</source>
  
<source lang="c">
+
==Les attributs==
SxmlNode *SxmlPreviousSibling(SxmlNode *node);
+
Les éléments d'un document XML peuvent être qualifiés (ou complétés) par des attributs.
</source>
 
  
<source lang="c">
+
Ainsi, dans l'exemple prédédent, il est possible de qualifier les mots clés :
SxmlNode *SxmlFirstChild(SxmlNode *node);
+
<source lang="xml">
 +
      <lkw>
 +
          <kw type="person">Tintin</kw>
 +
          <kw type="animal">Milou</kw>
 +
    </lkw>
 
</source>
 
</source>
  
<source lang="c">
+
Pour cela, on utilise la fonction <code>SxmlSetAttribute()</code> à 3 paramètres :
SxmlNode *SxmlLastChild(SxmlNode *node);
+
<source lang="xml">
 +
SxmlNode *SxmlSetAttribute(SxmlNode *element, char *attributeName, char *attributeValue);  
 
</source>
 
</source>
 +
;paramètres:
 +
#'''element''' : le nœud sur lequel s'applique la fonction.
 +
#'''attributeName''' : le nom de l'attribut à créer (ou modifier) ;
 +
#'''attributeValue''' : la valeur de l'attribut à créer ;
  
<source lang="c">
+
;Exemple :
SxmlNode *SgmlParent(SxmlNode *node);
 
</source>
 
 
 
===Les caractéristiques d'un nœud===
 
 
 
Pour un nœud de type SxmlElement
 
 
 
<source lang="c">
 
char *SxmlNodeName(node);
 
</source>
 
 
 
Pour un noeud de type SxmlText :
 
<source lang="c">
 
char *SxmlText(noeud);
 
</source>
 
 
 
===test de type===
 
 
 
<source lang="c">
 
int SgmlIsText(node);
 
int SgmlIsElement(node);
 
</source>
 
 
 
 
 
==Itérations sur les composants d'un noeud==
 
 
 
 
 
===Principe===
 
 
 
Toutes les fonctions renvoient la valeur NULL en cas d'échec ou d'absence d'un élément. Ceci permet de réaliser des itérations sur les objets XML contenus dans un élément.
 
 
 
Squelette d'une itérations sur les fils d'un nœud.
 
;Avec une boucle do:
 
 
 
if ((fils = SxmlFirstChild (pere)))
 
  {
 
    do
 
      { ''traitement sur fils'' }
 
    while ((fils=SxmlNextSibling(fils)));
 
  }
 
else
 
  { ''traitement de l'exception''}
 
 
 
;Avec une boucle while:
 
  fils = SxmlFirstChild (pere);
 
  while (fils)
 
  {
 
    ''traitement sur fils''
 
    fils=SxmlNextSibling(fils);
 
  }
 
  
===Exemple===
 
Édition de toutes les étiquettes des fils d'un nœud.
 
<source lang="c">
 
editChildTag ( SxmlNode *node)
 
{
 
  SxmlNode *c1;
 
  if ((c1=SxmlFirstChild(node)))
 
do{
 
            if(SxmlIsElement(c1))
 
        printf("%s\n",SgmlTag(c1));
 
      } while ((son=SxmlNextSibling(c1)));
 
}
 
</source>
 
===Itérateurs===
 
Dans la bibliothèque Dilib, un itérateur est associé à un élément XML. La fonction <code>SxmlNextNode</code> renvoie le fils suivant. La fonction <code>SxmlReset</code> initialise l'itérateur. L'exemple précédent se réécrit ainsi.
 
 
<source lang="c">
 
<source lang="c">
editChildTag ( SxmlNode *node)
+
   SxmlNode *tintin;
{
 
   SxmlNode *c1;
 
  SxmlReset (node);
 
  while (c1=SxmlNextNode(node))
 
    {
 
      if(SxmlIsElement(c1)) printf("%s\n",SgmlTag(c1));
 
    }
 
}
 
</source>
 
  
==Import Export de structures SGML==
+
  ...
Si la chaîne d'entrée est en forme normale, la construction d'un arbre XML peut se faire sans DTD ni schéma.
 
  
===Conversion XML en string===
+
tintin=SxmlLeafCreate("kw", "tintin");
Les fonctions d'entreés sorties utilisent un noyau de 2 procédures de conversion vers les
+
SxmlSetAttribute (tintin, "type", "person");
chaine (char *) de C.
 
 
 
Conversion d'un arbre XML en String
 
<source lang="c">
 
char *SxmlToString (SgmlNode *node);
 
 
</source>
 
</source>
  
Construction d'un arbre SGML à partir d'une string.
+
;Exercice:
<source lang="c">
+
<span id="exercice 3">Écrire un programme qui crée et imprime le document suivant : ([[Discussion:Introduction à la programmation en C des arbres Xml#Troisième exercice|solution en page discussion]])
SxmlNode* SxmlFromString(char *string);
+
<source lang="xml">
 +
<pubmed>
 +
  <MedlineCitation Status="MEDLINE" Owner="NLM">
 +
    <PMID Version="1">7843359</PMID>
 +
    <DateCompleted>
 +
        <Year>1995</Year>
 +
        <Month>03</Month>
 +
        <Day>08</Day>
 +
    </DateCompleted>
 +
    <Author ValidYN="Y">
 +
        <LastName>Flahault</LastName>
 +
        <ForeName>A</ForeName>
 +
        <Initials>A</Initials>
 +
        <AffiliationInfo>
 +
            <Affiliation>Faculté de Médecine Saint-Antoine, Paris, France.</Affiliation>
 +
        </AffiliationInfo>
 +
    </Author>
 +
  </MedlineCitation>
 +
</pubmed>
 
</source>
 
</source>
 
==Entrées-sorties==
 
Les fonctions qui réalisent les entrées sorties sont réalisées à partir des fonction précédentes.
 
 
Impression d'un objet SGML sur la sortie standard :
 
 
<pre>
 
SgmlPrint(node);
 
</pre>
 
 
Impression d'un objet SGML dans un fichier :
 
 
<pre>
 
SxmlFilePrint(FILE *file, SxmlNode* node);          ;
 
</pre>
 
 
lecture du prochain document SGML sur l'entrée standard.
 
<pre>
 
SgmlNode *SxmlInputNextDocumentElement();
 
</pre>
 
===Exemple===
 
Impression de tous les premiers fils ayant &#171;a&#187; pour tag.</P>
 
 
<source lang="c">
 
#include "SxmlNode.h"
 
main()
 
{
 
  SxmlNode *docu ,*son;
 
  while(docu=SxmlInputNextDocumentElement())
 
    {
 
      if (son=SxmlFirstChild(docu))
 
        {if (strcmp(SxmlNodeName(son), "a")==0)
 
                {SxmlPrint(son);putchar('\n');
 
    }}};
 
}
 
</source>
 
 
[[Catégorie : Programmation XML en langage C]]
 
  
 
==Voir aussi==
 
==Voir aussi==
 
;notes:
 
;notes:
 
<references/>
 
<references/>
 +
 +
[[Catégorie : Programmation XML en langage C]]

Version actuelle datée du 22 juin 2020 à 18:43

Cette page reprend une section du cours qui était donné pour l'utilisation de la plateforme Dilib.

Arbres XML - notions de base

La bibliothèque Dilib est basée sur la norme XML avec des adaptations légères (Stream XML ou Sxml) pour pouvoir manipuler des grandes quantités de documents XML.

L'objet de base : SxmlNode

Les arbres Sxml sont réalisés à l'aide d'une structure élémentaire unique nommée "SxmlNode"

un arbre XML contenant 6 nœuds

Type de base : SxmlNode

Nous avons adopté "un style objet" en programmation C. Les arbres XML (ou les sous-arbres) seront toujours repérés pas des pointeurs sur des SxmlNode.

Les méthodes élémentaires associées aux objets SxmlNode

Tout objet de type SxmlNode aura trois méthodes permettant d'accéder au père et aux frères d'un nœud XML.

Accès au parent
SxmlNode *SxmlParent (SxmlNode *myNode);

Un nœud XML n'a, au plus, qu'un seul parent. C'est ainsi que des arbres peuvent être réalisés. Dans la figure précédente le noeud <b> est le parent de b1.

Accès au suivant
SxmlNode *SxmlNextSibling (SxmlNode *myNode);
Accès au précédant
SxmlNode *PreviousSibling (SxmlNode *myNode);

Types dérivés

A partir du type de base SxmlNode, un ensemble de types dérivés sont disponibles, nous nous intéressons maintenant aux 2 types permettant de réaliser l'essentiel des structures XML : les éléments XML (ici SxmlElement) qui réalisent le balisage et les zones de texte (SxmlText).

SxmlElement

Un objet de type SxmlElement est généralement la racine d'un sous-arbre. Dans la figure ci-dessus les nœuds <a>, <b> et <c> sont de type SxmlElement.

Accès au premier fils

La méthode permettant d'accéder au premier fils est :

   SxmlNode *SxmlFirstChild (SgmlNode *nx);

Les méthodes peuvent être combinées. Voici un exemple de programme que vous pouvez reproduire et d'adapter.

#include "SxmlNode.h"
#include <stdio.h>
main()
{
   SxmlNode *myNodeTest;  /* déclaration d'un pointeur qui sera associé 
                             à l'arbre donné en exemple */
   myNodeTest=SxmlFromString("<a>b1<c>c1</c></a>");
   SxmlPrint (myNodeTest);    /* doit imprimer : <a>b1<c>c1</c></a> */
   putchar ('\n');
   SxmlPrint (SxmlFirstChild(myNodeTest));    /* doit imprimer : b1 */
   putchar ('\n');
   SxmlPrint (SxmlNextSibling(SxmlFirstChild(myNodeTest)));    /* doit imprimer : <c>c1</c> */
   putchar ('\n');
}

Si ce programme est rangé dans le fichier myTest.c, dans le cas d'une installation locale standard, il pourra être compilé par :

gcc myTest.c $DILIB_CC -o myTest
./myTest

Attention les variables locales de Dilib doivent avoir été initialisées.

Avec une installation ScienceExplor

source $HOME/Documents/ExplorScience/Dilib/init.sh
 

Sur d'autres installations

. ~/Dilib/init.sh


Accès au dernier fils
SxmlLastChild(SgmlNode *)

SxmlText

Un objet de type SxmlText contient une chaîne de caractères. Dans l'exemple ci-dessus, les parties « a1 », « b1 » et « c1 » sont de ce type.

Construction d'arbres Sxml

Constructeur de base

Toutes les fonctions de création utilisent un constructeur de base qui n'est pratiquement jamais directement utilisé par l'utilisateur. Ce paragraphe est donc simplement destiné à la compréhension de l'ensemble.

 SxmlNode *SxmlNodeCreate(type);
          char type;

Le type est un code interne qui définit le type de nœud. Par exemple le code XML_NODE_COMMENT (ou 8) est associé à un commentaire XML.[1]

Constructeurs effectivement utiles

Création d'un élément qui n'a pas encore de contenu.
SxmlNode *SxmlElementCreate(tag);
          char *tag;
Création d'un élément avec son contenu textuel. .
SxmlNode *SxmlLeafCreate(tag, string);
          char *tag;
          char *string;
Exemples
SxmlElementCreate("a");        /* construit <a></a> */

SxmlLeafCreate("a","text"); /* construit <a>text</a> */

Méthodes de construction de base

SxmlAddFirstChild et SxmlAppendChild

Ajout d'un nouvel élément en tête des fils
SxmlNode *SxmlAddFirstChild(pere, fils);
        SxmlNode *pere, *fils;
Ajout d'un nouvel élément en queue de la liste des fils
SxmlNode *SxmlAppendChild(SxmlNode *pere, SxmlNode * fils);

Exemple

/*  création de <a><b>b1</b><c>c1</c></a> */

#include "SxmlNode.h"
  main()
    {
        SxmlNode *root;
	root =SxmlElementCreate("a");
	SxmlAppendChild (root, SxmlLeafCreate("b", "b1"));
	SxmlAppendChild (root, SxmlLeafCreate("c", "c1"));
        SxmlPrint(root);
        putchar('\n');
        exit(0);
    }

Exercices

Modifier le programme précédent pour qu'il imprime le document XML donné en introduction de ce chapitre : (solution en page discussion)

   <a>a1<b>b1</b><c>c1</c></a>

Écrire un programme qui produise le document suivant : (solution en page discussion)

   <doc>
      <title>Tintin au Congo</title>
       <authors>
             <author>Hergé</author>
       </authors>
      <lkw>
           <kw>Tintin</kw>
           <kw>Milou</kw>
     </lkw>
   </doc>

Les attributs

Les éléments d'un document XML peuvent être qualifiés (ou complétés) par des attributs.

Ainsi, dans l'exemple prédédent, il est possible de qualifier les mots clés :

      <lkw>
           <kw type="person">Tintin</kw>
           <kw type="animal">Milou</kw>
     </lkw>

Pour cela, on utilise la fonction SxmlSetAttribute() à 3 paramètres :

 SxmlNode *SxmlSetAttribute(SxmlNode *element, char *attributeName, char *attributeValue);
paramètres
  1. element : le nœud sur lequel s'applique la fonction.
  2. attributeName : le nom de l'attribut à créer (ou modifier) ;
  3. attributeValue : la valeur de l'attribut à créer ;
Exemple 
  SxmlNode *tintin;

   ...

 tintin=SxmlLeafCreate("kw", "tintin");
 SxmlSetAttribute (tintin, "type", "person");
Exercice

Écrire un programme qui crée et imprime le document suivant : (solution en page discussion)

<pubmed>
  <MedlineCitation Status="MEDLINE" Owner="NLM">
     <PMID Version="1">7843359</PMID>
     <DateCompleted>
        <Year>1995</Year>
        <Month>03</Month>
        <Day>08</Day>
     </DateCompleted>
    <Author ValidYN="Y">
        <LastName>Flahault</LastName>
        <ForeName>A</ForeName>
        <Initials>A</Initials>
        <AffiliationInfo>
            <Affiliation>Faculté de Médecine Saint-Antoine, Paris, France.</Affiliation>
        </AffiliationInfo>
     </Author>
  </MedlineCitation>
</pubmed>

Voir aussi

notes
  1. La liste des codes peut être obtenue par la commande shell : grep "define XML_NODE" $DILIB/include/SxmlNode.h