Text Encoding Initiative

De Wicri Wicri Fr

Accueil > SHS > Bibliothèques numériques SHS > TEI


La Text Encoding Initiative désigne à la fois le nom d'un groupe de travail international et d'un standard. Le sujet qu'ils traitent est la codification de toutes sortes de documents dans une approches structurée et plus précisément, en SGML au début puis maintenant en XML.

Un exemple introductif

Pour illustrer la philosophie de la TEI, voici comment pourrait être codé un extrait du Cid de Pierre Corneille[1]. Pour un ouvrage d'introduction plus complet voir |BUR 96].

On cherche à représenter :

Acte II, Scène 2
DON RODRIGUE À moi, Comte, deux mots.
LE COMTE          Parle.
DON RODRIGUE                  Ôte-moi d'un doute.
Connais-tu bien Don Diègue ?
LE COMTE          Oui.
DON RODRIGUE                  Parlons bas, écoute.
Sais-tu que ce vieillard fut la même vertu,
La vaillance et l'honneur de son temps ? Le sais-tu ?

Avec le langage HTML, on aurait une codification limitée aux aspects « mise en page ».

<h1>Acte II, Scène 2</h1>
<br/> <b>DON RODRIGUE</b> À moi Comte, deux mots.
<br/> <b>LE COMTE</b>&nbsp;&nbsp; ... &nbsp; Parle

Avec le schéma TEI, on obtiendrait ceci :

  <div type="Act" n="I"><head>Acte II</head>
   <div type="Scene" n="1"><head>Scène 2</head>
     <sp><speaker>Rodrigue</speaker>
         <l part="i">À moi, comte, deux mots.</l></sp>
     <sp><speaker>Comte</speaker><l part="m">Parle</l></sp>
     <sp><speaker>Rodrique</speaker>
         <l part="f">Ôte-moi d'un doute</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="i">Connais-tu bien Don Diègue ?</l></sp>
      <sp><speaker>Comte</speaker><l part="m">Oui</l></sp>
     <sp><speaker>Rodrigue</speaker>
       <l part="f">Parlons bas, écoute.</l>
       <l>Sais-tu que ce vieillard fut la même vertu,</l>
       <l>La vaillance et l'honneur de son temps ? Le sais-tu ?</l></sp>
    ...
   </div>
  ...
  </div>

La TEI permet de décrire la structuration du texte tel qu'il a été conçu et non son rendu final (présentation). Cet exemple montre notamment :

  • L'imbrication des actes et des paragraphes (2 éléments div imbriqués). Avec un langage comme XPath, il est alors possible d'extraire un acte ou une scène.
  • Le découpage du dialogue par des éléments "sp".
  • La définition des interlocuteurs par des éléments "speaker" (il est possible facilement de lancer des requêtes pour localiser les endroits où Rodrigue cite Chimène).
  • La précision de la description de la versification par des éléments "l" (ligne) avec des indications sur la position d'un élément de dialogue en début, fin ou milieu de vers grâce aux attributs "part".

 

Serveur d'exploration

Un serveur d'exploration sur la TEI a été créé le 4 avril 2015 sur le wiki Wicri/Ticri. Il contient 692 documents (dont 536 pour ISTEX).

Pour aller sur le serveur final wicri-ticri.fr:Serveur d'exploration sur la TEI] Serveur d'exploration sur la TEI:

Voir aussi

Notes et références
  1. Cet exemple est inspiré d'un article de Lou Burnard, a fait l'objet d'un article sur le site ARTIST (http://artist.inist.fr/article.php3?id_article=59 ARTIST) et a été enfin adapté à Wikipédia
Dans le réseau Wicri :

La page de référence « Text Encoding Initiative » est sur le wiki Wicri/Ticri. La TEI est églalement présente sur :

Liens externes
Bibliographie

[BUR 96] Lou Burnard et Michael Sperberg-McQueen C. M. Sperberg-McQueen, traduction de François Role. La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange
<http://www.tei-c.org.uk/Lite/teiu5_fr.html>