ISTEX, fulltext TEI

De Wicri Métadonnées

Cette page est un point d'entrée pour les réflexions normatives liées au traitement du fulltext du projet ISTEX avec un balisage TEI.

Les documents fulltext TEI d'ISTEX

L'api ISTEX permet de télécharger le texte intégral d'un document ISTEX avec un balisage TEI.

Application dans Wicri

Une première application pilote est ouverte sur le wiki Wicri/Linguistique, voir le Serveur d'exploration sur la philologie( LogoWicriWicriFrMars2010.png ), et plus précisément la page Wicri:PhilologieVM2( LogoWicriWicriFrMars2010.png ).

Elle a notamment permis la mise en place ou l'amélioration de 2 outils de la Bibliothèque Dilib.

Balisage du fulltext

Quelques adaptations ont été introduites par les commandes IstexGetCorpus et IstexToSxml.

  • l'élément TEI d'ISTEX est renommé istex:fulltextTEI par la commmande IstexGetCorpus avec l'option « -A ».
  • Pour faciliter les traitements du fulltext TEI, deux éléments de balisage (p et l) ont été introduits par la commande IstexToSxml.

Voici un extrait d'un document contenant toutes les données balisées[1]:

<istex>
  <corpusName>elsevier</corpusName>
  <copyrightdate>1977</copyrightdate>
  ...
  <fulltext>
    <istex:fulltextTEI 
      uri="https://api.istex.fr/document/7321CBED8CE52578D567F22268F8E27CD217A301/fulltext/tei" 
      xmlns:tei="http://www.tei-c.org/ns/1.0">
     <teiHeader type="text">
        <fileDesc>
         ...
     </teiHeader>
      <text>
        <body>
          <div>
            <p>
              <l>Kurze Mitteilungen' Short Communications</l>
              <l>Institut fur Biologische Holzforschung und Arbeitsgruppe Landespflege der Forstwissen­schaftlichen Fakultat der Universitat</l>
              ...
             </p>
           </div>
      ...
     </istex:fulltextTEI>
     ...
  <fulltext>

Voir aussi

Notes
  1. Conformément aux recommandations Sxml, le document n'est pas indenté dans les chaînes de traitement