ISTEX, fulltext TEI : Différence entre versions
De Wicri Métadonnées
imported>Jacques Ducloy |
imported>Jacques Ducloy m (14 révisions importées) |
||
(12 révisions intermédiaires par le même utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
− | + | Cette page est un point d'entrée pour les réflexions normatives liées au traitement du fulltext du [[ISTEX (Investissements d'avenir)|projet ISTEX]] avec un [[Text Encoding Initiative|balisage TEI]]. | |
− | Cette page est un point d'entrée pour les réflexions normatives liées au traitement du fulltext du projet ISTEX avec un balisage TEI. | ||
+ | ==Les documents fulltext TEI d'ISTEX== | ||
+ | L'api ISTEX permet de télécharger le texte intégral d'un document ISTEX avec un balisage TEI. | ||
==Application dans Wicri== | ==Application dans Wicri== | ||
Une première application pilote est ouverte sur le wiki Wicri/Linguistique, voir le {{Wicri lien avec icône|wiki=Linguistique|page=Serveur d'exploration sur la philologie}}, et plus précisément la page {{Wicri lien avec icône|wiki=Linguistique|page=Wicri:PhilologieVM2}}. | Une première application pilote est ouverte sur le wiki Wicri/Linguistique, voir le {{Wicri lien avec icône|wiki=Linguistique|page=Serveur d'exploration sur la philologie}}, et plus précisément la page {{Wicri lien avec icône|wiki=Linguistique|page=Wicri:PhilologieVM2}}. | ||
+ | |||
+ | Elle a notamment permis la mise en place ou l'amélioration de 2 outils de la [[Bibliothèque Dilib]]. | ||
+ | * La commande {{Wicri lien avec icône|wiki=Outils|page=IstexGetCorpus}}, avec notamment ses options « -A » et « -O tei ». | ||
+ | * La commande {{Wicri lien avec icône|wiki=Outils|page=IstexToSxml}} qui convertit des flots XML issus de l'api Istex pour les rendre conforme aux [[Dilib, flots de données Sxml|recommandations Sxml]]. | ||
+ | ===Balisage du fulltext=== | ||
+ | Quelques adaptations ont été introduites par les commandes IstexGetCorpus et IstexToSxml. | ||
+ | * l'élément TEI d'ISTEX est renommé istex:fulltextTEI par la commmande IstexGetCorpus avec l'option « -A ». | ||
+ | * Pour faciliter les traitements du fulltext TEI, deux éléments de balisage (p et l) ont été introduits par la commande IstexToSxml. | ||
+ | Voici un extrait d'un document contenant toutes les données balisées<ref>Conformément aux recommandations Sxml, le document n'est pas indenté dans les chaînes de traitement</ref>: | ||
+ | <source lang="xml"> | ||
+ | <istex> | ||
+ | <corpusName>elsevier</corpusName> | ||
+ | <copyrightdate>1977</copyrightdate> | ||
+ | ... | ||
+ | <fulltext> | ||
+ | <istex:fulltextTEI | ||
+ | uri="https://api.istex.fr/document/7321CBED8CE52578D567F22268F8E27CD217A301/fulltext/tei" | ||
+ | xmlns:tei="http://www.tei-c.org/ns/1.0"> | ||
+ | <teiHeader type="text"> | ||
+ | <fileDesc> | ||
+ | ... | ||
+ | </teiHeader> | ||
+ | <text> | ||
+ | <body> | ||
+ | <div> | ||
+ | <p> | ||
+ | <l>Kurze Mitteilungen' Short Communications</l> | ||
+ | <l>Institut fur Biologische Holzforschung und Arbeitsgruppe Landespflege der Forstwissenschaftlichen Fakultat der Universitat</l> | ||
+ | ... | ||
+ | </p> | ||
+ | </div> | ||
+ | ... | ||
+ | </istex:fulltextTEI> | ||
+ | ... | ||
+ | <fulltext> | ||
+ | </source> | ||
+ | |||
+ | ==Voir aussi== | ||
+ | ;Notes: | ||
+ | <references/> |
Version actuelle datée du 17 juin 2017 à 21:31
Cette page est un point d'entrée pour les réflexions normatives liées au traitement du fulltext du projet ISTEX avec un balisage TEI.
Sommaire
Les documents fulltext TEI d'ISTEX
L'api ISTEX permet de télécharger le texte intégral d'un document ISTEX avec un balisage TEI.
Application dans Wicri
Une première application pilote est ouverte sur le wiki Wicri/Linguistique, voir le Serveur d'exploration sur la philologie( ), et plus précisément la page Wicri:PhilologieVM2( ).
Elle a notamment permis la mise en place ou l'amélioration de 2 outils de la Bibliothèque Dilib.
- La commande IstexGetCorpus( ), avec notamment ses options « -A » et « -O tei ».
- La commande IstexToSxml( ) qui convertit des flots XML issus de l'api Istex pour les rendre conforme aux recommandations Sxml.
Balisage du fulltext
Quelques adaptations ont été introduites par les commandes IstexGetCorpus et IstexToSxml.
- l'élément TEI d'ISTEX est renommé istex:fulltextTEI par la commmande IstexGetCorpus avec l'option « -A ».
- Pour faciliter les traitements du fulltext TEI, deux éléments de balisage (p et l) ont été introduits par la commande IstexToSxml.
Voici un extrait d'un document contenant toutes les données balisées[1]:
<istex>
<corpusName>elsevier</corpusName>
<copyrightdate>1977</copyrightdate>
...
<fulltext>
<istex:fulltextTEI
uri="https://api.istex.fr/document/7321CBED8CE52578D567F22268F8E27CD217A301/fulltext/tei"
xmlns:tei="http://www.tei-c.org/ns/1.0">
<teiHeader type="text">
<fileDesc>
...
</teiHeader>
<text>
<body>
<div>
<p>
<l>Kurze Mitteilungen' Short Communications</l>
<l>Institut fur Biologische Holzforschung und Arbeitsgruppe Landespflege der Forstwissenschaftlichen Fakultat der Universitat</l>
...
</p>
</div>
...
</istex:fulltextTEI>
...
<fulltext>
Voir aussi
- Notes
- ↑ Conformément aux recommandations Sxml, le document n'est pas indenté dans les chaînes de traitement