Text Encoding Initiative : Différence entre versions
imported>Jacques Ducloy |
imported>Jacques Ducloy (→Serveur d'exploration) |
||
(5 révisions intermédiaires par le même utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
La '''Text Encoding Initiative''' désigne à la fois le nom d'un groupe de travail international et d'un standard. Le sujet qu'ils traitent est la codification de toutes sortes de documents dans une approches structurée et plus précisément, en [[SGML]] au début, puis maintenant, en [[XML]]. | La '''Text Encoding Initiative''' désigne à la fois le nom d'un groupe de travail international et d'un standard. Le sujet qu'ils traitent est la codification de toutes sortes de documents dans une approches structurée et plus précisément, en [[SGML]] au début, puis maintenant, en [[XML]]. | ||
+ | ==Un exemple introductif== | ||
+ | Pour illustrer la philosophie de la TEI, voici comment pourrait être codé un extrait du [[wikipedia:Le Cid (Corneille)|Cid]] de [[wikipedia:Pierre Corneille|Pierre Corneille]]<ref> | ||
+ | Cet exemple est inspiré d'un article de Lou Burnard, a fait l'objet d'un article sur le site [[ticri.fr:ARTIST|ARTIST]] (http://artist.inist.fr/article.php3?id_article=59 ARTIST) et a été enfin adapté à [[wikipedia:TEI|Wikipédia]]</ref>. Pour un ouvrage d'introduction plus complet voir [[#bib.bur.96||BUR 96]]]. | ||
+ | |||
+ | On cherche à représenter : | ||
+ | {|border="1" | ||
+ | | | ||
+ | {|border="0" | ||
+ | |- | ||
+ | | | ||
+ | |'''Acte II, Scène 2''' | ||
+ | |- | ||
+ | | | ||
+ | | | ||
+ | |- | ||
+ | |'''DON RODRIGUE''' | ||
+ | |À moi, Comte, deux mots. | ||
+ | |- | ||
+ | |'''LE COMTE''' | ||
+ | | Parle. | ||
+ | |- | ||
+ | |'''DON RODRIGUE''' | ||
+ | | Ôte-moi d'un doute. | ||
+ | |- | ||
+ | | | ||
+ | |Connais-tu bien Don Diègue ? | ||
+ | |- | ||
+ | |'''LE COMTE''' | ||
+ | | Oui. | ||
+ | |- | ||
+ | |'''DON RODRIGUE''' | ||
+ | | Parlons bas, écoute. | ||
+ | |- | ||
+ | | | ||
+ | |Sais-tu que ce vieillard fut la même vertu, | ||
+ | |- | ||
+ | | | ||
+ | |La vaillance et l'honneur de son temps ? Le sais-tu ? | ||
+ | |} | ||
+ | |} | ||
+ | |||
+ | Avec le langage HTML, on aurait une codification limitée aux aspects « mise en page ». | ||
+ | |||
+ | <source lang="xml"> | ||
+ | <h1>Acte II, Scène 2</h1> | ||
+ | <br/> <b>DON RODRIGUE</b> À moi Comte, deux mots. | ||
+ | <br/> <b>LE COMTE</b> ... Parle | ||
+ | </source> | ||
+ | |||
+ | Avec le schéma TEI, on obtiendrait ceci : | ||
+ | <source lang="xml"> | ||
+ | <div type="Act" n="I"><head>Acte II</head> | ||
+ | <div type="Scene" n="1"><head>Scène 2</head> | ||
+ | <sp><speaker>Rodrigue</speaker> | ||
+ | <l part="i">À moi, comte, deux mots.</l></sp> | ||
+ | <sp><speaker>Comte</speaker><l part="m">Parle</l></sp> | ||
+ | <sp><speaker>Rodrique</speaker> | ||
+ | <l part="f">Ôte-moi d'un doute</l></sp> | ||
+ | <sp><speaker>Comte</speaker> | ||
+ | <l part="i">Connais-tu bien Don Diègue ?</l></sp> | ||
+ | <sp><speaker>Comte</speaker><l part="m">Oui</l></sp> | ||
+ | <sp><speaker>Rodrigue</speaker> | ||
+ | <l part="f">Parlons bas, écoute.</l> | ||
+ | <l>Sais-tu que ce vieillard fut la même vertu,</l> | ||
+ | <l>La vaillance et l'honneur de son temps ? Le sais-tu ?</l></sp> | ||
+ | ... | ||
+ | </div> | ||
+ | ... | ||
+ | </div> | ||
+ | </source> | ||
+ | |||
+ | La TEI permet de décrire la structuration du texte tel qu'il a été conçu et non son rendu final (présentation). Cet exemple montre notamment : | ||
+ | * L'imbrication des actes et des paragraphes (2 éléments div imbriqués). Avec un langage comme [[XPath]], il est alors possible d'extraire un acte ou une scène. | ||
+ | * Le découpage du dialogue par des éléments "sp". | ||
+ | * La définition des interlocuteurs par des éléments "speaker" (il est possible facilement de lancer des requêtes pour localiser les endroits où Rodrigue cite Chimène). | ||
+ | * La précision de la description de la versification par des éléments "l" (ligne) avec des indications sur la position d'un élément de dialogue en début, fin ou milieu de vers grâce aux attributs "part". | ||
+ | | ||
+ | |||
+ | ==Les zones d'influence de la TEI== | ||
+ | {{Début 2 colonnes}} | ||
+ | {{Explor plateforme TeiVM2/Carte France|taille=400}} | ||
+ | {{saut 2 colonnes}} | ||
+ | {{Explor plateforme TeiVM2/Carte France Regions 2016|taille=400}} | ||
+ | {{Fin 2 colonnes}} | ||
+ | {{Explor plateforme TeiVM2/Carte Europe}} | ||
+ | {{Explor plateforme TeiVM2/Carte Monde Europe réunie}} | ||
+ | {{boîte déroulante | ||
+ | |titre= production mondiale (détail Europe) | ||
+ | |contenu= | ||
+ | {{Explor plateforme TeiVM2/Carte Monde}} | ||
+ | }} | ||
+ | |||
+ | ==Serveur d'exploration== | ||
+ | Les cartes précédentes ont été produites par le « [[Serveur d'exploration sur la TEI]] ». | ||
+ | Celui-ci contient [[A pour volumétrie (serveur d'exploration)::{{TeiVM2, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents. | ||
+ | ===Listes de résultats bruts=== | ||
+ | {{Début 2 colonnes}} | ||
+ | ;Auteurs: | ||
+ | {{TeiVM2, include|section=auteurs}} | ||
+ | {{Saut 2 colonnes}} | ||
+ | ;Affiliations: | ||
+ | {{TeiVM2, include|section=org}} | ||
+ | {{Fin 2 colonnes}} | ||
+ | {{Début 3 colonnes}} | ||
+ | ;Pays: | ||
+ | {{TeiVM2, include|section=pays}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Région: | ||
+ | {{TeiVM2, include|section=region}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Villes: | ||
+ | {{TeiVM2, include|section=ville}} | ||
+ | {{Fin 3 colonnes}} | ||
+ | {{Début 3 colonnes}} | ||
+ | ;Mots-clés anglais:: | ||
+ | {{TeiVM2, include|section=KwdEn}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Mots des titres: | ||
+ | {{TeiVM2, include|section=title}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;ISSN/revue: | ||
+ | {{TeiVM2, include|section=ISSN}} | ||
+ | {{Fin 3 colonnes}} | ||
+ | ;;Sur le Zoom France: | ||
+ | {{Début 2 colonnes}} | ||
+ | ;Auteurs: | ||
+ | {{TeiVM2, include|section=auteursFrance}} | ||
+ | {{Saut 2 colonnes}} | ||
+ | ;Affiliations: | ||
+ | {{TeiVM2, include|section=orgFrance}} | ||
+ | {{Fin 2 colonnes}} | ||
+ | {{Début 3 colonnes}} | ||
+ | ;Pays: | ||
+ | {{TeiVM2, include|section=paysFrance}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Région: | ||
+ | {{TeiVM2, include|section=regionFrance}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Villes: | ||
+ | {{TeiVM2, include|section=villeFrance}} | ||
+ | {{Fin 3 colonnes}} | ||
+ | {{Début 3 colonnes}} | ||
+ | ;Mots-clés anglais:: | ||
+ | {{TeiVM2, include|section=KwdEnFrance}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Mots des titres: | ||
+ | {{TeiVM2, include|section=titleFrance}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;ISSN/revue: | ||
+ | {{TeiVM2, include|section=IssnFrance}} | ||
+ | {{Fin 3 colonnes}} | ||
+ | ===Navigation=== | ||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | |||
+ | |- | ||
+ | !{{Explor icon number|n=1}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=IstexMulti|code=Istex|path=TeiVM2}} | ||
+ | |Ce flux donne accès [[A pour taille ISTEX::{{TeiVM2, Explor size|stream=Istex|step=Corpus|index=biblio}}]] [[A pour base utilisée::ISTEX (corpus)|documents ISTEX]] (et {{TeiVM2, Explor size|stream=Istex|step=Checkpoint|index=biblio}} après curation). | ||
+ | |- | ||
+ | !{{Explor icon number|n=2}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=Stanalyst|code=PascalFrancis|path=TeiVM2}} | ||
+ | |Ce flux traite {{TeiVM2, Explor size|stream=PascalFrancis|step=Corpus|index=biblio}} références, dont [[A pour taille Francis::{{TeiVM2, Explor size|stream=PascalFrancis|step=Corpus|index=biblioFrancis}}]] venant de [[A pour base utilisée::Francis (base de données)|Francis]], et [[A pour taille Pascal::{{TeiVM2, Explor size|stream=PascalFrancis|step=Corpus|index=biblioPascal}}]] venant de [[A pour base utilisée::Pascal (base de données)|Pascal]]. | ||
+ | Après curation le volume est réduit à {{TeiVM2, Explor size|stream=PascalFrancis|step=Checkpoint|index=biblio}}. | ||
+ | |- | ||
+ | !{{Explor icon number|n=3}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=Hal|code=Hal|path=TeiVM2}} | ||
+ | |Ce flux traite [[A pour taille HAL::{{TeiVM2, Explor size|stream=Hal|step=Corpus|index=biblio}}]] références [[A pour base utilisée::Hyper article en ligne|téléchargées de HAL]]. Après curation le volume est réduit à {{TeiVM2, Explor size|stream=Hal|step=Checkpoint|index=biblio}}. | ||
+ | |- | ||
+ | !{{Explor icon number|n=4}}Flux principal | ||
+ | !{{Explor icon number|n=1}}{{Explor icon number|n=2}}{{Explor icon number|n=3}} | ||
+ | |{{Explor bandeau flux|type=MainMerge|code=Main|path=TeiVM2}} | ||
+ | |||
+ | |Ce flux fusionne {{formatnum:{{TeiVM2, Explor size|stream=Area|step=Checkpoint|index=biblio}}}} références issues des étapes précédentes. | ||
+ | Ce volume est ramené à {{formatnum:{{TeiVM2, Explor size|stream=Main|step=Merge|index=biblio}}}} après dédoublonnage par [[DOI]]. | ||
+ | Enfin, il est réduit à {{formatnum:{{TeiVM2, Explor size|stream=Main|step=Exploration|index=biblio}}}} par [[clé de dédoublonnage IDAT]]. | ||
+ | |- | ||
+ | !Zoom | ||
+ | !France | ||
+ | | | ||
+ | {{Explor bandeau flux|type=zoom|code=France|path=TeiVM2}} | ||
+ | |Ce flux donne accès à une bibliographie contenant {{TeiVM2, Explor size|stream=France|step=Analysis|index=biblio}} références ayant au moins un auteur avec une affiliation française. | ||
+ | |- | ||
+ | !Zoom | ||
+ | !UK | ||
+ | | | ||
+ | {{Explor bandeau flux|type=zoom|code=UK|path=TeiVM2}} | ||
+ | |Ce flux donne accès à une bibliographie contenant {{TeiVM2, Explor size|stream=UK|step=Analysis|index=biblio}} références ayant au moins un auteur avec une affiliation du Royaume-Uni. | ||
+ | |- | ||
+ | !Zoom | ||
+ | !USA | ||
+ | | | ||
+ | {{Explor bandeau flux|type=zoom|code=USA|path=TeiVM2}} | ||
+ | |Ce flux donne accès à une bibliographie contenant {{TeiVM2, Explor size|stream=USA|step=Analysis|index=biblio}} références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique. | ||
+ | |- | ||
+ | !Zoom | ||
+ | !Allemagne | ||
+ | | | ||
+ | {{Explor bandeau flux|type=zoom|code=Allemagne|path=TeiVM2}} | ||
+ | |Ce flux donne accès à une bibliographie contenant {{TeiVM2, Explor size|stream=Allemagne|step=Analysis|index=biblio}} références ayant au moins un auteur avec une affiliation allemande. | ||
+ | |- | ||
+ | |} | ||
+ | |||
==Voir aussi== | ==Voir aussi== | ||
+ | ;Notes: | ||
+ | <references/> | ||
{{Wicri voir|référence=Ticri}} | {{Wicri voir|référence=Ticri}} | ||
+ | [[Catégorie:Serveur d'exploration]] | ||
+ | __SHOWFACTBOX__ |
Version actuelle datée du 2 janvier 2017 à 10:54
La Text Encoding Initiative désigne à la fois le nom d'un groupe de travail international et d'un standard. Le sujet qu'ils traitent est la codification de toutes sortes de documents dans une approches structurée et plus précisément, en SGML au début, puis maintenant, en XML.
Sommaire
Un exemple introductif
Pour illustrer la philosophie de la TEI, voici comment pourrait être codé un extrait du Cid de Pierre Corneille[1]. Pour un ouvrage d'introduction plus complet voir |BUR 96].
On cherche à représenter :
|
Avec le langage HTML, on aurait une codification limitée aux aspects « mise en page ».
<h1>Acte II, Scène 2</h1>
<br/> <b>DON RODRIGUE</b> À moi Comte, deux mots.
<br/> <b>LE COMTE</b> ... Parle
Avec le schéma TEI, on obtiendrait ceci :
<div type="Act" n="I"><head>Acte II</head>
<div type="Scene" n="1"><head>Scène 2</head>
<sp><speaker>Rodrigue</speaker>
<l part="i">À moi, comte, deux mots.</l></sp>
<sp><speaker>Comte</speaker><l part="m">Parle</l></sp>
<sp><speaker>Rodrique</speaker>
<l part="f">Ôte-moi d'un doute</l></sp>
<sp><speaker>Comte</speaker>
<l part="i">Connais-tu bien Don Diègue ?</l></sp>
<sp><speaker>Comte</speaker><l part="m">Oui</l></sp>
<sp><speaker>Rodrigue</speaker>
<l part="f">Parlons bas, écoute.</l>
<l>Sais-tu que ce vieillard fut la même vertu,</l>
<l>La vaillance et l'honneur de son temps ? Le sais-tu ?</l></sp>
...
</div>
...
</div>
La TEI permet de décrire la structuration du texte tel qu'il a été conçu et non son rendu final (présentation). Cet exemple montre notamment :
- L'imbrication des actes et des paragraphes (2 éléments div imbriqués). Avec un langage comme XPath, il est alors possible d'extraire un acte ou une scène.
- Le découpage du dialogue par des éléments "sp".
- La définition des interlocuteurs par des éléments "speaker" (il est possible facilement de lancer des requêtes pour localiser les endroits où Rodrigue cite Chimène).
- La précision de la description de la versification par des éléments "l" (ligne) avec des indications sur la position d'un élément de dialogue en début, fin ou milieu de vers grâce aux attributs "part".
Les zones d'influence de la TEI
|
|
Serveur d'exploration
Les cartes précédentes ont été produites par le « Serveur d'exploration sur la TEI ». Celui-ci contient 692 documents.
Listes de résultats bruts
|
|
|
|
|
|
- Sur le Zoom France
|
|
|
|
|
|
Ce flux donne accès 536 documents ISTEX (et 536 après curation). | |||
Ce flux traite 115 références, dont 51 venant de Francis, et 64 venant de Pascal.
Après curation le volume est réduit à 106. | |||
Ce flux traite 41 références téléchargées de HAL. Après curation le volume est réduit à 41. | |||
Flux principal | Ce flux fusionne 683 références issues des étapes précédentes.
Ce volume est ramené à 683 après dédoublonnage par DOI. Enfin, il est réduit à 644 par clé de dédoublonnage IDAT. | ||
Zoom | France | Ce flux donne accès à une bibliographie contenant 64 références ayant au moins un auteur avec une affiliation française. | |
Zoom | UK | Ce flux donne accès à une bibliographie contenant 101 références ayant au moins un auteur avec une affiliation du Royaume-Uni. | |
Zoom | USA | Ce flux donne accès à une bibliographie contenant 181 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique. | |
Zoom | Allemagne | Ce flux donne accès à une bibliographie contenant 39 références ayant au moins un auteur avec une affiliation allemande. |
Voir aussi
- Notes
- ↑ Cet exemple est inspiré d'un article de Lou Burnard, a fait l'objet d'un article sur le site ARTIST (http://artist.inist.fr/article.php3?id_article=59 ARTIST) et a été enfin adapté à Wikipédia
- Dans le réseau Wicri :
La page de référence « Text Encoding Initiative » est sur le wiki Wicri/Ticri.