CIDE 14 (Rabat) Daunois

De Artist
Révision datée du 4 janvier 2012 à 11:18 par imported>Thierry Daunois

Ré-édition de Chrestien de Lihus dans l'hypertexte


 
 

Titre
Ré-édition de Chrestien de Lihus dans l'hypertexte
Auteur
Thierry Daunois
Affiliation
Université de Lorraine
Dans
CIDE 14 Rabat
Résumé 
Cet article traite de la ré-édition d'un ouvrage ancien traitant d'agriculture dans le réseau de wikis Wicri. Après une étude de différents projets de ré-édition numérique menés en France, il ouvre une réflexion plus large sur les possibilités offertes par la technologie wiki en matière d'édition numérique. On peut en effet imaginer viser la simple mise à disposition de textes non accessibles pour permettre leur réutilisation. Mais on peut également concevoir le développement d'outils spécifiques, l'exploitation de fonctionnalités sémantiques, dans une optique de recherche. Une alternative intermédiaire consiste à accompagner des projets de recherche, sur le volet de mise à disposition et de visibilité.

Introduction

Certains documents (livres et manuscrits plus ou moins anciens, numérisés mais accessibles uniquement sous la forme de pdf, parfois avec un OCR[1] de qualité variable...) ne sont pas disponibles, en version exploitable (texte brut utilisable), sur internet. Dans le même temps, des chercheurs disposent, sur leur poste de travail, d'extraits, de chapitre, et même de livres entiers qu'ils ont entièrement retranscrits dans leur propre traitement de texte. Ce constat est à l'origine de l'idée initiale, qui consistait à tester la possibilité de mettre ces textes à disposition de tous, pour que tout le travail de re-saisie ne soit pas perdu.

Même s'il n'est pas possible de quantifier cette "ressource", il n'est pas difficile d'imaginer qu'elle est importante. La production totale de l'humanité est estimée à quelques 130 millions d'ouvrages (évaluation effectuée par Google, dans le cadre de son vaste projet de numérisation)[2]. Les livres effectivement disponibles sur internet (sans même s'intéresser à leur "exploitabilité"), bien que l'on ait assisté à une véritable explosion en la matière depuis quelques années, se comptent plutôt en centaines de milliers. Le Projet Gutenberg[3] annonce 100.000 ouvrages traités, Gallica[4] 300.000. Même le méga-projet de Google Books portait sur 15 millions de livres. La marge reste donc colossale !

L'idée initiale a donc été de tester, sur le réseau de wikis Wicri, la mise en ligne de ressources éditoriales ayant déjà fait l'objet du travail ingrat de re-saisie en format de type word. Nous étions alors dans une simple optique de ré-édition directe.

De cet exercice - commencé comme une démarche d'information scientifique et technique (IST) et d'édition de "service public" -, est née rapidement l'idée qu'il était possible d'aller plus loin. Au-delà de ce cadre initial, pourquoi ne pas proposer un enrichissement des textes, avec des annotations collectives, mais, également, dans une optique de recherche ? Comment intégrer des outils permettant l'exploitation et la capitalisation de textes - enrichissement hypertexte [CLE 2007], analyse des données textuelles, paléographie[5], codicologie[6], philologie[7]... - ?

Cet article s'attache donc à présenter, dans un premier temps, le cadre technique et les choix initiaux qui constituent le contexte de cette expérimentation. Puis nous proposons une analyse des projets d'édition hypertexte existants, avant d'effectuer un retour d'expérience sur notre expérimentation, depuis sa phase initiale jusque dans ses développements les plus récents. Enfin nous tentons de tracer les perspectives qu'ouvre le travail effectué dans le cadre du réseau Wicri - autant dans une optique d'IST que de culture scientifique et technique, et à destination de différents publics : grand public, enseignement, recherche -, et en quoi il pourrait constituer un apport pour les projets en cours.

Bibliographie

  • [BUQ 2004] Thierry Buquet, « Quelques réflexions autour de la chaîne éditoriale d’un document numérique : l’exemple de La Lettre volée », Le Médiéviste et l’ordinateur, 43, 2004 [En ligne] http://lemo.irht.cnrs.fr/43/43-04.htm.
  • [BUR 2009] Hyperdonat, une édition électronique des commentaires de Donat aux comédies de Térence. Bruno Bureau, Maud Ingarao, Christian Nicolas, Emmanuelle Raymond (dir.), CEROR, Université Lyon III, ENS de Lyon, 2007-2011. Accédé en ligne le 24 juin 2011, texte intégral.
  • [CLE 2007] Jean Clément, L’hypertexte, une technologie intellectuelle à l’ère de la complexité, in Brossaud Claire, Reber Bernard, Humanités numériques 1., Nouvelles technologies cognitives et épistémologie, Hermès Lavoisier, 2007.
  • [DOR 2009] Stéphanie Dord-Crouslé et Emmanuelle Morlock-Gerstenkorn, L’édition électronique des dossiers de Bouvard et Pécuchet de Flaubert : des fragments textuels en quête de mobilité, publié dans « Le patrimoine à l'ère du numérique : structuration et balisage » organisé à Caen les 10 et 11 décembre 2009.
  • [DRA 2009] Communication à la journée d'études : Digital Edition of Sources in Europe: Achievements, (juridical and technical) Problems and Prospects, à l'occasion des 175 ans de la Commission Royale d'Histoire. Meeting Porta Historica. Texte intégral.
  • [DUC 2010] Jacques Ducloy, Thierry Daunois, Muriel Foulonneau, Alice Hermann, Jean-Charles Lamirel, Stéphane Sire, Jean-Pierre Thomesse et Christine Vanoirbeek, Métadonnées pour WICRI, un réseau de wikis sémantiques pour les communautés de la recherche et de l'innovation, rapport de projet présenté au colloque DC 2010 (Pittsburgh, Etats-Unis). Version française consultable sur le wiki Wicri/Ticri.
  • [KAL 2000] Enriketa Kalldrëmxhiu, Les logiciels de numérisation des livres anciens, Technical report, Université Claude Bernard Lyon1, 2000. [www.letterpress.ch/APINET/IMMPDF/LIVRE/gedkall.pdf Texte intégral] (pdf).
  • [LER 2008] Françoise Leriche et Cécile Meynard , « Introduction. De l’hypertexte au manuscrit : le manuscrit réapproprié », Recherches & Travaux , 72 | 2008 , [En ligne], mis en ligne le 15 décembre 2009. URL : http://recherchestravaux.revues.org/index82.html. Consulté le 29 juin 2011.
  • [POR 2010] Pierre-Édouard Portier et Sylvie Calabretto. DINAH, a philological platform for the construction of multi-structured documents, in The European Conference on Research and Advanced Technology for Digital Libraries (ECDL), Mounia Lalmas, Joemon Jose, Andreas Rauber, Fabrizio Sebastiani, Ingo Frommholz ed. ECDL 2010 September 6 - 10, 2010, Glasgow. pp. 364-375. Research and advanced technology for digital libraries LNCS. Springer. ISBN 978-3-642-15463-8. ISSN 0302-9743. 2010. Consultable à partir de http://liris.cnrs.fr/membres/?idn=peportie&onglet=publis.
  • [POU 2006] Gautier Poupeau, Les apports des technologies Web à l'édition critique : l'expérience de l'Ecole des chartes, présenté à Digital philology and medieval texts, 01/2006 (Arezzo, Italie). Accès au texte intégral.
  • [RAI 2008] Ludivine Raimondo, Enjeux et représentations de la science, de la technologie et de leurs usages - rapport ENS Lyon
  • [SCH 2010] François-Joseph Bérardier de Bataut, Essai sur le récit, ou Entretiens sur la manière de raconter (Paris : Charles-Pierre Berton, 1776). Édition électronique sous la direction de Christof Schöch, 2010. URL : http://www.berardier.org. (Version 0.6, 12/2010.)

Notes

  1. OCR (optical character recognition) est l'acronyme utilisé pour désigner la reconnaissance optique de caractère. Avec le développement de logiciels capables de faire de telles opérations de reconnaissance de caractères, et leur utilisation de plus en plus fréquente pour faciliter l'exploitation des pdf, un OCR désigne maintenant le fichier obtenu, à partir d'un pdf, à l'aide d'un logiciel de reconnaissance optique de caractère.
  2. Article disponible sur le site américain Mashable.
  3. En page d'accueil du Project Gutenberg, les données chiffrées.
  4. Sur Gallica, les données chiffrées.
  5. La paléographie est la "science qui traite des écritures anciennes, de leurs origines et de leurs modifications au cours des temps et plus particulièrement de leur déchiffrement" (définition issue du Trésor de la langue française informatisé)
  6. La codicologie est la "science annexe, mais distincte, de la paléographie et ayant pour objet l'étude matérielle des manuscrits en tant qu'objets archéologiques (par l'étude des matériaux servant à la confection du livre manuscrit et leur mise en œuvre)" (définition issue du Trésor de la langue française informatisé)
  7. La philologie est la "discipline qui vise à rechercher, à conserver et à interpréter les documents, généralement écrits et le plus souvent littéraires, rédigés dans une langue donnée, et dont la tâche essentielle est d'établir une édition critique du texte" (définition issue du Trésor de la langue française informatisé)

Voir aussi