CIDE 14 (Rabat) Daunois : Différence entre versions

De Artist
imported>Jacques Ducloy
imported>Jacques Ducloy
Ligne 8 : Ligne 8 :
 
;Dans:[[est dans les actes::CIDE 14 Rabat]]
 
;Dans:[[est dans les actes::CIDE 14 Rabat]]
 
}}
 
}}
 +
;Résumé:
 +
:
 +
{{clr}}
 +
==Introduction==
 +
Certains documents (livres et manuscrits plus ou moins anciens, numérisés mais accessibles uniquement sous la forme de pdf, parfois avec un OCR<ref>OCR (optical character recognition) est l'acronyme utilisé pour désigner la reconnaissance optique de caractère. Avec le développement de logiciels capables de faire de telles opérations de reconnaissance de caractères, et leur utilisation de plus en plus fréquente pour faciliter l'exploitation des pdf, ''un OCR'' désigne maintenant le fichier obtenu, à partir d'un pdf, à l'aide d'un logiciel de reconnaissance optique de caractère.</ref>{{Note AH|Peut-être que tu peux mettre la signification du sigle?}}{{Note TD|fait !}} de qualité variable...) ne sont pas disponibles, en version exploitable (texte brut utilisable), sur internet. Dans le même temps, des chercheurs disposent, sur leur poste de travail, d'extraits, de chapitre, et même de livres entiers qu'ils ont entièrement retranscrits dans leur propre traitement de texte. Ce constat est à l'origine de l'idée initiale, qui consistait à tester la possibilité de mettre ces textes à disposition de tous, pour que tout le travail de re-saisie ne soit pas perdu.
 +
 +
Même s'il n'est pas possible de quantifier cette "ressource", il n'est pas difficile d'imaginer qu'elle est importante. La production totale de l'humanité est estimée à quelques 130 millions d'ouvrages (évaluation effectuée par Google, dans le cadre de son vaste projet de numérisation)<ref>Article disponible sur le site américain [http://mashable.com/2010/08/06/number-of-books-in-the-world/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+Mashable+%28Mashable%29&utm_content=Google+Reader Mashable].</ref>. Les livres effectivement disponibles sur internet (sans même s'intéresser à leur "exploitabilité"), bien que l'on ait assisté à une véritable explosion en la matière depuis quelques années, se comptent plutôt en centaines de milliers. Le Projet Gutenberg<ref>En [http://www.gutenberg.org/wiki/Main_Page page d'accueil] du Project Gutenberg, les données chiffrées.</ref> annonce 100.000 ouvrages traités, Gallica<ref>Sur [http://blog.bnf.fr/gallica/?p=2991 Gallica], les données chiffrées.</ref> 300.000. Même le méga-projet de Google Books portait sur 15 millions de livres. La marge reste donc colossale !
 +
 +
L'idée initiale a donc été de tester, sur le réseau de wikis Wicri, la mise en ligne de ressources éditoriales ayant déjà fait l'objet du travail ingrat de re-saisie en format de type word. Nous étions alors dans une simple optique de ré-édition directe.
 +
 +
De cet exercice - commencé comme une démarche d'information scientifique et technique (IST) et d'édition de "service public" -, est née rapidement l'idée qu'il était possible d'aller plus loin. Au-delà de ce cadre initial, pourquoi ne pas proposer un enrichissement des textes, avec des annotations collectives, mais, également, dans une optique de recherche ? Comment intégrer des outils permettant l'exploitation et la capitalisation de textes - enrichissement hypertexte [CLE 2007], analyse des données textuelles, paléographie<ref>La paléographie est la "science qui traite des écritures anciennes, de leurs origines et de leurs modifications au cours des temps et plus particulièrement de leur déchiffrement" (''définition issue du [http://atilf.atilf.fr/dendien/scripts/tlfiv5/advanced.exe?8;s=2840995800; Trésor de la langue française informatisé]'')</ref>, codicologie<ref>La codicologie est la "science annexe, mais distincte, de la paléographie et ayant pour objet l'étude matérielle des manuscrits en tant qu'objets archéologiques (par l'étude des matériaux servant à la confection du livre manuscrit et leur mise en œuvre)" (''définition issue du [http://atilf.atilf.fr/dendien/scripts/tlfiv5/advanced.exe?8;s=1988699865; Trésor de la langue française informatisé]'')</ref>, philologie<ref>La philologie est la "discipline qui vise à rechercher, à conserver et à interpréter les documents, généralement écrits et le plus souvent littéraires, rédigés dans une langue donnée, et dont la tâche essentielle est d'établir une édition critique du texte" (''définition issue du [http://atilf.atilf.fr/dendien/scripts/tlfiv5/advanced.exe?8;s=1988699865; Trésor de la langue française informatisé]'')</ref>... - ? {{Note AH| Je ne sais pas la communauté de CIDE mais peut-être que tu devrais définir les termes paléographie, codicologie et philologie. En tout cas, moi j'ai cherché les définitions!}}{{Note TD|fait !}}
 +
 +
Cet article s'attache donc à présenter, dans un premier temps, le cadre technique et les choix initiaux qui constituent le contexte de cette expérimentation. Puis nous proposons une analyse des projets d'édition hypertexte existants, avant d'effectuer un retour d'expérience sur notre expérimentation, depuis sa phase initiale jusque dans ses développements les plus récents. Enfin nous tentons de tracer les perspectives qu'ouvre le travail effectué dans le cadre du réseau Wicri - autant dans une optique d'IST que de culture scientifique et technique, et à destination de différents publics : grand public, enseignement, recherche -, et en quoi il pourrait constituer un apport pour les projets en cours.
 +
==Notes==
 +
<references/>
 
==Voir aussi==
 
==Voir aussi==
 
* versions intermédiaires sur le wiki : [[artist.priv:Édition hypertexte 2011 Thierry Daunois|Artist privé]]
 
* versions intermédiaires sur le wiki : [[artist.priv:Édition hypertexte 2011 Thierry Daunois|Artist privé]]
 
__SHOWFACTBOX__
 
__SHOWFACTBOX__

Version du 21 décembre 2011 à 18:22

Edition hypertexte dans le réseau Wicri l'expérimentation sur les Principes d'agriculture et d'économie de Chrestien de Lihus (1804)


 
 

Titre
Edition hypertexte dans le réseau Wicri l'expérimentation sur les Principes d'agriculture et d'économie de Chrestien de Lihus (1804)
Auteur
Thierry Daunois
Affiliation
Université de Lorraine
Dans
CIDE 14 Rabat
Résumé

Introduction

Certains documents (livres et manuscrits plus ou moins anciens, numérisés mais accessibles uniquement sous la forme de pdf, parfois avec un OCR[1]Modèle:Note AHModèle:Note TD de qualité variable...) ne sont pas disponibles, en version exploitable (texte brut utilisable), sur internet. Dans le même temps, des chercheurs disposent, sur leur poste de travail, d'extraits, de chapitre, et même de livres entiers qu'ils ont entièrement retranscrits dans leur propre traitement de texte. Ce constat est à l'origine de l'idée initiale, qui consistait à tester la possibilité de mettre ces textes à disposition de tous, pour que tout le travail de re-saisie ne soit pas perdu.

Même s'il n'est pas possible de quantifier cette "ressource", il n'est pas difficile d'imaginer qu'elle est importante. La production totale de l'humanité est estimée à quelques 130 millions d'ouvrages (évaluation effectuée par Google, dans le cadre de son vaste projet de numérisation)[2]. Les livres effectivement disponibles sur internet (sans même s'intéresser à leur "exploitabilité"), bien que l'on ait assisté à une véritable explosion en la matière depuis quelques années, se comptent plutôt en centaines de milliers. Le Projet Gutenberg[3] annonce 100.000 ouvrages traités, Gallica[4] 300.000. Même le méga-projet de Google Books portait sur 15 millions de livres. La marge reste donc colossale !

L'idée initiale a donc été de tester, sur le réseau de wikis Wicri, la mise en ligne de ressources éditoriales ayant déjà fait l'objet du travail ingrat de re-saisie en format de type word. Nous étions alors dans une simple optique de ré-édition directe.

De cet exercice - commencé comme une démarche d'information scientifique et technique (IST) et d'édition de "service public" -, est née rapidement l'idée qu'il était possible d'aller plus loin. Au-delà de ce cadre initial, pourquoi ne pas proposer un enrichissement des textes, avec des annotations collectives, mais, également, dans une optique de recherche ? Comment intégrer des outils permettant l'exploitation et la capitalisation de textes - enrichissement hypertexte [CLE 2007], analyse des données textuelles, paléographie[5], codicologie[6], philologie[7]... - ? Modèle:Note AHModèle:Note TD

Cet article s'attache donc à présenter, dans un premier temps, le cadre technique et les choix initiaux qui constituent le contexte de cette expérimentation. Puis nous proposons une analyse des projets d'édition hypertexte existants, avant d'effectuer un retour d'expérience sur notre expérimentation, depuis sa phase initiale jusque dans ses développements les plus récents. Enfin nous tentons de tracer les perspectives qu'ouvre le travail effectué dans le cadre du réseau Wicri - autant dans une optique d'IST que de culture scientifique et technique, et à destination de différents publics : grand public, enseignement, recherche -, et en quoi il pourrait constituer un apport pour les projets en cours.

Notes

  1. OCR (optical character recognition) est l'acronyme utilisé pour désigner la reconnaissance optique de caractère. Avec le développement de logiciels capables de faire de telles opérations de reconnaissance de caractères, et leur utilisation de plus en plus fréquente pour faciliter l'exploitation des pdf, un OCR désigne maintenant le fichier obtenu, à partir d'un pdf, à l'aide d'un logiciel de reconnaissance optique de caractère.
  2. Article disponible sur le site américain Mashable.
  3. En page d'accueil du Project Gutenberg, les données chiffrées.
  4. Sur Gallica, les données chiffrées.
  5. La paléographie est la "science qui traite des écritures anciennes, de leurs origines et de leurs modifications au cours des temps et plus particulièrement de leur déchiffrement" (définition issue du Trésor de la langue française informatisé)
  6. La codicologie est la "science annexe, mais distincte, de la paléographie et ayant pour objet l'étude matérielle des manuscrits en tant qu'objets archéologiques (par l'étude des matériaux servant à la confection du livre manuscrit et leur mise en œuvre)" (définition issue du Trésor de la langue française informatisé)
  7. La philologie est la "discipline qui vise à rechercher, à conserver et à interpréter les documents, généralement écrits et le plus souvent littéraires, rédigés dans une langue donnée, et dont la tâche essentielle est d'établir une édition critique du texte" (définition issue du Trésor de la langue française informatisé)

Voir aussi

… davantage au sujet de « CIDE 14 (Rabat) Daunois »
Edition hypertexte dans le réseau Wicri l'expérimentation sur les Principes d'agriculture et d'économie de Chrestien de Lihus (1804) +