Nuvola apps important.png Attention, suite à une faille de sécurité, la plupart des liens vers les serveurs d'exploration sont désactivés.

-

Exploitation de corpus 2012 Nancy

De Wicri Lorraine

La journée Exploitation de corpus, organisée conjointement par l'Axe 2 de la Maison des sciences de l'homme - Lorraine et l'ATILF, se déroule à Nancy, le 21 juin, de 9h à 17h30.

Présentation

La journée Exploitation de Corpus vise à offrir une initiation sur deux logiciels, TXM et Hyperbase, qui permettent de réaliser plusieurs tâches courantes pour les chercheur(e)s qui utilisent des corpus : concordances, analyses de vocabulaire(s) et analyses textuelles.

  • TXM[1] a été développé dans le cadre du projet ANR Textométrie et est basé au laboratoire Interactions, corpus, apprentissages, représentations (ICAR), à Lyon[2]. La plateforme combine des techniques d'analyse de grands corpus de textes au moyen de composants modulaires et éditables (Heiden, 2010 ; Heiden et al., 2010 ; Pincemin et al., 2010) et en adéquation avec les technologies de corpus et de statistique actuelles (Unicode, XML, TEI, TAL, CQP et R). Le projet sous-jacent, Textométrie, a rendu possible l'articulation des logiciels existants du même type parmi les plus utilisés (Hyperbase ; Xaira ; Weblex ; Lexico3 etc.).
  • Hyperbase[3] a été développé par Étienne Brunet au laboratoire Bases, corpus, langage (BCL), à Nice[4]. Hyperbase permet d'analyser des corpus sous forme électronique, en utilisant la technique classique de l’indexation. Une de ses caractéristiques est de s’affranchir des limites de mémoire centrale (où d’autres logiciels doivent trouver la place pour contenir le texte entier). Voué ainsi au traitement des gros corpus, il a été appliqué à des textes de très grande ampleur : le journal Le Monde, le journal portugais Publico, l’Encyclopédie Encarta, et dernièrement l’intégrale de la revue Europe, grosse de 60 millions de mots. Au total les textes qu’Hyperbase a traités au laboratoire représentent une masse équivalente à celle que Gallica propose en mode texte, soit 1500 titres, et la moitié de Frantext. Il est utilisé par le Laboratoire d'analyse statistique des langues anciennes[5] (LASLA) de l’Université de Liège. Dominique Longrée, directeur du laboratoire, fera une présentation d'Hyperbase en relation, entre autres, avec les textes anciens, dans le cadre des projets principaux du laboratoire.

Chaque logiciel sera abordé sous la forme d'une présentation générale (1h30) suivie de travaux pratiques (2h).

Programme

  • 09h00 - 10h15 : Présentation de TXM, par Serge Heiden (ENS-Lyon) - Salle Paul Imbs (ATILF)
  • 10h30 - 12h30 : Travaux pratiques sur TXM - Salle 105 (ATILF)
  • 14h00 - 15h30 : Présentation de « Textes latins. Logiciel Hyperbase », par Dominique Longrée (Université de Liège) - Salle Paul Imbs (ATILF)
  • 15h45 - 17h30 : Travaux pratiques sur Hyperbase - Salle 105 (ATILF)

Organisation

Modalités pratiques

Voir aussi

  • La journée sur le site de la MSH Lorraine.

Notes

  1. Accéder à TXM sur le site de l'ENS de Lyon.
  2. Le site web du laboratoire ICAR.
  3. Accéder à Hyperbase sur le site de l'Université de Nice.
  4. Le site web du laboratoire BCL.
  5. le site web du LASLA.