CIDE (2009) Da Sylva : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Références bibliographiques)
imported>Jacques Ducloy
Ligne 115 : Ligne 115 :
 
Notre prototype d’indexation (Da Sylva et Doll, 2005) fonctionne de la manière suivante :
 
Notre prototype d’indexation (Da Sylva et Doll, 2005) fonctionne de la manière suivante :
  
# Segmentation du texte en segments thématiques. La  méthodologie utilisée s’inspire de l’approche de Hearst (1997) et repose sur l’analyse de la cohésion lexicale : une coupure thématique est postulée entre deux segments quand le score calculé à partir d’indicateurs lexicaux (mots répétés, absence d’anaphores, etc.) chute. Nous avons modifié l’algorithme pour assurer la relative uniformité des segments. Cette segmentation sert à définir les passages auxquels les entrées d’index font référence.
+
# Segmentation du texte en segments thématiques. La  méthodologie utilisée s’inspire de l’approche de {{CIDE lien citation|14|Hearst (1997)}} et repose sur l’analyse de la cohésion lexicale : une coupure thématique est postulée entre deux segments quand le score calculé à partir d’indicateurs lexicaux (mots répétés, absence d’anaphores, etc.) chute. Nous avons modifié l’algorithme pour assurer la relative uniformité des segments. Cette segmentation sert à définir les passages auxquels les entrées d’index font référence.
 
#Extraction des mots (et des suites de plusieurs mots, appelés multitermes) après lemmatisation et comptage des fréquences. Sur la base de la fréquence des mots (à l’intérieur des segments comme dans le document dans son ensemble), on déterminera la saillance d’un sujet dans un segment donné.
 
#Extraction des mots (et des suites de plusieurs mots, appelés multitermes) après lemmatisation et comptage des fréquences. Sur la base de la fréquence des mots (à l’intérieur des segments comme dans le document dans son ensemble), on déterminera la saillance d’un sujet dans un segment donné.
 
#Identification, dans le texte, de paires de mots ou de multitermes qui pourront former des couples vedette principale/sous-vedette. Ces paires doivent relever de types précis, identifiés dans l’étude préalable (Da Sylva, 2004). Cette méthode permet de produire  des entrées structurées comme celle donnée en exemple au début de cet article.
 
#Identification, dans le texte, de paires de mots ou de multitermes qui pourront former des couples vedette principale/sous-vedette. Ces paires doivent relever de types précis, identifiés dans l’étude préalable (Da Sylva, 2004). Cette méthode permet de produire  des entrées structurées comme celle donnée en exemple au début de cet article.

Version du 24 août 2016 à 09:52

Outil de butinage du contenu des documents de collections numériques


 
 

 
titre
Outil de butinage du contenu des documents de collections numériques
auteurs
Lyne Da Sylva.
Affiliations
École de bibliothéconomie et des sciences de l’information, Université de Montréal.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Da Sylva.pdf
Mots-clés 
Indexation, collections numériques, index de livre, indexation automatique, accès à l’information, accès au contenu, aide à la lecture.
Keywords
Indexing, digital collections, back-of-the-book index, automatic indexing, access to information, access to contents, reading aid.
Résumé
Cette recherche se veut une contribution à la recherche d’information dans les documents numériques, non pas pour le repérage de documents mais pour l’aide à la lecture et donc l’évaluation de la pertinence de documents repérés. L’introduction d’un outil de butinage est proposée pour accéder au contenu de documents des bibliothèques numériques, soit l’index de livre traditionnel. Celui-ci présente plusieurs avantages en tant qu’outil de navigation, bien que sa création automatique pose quelques difficultés. L’implémentation d’un outil de ce type est esquissée dans ses grandes lignes.