CIDE (2009) Da Sylva : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
(Implémentation)
imported>Abdelhakim Aidene
(Implémentation)
Ligne 113 : Ligne 113 :
  
 
# Segmentation du texte en segments thématiques. La  méthodologie utilisée s’inspire de l’approche de Hearst (1997) et repose sur l’analyse de la cohésion lexicale : une coupure thématique est postulée entre deux segments quand le score calculé à partir d’indicateurs lexicaux (mots répétés, absence d’anaphores, etc.) chute. Nous avons modifié l’algorithme pour assurer la relative uniformité des segments. Cette segmentation sert à définir les passages auxquels les entrées d’index font référence.
 
# Segmentation du texte en segments thématiques. La  méthodologie utilisée s’inspire de l’approche de Hearst (1997) et repose sur l’analyse de la cohésion lexicale : une coupure thématique est postulée entre deux segments quand le score calculé à partir d’indicateurs lexicaux (mots répétés, absence d’anaphores, etc.) chute. Nous avons modifié l’algorithme pour assurer la relative uniformité des segments. Cette segmentation sert à définir les passages auxquels les entrées d’index font référence.
##Extraction des mots (et des suites de plusieurs mots, appelés multitermes) après lemmatisation et comptage des fréquences. Sur la base de la fréquence des mots (à l’intérieur des segments comme dans le document dans son ensemble), on déterminera la saillance d’un sujet dans un segment donné.
+
#Extraction des mots (et des suites de plusieurs mots, appelés multitermes) après lemmatisation et comptage des fréquences. Sur la base de la fréquence des mots (à l’intérieur des segments comme dans le document dans son ensemble), on déterminera la saillance d’un sujet dans un segment donné.
 
+
#Identification, dans le texte, de paires de mots ou de multitermes qui pourront former des couples vedette principale/sous-vedette. Ces paires doivent relever de types précis, identifiés dans l’étude préalable (Da Sylva, 2004). Cette méthode permet de produire  des entrées structurées comme celle donnée en exemple au début de cet article.
###Identification, dans le texte, de paires de mots ou de multitermes qui pourront former des couples vedette principale/sous-vedette. Ces paires doivent relever de types précis, identifiés dans l’étude préalable (Da Sylva, 2004). Cette méthode permet de produire  des entrées structurées comme celle donnée en exemple au début de cet article.
 
 
#Pour chacun des éléments de la liste de candidats-termes (que sont les mots, termes et paires identifiés dans les étapes 2. et 3.), calcul d’un poids; pour chaque segment, on ne retiendra dans l’index que les candidats-termes dont les poids sont les plus élevés (au-delà d’un certain seuil).
 
#Pour chacun des éléments de la liste de candidats-termes (que sont les mots, termes et paires identifiés dans les étapes 2. et 3.), calcul d’un poids; pour chaque segment, on ne retiendra dans l’index que les candidats-termes dont les poids sont les plus élevés (au-delà d’un certain seuil).
 
# Sélection des candidats-termes les plus saillants, regroupement sur la base des vedettes principales partagées et mise en ordre alphabétique.
 
# Sélection des candidats-termes les plus saillants, regroupement sur la base des vedettes principales partagées et mise en ordre alphabétique.

Version du 7 juillet 2016 à 15:58

Outil de butinage du contenu des documents de collections numériques


 
 

 
titre
Outil de butinage du contenu des documents de collections numériques
auteurs
Lyne Da Sylva.
Affiliations
École de bibliothéconomie et des sciences de l’information, Université de Montréal.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Da Sylva.pdf
Mots-clés 
Indexation, collections numériques, index de livre, indexation automatique, accès à l’information, accès au contenu, aide à la lecture.
Keywords
Indexing, digital collections, back-of-the-book index, automatic indexing, access to information, access to contents, reading aid.
Résumé
Cette recherche se veut une contribution à la recherche d’information dans les documents numériques, non pas pour le repérage de documents mais pour l’aide à la lecture et donc l’évaluation de la pertinence de documents repérés. L’introduction d’un outil de butinage est proposée pour accéder au contenu de documents des bibliothèques numériques, soit l’index de livre traditionnel. Celui-ci présente plusieurs avantages en tant qu’outil de navigation, bien que sa création automatique pose quelques difficultés. L’implémentation d’un outil de ce type est esquissée dans ses grandes lignes.