CIDE (2009) Da Sylva : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
imported>Abdelhakim Aidene
(Implémentation)
Ligne 113 : Ligne 113 :
  
 
# Segmentation du texte en segments thématiques. La  méthodologie utilisée s’inspire de l’approche de Hearst (1997) et repose sur l’analyse de la cohésion lexicale : une coupure thématique est postulée entre deux segments quand le score calculé à partir d’indicateurs lexicaux (mots répétés, absence d’anaphores, etc.) chute. Nous avons modifié l’algorithme pour assurer la relative uniformité des segments. Cette segmentation sert à définir les passages auxquels les entrées d’index font référence.
 
# Segmentation du texte en segments thématiques. La  méthodologie utilisée s’inspire de l’approche de Hearst (1997) et repose sur l’analyse de la cohésion lexicale : une coupure thématique est postulée entre deux segments quand le score calculé à partir d’indicateurs lexicaux (mots répétés, absence d’anaphores, etc.) chute. Nous avons modifié l’algorithme pour assurer la relative uniformité des segments. Cette segmentation sert à définir les passages auxquels les entrées d’index font référence.
2. Extraction des mots (et des suites de plusieurs mots, appelés multitermes) après lemmatisation et comptage des fréquences. Sur la base de la fréquence des mots (à l’intérieur des segments comme dans le document dans son ensemble), on déterminera la saillance d’un sujet dans un segment donné.
+
#Extraction des mots (et des suites de plusieurs mots, appelés multitermes) après lemmatisation et comptage des fréquences. Sur la base de la fréquence des mots (à l’intérieur des segments comme dans le document dans son ensemble), on déterminera la saillance d’un sujet dans un segment donné.
  
3. Identification, dans le texte, de paires de mots ou de multitermes qui pourront former des couples vedette principale/sous-vedette. Ces paires doivent relever de types précis, identifiés dans l’étude préalable (Da Sylva, 2004). Cette méthode permet de produire  des entrées structurées comme celle donnée en exemple au début de cet article.
+
#Identification, dans le texte, de paires de mots ou de multitermes qui pourront former des couples vedette principale/sous-vedette. Ces paires doivent relever de types précis, identifiés dans l’étude préalable (Da Sylva, 2004). Cette méthode permet de produire  des entrées structurées comme celle donnée en exemple au début de cet article.
4. Pour chacun des éléments de la liste de candidats-termes (que sont les mots, termes et paires identifiés dans les étapes 2. et 3.), calcul d’un poids; pour chaque segment, on ne retiendra dans l’index que les candidats-termes dont les poids sont les plus élevés (au-delà d’un certain seuil).
+
#Pour chacun des éléments de la liste de candidats-termes (que sont les mots, termes et paires identifiés dans les étapes 2. et 3.), calcul d’un poids; pour chaque segment, on ne retiendra dans l’index que les candidats-termes dont les poids sont les plus élevés (au-delà d’un certain seuil).
 
5. Sélection des candidats-termes les plus saillants, regroupement sur la base des vedettes principales partagées et mise en ordre alphabétique.
 
5. Sélection des candidats-termes les plus saillants, regroupement sur la base des vedettes principales partagées et mise en ordre alphabétique.
 
Charlet et al. (2004) et Nazarenko et Aït El-Mekki (2005) présentent un outil très similaire à celui que nous avons développé de manière indépendante. L’introduction, dans le processus de construction de l’index, d’un auteur humain leur permet de contourner plusieurs problèmes liés à la limite de l’analyse automatique de la langue.
 
Charlet et al. (2004) et Nazarenko et Aït El-Mekki (2005) présentent un outil très similaire à celui que nous avons développé de manière indépendante. L’introduction, dans le processus de construction de l’index, d’un auteur humain leur permet de contourner plusieurs problèmes liés à la limite de l’analyse automatique de la langue.
 +
 
Notre originalité tient au traitement que nous accordons aux différents types de liens sémantiques qui peuvent tenir entre une vedette principale et une vedette secondaire. La figure 2 présente des exemples d’entrées d’index produites par notre prototype. Certaines entrées sont des mots simples, d’autres des multitermes, d’autres encore des paires de termes. Les numéros font référence aux segments obtenus par la segmentation automatique. Même dans ce court extrait, on voit que les concepts sont reliés dans l’index même quand ils sont disséminés dans le document.
 
Notre originalité tient au traitement que nous accordons aux différents types de liens sémantiques qui peuvent tenir entre une vedette principale et une vedette secondaire. La figure 2 présente des exemples d’entrées d’index produites par notre prototype. Certaines entrées sont des mots simples, d’autres des multitermes, d’autres encore des paires de termes. Les numéros font référence aux segments obtenus par la segmentation automatique. Même dans ce court extrait, on voit que les concepts sont reliés dans l’index même quand ils sont disséminés dans le document.
  
Ligne 136 : Ligne 137 :
 
Notre prototype n’a pas encore fait l’objet d’une évaluation objective, sauf l’aspect segmentation de texte (Da Sylva, 2006), qui se compare favorablement à l’approche de Hearst (1997).
 
Notre prototype n’a pas encore fait l’objet d’une évaluation objective, sauf l’aspect segmentation de texte (Da Sylva, 2006), qui se compare favorablement à l’approche de Hearst (1997).
  
5 Quelques défis
+
==Quelques défis==
 +
 
 
On peut objecter qu’un index créé automatiquement doit offrir plus que simplement l’extraction des mots et expressions dans le texte, sinon il est d’une utilité limitée. Cependant, deux propriétés d’un index, même produit par pure extraction de termes du document, en justifie la création. D’abord, il offre un inventaire des concepts présents dans le document, explicitant du fait même la couverture conceptuelle aussi bien que lexicale ; c’est en quelque sorte une « photographie conceptuelle » de celui-ci. Et il indique également des relations entre les concepts (exprimées dans les entrées structurées en vedette principale et sous- vedettes). Ensuite, il restreint l’apparition des expressions à celles qui sont le plus importantes, alors qu’une fonction de recherche repérera chacune des occurrences.
 
On peut objecter qu’un index créé automatiquement doit offrir plus que simplement l’extraction des mots et expressions dans le texte, sinon il est d’une utilité limitée. Cependant, deux propriétés d’un index, même produit par pure extraction de termes du document, en justifie la création. D’abord, il offre un inventaire des concepts présents dans le document, explicitant du fait même la couverture conceptuelle aussi bien que lexicale ; c’est en quelque sorte une « photographie conceptuelle » de celui-ci. Et il indique également des relations entre les concepts (exprimées dans les entrées structurées en vedette principale et sous- vedettes). Ensuite, il restreint l’apparition des expressions à celles qui sont le plus importantes, alors qu’une fonction de recherche repérera chacune des occurrences.
 
Mais il est clair qu’il est préférable d’inclure dans l’index des expressions que l’on ne peut pas trouver directement dans le texte : par exemple, des synonymes ou des hyperonymes de termes du document. Si le document parle de « vélo », on voudrait trouver à l’index un renvoi « bicyclette, voir vélo » même si ce deuxième terme n’apparaît pas dans le texte. Également, un ouvrage qui parlerait de différents types de rongeurs, mais toujours dénotés par leur race spécifique (« souris », « rat », « écureuil », etc.), gagnerait à avoir une entrée « rongeurs » qui regrouperait chaque type. La difficulté réside alors à trouver des ressources lexicales externes au document qui contiennent ces informations. Nazarenko et Aït El- Mekki (2005) bénéficient d’une bonne solution à ce problème, ayant accès à une large base lexicale qui contient, pour chaque terme, des variantes aussi bien que des hyperonymes ou hyponymes. Un thésaurus général (disponible en format numérique) comme WordNet peut souvent fournir l’information nécessaire. En l’absence de ceci (par exemple, pour des langues pour lesquelles ces ressources n’existent pas), on doit imaginer d’autres stratégies. Comme par exemple l’analyse de grands corpus afin d’en extraire des généralisations pertinentes, parmi lesquelles pourront se trouver les relations qui nous intéresse (comme dans Ruiz- Casado, 2007, ou Hearst, 1992, par exemple). En plus, un thésaurus thématique serait avantageux : il contiendrait des connaissances disciplinaires spécialisées qui échappent aux thésaurus généraux.
 
Mais il est clair qu’il est préférable d’inclure dans l’index des expressions que l’on ne peut pas trouver directement dans le texte : par exemple, des synonymes ou des hyperonymes de termes du document. Si le document parle de « vélo », on voudrait trouver à l’index un renvoi « bicyclette, voir vélo » même si ce deuxième terme n’apparaît pas dans le texte. Également, un ouvrage qui parlerait de différents types de rongeurs, mais toujours dénotés par leur race spécifique (« souris », « rat », « écureuil », etc.), gagnerait à avoir une entrée « rongeurs » qui regrouperait chaque type. La difficulté réside alors à trouver des ressources lexicales externes au document qui contiennent ces informations. Nazarenko et Aït El- Mekki (2005) bénéficient d’une bonne solution à ce problème, ayant accès à une large base lexicale qui contient, pour chaque terme, des variantes aussi bien que des hyperonymes ou hyponymes. Un thésaurus général (disponible en format numérique) comme WordNet peut souvent fournir l’information nécessaire. En l’absence de ceci (par exemple, pour des langues pour lesquelles ces ressources n’existent pas), on doit imaginer d’autres stratégies. Comme par exemple l’analyse de grands corpus afin d’en extraire des généralisations pertinentes, parmi lesquelles pourront se trouver les relations qui nous intéresse (comme dans Ruiz- Casado, 2007, ou Hearst, 1992, par exemple). En plus, un thésaurus thématique serait avantageux : il contiendrait des connaissances disciplinaires spécialisées qui échappent aux thésaurus généraux.
 
On peut préférer une fonction de recherche en ce qu’elle nous amène directement à l’endroit dans le texte où l’objet de notre recherche apparaît. En contraste, l’entrée d’index nous amène normalement à une région textuelle (un passage, un paragraphe, une page) où il est du ressort de l’utilisateur de localiser l’endroit pertinent.
 
On peut préférer une fonction de recherche en ce qu’elle nous amène directement à l’endroit dans le texte où l’objet de notre recherche apparaît. En contraste, l’entrée d’index nous amène normalement à une région textuelle (un passage, un paragraphe, une page) où il est du ressort de l’utilisateur de localiser l’endroit pertinent.
En outre, dans l’extraction des mots et termes du document, l’identification de ceux-ci se fait normalement sur la base de la chaîne
+
En outre, dans l’extraction des mots et termes du document, l’identification de ceux-ci se fait normalement sur la base de la chaîne alphabétique, et non sur la base du sens du mot. Les ambiguïtés dues à la polysémie et à l’homographie amenuisent la performance du système.
 +
En somme, cette tâche rencontre beaucoup des problèmes déjà identifiés dans d’autres applications de traitement automatique de la langue.
  
alphabétique, et non sur la base du sens du mot. Les ambiguïtés dues à la polysémie et à l’homographie amenuisent la performance du système.
 
En somme, cette tâche rencontre beaucoup des problèmes déjà identifiés dans d’autres applications de traitement automatique de la langue.
 
  
 +
==Conclusion==
  
6 Conclusion
 
 
Pour faciliter l’accès au contenu de documents numériques, nous proposons un outil ancien, bien connu des utilisateurs et des indexeurs, l’index de livres. Cet outil serait particulièrement utile dans le cas de monographies assez importantes où la structure est peu apparente. Il offre un accès différent au texte, complémentaire à un résumé, à une fonction de recherche ou à une table des matières.
 
Pour faciliter l’accès au contenu de documents numériques, nous proposons un outil ancien, bien connu des utilisateurs et des indexeurs, l’index de livres. Cet outil serait particulièrement utile dans le cas de monographies assez importantes où la structure est peu apparente. Il offre un accès différent au texte, complémentaire à un résumé, à une fonction de recherche ou à une table des matières.
 
Nous avons proposé une implémentation qui tient compte, dans certains de ses aspects du moins, de la méthodologie des indexeurs humains et des propriétés attendues d’un index de qualité. Bien qu’une évaluation objective reste à faire, l’approche générale nous semble suffisamment motivée pour constituer un chantier de recherche intéressant.
 
Nous avons proposé une implémentation qui tient compte, dans certains de ses aspects du moins, de la méthodologie des indexeurs humains et des propriétés attendues d’un index de qualité. Bien qu’une évaluation objective reste à faire, l’approche générale nous semble suffisamment motivée pour constituer un chantier de recherche intéressant.
Ligne 152 : Ligne 153 :
  
  
7 Références bibliographiques
+
==Références bibliographiques==
 +
 
 
[1] N. Abdullah et F. Gibb. Students Attitudes towards e-Books in a Scottish Higher Education Institute: Part 3 -- Search and Browse Tasks. Library Review, 58(1), 2009,  17-27.
 
[1] N. Abdullah et F. Gibb. Students Attitudes towards e-Books in a Scottish Higher Education Institute: Part 3 -- Search and Browse Tasks. Library Review, 58(1), 2009,  17-27.
 
[2] S. Artandi. Book indexing by computer. S.S.  Artandi, New Brunswick, N.J. 1963.
 
[2] S. Artandi. Book indexing by computer. S.S.  Artandi, New Brunswick, N.J. 1963.

Version du 7 juillet 2016 à 15:57

Outil de butinage du contenu des documents de collections numériques


 
 

 
titre
Outil de butinage du contenu des documents de collections numériques
auteurs
Lyne Da Sylva.
Affiliations
École de bibliothéconomie et des sciences de l’information, Université de Montréal.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Da Sylva.pdf
Mots-clés 
Indexation, collections numériques, index de livre, indexation automatique, accès à l’information, accès au contenu, aide à la lecture.
Keywords
Indexing, digital collections, back-of-the-book index, automatic indexing, access to information, access to contents, reading aid.
Résumé
Cette recherche se veut une contribution à la recherche d’information dans les documents numériques, non pas pour le repérage de documents mais pour l’aide à la lecture et donc l’évaluation de la pertinence de documents repérés. L’introduction d’un outil de butinage est proposée pour accéder au contenu de documents des bibliothèques numériques, soit l’index de livre traditionnel. Celui-ci présente plusieurs avantages en tant qu’outil de navigation, bien que sa création automatique pose quelques difficultés. L’implémentation d’un outil de ce type est esquissée dans ses grandes lignes.