CIDE (2009) Da Sylva : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Implémentation)
imported>Jacques Ducloy
(Quelques défis)
Ligne 146 : Ligne 146 :
  
 
On peut objecter qu’un index créé automatiquement doit offrir plus que simplement l’extraction des mots et expressions dans le texte, sinon il est d’une utilité limitée. Cependant, deux propriétés d’un index, même produit par pure extraction de termes du document, en justifie la création. D’abord, il offre un inventaire des concepts présents dans le document, explicitant du fait même la couverture conceptuelle aussi bien que lexicale ; c’est en quelque sorte une « photographie conceptuelle » de celui-ci. Et il indique également des relations entre les concepts (exprimées dans les entrées structurées en vedette principale et sous- vedettes). Ensuite, il restreint l’apparition des expressions à celles qui sont le plus importantes, alors qu’une fonction de recherche repérera chacune des occurrences.
 
On peut objecter qu’un index créé automatiquement doit offrir plus que simplement l’extraction des mots et expressions dans le texte, sinon il est d’une utilité limitée. Cependant, deux propriétés d’un index, même produit par pure extraction de termes du document, en justifie la création. D’abord, il offre un inventaire des concepts présents dans le document, explicitant du fait même la couverture conceptuelle aussi bien que lexicale ; c’est en quelque sorte une « photographie conceptuelle » de celui-ci. Et il indique également des relations entre les concepts (exprimées dans les entrées structurées en vedette principale et sous- vedettes). Ensuite, il restreint l’apparition des expressions à celles qui sont le plus importantes, alors qu’une fonction de recherche repérera chacune des occurrences.
 +
 
Mais il est clair qu’il est préférable d’inclure dans l’index des expressions que l’on ne peut pas trouver directement dans le texte : par exemple, des synonymes ou des hyperonymes de termes du document. Si le document parle de « vélo », on voudrait trouver à l’index un renvoi « bicyclette, voir vélo » même si ce deuxième terme n’apparaît pas dans le texte. Également, un ouvrage qui parlerait de différents types de rongeurs, mais toujours dénotés par leur race spécifique (« souris », « rat », « écureuil », etc.), gagnerait à avoir une entrée « rongeurs » qui regrouperait chaque type. La difficulté réside alors à trouver des ressources lexicales externes au document qui contiennent ces informations. Nazarenko et Aït El- Mekki (2005) bénéficient d’une bonne solution à ce problème, ayant accès à une large base lexicale qui contient, pour chaque terme, des variantes aussi bien que des hyperonymes ou hyponymes. Un thésaurus général (disponible en format numérique) comme WordNet peut souvent fournir l’information nécessaire. En l’absence de ceci (par exemple, pour des langues pour lesquelles ces ressources n’existent pas), on doit imaginer d’autres stratégies. Comme par exemple l’analyse de grands corpus afin d’en extraire des généralisations pertinentes, parmi lesquelles pourront se trouver les relations qui nous intéresse (comme dans Ruiz- Casado, 2007, ou Hearst, 1992, par exemple). En plus, un thésaurus thématique serait avantageux : il contiendrait des connaissances disciplinaires spécialisées qui échappent aux thésaurus généraux.
 
Mais il est clair qu’il est préférable d’inclure dans l’index des expressions que l’on ne peut pas trouver directement dans le texte : par exemple, des synonymes ou des hyperonymes de termes du document. Si le document parle de « vélo », on voudrait trouver à l’index un renvoi « bicyclette, voir vélo » même si ce deuxième terme n’apparaît pas dans le texte. Également, un ouvrage qui parlerait de différents types de rongeurs, mais toujours dénotés par leur race spécifique (« souris », « rat », « écureuil », etc.), gagnerait à avoir une entrée « rongeurs » qui regrouperait chaque type. La difficulté réside alors à trouver des ressources lexicales externes au document qui contiennent ces informations. Nazarenko et Aït El- Mekki (2005) bénéficient d’une bonne solution à ce problème, ayant accès à une large base lexicale qui contient, pour chaque terme, des variantes aussi bien que des hyperonymes ou hyponymes. Un thésaurus général (disponible en format numérique) comme WordNet peut souvent fournir l’information nécessaire. En l’absence de ceci (par exemple, pour des langues pour lesquelles ces ressources n’existent pas), on doit imaginer d’autres stratégies. Comme par exemple l’analyse de grands corpus afin d’en extraire des généralisations pertinentes, parmi lesquelles pourront se trouver les relations qui nous intéresse (comme dans Ruiz- Casado, 2007, ou Hearst, 1992, par exemple). En plus, un thésaurus thématique serait avantageux : il contiendrait des connaissances disciplinaires spécialisées qui échappent aux thésaurus généraux.
 +
 
On peut préférer une fonction de recherche en ce qu’elle nous amène directement à l’endroit dans le texte où l’objet de notre recherche apparaît. En contraste, l’entrée d’index nous amène normalement à une région textuelle (un passage, un paragraphe, une page) où il est du ressort de l’utilisateur de localiser l’endroit pertinent.
 
On peut préférer une fonction de recherche en ce qu’elle nous amène directement à l’endroit dans le texte où l’objet de notre recherche apparaît. En contraste, l’entrée d’index nous amène normalement à une région textuelle (un passage, un paragraphe, une page) où il est du ressort de l’utilisateur de localiser l’endroit pertinent.
 +
 
En outre, dans l’extraction des mots et termes du document, l’identification de ceux-ci se fait normalement sur la base de la chaîne alphabétique, et non sur la base du sens du mot. Les ambiguïtés dues à la polysémie et à l’homographie amenuisent la performance du système.
 
En outre, dans l’extraction des mots et termes du document, l’identification de ceux-ci se fait normalement sur la base de la chaîne alphabétique, et non sur la base du sens du mot. Les ambiguïtés dues à la polysémie et à l’homographie amenuisent la performance du système.
 
En somme, cette tâche rencontre beaucoup des problèmes déjà identifiés dans d’autres applications de traitement automatique de la langue.
 
En somme, cette tâche rencontre beaucoup des problèmes déjà identifiés dans d’autres applications de traitement automatique de la langue.
 
  
 
==Conclusion==
 
==Conclusion==

Version du 24 août 2016 à 09:59

Outil de butinage du contenu des documents de collections numériques


 
 

 
titre
Outil de butinage du contenu des documents de collections numériques
auteurs
Lyne Da Sylva.
Affiliations
École de bibliothéconomie et des sciences de l’information, Université de Montréal.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Da Sylva.pdf
Mots-clés 
Indexation, collections numériques, index de livre, indexation automatique, accès à l’information, accès au contenu, aide à la lecture.
Keywords
Indexing, digital collections, back-of-the-book index, automatic indexing, access to information, access to contents, reading aid.
Résumé
Cette recherche se veut une contribution à la recherche d’information dans les documents numériques, non pas pour le repérage de documents mais pour l’aide à la lecture et donc l’évaluation de la pertinence de documents repérés. L’introduction d’un outil de butinage est proposée pour accéder au contenu de documents des bibliothèques numériques, soit l’index de livre traditionnel. Celui-ci présente plusieurs avantages en tant qu’outil de navigation, bien que sa création automatique pose quelques difficultés. L’implémentation d’un outil de ce type est esquissée dans ses grandes lignes.