CIDE (2009) Da Sylva : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Implémentation)
imported>Jacques Ducloy
(Notes)
 
(8 révisions intermédiaires par le même utilisateur non affichées)
Ligne 146 : Ligne 146 :
  
 
On peut objecter qu’un index créé automatiquement doit offrir plus que simplement l’extraction des mots et expressions dans le texte, sinon il est d’une utilité limitée. Cependant, deux propriétés d’un index, même produit par pure extraction de termes du document, en justifie la création. D’abord, il offre un inventaire des concepts présents dans le document, explicitant du fait même la couverture conceptuelle aussi bien que lexicale ; c’est en quelque sorte une « photographie conceptuelle » de celui-ci. Et il indique également des relations entre les concepts (exprimées dans les entrées structurées en vedette principale et sous- vedettes). Ensuite, il restreint l’apparition des expressions à celles qui sont le plus importantes, alors qu’une fonction de recherche repérera chacune des occurrences.
 
On peut objecter qu’un index créé automatiquement doit offrir plus que simplement l’extraction des mots et expressions dans le texte, sinon il est d’une utilité limitée. Cependant, deux propriétés d’un index, même produit par pure extraction de termes du document, en justifie la création. D’abord, il offre un inventaire des concepts présents dans le document, explicitant du fait même la couverture conceptuelle aussi bien que lexicale ; c’est en quelque sorte une « photographie conceptuelle » de celui-ci. Et il indique également des relations entre les concepts (exprimées dans les entrées structurées en vedette principale et sous- vedettes). Ensuite, il restreint l’apparition des expressions à celles qui sont le plus importantes, alors qu’une fonction de recherche repérera chacune des occurrences.
 +
 
Mais il est clair qu’il est préférable d’inclure dans l’index des expressions que l’on ne peut pas trouver directement dans le texte : par exemple, des synonymes ou des hyperonymes de termes du document. Si le document parle de « vélo », on voudrait trouver à l’index un renvoi « bicyclette, voir vélo » même si ce deuxième terme n’apparaît pas dans le texte. Également, un ouvrage qui parlerait de différents types de rongeurs, mais toujours dénotés par leur race spécifique (« souris », « rat », « écureuil », etc.), gagnerait à avoir une entrée « rongeurs » qui regrouperait chaque type. La difficulté réside alors à trouver des ressources lexicales externes au document qui contiennent ces informations. Nazarenko et Aït El- Mekki (2005) bénéficient d’une bonne solution à ce problème, ayant accès à une large base lexicale qui contient, pour chaque terme, des variantes aussi bien que des hyperonymes ou hyponymes. Un thésaurus général (disponible en format numérique) comme WordNet peut souvent fournir l’information nécessaire. En l’absence de ceci (par exemple, pour des langues pour lesquelles ces ressources n’existent pas), on doit imaginer d’autres stratégies. Comme par exemple l’analyse de grands corpus afin d’en extraire des généralisations pertinentes, parmi lesquelles pourront se trouver les relations qui nous intéresse (comme dans Ruiz- Casado, 2007, ou Hearst, 1992, par exemple). En plus, un thésaurus thématique serait avantageux : il contiendrait des connaissances disciplinaires spécialisées qui échappent aux thésaurus généraux.
 
Mais il est clair qu’il est préférable d’inclure dans l’index des expressions que l’on ne peut pas trouver directement dans le texte : par exemple, des synonymes ou des hyperonymes de termes du document. Si le document parle de « vélo », on voudrait trouver à l’index un renvoi « bicyclette, voir vélo » même si ce deuxième terme n’apparaît pas dans le texte. Également, un ouvrage qui parlerait de différents types de rongeurs, mais toujours dénotés par leur race spécifique (« souris », « rat », « écureuil », etc.), gagnerait à avoir une entrée « rongeurs » qui regrouperait chaque type. La difficulté réside alors à trouver des ressources lexicales externes au document qui contiennent ces informations. Nazarenko et Aït El- Mekki (2005) bénéficient d’une bonne solution à ce problème, ayant accès à une large base lexicale qui contient, pour chaque terme, des variantes aussi bien que des hyperonymes ou hyponymes. Un thésaurus général (disponible en format numérique) comme WordNet peut souvent fournir l’information nécessaire. En l’absence de ceci (par exemple, pour des langues pour lesquelles ces ressources n’existent pas), on doit imaginer d’autres stratégies. Comme par exemple l’analyse de grands corpus afin d’en extraire des généralisations pertinentes, parmi lesquelles pourront se trouver les relations qui nous intéresse (comme dans Ruiz- Casado, 2007, ou Hearst, 1992, par exemple). En plus, un thésaurus thématique serait avantageux : il contiendrait des connaissances disciplinaires spécialisées qui échappent aux thésaurus généraux.
 +
 
On peut préférer une fonction de recherche en ce qu’elle nous amène directement à l’endroit dans le texte où l’objet de notre recherche apparaît. En contraste, l’entrée d’index nous amène normalement à une région textuelle (un passage, un paragraphe, une page) où il est du ressort de l’utilisateur de localiser l’endroit pertinent.
 
On peut préférer une fonction de recherche en ce qu’elle nous amène directement à l’endroit dans le texte où l’objet de notre recherche apparaît. En contraste, l’entrée d’index nous amène normalement à une région textuelle (un passage, un paragraphe, une page) où il est du ressort de l’utilisateur de localiser l’endroit pertinent.
 +
 
En outre, dans l’extraction des mots et termes du document, l’identification de ceux-ci se fait normalement sur la base de la chaîne alphabétique, et non sur la base du sens du mot. Les ambiguïtés dues à la polysémie et à l’homographie amenuisent la performance du système.
 
En outre, dans l’extraction des mots et termes du document, l’identification de ceux-ci se fait normalement sur la base de la chaîne alphabétique, et non sur la base du sens du mot. Les ambiguïtés dues à la polysémie et à l’homographie amenuisent la performance du système.
 
En somme, cette tâche rencontre beaucoup des problèmes déjà identifiés dans d’autres applications de traitement automatique de la langue.
 
En somme, cette tâche rencontre beaucoup des problèmes déjà identifiés dans d’autres applications de traitement automatique de la langue.
 
  
 
==Conclusion==
 
==Conclusion==
  
 
Pour faciliter l’accès au contenu de documents numériques, nous proposons un outil ancien, bien connu des utilisateurs et des indexeurs, l’index de livres. Cet outil serait particulièrement utile dans le cas de monographies assez importantes où la structure est peu apparente. Il offre un accès différent au texte, complémentaire à un résumé, à une fonction de recherche ou à une table des matières.
 
Pour faciliter l’accès au contenu de documents numériques, nous proposons un outil ancien, bien connu des utilisateurs et des indexeurs, l’index de livres. Cet outil serait particulièrement utile dans le cas de monographies assez importantes où la structure est peu apparente. Il offre un accès différent au texte, complémentaire à un résumé, à une fonction de recherche ou à une table des matières.
 +
 
Nous avons proposé une implémentation qui tient compte, dans certains de ses aspects du moins, de la méthodologie des indexeurs humains et des propriétés attendues d’un index de qualité. Bien qu’une évaluation objective reste à faire, l’approche générale nous semble suffisamment motivée pour constituer un chantier de recherche intéressant.
 
Nous avons proposé une implémentation qui tient compte, dans certains de ses aspects du moins, de la méthodologie des indexeurs humains et des propriétés attendues d’un index de qualité. Bien qu’une évaluation objective reste à faire, l’approche générale nous semble suffisamment motivée pour constituer un chantier de recherche intéressant.
 +
 
Plusieurs pistes de recherche restent à explorer. Parmi celles-ci : l’ajout de ressources lexicales externes (comme un thésaurus général de la  langue ou un thésaurus particulier au domaine de la monographie) ; l’évaluation par des utilisateurs et par des indexeurs professionnels ; la construction de différentes présentations de la structure conceptuelle définie par l’index, y compris des représentations en ontologies ou Topic Maps ; et le raffinement des types d’expressions qui constituent les  entrées proposées pour l’index.
 
Plusieurs pistes de recherche restent à explorer. Parmi celles-ci : l’ajout de ressources lexicales externes (comme un thésaurus général de la  langue ou un thésaurus particulier au domaine de la monographie) ; l’évaluation par des utilisateurs et par des indexeurs professionnels ; la construction de différentes présentations de la structure conceptuelle définie par l’index, y compris des représentations en ontologies ou Topic Maps ; et le raffinement des types d’expressions qui constituent les  entrées proposées pour l’index.
 
  
 
==Références bibliographiques==
 
==Références bibliographiques==
  
[1] N. Abdullah et F. Gibb. Students Attitudes towards e-Books in a Scottish Higher Education Institute: Part 3 -- Search and Browse Tasks. Library Review, 58(1), 2009,  17-27.
+
{{CIDE biblio
[2] S. Artandi. Book indexing by computer. S.S.  Artandi, New Brunswick, N.J. 1963.
+
  |id=1
[3]     M Baca. Practical issues in applying metadata schemas  and
+
  |texte= N. Abdullah et F. Gibb. Students Attitudes towards e-Books in a Scottish Higher Education Institute: Part 3 -- Search and Browse Tasks. Library Review, 58(1), 2009,  17-27.
 +
}}
 +
{{CIDE biblio
 +
  |id=2
 +
  |texte=S. Artandi. Book indexing by computer. S.S.  Artandi, New Brunswick, N.J. 1963.
 +
}}
 +
{{CIDE biblio
 +
  |id=3
 +
  |texte=     M Baca. Practical issues in applying metadata schemas  and
 
controlled vocabularies to cultural heritage information. Cataloging & Classification Quarterly, 36(3/4), 2003,  47-55.
 
controlled vocabularies to cultural heritage information. Cataloging & Classification Quarterly, 36(3/4), 2003,  47-55.
 
+
}}
[4] P. J. Brown. Linking and searching within  hypertext. Electronic Publishing, 1(1), 1988, 45-53.
+
{{CIDE biblio
 
+
  |id=4
[5] J. Charlet, T. Aït el Mekki, D. Bourigault, A. Nazarenko,  R. Teulier et B. Toledano. CEDERILIC : constitution d’un livre et d’un index numériques. In : Actes du Colloque International sur le Document Electronique (CIDE), 2004.
+
  |texte=P. J. Brown. Linking and searching within  hypertext. Electronic Publishing, 1(1), 1988, 45-53.
 
+
}}
[6] W. Dakka, G. P. G. Ipeirotis et K.R. Wood.  Automatic construction of multifaceted browsinginterfaces. In CIKM, 2005,  768-775.
+
{{CIDE biblio
 
+
  |id=5
[7] L. Da Sylva. Experiments in Proportional and Variable  Automatic
+
  |texte=J. Charlet, T. Aït el Mekki, D. Bourigault, A. Nazarenko,  R. Teulier et B. Toledano. [[A pour article cité::CIDE (2004) Charlet|CEDERILIC : constitution d’un livre et d’un index numériques]]. In : Actes du Colloque International sur le Document Electronique (CIDE), 2004.
 +
}}
 +
{{CIDE biblio
 +
  |id=6
 +
  |texte=W. Dakka, G. P. G. Ipeirotis et K.R. Wood.  Automatic construction of multifaceted browsinginterfaces. In CIKM, 2005,  768-775.
 +
}}
 +
{{CIDE biblio
 +
  |id=7
 +
  |texte=L. Da Sylva. Experiments in Proportional and Variable  Automatic
 
Text Segmentation (poster). 19th Conference of the Canadian Society for Computational Studies of Intelligence (AI’06). 2006, Université Laval, Québec.
 
Text Segmentation (poster). 19th Conference of the Canadian Society for Computational Studies of Intelligence (AI’06). 2006, Université Laval, Québec.
 
+
}}
[8] L. Da Sylva et F. Doll. A Document Browsing Tool:  Using Lexical Classes to Convey Information. In G. Lapalme et B. Kégl. Advances in Artificial Intelligence: 18th Conference of the Canadian  Society
+
{{CIDE biblio
 +
  |id=8
 +
  |texte=L. Da Sylva et F. Doll. A Document Browsing Tool:  Using Lexical Classes to Convey Information. In G. Lapalme et B. Kégl. Advances in Artificial Intelligence: 18th Conference of the Canadian  Society
 
for Computational Studies of Intelligence, Canadian AI 2005 (Proceedings), New York : Springer-Verlag, 2005,  307-318.
 
for Computational Studies of Intelligence, Canadian AI 2005 (Proceedings), New York : Springer-Verlag, 2005,  307-318.
 
+
}}
[9] L. Da Sylva. Relations sémantiques pour l’indexation  automatique.
+
{{CIDE biblio
 +
  |id=9
 +
  |texte=L. Da Sylva. Relations sémantiques pour l’indexation  automatique.
 
Définition d'objectifs pour la détection automatique. Document numérique, 8, 3 (2004),  135-155.
 
Définition d'objectifs pour la détection automatique. Document numérique, 8, 3 (2004),  135-155.
 
+
}}
[10] L. Davis. Designing a search user interface for a digital  library.
+
{{CIDE biblio
 +
  |id=10
 +
  |texte=L. Davis. Designing a search user interface for a digital  library.
 
Journal of the American Society for Information Science and Technology, 57(6), 2006, 788-791.
 
Journal of the American Society for Information Science and Technology, 57(6), 2006, 788-791.
 
+
}}
[11] L. L. Earl. Experiments in automatic extraction and  indexing.
+
{{CIDE biblio
 +
  |id=11
 +
  |texte=L. L. Earl. Experiments in automatic extraction and  indexing.
 
Information Storage and Retrieval, 6, 1970,  313-334.
 
Information Storage and Retrieval, 6, 1970,  313-334.
 
+
}}
[12] O. Ertzscheid. Comportements de navigation et  documents
+
{{CIDE biblio
électroniques : propositions d'invariants. In : C. Faure, J. Madelaine (réds), Document électronique Dynamique. Actes du  sixième
+
  |id=12
 +
  |texte=O. Ertzscheid. Comportements de navigation et  documents électroniques : propositions d'invariants. In : C. Faure, J. Madelaine (réds), Document électronique Dynamique. Actes du  sixième
 
colloque international sur le document électronique : CIDE.6, Europia Productions, Paris, 2003.
 
colloque international sur le document électronique : CIDE.6, Europia Productions, Paris, 2003.
 +
}}
  
 
{{CIDE biblio
 
{{CIDE biblio
Ligne 200 : Ligne 229 :
 
   |auteur=Marti A. Hearst{{!}}M. Hearst
 
   |auteur=Marti A. Hearst{{!}}M. Hearst
 
   |texte= "TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages" Computational Linguistics, 23:1, (1997) pp. 33-64.}}
 
   |texte= "TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages" Computational Linguistics, 23:1, (1997) pp. 33-64.}}
[15] M. Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora. In Proceedings of the 14th International Conference on Computational Linguistics, 1992,  539-545.
+
{{CIDE biblio
[16] N. Hernandez et B. Grau. What is this text about?  Combining topic and meta descriptors for text structure presentation. In  Proceedings
+
  |id=15
 +
  |auteur=Marti A. Hearst{{!}}M. Hearst
 +
  |texte= Automatic Acquisition of Hyponyms from Large Text Corpora. In Proceedings of the 14th International Conference on Computational Linguistics, 1992,  539-545.
 +
}}
 +
{{CIDE biblio
 +
  |id=16
 +
  |auteur=Nicolas Hernandez{{!}}N. Hernandez
 +
  |auteur 2=Brigitte Grau{{!}}B. Grau
 +
  |texte= What is this text about?  Combining topic and meta descriptors for text structure presentation. In  Proceedings
 
of the 21st annual international conference on Documentation (ACM SIGDOC), San Francisco, 12-15 Oct. 2003,  117-24.
 
of the 21st annual international conference on Documentation (ACM SIGDOC), San Francisco, 12-15 Oct. 2003,  117-24.
[17] A. Nazarenko et T. Aït El Mekki.  Building back-of-the-book indexes. Terminology, Special issue on Application-driven Terminology engineering, 11(11), 2005, 199-224.
+
}}
 +
{{CIDE biblio
 +
  |id=17
 +
  |texte=A. Nazarenko et T. Aït El Mekki.  Building back-of-the-book indexes. Terminology, Special issue on Application-driven Terminology engineering, 11(11), 2005, 199-224.
  
[18] N. Hernandez et B. Grau. What is this text about?  Combining topic and meta descriptors for text structure presentation. In:  Proceedingsof the 21st annual international conference on Documentation (ACM SIGDOC), San Francisco, 12-15 Oct. (2003),  117-124.
+
}}
 +
{{CIDE biblio
 +
  |id=18
 +
  |texte=N. Hernandez et B. Grau. What is this text about?  Combining topic and meta descriptors for text structure presentation. In:  Proceedingsof the 21st annual international conference on Documentation (ACM SIGDOC), San Francisco, 12-15 Oct. (2003),  117-124.
  
[19] M. Ruiz-Casado, E. Alfonseca et P. Castells.  Automatising the learning of lexical patterns: An application to the enrichment  of
+
}}
 +
{{CIDE biblio
 +
  |id=19
 +
  |texte=M. Ruiz-Casado, E. Alfonseca et P. Castells.  Automatising the learning of lexical patterns: An application to the enrichment  of
 
WordNet by extracting semantic relationships from Wikipedia. Data & Knowledge Engineering, 61(3), 484-99,  2007.
 
WordNet by extracting semantic relationships from Wikipedia. Data & Knowledge Engineering, 61(3), 484-99,  2007.
[20] Vandendorpe, C. Du papyrus à l’hypertexte: essai sur  les mutations du texte et de la lecture, Boréal, Montréal,  1999.
+
}}
[21] Y. Yaari et R. Gan. NLP-assisted exploration of texts. In  In
+
{{CIDE biblio
 +
  |id=20
 +
  |texte=Vandendorpe, C. Du papyrus à l’hypertexte: essai sur  les mutations du texte et de la lecture, Boréal, Montréal,  1999.
 +
}}
 +
{{CIDE biblio
 +
  |id=21
 +
  |texte=Y. Yaari et R. Gan. NLP-assisted exploration of texts. In  In
 
Proceedings RIAO'2000 Content-Based Multimedia Information Access, Paris, 2000, 2000.
 
Proceedings RIAO'2000 Content-Based Multimedia Information Access, Paris, 2000, 2000.
 +
}}
  
 
==Notes==
 
==Notes==
Ligne 218 : Ligne 271 :
 
{{CIDE fin corps}}
 
{{CIDE fin corps}}
  
 +
==Voir aussi==
 +
{{Wicri voir aussi, article}}
  
 
{{Clr}}
 
{{Clr}}

Version actuelle datée du 24 août 2016 à 10:17

Outil de butinage du contenu des documents de collections numériques


 
 

 
titre
Outil de butinage du contenu des documents de collections numériques
auteurs
Lyne Da Sylva.
Affiliations
École de bibliothéconomie et des sciences de l’information, Université de Montréal.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Da Sylva.pdf
Mots-clés 
Indexation, collections numériques, index de livre, indexation automatique, accès à l’information, accès au contenu, aide à la lecture.
Keywords
Indexing, digital collections, back-of-the-book index, automatic indexing, access to information, access to contents, reading aid.
Résumé
Cette recherche se veut une contribution à la recherche d’information dans les documents numériques, non pas pour le repérage de documents mais pour l’aide à la lecture et donc l’évaluation de la pertinence de documents repérés. L’introduction d’un outil de butinage est proposée pour accéder au contenu de documents des bibliothèques numériques, soit l’index de livre traditionnel. Celui-ci présente plusieurs avantages en tant qu’outil de navigation, bien que sa création automatique pose quelques difficultés. L’implémentation d’un outil de ce type est esquissée dans ses grandes lignes.