CIDE (2009) Da Sylva : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
imported>Jacques Ducloy
(Notes)
 
(25 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 53 : Ligne 53 :
  
 
Un index de livre se présente comme une liste alphabétique d’entrées, chacune structurée en vedette principale et éventuellement de sous- vedettes, menant à une référence de page, par exemple :
 
Un index de livre se présente comme une liste alphabétique d’entrées, chacune structurée en vedette principale et éventuellement de sous- vedettes, menant à une référence de page, par exemple :
Température, 186-189 (Fenwick, 1997)
+
<code>
du bain, 138, 141, 227
+
:'''Température''', 186-189 &nbsp; &nbsp; &nbsp; &nbsp;  &nbsp; &nbsp;  &nbsp; &nbsp; </code>({{CIDE lien citation|13|Fenwick, 1997}})<code>
de la chambre, 118, 121, 178
+
:du bain, 138, 141, 227
fièvre, 180, 184, 186-188, 187
+
:de la chambre, 118, 121, 178
pendant la grossesse, 38 prise de la, 187 urgence, 38, 174
+
:fièvre, 180, 184, 186-188, 187
voir aussi Thermomètre
+
:pendant la grossesse, 38  
 
+
:prise de la, 187  
Chaque entrée représente un thème abordé dans le document ; les sous- vedettes le subdivisent en aspects secondaires, termes spécifiques, etc. Certaines entrées sont simples, constituées uniquement d’une vedette principale. La taille de l’index détermine sa couverture thématique par rapport au contenu global du document. Des renvois de type voir aussi
+
:urgence, 38, 174
 +
:voir aussi Thermomètre
 +
</code>
 +
Chaque entrée représente un thème abordé dans le document ; les sous-vedettes le subdivisent en aspects secondaires, termes spécifiques, etc. Certaines entrées sont simples, constituées uniquement d’une vedette principale. La taille de l’index détermine sa couverture thématique par rapport au contenu global du document. Des renvois de type voir aussi
  
 
entre les entrées permettent d’établir des liens qui auraient pu échapper à l’utilisateur alors que les renvois de type voir (non illustré ici) mènent à des vedettes synonymes. Ce type d’outil est très familier aux utilisateurs de documents papier et il possède des caractéristiques différentes  de celles offertes par les autres outils d’accès.
 
entre les entrées permettent d’établir des liens qui auraient pu échapper à l’utilisateur alors que les renvois de type voir (non illustré ici) mènent à des vedettes synonymes. Ce type d’outil est très familier aux utilisateurs de documents papier et il possède des caractéristiques différentes  de celles offertes par les autres outils d’accès.
Ligne 112 : Ligne 115 :
 
Notre prototype d’indexation (Da Sylva et Doll, 2005) fonctionne de la manière suivante :
 
Notre prototype d’indexation (Da Sylva et Doll, 2005) fonctionne de la manière suivante :
  
# Segmentation du texte en segments thématiques. La  méthodologie utilisée s’inspire de l’approche de Hearst (1997) et repose sur l’analyse de la cohésion lexicale : une coupure thématique est postulée entre deux segments quand le score calculé à partir d’indicateurs lexicaux (mots répétés, absence d’anaphores, etc.) chute. Nous avons modifié l’algorithme pour assurer la relative uniformité des segments. Cette segmentation sert à définir les passages auxquels les entrées d’index font référence.
+
# Segmentation du texte en segments thématiques. La  méthodologie utilisée s’inspire de l’approche de {{CIDE lien citation|14|Hearst (1997)}} et repose sur l’analyse de la cohésion lexicale : une coupure thématique est postulée entre deux segments quand le score calculé à partir d’indicateurs lexicaux (mots répétés, absence d’anaphores, etc.) chute. Nous avons modifié l’algorithme pour assurer la relative uniformité des segments. Cette segmentation sert à définir les passages auxquels les entrées d’index font référence.
2. Extraction des mots (et des suites de plusieurs mots, appelés multitermes) après lemmatisation et comptage des fréquences. Sur la base de la fréquence des mots (à l’intérieur des segments comme dans le document dans son ensemble), on déterminera la saillance d’un sujet dans un segment donné.
+
#Extraction des mots (et des suites de plusieurs mots, appelés multitermes) après lemmatisation et comptage des fréquences. Sur la base de la fréquence des mots (à l’intérieur des segments comme dans le document dans son ensemble), on déterminera la saillance d’un sujet dans un segment donné.
 +
#Identification, dans le texte, de paires de mots ou de multitermes qui pourront former des couples vedette principale/sous-vedette. Ces paires doivent relever de types précis, identifiés dans l’étude préalable (Da Sylva, 2004). Cette méthode permet de produire  des entrées structurées comme celle donnée en exemple au début de cet article.
 +
#Pour chacun des éléments de la liste de candidats-termes (que sont les mots, termes et paires identifiés dans les étapes 2. et 3.), calcul d’un poids; pour chaque segment, on ne retiendra dans l’index que les candidats-termes dont les poids sont les plus élevés (au-delà d’un certain seuil).
 +
# Sélection des candidats-termes les plus saillants, regroupement sur la base des vedettes principales partagées et mise en ordre alphabétique.
 +
Charlet et al. (2004) et Nazarenko et Aït El-Mekki (2005) présentent un outil très similaire à celui que nous avons développé de manière indépendante. L’introduction, dans le processus de construction de l’index, d’un auteur humain leur permet de contourner plusieurs problèmes liés à la limite de l’analyse automatique de la langue.
  
3. Identification, dans le texte, de paires de mots ou de multitermes qui pourront former des couples vedette principale/sous-vedette. Ces paires doivent relever de types précis, identifiés dans l’étude préalable (Da Sylva, 2004). Cette méthode permet de produire  des entrées structurées comme celle donnée en exemple au début de cet article.
 
4. Pour chacun des éléments de la liste de candidats-termes (que sont les mots, termes et paires identifiés dans les étapes 2. et 3.), calcul d’un poids; pour chaque segment, on ne retiendra dans l’index que les candidats-termes dont les poids sont les plus élevés (au-delà d’un certain seuil).
 
5. Sélection des candidats-termes les plus saillants, regroupement sur la base des vedettes principales partagées et mise en ordre alphabétique.
 
Charlet et al. (2004) et Nazarenko et Aït El-Mekki (2005) présentent un outil très similaire à celui que nous avons développé de manière indépendante. L’introduction, dans le processus de construction de l’index, d’un auteur humain leur permet de contourner plusieurs problèmes liés à la limite de l’analyse automatique de la langue.
 
 
Notre originalité tient au traitement que nous accordons aux différents types de liens sémantiques qui peuvent tenir entre une vedette principale et une vedette secondaire. La figure 2 présente des exemples d’entrées d’index produites par notre prototype. Certaines entrées sont des mots simples, d’autres des multitermes, d’autres encore des paires de termes. Les numéros font référence aux segments obtenus par la segmentation automatique. Même dans ce court extrait, on voit que les concepts sont reliés dans l’index même quand ils sont disséminés dans le document.
 
Notre originalité tient au traitement que nous accordons aux différents types de liens sémantiques qui peuvent tenir entre une vedette principale et une vedette secondaire. La figure 2 présente des exemples d’entrées d’index produites par notre prototype. Certaines entrées sont des mots simples, d’autres des multitermes, d’autres encore des paires de termes. Les numéros font référence aux segments obtenus par la segmentation automatique. Même dans ce court extrait, on voit que les concepts sont reliés dans l’index même quand ils sont disséminés dans le document.
 
+
<small>
 
+
{{Début 2 colonnes}}
 
béton
 
béton
 +
:béton armé, 5
 +
::limite, 5
 +
:dalles de béton ordinaire coulées, 4
 +
:renforcement du béton avec des fibres d'acier, 5
 +
::béton armé, 5
 +
:utilisation du béton précontraint, 4
 +
::béton ordinaire, 4
 +
{{Saut 2 colonnes}}
 +
cheveu, 10<br/>
 +
fibre, 9
 +
:fibres de noix de coco, 9
 +
:fines fibres, 3
 +
renforcement du béton avec des fibres d'acier, 5 <br/>
 
béton armé, 5
 
béton armé, 5
limite, 5
+
{{Fin 2 colonnes}}</small>
dalles de béton ordinaire coulées, 4 renforcement du béton avec des fibres
+
Notre prototype n’a pas encore fait l’objet d’une évaluation objective, sauf l’aspect segmentation de texte (Da Sylva, 2006), qui se compare favorablement à l’approche de Hearst (1997).
d'acier, 5
 
béton armé, 5
 
utilisation du béton précontraint, 4 béton ordinaire, 4
 
cheveu, 10
 
fibre, 9
 
fibres de noix de coco, 9 fines fibres, 3
 
renforcement du béton avec des fibres d'acier, 5 béton armé, 5
 
  
Notre prototype n’a pas encore fait l’objet d’une évaluation objective, sauf l’aspect segmentation de texte (Da Sylva, 2006), qui se compare favorablement à l’approche de Hearst (1997).
+
==Quelques défis==
  
5 Quelques défis
 
 
On peut objecter qu’un index créé automatiquement doit offrir plus que simplement l’extraction des mots et expressions dans le texte, sinon il est d’une utilité limitée. Cependant, deux propriétés d’un index, même produit par pure extraction de termes du document, en justifie la création. D’abord, il offre un inventaire des concepts présents dans le document, explicitant du fait même la couverture conceptuelle aussi bien que lexicale ; c’est en quelque sorte une « photographie conceptuelle » de celui-ci. Et il indique également des relations entre les concepts (exprimées dans les entrées structurées en vedette principale et sous- vedettes). Ensuite, il restreint l’apparition des expressions à celles qui sont le plus importantes, alors qu’une fonction de recherche repérera chacune des occurrences.
 
On peut objecter qu’un index créé automatiquement doit offrir plus que simplement l’extraction des mots et expressions dans le texte, sinon il est d’une utilité limitée. Cependant, deux propriétés d’un index, même produit par pure extraction de termes du document, en justifie la création. D’abord, il offre un inventaire des concepts présents dans le document, explicitant du fait même la couverture conceptuelle aussi bien que lexicale ; c’est en quelque sorte une « photographie conceptuelle » de celui-ci. Et il indique également des relations entre les concepts (exprimées dans les entrées structurées en vedette principale et sous- vedettes). Ensuite, il restreint l’apparition des expressions à celles qui sont le plus importantes, alors qu’une fonction de recherche repérera chacune des occurrences.
 +
 
Mais il est clair qu’il est préférable d’inclure dans l’index des expressions que l’on ne peut pas trouver directement dans le texte : par exemple, des synonymes ou des hyperonymes de termes du document. Si le document parle de « vélo », on voudrait trouver à l’index un renvoi « bicyclette, voir vélo » même si ce deuxième terme n’apparaît pas dans le texte. Également, un ouvrage qui parlerait de différents types de rongeurs, mais toujours dénotés par leur race spécifique (« souris », « rat », « écureuil », etc.), gagnerait à avoir une entrée « rongeurs » qui regrouperait chaque type. La difficulté réside alors à trouver des ressources lexicales externes au document qui contiennent ces informations. Nazarenko et Aït El- Mekki (2005) bénéficient d’une bonne solution à ce problème, ayant accès à une large base lexicale qui contient, pour chaque terme, des variantes aussi bien que des hyperonymes ou hyponymes. Un thésaurus général (disponible en format numérique) comme WordNet peut souvent fournir l’information nécessaire. En l’absence de ceci (par exemple, pour des langues pour lesquelles ces ressources n’existent pas), on doit imaginer d’autres stratégies. Comme par exemple l’analyse de grands corpus afin d’en extraire des généralisations pertinentes, parmi lesquelles pourront se trouver les relations qui nous intéresse (comme dans Ruiz- Casado, 2007, ou Hearst, 1992, par exemple). En plus, un thésaurus thématique serait avantageux : il contiendrait des connaissances disciplinaires spécialisées qui échappent aux thésaurus généraux.
 
Mais il est clair qu’il est préférable d’inclure dans l’index des expressions que l’on ne peut pas trouver directement dans le texte : par exemple, des synonymes ou des hyperonymes de termes du document. Si le document parle de « vélo », on voudrait trouver à l’index un renvoi « bicyclette, voir vélo » même si ce deuxième terme n’apparaît pas dans le texte. Également, un ouvrage qui parlerait de différents types de rongeurs, mais toujours dénotés par leur race spécifique (« souris », « rat », « écureuil », etc.), gagnerait à avoir une entrée « rongeurs » qui regrouperait chaque type. La difficulté réside alors à trouver des ressources lexicales externes au document qui contiennent ces informations. Nazarenko et Aït El- Mekki (2005) bénéficient d’une bonne solution à ce problème, ayant accès à une large base lexicale qui contient, pour chaque terme, des variantes aussi bien que des hyperonymes ou hyponymes. Un thésaurus général (disponible en format numérique) comme WordNet peut souvent fournir l’information nécessaire. En l’absence de ceci (par exemple, pour des langues pour lesquelles ces ressources n’existent pas), on doit imaginer d’autres stratégies. Comme par exemple l’analyse de grands corpus afin d’en extraire des généralisations pertinentes, parmi lesquelles pourront se trouver les relations qui nous intéresse (comme dans Ruiz- Casado, 2007, ou Hearst, 1992, par exemple). En plus, un thésaurus thématique serait avantageux : il contiendrait des connaissances disciplinaires spécialisées qui échappent aux thésaurus généraux.
 +
 
On peut préférer une fonction de recherche en ce qu’elle nous amène directement à l’endroit dans le texte où l’objet de notre recherche apparaît. En contraste, l’entrée d’index nous amène normalement à une région textuelle (un passage, un paragraphe, une page) où il est du ressort de l’utilisateur de localiser l’endroit pertinent.
 
On peut préférer une fonction de recherche en ce qu’elle nous amène directement à l’endroit dans le texte où l’objet de notre recherche apparaît. En contraste, l’entrée d’index nous amène normalement à une région textuelle (un passage, un paragraphe, une page) où il est du ressort de l’utilisateur de localiser l’endroit pertinent.
En outre, dans l’extraction des mots et termes du document, l’identification de ceux-ci se fait normalement sur la base de la chaîne
 
  
alphabétique, et non sur la base du sens du mot. Les ambiguïtés dues à la polysémie et à l’homographie amenuisent la performance du système.
+
En outre, dans l’extraction des mots et termes du document, l’identification de ceux-ci se fait normalement sur la base de la chaîne alphabétique, et non sur la base du sens du mot. Les ambiguïtés dues à la polysémie et à l’homographie amenuisent la performance du système.
 
En somme, cette tâche rencontre beaucoup des problèmes déjà identifiés dans d’autres applications de traitement automatique de la langue.
 
En somme, cette tâche rencontre beaucoup des problèmes déjà identifiés dans d’autres applications de traitement automatique de la langue.
  
 +
==Conclusion==
  
6 Conclusion
 
 
Pour faciliter l’accès au contenu de documents numériques, nous proposons un outil ancien, bien connu des utilisateurs et des indexeurs, l’index de livres. Cet outil serait particulièrement utile dans le cas de monographies assez importantes où la structure est peu apparente. Il offre un accès différent au texte, complémentaire à un résumé, à une fonction de recherche ou à une table des matières.
 
Pour faciliter l’accès au contenu de documents numériques, nous proposons un outil ancien, bien connu des utilisateurs et des indexeurs, l’index de livres. Cet outil serait particulièrement utile dans le cas de monographies assez importantes où la structure est peu apparente. Il offre un accès différent au texte, complémentaire à un résumé, à une fonction de recherche ou à une table des matières.
 +
 
Nous avons proposé une implémentation qui tient compte, dans certains de ses aspects du moins, de la méthodologie des indexeurs humains et des propriétés attendues d’un index de qualité. Bien qu’une évaluation objective reste à faire, l’approche générale nous semble suffisamment motivée pour constituer un chantier de recherche intéressant.
 
Nous avons proposé une implémentation qui tient compte, dans certains de ses aspects du moins, de la méthodologie des indexeurs humains et des propriétés attendues d’un index de qualité. Bien qu’une évaluation objective reste à faire, l’approche générale nous semble suffisamment motivée pour constituer un chantier de recherche intéressant.
 +
 
Plusieurs pistes de recherche restent à explorer. Parmi celles-ci : l’ajout de ressources lexicales externes (comme un thésaurus général de la  langue ou un thésaurus particulier au domaine de la monographie) ; l’évaluation par des utilisateurs et par des indexeurs professionnels ; la construction de différentes présentations de la structure conceptuelle définie par l’index, y compris des représentations en ontologies ou Topic Maps ; et le raffinement des types d’expressions qui constituent les  entrées proposées pour l’index.
 
Plusieurs pistes de recherche restent à explorer. Parmi celles-ci : l’ajout de ressources lexicales externes (comme un thésaurus général de la  langue ou un thésaurus particulier au domaine de la monographie) ; l’évaluation par des utilisateurs et par des indexeurs professionnels ; la construction de différentes présentations de la structure conceptuelle définie par l’index, y compris des représentations en ontologies ou Topic Maps ; et le raffinement des types d’expressions qui constituent les  entrées proposées pour l’index.
  
 +
==Références bibliographiques==
  
7 Références bibliographiques
+
{{CIDE biblio
[1] N. Abdullah et F. Gibb. Students Attitudes towards e-Books in a Scottish Higher Education Institute: Part 3 -- Search and Browse Tasks. Library Review, 58(1), 2009,  17-27.
+
  |id=1
[2] S. Artandi. Book indexing by computer. S.S.  Artandi, New Brunswick, N.J. 1963.
+
  |texte= N. Abdullah et F. Gibb. Students Attitudes towards e-Books in a Scottish Higher Education Institute: Part 3 -- Search and Browse Tasks. Library Review, 58(1), 2009,  17-27.
[3]     M Baca. Practical issues in applying metadata schemas  and
+
}}
 +
{{CIDE biblio
 +
  |id=2
 +
  |texte=S. Artandi. Book indexing by computer. S.S.  Artandi, New Brunswick, N.J. 1963.
 +
}}
 +
{{CIDE biblio
 +
  |id=3
 +
  |texte=     M Baca. Practical issues in applying metadata schemas  and
 
controlled vocabularies to cultural heritage information. Cataloging & Classification Quarterly, 36(3/4), 2003,  47-55.
 
controlled vocabularies to cultural heritage information. Cataloging & Classification Quarterly, 36(3/4), 2003,  47-55.
[4] P. J. Brown. Linking and searching within  hypertext. Electronic Publishing, 1(1), 1988, 45-53.
+
}}
[5] J. Charlet, T. Aït el Mekki, D. Bourigault, A. Nazarenko,  R. Teulier et B. Toledano. CEDERILIC : constitution d’un livre et d’un   index
+
{{CIDE biblio
 
+
  |id=4
numériques. In : Actes du Colloque International sur le Document Electronique (CIDE), 2004.
+
  |texte=P. J. Brown. Linking and searching within  hypertext. Electronic Publishing, 1(1), 1988, 45-53.
[6] W. Dakka, G. P. G. Ipeirotis et K.R. Wood.  Automatic construction of multifaceted browsing interfaces. In CIKM, 2005,  768-775.
+
}}
[7] L. Da Sylva. Experiments in Proportional and Variable  Automatic
+
{{CIDE biblio
 +
  |id=5
 +
  |texte=J. Charlet, T. Aït el Mekki, D. Bourigault, A. Nazarenko,  R. Teulier et B. Toledano. [[A pour article cité::CIDE (2004) Charlet|CEDERILIC : constitution d’un livre et d’un index numériques]]. In : Actes du Colloque International sur le Document Electronique (CIDE), 2004.
 +
}}
 +
{{CIDE biblio
 +
  |id=6
 +
  |texte=W. Dakka, G. P. G. Ipeirotis et K.R. Wood.  Automatic construction of multifaceted browsinginterfaces. In CIKM, 2005,  768-775.
 +
}}
 +
{{CIDE biblio
 +
  |id=7
 +
  |texte=L. Da Sylva. Experiments in Proportional and Variable  Automatic
 
Text Segmentation (poster). 19th Conference of the Canadian Society for Computational Studies of Intelligence (AI’06). 2006, Université Laval, Québec.
 
Text Segmentation (poster). 19th Conference of the Canadian Society for Computational Studies of Intelligence (AI’06). 2006, Université Laval, Québec.
[8] L. Da Sylva et F. Doll. A Document Browsing Tool:  Using Lexical Classes to Convey Information. In G. Lapalme et B. Kégl. Advances in Artificial Intelligence: 18th Conference of the Canadian  Society
+
}}
 +
{{CIDE biblio
 +
  |id=8
 +
  |texte=L. Da Sylva et F. Doll. A Document Browsing Tool:  Using Lexical Classes to Convey Information. In G. Lapalme et B. Kégl. Advances in Artificial Intelligence: 18th Conference of the Canadian  Society
 
for Computational Studies of Intelligence, Canadian AI 2005 (Proceedings), New York : Springer-Verlag, 2005,  307-318.
 
for Computational Studies of Intelligence, Canadian AI 2005 (Proceedings), New York : Springer-Verlag, 2005,  307-318.
[9] L. Da Sylva. Relations sémantiques pour l’indexation  automatique.
+
}}
 +
{{CIDE biblio
 +
  |id=9
 +
  |texte=L. Da Sylva. Relations sémantiques pour l’indexation  automatique.
 
Définition d'objectifs pour la détection automatique. Document numérique, 8, 3 (2004),  135-155.
 
Définition d'objectifs pour la détection automatique. Document numérique, 8, 3 (2004),  135-155.
[10] L. Davis. Designing a search user interface for a digital  library.
+
}}
 +
{{CIDE biblio
 +
  |id=10
 +
  |texte=L. Davis. Designing a search user interface for a digital  library.
 
Journal of the American Society for Information Science and Technology, 57(6), 2006, 788-791.
 
Journal of the American Society for Information Science and Technology, 57(6), 2006, 788-791.
[11] L. L. Earl. Experiments in automatic extraction and  indexing.
+
}}
 +
{{CIDE biblio
 +
  |id=11
 +
  |texte=L. L. Earl. Experiments in automatic extraction and  indexing.
 
Information Storage and Retrieval, 6, 1970,  313-334.
 
Information Storage and Retrieval, 6, 1970,  313-334.
[12] O. Ertzscheid. Comportements de navigation et  documents
+
}}
électroniques : propositions d'invariants. In : C. Faure, J. Madelaine (réds), Document électronique Dynamique. Actes du  sixième
+
{{CIDE biblio
 +
  |id=12
 +
  |texte=O. Ertzscheid. Comportements de navigation et  documents électroniques : propositions d'invariants. In : C. Faure, J. Madelaine (réds), Document électronique Dynamique. Actes du  sixième
 
colloque international sur le document électronique : CIDE.6, Europia Productions, Paris, 2003.
 
colloque international sur le document électronique : CIDE.6, Europia Productions, Paris, 2003.
[13] E. Fenwick. Mon bébé, je l’attends, je l’élève (traduction de The Canadian Medical Association complete book of mother & baby care). Reader's Digest Association, Montréal.  1992.
+
}}
[14] M. Hearst. TextTiling: Segmenting Text into Multi-Paragraph
+
 
Subtopic Passages. Computational Linguistics, 23(1), 199733-64.
+
{{CIDE biblio
[15] M. Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora. In Proceedings of the 14th International Conference on Computational Linguistics, 1992,  539-545.
+
  |id=13
[16] N. Hernandez et B. Grau. What is this text about?  Combining topic and meta descriptors for text structure presentation. In  Proceedings
+
  |auteur=E. Fenwick
 +
  |texte= ''Mon bébé, je l’attends, je l’élève'' (traduction de The Canadian Medical Association complete book of mother & baby care). Reader's Digest Association, Montréal.  1992.
 +
}}
 +
{{CIDE biblio
 +
  |id=14
 +
  |auteur=Marti A. Hearst{{!}}M. Hearst
 +
  |texte= "TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages" Computational Linguistics, 23:1, (1997) pp. 33-64.}}
 +
{{CIDE biblio
 +
  |id=15
 +
  |auteur=Marti A. Hearst{{!}}M. Hearst
 +
  |texte= Automatic Acquisition of Hyponyms from Large Text Corpora. In Proceedings of the 14th International Conference on Computational Linguistics, 1992,  539-545.
 +
}}
 +
{{CIDE biblio
 +
  |id=16
 +
  |auteur=Nicolas Hernandez{{!}}N. Hernandez
 +
  |auteur 2=Brigitte Grau{{!}}B. Grau
 +
  |texte= What is this text about?  Combining topic and meta descriptors for text structure presentation. In  Proceedings
 
of the 21st annual international conference on Documentation (ACM SIGDOC), San Francisco, 12-15 Oct. 2003,  117-24.
 
of the 21st annual international conference on Documentation (ACM SIGDOC), San Francisco, 12-15 Oct. 2003,  117-24.
[17] A. Nazarenko et T. Aït El Mekki.  Building back-of-the-book indexes. Terminology, Special issue on Application-driven Terminology engineering, 11(11), 2005, 199-224.
+
}}
 +
{{CIDE biblio
 +
  |id=17
 +
  |texte=A. Nazarenko et T. Aït El Mekki.  Building back-of-the-book indexes. Terminology, Special issue on Application-driven Terminology engineering, 11(11), 2005, 199-224.
 +
 
 +
}}
 +
{{CIDE biblio
 +
  |id=18
 +
  |texte=N. Hernandez et B. Grau. What is this text about?  Combining topic and meta descriptors for text structure presentation. In:  Proceedingsof the 21st annual international conference on Documentation (ACM SIGDOC), San Francisco, 12-15 Oct. (2003),  117-124.
  
[18] N. Hernandez et B. Grau. What is this text about?  Combining topic and meta descriptors for text structure presentation. In:  Proceedings
+
}}
of the 21st annual international conference on Documentation (ACM SIGDOC), San Francisco, 12-15 Oct. (2003),  117-124.
+
{{CIDE biblio
[19] M. Ruiz-Casado, E. Alfonseca et P. Castells.  Automatising the learning of lexical patterns: An application to the enrichment  of
+
  |id=19
 +
  |texte=M. Ruiz-Casado, E. Alfonseca et P. Castells.  Automatising the learning of lexical patterns: An application to the enrichment  of
 
WordNet by extracting semantic relationships from Wikipedia. Data & Knowledge Engineering, 61(3), 484-99,  2007.
 
WordNet by extracting semantic relationships from Wikipedia. Data & Knowledge Engineering, 61(3), 484-99,  2007.
[20] Vandendorpe, C. Du papyrus à l’hypertexte: essai sur  les mutations du texte et de la lecture, Boréal, Montréal,  1999.
+
}}
[21] Y. Yaari et R. Gan. NLP-assisted exploration of texts. In  In
+
{{CIDE biblio
 +
  |id=20
 +
  |texte=Vandendorpe, C. Du papyrus à l’hypertexte: essai sur  les mutations du texte et de la lecture, Boréal, Montréal,  1999.
 +
}}
 +
{{CIDE biblio
 +
  |id=21
 +
  |texte=Y. Yaari et R. Gan. NLP-assisted exploration of texts. In  In
 
Proceedings RIAO'2000 Content-Based Multimedia Information Access, Paris, 2000, 2000.
 
Proceedings RIAO'2000 Content-Based Multimedia Information Access, Paris, 2000, 2000.
 +
}}
  
 
==Notes==
 
==Notes==
Ligne 196 : Ligne 271 :
 
{{CIDE fin corps}}
 
{{CIDE fin corps}}
  
 +
==Voir aussi==
 +
{{Wicri voir aussi, article}}
  
 
{{Clr}}
 
{{Clr}}
[[Catégorie:référence bibliographique, article de conférence]]
+
[[Catégorie:Article de conférence]]
 
[[Catégorie:Article avec PDF]]
 
[[Catégorie:Article avec PDF]]
  
 
__SHOWFACTBOX__
 
__SHOWFACTBOX__

Version actuelle datée du 24 août 2016 à 10:17

Outil de butinage du contenu des documents de collections numériques


 
 

 
titre
Outil de butinage du contenu des documents de collections numériques
auteurs
Lyne Da Sylva.
Affiliations
École de bibliothéconomie et des sciences de l’information, Université de Montréal.
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Da Sylva.pdf
Mots-clés 
Indexation, collections numériques, index de livre, indexation automatique, accès à l’information, accès au contenu, aide à la lecture.
Keywords
Indexing, digital collections, back-of-the-book index, automatic indexing, access to information, access to contents, reading aid.
Résumé
Cette recherche se veut une contribution à la recherche d’information dans les documents numériques, non pas pour le repérage de documents mais pour l’aide à la lecture et donc l’évaluation de la pertinence de documents repérés. L’introduction d’un outil de butinage est proposée pour accéder au contenu de documents des bibliothèques numériques, soit l’index de livre traditionnel. Celui-ci présente plusieurs avantages en tant qu’outil de navigation, bien que sa création automatique pose quelques difficultés. L’implémentation d’un outil de ce type est esquissée dans ses grandes lignes.