CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Introduction)
imported>Jacques Ducloy
(Introduction)
Ligne 33 : Ligne 33 :
 
Les bibliothèques et les médiathèques, renferment des corpus documentaires de type patrimonial conséquents de plus en  plus facilement disponibles pour le grand public grâce au format électronique (numérisation et OCRisation). Cependant l'accessibilité par le grand public à ces corpus reste encore problématique. Dans ces organismes de conservation, chaque document est associé à une notice descriptive  établie par les bibliothécaires, elles sont construites sur la base d’un thésaurus faisant autorité dans le milieu, le thésaurus RAMEAU<ref>Répertoire d'autorité-matière encyclopédique et alphabétique unifié ; http://rameau.bnf.fr/. Thésaurus défini au sein de la Bibliothèque Nationale de France (BNF)</ref>. Nous proposons une exploitation automatique de ces deux types de ressources afin de créer une structure sémantique représentant le travail d’indexation des bibliothécaires.
 
Les bibliothèques et les médiathèques, renferment des corpus documentaires de type patrimonial conséquents de plus en  plus facilement disponibles pour le grand public grâce au format électronique (numérisation et OCRisation). Cependant l'accessibilité par le grand public à ces corpus reste encore problématique. Dans ces organismes de conservation, chaque document est associé à une notice descriptive  établie par les bibliothécaires, elles sont construites sur la base d’un thésaurus faisant autorité dans le milieu, le thésaurus RAMEAU<ref>Répertoire d'autorité-matière encyclopédique et alphabétique unifié ; http://rameau.bnf.fr/. Thésaurus défini au sein de la Bibliothèque Nationale de France (BNF)</ref>. Nous proposons une exploitation automatique de ces deux types de ressources afin de créer une structure sémantique représentant le travail d’indexation des bibliothécaires.
  
Nous souhaitons, d’une part, proposer aux bibliothécaires des outils de visualisation et de parcours de cette structure afin de valider leur travail d’indexation. Cette approche se décompose en deux phases : la première étant d’identifier et de représenter l’information à l’aide des connaissances expertes extraites automatiquement des notices, la deuxième étant de donner la possibilité de naviguer dans le fonds documentaire via les connaissances identifiées pour faciliter la représentation du travail d’indexation. Actuellement, les relectures et éventuelles corrections sont réalisées manuellement notice par notice, rendant cette tâche fastidieuse. Nous pensons que la représentation sous forme de carte de connaissances extraites automatiquement du travail d’indexation apporte un premier élément de réponse à leurs attentes en leur offrant une synthèse exhaustive d’un état de l’indexation de la base documentaire. Nous nous intéressons, d’autre part, à la conceptualisation d'un sous-ensemble du thésaurus RAMEAU afin de produire une représentation ontologique de domaine mettant en avant un territoire. RAMEAU a été adopté dans le contexte d’informatisation des bibliothèques françaises dans les années 80. Cette liste d’autorités s’inspire largement du langage d’indexation RVM Laval (Canada), qui lui-même est issu d’un long travail de traduction à partir des vedettes- matières américaines tirées des LCSH (Library of Congress Subject Headings). Les thésaurus sont des vocabulaires contrôlés de termes représentant généralement un domaine particulier gérant des relations hiérarchiques,  associatives  et  d’équivalence.  On  peut  citer NML’s
+
Nous souhaitons, d’une part, proposer aux bibliothécaires des outils de visualisation et de parcours de cette structure afin de valider leur travail d’indexation. Cette approche se décompose en deux phases : la première étant d’identifier et de représenter l’information à l’aide des connaissances expertes extraites automatiquement des notices, la deuxième étant de donner la possibilité de naviguer dans le fonds documentaire via les connaissances identifiées pour faciliter la représentation du travail d’indexation. Actuellement, les relectures et éventuelles corrections sont réalisées manuellement notice par notice, rendant cette tâche fastidieuse. Nous pensons que la représentation sous forme de carte de connaissances extraites automatiquement du travail d’indexation apporte un premier élément de réponse à leurs attentes en leur offrant une synthèse exhaustive d’un état de l’indexation de la base documentaire. Nous nous intéressons, d’autre part, à la conceptualisation d'un sous-ensemble du thésaurus RAMEAU afin de produire une représentation ontologique de domaine mettant en avant un territoire. RAMEAU a été adopté dans le contexte d’informatisation des bibliothèques françaises dans les années 80. Cette liste d’autorités s’inspire largement du langage d’indexation RVM Laval (Canada), qui lui-même est issu d’un long travail de traduction à partir des vedettes- matières américaines tirées des LCSH (Library of Congress Subject Headings). Les thésaurus sont des vocabulaires contrôlés de termes représentant généralement un domaine particulier gérant des relations hiérarchiques,  associatives  et  d’équivalence.  On  peut  citer NML’s Medical Subject Headings (MeSH) dans le domaine médical pour indexer et rechercher des articles, le célèbre Wordnet, plus général, utilisé dans des travaux d’analyse sémantique. Dans le contexte de transformation de thésaurus en ontologie, le W3C travaille sur un méta schéma de  référence, le SKOS (Simple Knowledge Organization System), basé sur les concepts [1].
  
 +
Dans notre cas, l'objectif est d’expliciter la sémantique informelle du thésaurus autour des termes décrivant un territoire en se restreignant à l’aspect spatial. L’information du corpus (ici les notices  descriptives) peut nous aider à spécifier des relations entre termes pouvant être ambigües dans un thésaurus afin de créer une première ontologie, L’analyse linguistique automatisée de ces notices doit ensuite nous permettre d’enrichir l’ontologie du domaine par de nouveaux concepts qualifiant un territoire.
  
Medical Subject Headings (MeSH) dans le domaine médical pour indexer et rechercher des articles, le célèbre Wordnet, plus général, utilisé dans des travaux d’analyse sémantique. Dans le contexte de transformation de thésaurus en ontologie, le W3C travaille sur un méta schéma de  référence, le SKOS (Simple Knowledge Organization System), basé sur les concepts [1].
 
Dans notre cas, l'objectif est d’expliciter la sémantique informelle du thésaurus autour des termes décrivant un territoire en se restreignant à l’aspect spatial. L’information du corpus (ici les notices  descriptives) peut nous aider à spécifier des relations entre termes pouvant être ambigües dans un thésaurus afin de créer une première ontologie, L’analyse linguistique automatisée de ces notices doit ensuite nous permettre d’enrichir l’ontologie du domaine par de nouveaux concepts qualifiant un territoire.
 
 
Dans une première partie (&2), nous présenterons les problématiques et objectifs de notre travail de recherche. Nous développerons les travaux connexes dans le (&3) puis notre approche (&4) pour construire de manière automatique un thésaurus particulier : le thésaurus TERRIDOC. Enfin, nous expliciterons notre démarche pour passer d’un thésaurus particulier à une ontologie de domaine (&4) puis nous conclurons (&5).
 
Dans une première partie (&2), nous présenterons les problématiques et objectifs de notre travail de recherche. Nous développerons les travaux connexes dans le (&3) puis notre approche (&4) pour construire de manière automatique un thésaurus particulier : le thésaurus TERRIDOC. Enfin, nous expliciterons notre démarche pour passer d’un thésaurus particulier à une ontologie de domaine (&4) puis nous conclurons (&5).
  

Version du 25 août 2016 à 19:08

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.