CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Représentation sémantique de connaissances expertes)
imported>Jacques Ducloy
(Transformation du thésaurus en ontologie légère)
Ligne 102 : Ligne 102 :
  
 
Une contribution importante de notre travail concerne les étapes permettant de déceler puis de labéliser les ES ainsi que les relations associatives entre ces dernières et les concepts identifiés à partir du thésaurus RAMEAU.
 
Une contribution importante de notre travail concerne les étapes permettant de déceler puis de labéliser les ES ainsi que les relations associatives entre ces dernières et les concepts identifiés à partir du thésaurus RAMEAU.
Dans la volonté de définir une représentation d’un territoire en traitant la composante spatiale, la première étape de notre traitement consiste à identifier dans le thésaurus TERRIDOC les termes correspondants à  des
 
  
ES qui vont devenir des instances, et les autres qui deviendront concepts. Nous utilisons pour cela la base Système d’Informations Géographiques de l’IGN, contenant la majorité des entités nommées spatiales françaises. Par exemple, les termes du thésaurus TERRIDOC «Bagnères-de-Bigorre (Hautes-Pyrénées)» et «Barèges (Hautes-Pyrénées) » sont identifiés comme entités spatiales, ce qui nous permet de créer un concept «entité spatiale» ainsi qu’une relation d’instance instance_of entre le concept entité spatiale et les deux instances «Bagnères-de-Bigorre (Hautes- Pyrénées)» et «Barèges (Hautes-Pyrénées)». Les autres termes du thésaurus sont ensuite définis comme concepts en leur ajoutant comme propriétés les définitions et/ou explications provenant du thésaurus RAMEAU. Dans l’extrait de l’ontologie (figure 4), «eaux minérales»    et
+
Dans la volonté de définir une représentation d’un territoire en traitant la composante spatiale, la première étape de notre traitement consiste à identifier dans le thésaurus TERRIDOC les termes correspondants à  des ES qui vont devenir des instances, et les autres qui deviendront concepts. Nous utilisons pour cela la base Système d’Informations Géographiques de l’IGN, contenant la majorité des entités nommées spatiales françaises. Par exemple, les termes du thésaurus TERRIDOC «Bagnères-de-Bigorre (Hautes-Pyrénées)» et «Barèges (Hautes-Pyrénées) » sont identifiés comme entités spatiales, ce qui nous permet de créer un concept «entité spatiale» ainsi qu’une relation d’instance ''instance_of'' entre le concept entité spatiale et les deux instances «Bagnères-de-Bigorre (Hautes- Pyrénées)» et «Barèges (Hautes-Pyrénées)». Les autres termes du thésaurus sont ensuite définis comme concepts en leur ajoutant comme propriétés les définitions et/ou explications provenant du thésaurus RAMEAU. Dans l’extrait de l’ontologie (figure 4), «eaux minérales»    et «stations climatiques, thermales, etc.» sont ainsi définis en tant que concepts. Cela nous permet de préciser les relations génériques avec les instances «Bagnères-de-Bigorre (Hautes-Pyrénées)» et «Barèges (Hautes- Pyrénées)» en relations d’instance instance_of. Cette première règle nous permet, en nous appuyant sur une ressource externe type SIG, de définir une ontologie légère offrant une première représentation sémantique d’un territoire. De ce fait, l'ontologie créée permet de faire les inférences élémentaires découlant de la taxonomie des concepts (p.ex. l'héritage des propriétés) sur ces concepts particuliers.
«stations climatiques, thermales, etc.» sont ainsi définis en tant que concepts. Cela nous permet de préciser les relations génériques avec les instances «Bagnères-de-Bigorre (Hautes-Pyrénées)» et «Barèges (Hautes- Pyrénées)» en relations d’instance instance_of. Cette première règle nous permet, en nous appuyant sur une ressource externe type SIG, de définir une ontologie légère offrant une première représentation sémantique d’un territoire. De ce fait, l'ontologie créée permet de faire les inférences élémentaires découlant de la taxonomie des concepts (p.ex. l'héritage des propriétés) sur ces concepts particuliers.
+
 
 
En plus du travail de description du contenu des documents, les notices descriptives renferment des informations riches pouvant décrire un territoire. Nous proposons en deuxième étape une chaîne de traitement linguistique (syntaxique et grammaticale) afin de capturer les ES ainsi  que tous les termes les qualifiant. Afin de repérer des relations sémantiques [16], nous utilisons des patrons lexico-syntaxiques. Un patron lexico-syntaxique représente une expression régulière, formée de mots, de catégories grammaticales ou sémantiques, et de symboles. Il permet d’extraire des éléments de texte respectant l’expression. Dans notre cas, les patrons exploitent les étiquettes morpho-syntaxiques ou sémantiques attribuées par Linguastream (figure 3).
 
En plus du travail de description du contenu des documents, les notices descriptives renferment des informations riches pouvant décrire un territoire. Nous proposons en deuxième étape une chaîne de traitement linguistique (syntaxique et grammaticale) afin de capturer les ES ainsi  que tous les termes les qualifiant. Afin de repérer des relations sémantiques [16], nous utilisons des patrons lexico-syntaxiques. Un patron lexico-syntaxique représente une expression régulière, formée de mots, de catégories grammaticales ou sémantiques, et de symboles. Il permet d’extraire des éléments de texte respectant l’expression. Dans notre cas, les patrons exploitent les étiquettes morpho-syntaxiques ou sémantiques attribuées par Linguastream (figure 3).
  

Version du 25 août 2016 à 22:19

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.