CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Jacques Ducloy
imported>Jacques Ducloy
(Du fonds documentaire indexé à l’ontologie)
Ligne 63 : Ligne 63 :
 
==Du fonds documentaire indexé à l’ontologie==
 
==Du fonds documentaire indexé à l’ontologie==
  
Nous présentons à travers un exemple la méthodologie adoptée pour enrichir  un  premier  vocabulaire  de  termes  provenant  du       thésaurus
+
Nous présentons à travers un exemple la méthodologie adoptée pour enrichir  un  premier  vocabulaire  de  termes  provenant  du thésaurus RAMEAU afin de créer un thésaurus adapté, et les étapes à suivre pour transformer ce thésaurus en une ontologie.
 
 
RAMEAU afin de créer un thésaurus adapté, et les étapes à suivre pour transformer ce thésaurus en une ontologie.
 
  
 
===Représentation sémantique de connaissances expertes===
 
===Représentation sémantique de connaissances expertes===
Ligne 72 : Ligne 70 :
 
La première étape du traitement consiste à identifier et extraire automatiquement tous les termes (autorités matières RAMEAU) utilisés pour décrire le contenu du document dans les notices descriptives XML. Lors de la phase d’indexation, ces autorités sont sélectionnées par les bibliothécaires dans RAMEAU et utilisées dans les notices via la ou les balise(s) DEE (figure 1).
 
La première étape du traitement consiste à identifier et extraire automatiquement tous les termes (autorités matières RAMEAU) utilisés pour décrire le contenu du document dans les notices descriptives XML. Lors de la phase d’indexation, ces autorités sont sélectionnées par les bibliothécaires dans RAMEAU et utilisées dans les notices via la ou les balise(s) DEE (figure 1).
  
Figure. 1 – Extrait de notice descriptive 1
+
{|
 +
|-
 +
|<source lang=xml">
 +
<DEE>Stations climatiques, thermales, etc. -- Barèges (Hautes-Pyrénées) -- 18e siècle</DEE>
 +
<DEE>Eaux minérales -- Pyrénées (France) -- 18e siècle</DEE>
 +
<TITRE>Précis d'observation sur les eaux de Barèges et les eaux minérales de Bigorre et du Béarn</TITRE>
 +
<LEGENDE> Théophile de Bourdeu est à l'origine de la mode du thermalisme pyrénéen</LEGENDE>
 +
</source>
 +
|-
 +
|Figure. 1 – Extrait de notice descriptive 1
 +
|}
 +
 
 
Chaque balise DEE correspond à une vedette-matière composée d’une ou plusieurs autorités séparées par l’élément « -- ». Chaque vedette-matière correspond à un thème estimé par l’expert comme important (l’autorité décrivant le thème est utilisée en tête de vedette) pour la description du contenu du document (Stations climatiques, thermales, etc. et Eaux minérales dans la figure 1). Nous obtenons en résultat de ce premier traitement un ensemble de termes. L'extraction automatique de cet ensemble de termes et leur mise en correspondance grâce au thésaurus RAMEAU dans un graphe conceptuel nous permet d’obtenir une  première représentation sémantique du fonds documentaire. En exploitant le thésaurus RAMEAU, nous enrichissons automatiquement le vocabulaire  obtenu  ci-dessus  avec :  (i)  les  termes  « génériques »    et
 
Chaque balise DEE correspond à une vedette-matière composée d’une ou plusieurs autorités séparées par l’élément « -- ». Chaque vedette-matière correspond à un thème estimé par l’expert comme important (l’autorité décrivant le thème est utilisée en tête de vedette) pour la description du contenu du document (Stations climatiques, thermales, etc. et Eaux minérales dans la figure 1). Nous obtenons en résultat de ce premier traitement un ensemble de termes. L'extraction automatique de cet ensemble de termes et leur mise en correspondance grâce au thésaurus RAMEAU dans un graphe conceptuel nous permet d’obtenir une  première représentation sémantique du fonds documentaire. En exploitant le thésaurus RAMEAU, nous enrichissons automatiquement le vocabulaire  obtenu  ci-dessus  avec :  (i)  les  termes  « génériques »    et
 
« employés pour » ; (ii) les relations qui leurs sont associées ; (iii) les relations entre termes associés s’il en existe.
 
« employés pour » ; (ii) les relations qui leurs sont associées ; (iii) les relations entre termes associés s’il en existe.
Ligne 104 : Ligne 113 :
 
Figure  4. Extrait de l’ontologie générée
 
Figure  4. Extrait de l’ontologie générée
 
Nos travaux actuels cherchent à typer explicitement dans l’ontologie les relations classiques provenant du thésaurus TERRIDOC. Dans notre cas, un SIG peut nous permettre d’identifier, par calculs topologiques et géométriques sur les instances, les relations spatiales entre concepts. Nous cherchons aussi à caractériser l’ensemble des termes RAMEAU qui ne sont pas identifiés comme des instances de type spatial sous forme de concepts (possédant un nom, des caractéristiques propres sous forme d’attributs, etc.).
 
Nos travaux actuels cherchent à typer explicitement dans l’ontologie les relations classiques provenant du thésaurus TERRIDOC. Dans notre cas, un SIG peut nous permettre d’identifier, par calculs topologiques et géométriques sur les instances, les relations spatiales entre concepts. Nous cherchons aussi à caractériser l’ensemble des termes RAMEAU qui ne sont pas identifiés comme des instances de type spatial sous forme de concepts (possédant un nom, des caractéristiques propres sous forme d’attributs, etc.).
 
  
 
==Conclusion==
 
==Conclusion==

Version du 25 août 2016 à 21:56

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.