CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Du fonds documentaire indexé à l’ontologie)
imported>Jacques Ducloy
(Transformation du thésaurus en ontologie légère)
 
(10 révisions intermédiaires par le même utilisateur non affichées)
Ligne 68 : Ligne 68 :
  
 
Nous nous appuyons dans notre démarche sur la base de notices descriptives correspondantes aux documents (figure 1) ainsi que sur le thésaurus RAMEAU. Dans notre phase d’extraction et de structuration des connaissances, l’exploitation des relations va nous permettre de construire le thésaurus TERRIDOC.
 
Nous nous appuyons dans notre démarche sur la base de notices descriptives correspondantes aux documents (figure 1) ainsi que sur le thésaurus RAMEAU. Dans notre phase d’extraction et de structuration des connaissances, l’exploitation des relations va nous permettre de construire le thésaurus TERRIDOC.
 +
 
La première étape du traitement consiste à identifier et extraire automatiquement tous les termes (autorités matières RAMEAU) utilisés pour décrire le contenu du document dans les notices descriptives XML. Lors de la phase d’indexation, ces autorités sont sélectionnées par les bibliothécaires dans RAMEAU et utilisées dans les notices via la ou les balise(s) DEE (figure 1).
 
La première étape du traitement consiste à identifier et extraire automatiquement tous les termes (autorités matières RAMEAU) utilisés pour décrire le contenu du document dans les notices descriptives XML. Lors de la phase d’indexation, ces autorités sont sélectionnées par les bibliothécaires dans RAMEAU et utilisées dans les notices via la ou les balise(s) DEE (figure 1).
  
 
{|
 
{|
 
|-
 
|-
|<source lang=xml">
+
|<source lang="xml">
<DEE>Stations climatiques, thermales, etc. -- Barèges (Hautes-Pyrénées) -- 18e siècle</DEE>  
+
<DEE>Stations climatiques, thermales, etc. -- Barèges  
<DEE>Eaux minérales -- Pyrénées (France) -- 18e siècle</DEE>  
+
(Hautes-Pyrénées) -- 18e siècle</DEE>  
<TITRE>Précis d'observation sur les eaux de Barèges et les eaux minérales de Bigorre et du Béarn</TITRE>  
+
<DEE>Eaux minérales -- Pyrénées (France) -- 18e  
<LEGENDE> Théophile de Bourdeu est à l'origine de la mode du thermalisme pyrénéen</LEGENDE>  
+
siècle</DEE>  
 +
<TITRE>Précis d'observation sur les eaux de Barèges  
 +
et les eaux minérales de Bigorre et du Béarn</TITRE>  
 +
<LEGENDE> Théophile de Bourdeu est à l'origine de la  
 +
mode du thermalisme pyrénéen</LEGENDE>  
 
</source>
 
</source>
 
|-
 
|-
|Figure. 1 – Extrait de notice descriptive 1
+
|''Figure. 1 – Extrait de notice descriptive 1''
 
|}
 
|}
  
Chaque balise DEE correspond à une vedette-matière composée d’une ou plusieurs autorités séparées par l’élément « -- ». Chaque vedette-matière correspond à un thème estimé par l’expert comme important (l’autorité décrivant le thème est utilisée en tête de vedette) pour la description du contenu du document (Stations climatiques, thermales, etc. et Eaux minérales dans la figure 1). Nous obtenons en résultat de ce premier traitement un ensemble de termes. L'extraction automatique de cet ensemble de termes et leur mise en correspondance grâce au thésaurus RAMEAU dans un graphe conceptuel nous permet d’obtenir une  première représentation sémantique du fonds documentaire. En exploitant le thésaurus RAMEAU, nous enrichissons automatiquement le vocabulaire  obtenu  ci-dessus  avec :  (i)  les  termes  « génériques »    et
+
Chaque balise DEE correspond à une vedette-matière composée d’une ou plusieurs autorités séparées par l’élément « -- ». Chaque vedette-matière correspond à un thème estimé par l’expert comme important (l’autorité décrivant le thème est utilisée en tête de vedette) pour la description du contenu du document (''Stations climatiques, thermales'', etc. et ''Eaux minérales'' dans la figure 1). Nous obtenons en résultat de ce premier traitement un ensemble de termes. L'extraction automatique de cet ensemble de termes et leur mise en correspondance grâce au thésaurus RAMEAU dans un graphe conceptuel nous permet d’obtenir une  première représentation sémantique du fonds documentaire. En exploitant le thésaurus RAMEAU, nous enrichissons automatiquement le vocabulaire  obtenu  ci-dessus  avec :  (i)  les  termes  « génériques »    et
 
« employés pour » ; (ii) les relations qui leurs sont associées ; (iii) les relations entre termes associés s’il en existe.
 
« employés pour » ; (ii) les relations qui leurs sont associées ; (iii) les relations entre termes associés s’il en existe.
Il faut noter que les relations hiérarchiques incluent la relation générique (genre-espèce), la relation partitive (tout-partie), la relation d’instance et les relations poly-hiérarchiques. Les travaux de D.H. Fischer [15] soulignent cette ambiguïté par le fait que la définition de ces relations « terme plus spécifique », « terme plus générique » est orientée par l’utilisation faite des thésaurus, c’est-à-dire l’aide au travail du documentaliste (indexation, recherche), et non par la formalisation de    la
 
  
connaissance du domaine. Nous ne pourrons lever toutes les ambigüités liées aux relations « terme plus spécifique », « terme plus générique ». Si nous    prenons    l’exemple    de    la    relation    Lieu   de     villégiature
+
Il faut noter que les relations hiérarchiques incluent la relation générique (genre-espèce), la relation partitive (tout-partie), la relation d’instance et les relations poly-hiérarchiques. Les travaux de D.H. Fischer [{{CIDE lien citation|15}}] soulignent cette ambiguïté par le fait que la définition de ces relations « terme plus spécifique », « terme plus générique » est orientée par l’utilisation faite des thésaurus, c’est-à-dire l’aide au travail du documentaliste (indexation, recherche), et non par la formalisation de  la connaissance du domaine. Nous ne pourrons lever toutes les ambigüités liées aux relations « terme plus spécifique », « terme plus générique ». Si nous    prenons    l’exemple    de    la    relation     
>GENERIQUE> Tourisme , elle peut sembler incorrecte. Le but premier est d’avoir un outil de navigation à travers toute la structure sémantique. Nos premières expérimentations ont été menées sur un corpus de 750 notices descriptives et leurs documents associés relatant du patrimoine culturel pyrénéen. Nous obtenons un ensemble de 1449 termes que nous enrichissons  ensuite  par  les  termes  « employés  pour »,  « associés » et
+
:''Lieu de villégiature'' >GENERIQUE> ''Tourisme'',  
 +
elle peut sembler incorrecte. Le but premier est d’avoir un outil de navigation à travers toute la structure sémantique. Nos premières expérimentations ont été menées sur un corpus de 750 notices descriptives et leurs documents associés relatant du patrimoine culturel pyrénéen. Nous obtenons un ensemble de 1449 termes que nous enrichissons  ensuite  par  les  termes  « employés  pour »,  « associés » et
 
« génériques » joints et par les relations correspondantes en nous appuyant sur RAMEAU. Le thésaurus obtenu offre une première  structure synthétique représentant le travail des bibliothécaires. Seule, cette structure ne peut être exploitée par les experts pour observer et analyser l’ensemble des saisies. Nous en proposons donc une représentation sous forme de carte de concepts (figure 2) pour permettre aux experts d’appréhender de façon synthétique l'ensemble du travail d'indexation d'un fonds documentaire donné, réalisé par les différents bibliothécaires y ayant contribué.
 
« génériques » joints et par les relations correspondantes en nous appuyant sur RAMEAU. Le thésaurus obtenu offre une première  structure synthétique représentant le travail des bibliothécaires. Seule, cette structure ne peut être exploitée par les experts pour observer et analyser l’ensemble des saisies. Nous en proposons donc une représentation sous forme de carte de concepts (figure 2) pour permettre aux experts d’appréhender de façon synthétique l'ensemble du travail d'indexation d'un fonds documentaire donné, réalisé par les différents bibliothécaires y ayant contribué.
  
  
  
Figure. 2 – Extrait du thésaurus TERRIDOC
+
[[Fichier:CIDE (2009) Bessagnet fig 2.png|center|500px|thumb|Figure. 2 – Extrait du thésaurus TERRIDOC]]
  
 
===Transformation du thésaurus en ontologie légère===
 
===Transformation du thésaurus en ontologie légère===
  
 
Une contribution importante de notre travail concerne les étapes permettant de déceler puis de labéliser les ES ainsi que les relations associatives entre ces dernières et les concepts identifiés à partir du thésaurus RAMEAU.
 
Une contribution importante de notre travail concerne les étapes permettant de déceler puis de labéliser les ES ainsi que les relations associatives entre ces dernières et les concepts identifiés à partir du thésaurus RAMEAU.
Dans la volonté de définir une représentation d’un territoire en traitant la composante spatiale, la première étape de notre traitement consiste à identifier dans le thésaurus TERRIDOC les termes correspondants à  des
 
  
ES qui vont devenir des instances, et les autres qui deviendront concepts. Nous utilisons pour cela la base Système d’Informations Géographiques de l’IGN, contenant la majorité des entités nommées spatiales françaises. Par exemple, les termes du thésaurus TERRIDOC «Bagnères-de-Bigorre (Hautes-Pyrénées)» et «Barèges (Hautes-Pyrénées) » sont identifiés comme entités spatiales, ce qui nous permet de créer un concept «entité spatiale» ainsi qu’une relation d’instance instance_of entre le concept entité spatiale et les deux instances «Bagnères-de-Bigorre (Hautes- Pyrénées)» et «Barèges (Hautes-Pyrénées)». Les autres termes du thésaurus sont ensuite définis comme concepts en leur ajoutant comme propriétés les définitions et/ou explications provenant du thésaurus RAMEAU. Dans l’extrait de l’ontologie (figure 4), «eaux minérales»    et
+
Dans la volonté de définir une représentation d’un territoire en traitant la composante spatiale, la première étape de notre traitement consiste à identifier dans le thésaurus TERRIDOC les termes correspondants à  des ES qui vont devenir des instances, et les autres qui deviendront concepts. Nous utilisons pour cela la base Système d’Informations Géographiques de l’IGN, contenant la majorité des entités nommées spatiales françaises. Par exemple, les termes du thésaurus TERRIDOC «Bagnères-de-Bigorre (Hautes-Pyrénées)» et «Barèges (Hautes-Pyrénées) » sont identifiés comme entités spatiales, ce qui nous permet de créer un concept «entité spatiale» ainsi qu’une relation d’instance ''instance_of'' entre le concept entité spatiale et les deux instances «Bagnères-de-Bigorre (Hautes- Pyrénées)» et «Barèges (Hautes-Pyrénées)». Les autres termes du thésaurus sont ensuite définis comme concepts en leur ajoutant comme propriétés les définitions et/ou explications provenant du thésaurus RAMEAU. Dans l’extrait de l’ontologie (figure 4), «eaux minérales»    et «stations climatiques, thermales, etc.» sont ainsi définis en tant que concepts. Cela nous permet de préciser les relations génériques avec les instances «Bagnères-de-Bigorre (Hautes-Pyrénées)» et «Barèges (Hautes- Pyrénées)» en relations d’instance ''instance_of''. Cette première règle nous permet, en nous appuyant sur une ressource externe type SIG, de définir une ontologie légère offrant une première représentation sémantique d’un territoire. De ce fait, l'ontologie créée permet de faire les inférences élémentaires découlant de la taxonomie des concepts (p.ex. l'héritage des propriétés) sur ces concepts particuliers.
«stations climatiques, thermales, etc.» sont ainsi définis en tant que concepts. Cela nous permet de préciser les relations génériques avec les instances «Bagnères-de-Bigorre (Hautes-Pyrénées)» et «Barèges (Hautes- Pyrénées)» en relations d’instance instance_of. Cette première règle nous permet, en nous appuyant sur une ressource externe type SIG, de définir une ontologie légère offrant une première représentation sémantique d’un territoire. De ce fait, l'ontologie créée permet de faire les inférences élémentaires découlant de la taxonomie des concepts (p.ex. l'héritage des propriétés) sur ces concepts particuliers.
+
 
 
En plus du travail de description du contenu des documents, les notices descriptives renferment des informations riches pouvant décrire un territoire. Nous proposons en deuxième étape une chaîne de traitement linguistique (syntaxique et grammaticale) afin de capturer les ES ainsi  que tous les termes les qualifiant. Afin de repérer des relations sémantiques [16], nous utilisons des patrons lexico-syntaxiques. Un patron lexico-syntaxique représente une expression régulière, formée de mots, de catégories grammaticales ou sémantiques, et de symboles. Il permet d’extraire des éléments de texte respectant l’expression. Dans notre cas, les patrons exploitent les étiquettes morpho-syntaxiques ou sémantiques attribuées par Linguastream (figure 3).
 
En plus du travail de description du contenu des documents, les notices descriptives renferment des informations riches pouvant décrire un territoire. Nous proposons en deuxième étape une chaîne de traitement linguistique (syntaxique et grammaticale) afin de capturer les ES ainsi  que tous les termes les qualifiant. Afin de repérer des relations sémantiques [16], nous utilisons des patrons lexico-syntaxiques. Un patron lexico-syntaxique représente une expression régulière, formée de mots, de catégories grammaticales ou sémantiques, et de symboles. Il permet d’extraire des éléments de texte respectant l’expression. Dans notre cas, les patrons exploitent les étiquettes morpho-syntaxiques ou sémantiques attribuées par Linguastream (figure 3).
  
 
+
[[Fichier:CIDE (2009) Bessagnet fig 3.png|600px|center|thumb|Figure  3. Extrait du traitement linguistique]]
Figure  3. Extrait du traitement linguistique
 
  
 
La dernière phase de l’approche consiste à associer ces termes identifiés à l’ontologie par des relations de sens contenues dans les notices descriptives. Ainsi en reprenant les extraits de notices présentées figure 1, sont aussi retenus comme entités spatiales candidates les entités nommées
 
La dernière phase de l’approche consiste à associer ces termes identifiés à l’ontologie par des relations de sens contenues dans les notices descriptives. Ainsi en reprenant les extraits de notices présentées figure 1, sont aussi retenus comme entités spatiales candidates les entités nommées
«Bigorre» et «Béarn» que nous validons ensuite en tant qu’ES via l’appel au SIG. Un lien sémantique est alors créé entre le concept «Eaux minérales» et les instances de type spatial «Bigorre» et «Béarn» que l’on nomme instance_of (Figure 4).
+
«Bigorre» et «Béarn» que nous validons ensuite en tant qu’ES via l’appel au SIG. Un lien sémantique est alors créé entre le concept «Eaux minérales» et les instances de type spatial «Bigorre» et «Béarn» que l’on nomme ''instance_of'' (Figure 4).
 
 
  
 +
[[Fichier:CIDE (2009) Bessagnet fig 4.png|600px|center|thumb|Figure  4. Extrait de l’ontologie générée]]
  
Figure  4. Extrait de l’ontologie générée
 
 
Nos travaux actuels cherchent à typer explicitement dans l’ontologie les relations classiques provenant du thésaurus TERRIDOC. Dans notre cas, un SIG peut nous permettre d’identifier, par calculs topologiques et géométriques sur les instances, les relations spatiales entre concepts. Nous cherchons aussi à caractériser l’ensemble des termes RAMEAU qui ne sont pas identifiés comme des instances de type spatial sous forme de concepts (possédant un nom, des caractéristiques propres sous forme d’attributs, etc.).
 
Nos travaux actuels cherchent à typer explicitement dans l’ontologie les relations classiques provenant du thésaurus TERRIDOC. Dans notre cas, un SIG peut nous permettre d’identifier, par calculs topologiques et géométriques sur les instances, les relations spatiales entre concepts. Nous cherchons aussi à caractériser l’ensemble des termes RAMEAU qui ne sont pas identifiés comme des instances de type spatial sous forme de concepts (possédant un nom, des caractéristiques propres sous forme d’attributs, etc.).
  

Version actuelle datée du 25 août 2016 à 21:27

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.