CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Représentation sémantique de connaissances expertes)
imported>Jacques Ducloy
(Représentation sémantique de connaissances expertes)
Ligne 68 : Ligne 68 :
  
 
Nous nous appuyons dans notre démarche sur la base de notices descriptives correspondantes aux documents (figure 1) ainsi que sur le thésaurus RAMEAU. Dans notre phase d’extraction et de structuration des connaissances, l’exploitation des relations va nous permettre de construire le thésaurus TERRIDOC.
 
Nous nous appuyons dans notre démarche sur la base de notices descriptives correspondantes aux documents (figure 1) ainsi que sur le thésaurus RAMEAU. Dans notre phase d’extraction et de structuration des connaissances, l’exploitation des relations va nous permettre de construire le thésaurus TERRIDOC.
 +
 
La première étape du traitement consiste à identifier et extraire automatiquement tous les termes (autorités matières RAMEAU) utilisés pour décrire le contenu du document dans les notices descriptives XML. Lors de la phase d’indexation, ces autorités sont sélectionnées par les bibliothécaires dans RAMEAU et utilisées dans les notices via la ou les balise(s) DEE (figure 1).
 
La première étape du traitement consiste à identifier et extraire automatiquement tous les termes (autorités matières RAMEAU) utilisés pour décrire le contenu du document dans les notices descriptives XML. Lors de la phase d’indexation, ces autorités sont sélectionnées par les bibliothécaires dans RAMEAU et utilisées dans les notices via la ou les balise(s) DEE (figure 1).
  
Ligne 86 : Ligne 87 :
 
|}
 
|}
  
Chaque balise DEE correspond à une vedette-matière composée d’une ou plusieurs autorités séparées par l’élément « -- ». Chaque vedette-matière correspond à un thème estimé par l’expert comme important (l’autorité décrivant le thème est utilisée en tête de vedette) pour la description du contenu du document (Stations climatiques, thermales, etc. et Eaux minérales dans la figure 1). Nous obtenons en résultat de ce premier traitement un ensemble de termes. L'extraction automatique de cet ensemble de termes et leur mise en correspondance grâce au thésaurus RAMEAU dans un graphe conceptuel nous permet d’obtenir une  première représentation sémantique du fonds documentaire. En exploitant le thésaurus RAMEAU, nous enrichissons automatiquement le vocabulaire  obtenu  ci-dessus  avec :  (i)  les  termes  « génériques »    et
+
Chaque balise DEE correspond à une vedette-matière composée d’une ou plusieurs autorités séparées par l’élément « -- ». Chaque vedette-matière correspond à un thème estimé par l’expert comme important (l’autorité décrivant le thème est utilisée en tête de vedette) pour la description du contenu du document (''Stations climatiques, thermales'', etc. et ''Eaux minérales'' dans la figure 1). Nous obtenons en résultat de ce premier traitement un ensemble de termes. L'extraction automatique de cet ensemble de termes et leur mise en correspondance grâce au thésaurus RAMEAU dans un graphe conceptuel nous permet d’obtenir une  première représentation sémantique du fonds documentaire. En exploitant le thésaurus RAMEAU, nous enrichissons automatiquement le vocabulaire  obtenu  ci-dessus  avec :  (i)  les  termes  « génériques »    et
 
« employés pour » ; (ii) les relations qui leurs sont associées ; (iii) les relations entre termes associés s’il en existe.
 
« employés pour » ; (ii) les relations qui leurs sont associées ; (iii) les relations entre termes associés s’il en existe.
Il faut noter que les relations hiérarchiques incluent la relation générique (genre-espèce), la relation partitive (tout-partie), la relation d’instance et les relations poly-hiérarchiques. Les travaux de D.H. Fischer [15] soulignent cette ambiguïté par le fait que la définition de ces relations « terme plus spécifique », « terme plus générique » est orientée par l’utilisation faite des thésaurus, c’est-à-dire l’aide au travail du documentaliste (indexation, recherche), et non par la formalisation de    la
 
  
connaissance du domaine. Nous ne pourrons lever toutes les ambigüités liées aux relations « terme plus spécifique », « terme plus générique ». Si nous    prenons    l’exemple    de    la    relation    Lieu    de    villégiature
+
Il faut noter que les relations hiérarchiques incluent la relation générique (genre-espèce), la relation partitive (tout-partie), la relation d’instance et les relations poly-hiérarchiques. Les travaux de D.H. Fischer [{{CIDE lien citation|15}}] soulignent cette ambiguïté par le fait que la définition de ces relations « terme plus spécifique », « terme plus générique » est orientée par l’utilisation faite des thésaurus, c’est-à-dire l’aide au travail du documentaliste (indexation, recherche), et non par la formalisation de  la connaissance du domaine. Nous ne pourrons lever toutes les ambigüités liées aux relations « terme plus spécifique », « terme plus générique ». Si nous    prenons    l’exemple    de    la    relation    Lieu    de    villégiature
 
>GENERIQUE> Tourisme , elle peut sembler incorrecte. Le but premier est d’avoir un outil de navigation à travers toute la structure sémantique. Nos premières expérimentations ont été menées sur un corpus de 750 notices descriptives et leurs documents associés relatant du patrimoine culturel pyrénéen. Nous obtenons un ensemble de 1449 termes que nous enrichissons  ensuite  par  les  termes  « employés  pour »,  « associés » et
 
>GENERIQUE> Tourisme , elle peut sembler incorrecte. Le but premier est d’avoir un outil de navigation à travers toute la structure sémantique. Nos premières expérimentations ont été menées sur un corpus de 750 notices descriptives et leurs documents associés relatant du patrimoine culturel pyrénéen. Nous obtenons un ensemble de 1449 termes que nous enrichissons  ensuite  par  les  termes  « employés  pour »,  « associés » et
 
« génériques » joints et par les relations correspondantes en nous appuyant sur RAMEAU. Le thésaurus obtenu offre une première  structure synthétique représentant le travail des bibliothécaires. Seule, cette structure ne peut être exploitée par les experts pour observer et analyser l’ensemble des saisies. Nous en proposons donc une représentation sous forme de carte de concepts (figure 2) pour permettre aux experts d’appréhender de façon synthétique l'ensemble du travail d'indexation d'un fonds documentaire donné, réalisé par les différents bibliothécaires y ayant contribué.
 
« génériques » joints et par les relations correspondantes en nous appuyant sur RAMEAU. Le thésaurus obtenu offre une première  structure synthétique représentant le travail des bibliothécaires. Seule, cette structure ne peut être exploitée par les experts pour observer et analyser l’ensemble des saisies. Nous en proposons donc une représentation sous forme de carte de concepts (figure 2) pour permettre aux experts d’appréhender de façon synthétique l'ensemble du travail d'indexation d'un fonds documentaire donné, réalisé par les différents bibliothécaires y ayant contribué.

Version du 25 août 2016 à 22:02

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.