CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
imported>Abdelhakim Aidene
Ligne 41 : Ligne 41 :
  
  
2 Problématiques et objectifs
+
==Problématiques et objectifs==
 +
 
 
L’intérêt de disposer d’un fonds documentaire et de pouvoir ensuite proposer à des utilisateurs d’accéder aux informations nécessaires pour leur activité est primordial. Cela implique, d’une part, la nécessité d’identifier les informations pertinentes et d’autre part, la possibilité de fournir des moyens pour y accéder. Les possibilités pour  organiser, classer et structurer un ensemble de documents sont nombreuses. Ainsi, afin d’offrir aux experts du domaine 2 un outil de validation de l’utilisation du langage contrôlé qu’ils ont mis en œuvre pour harmoniser leurs formulations de thèmes décrivant le contenu des documents, nous avons élaboré dans notre démarche deux phases préalables : (i) Extraction et Structuration des connaissances du domaine du fonds    documentaire ;
 
L’intérêt de disposer d’un fonds documentaire et de pouvoir ensuite proposer à des utilisateurs d’accéder aux informations nécessaires pour leur activité est primordial. Cela implique, d’une part, la nécessité d’identifier les informations pertinentes et d’autre part, la possibilité de fournir des moyens pour y accéder. Les possibilités pour  organiser, classer et structurer un ensemble de documents sont nombreuses. Ainsi, afin d’offrir aux experts du domaine 2 un outil de validation de l’utilisation du langage contrôlé qu’ils ont mis en œuvre pour harmoniser leurs formulations de thèmes décrivant le contenu des documents, nous avons élaboré dans notre démarche deux phases préalables : (i) Extraction et Structuration des connaissances du domaine du fonds    documentaire ;
 
(ii) Navigation et interrogation du fonds documentaire en proposant une représentation sémantique de ce dernier. L’un de nos objectifs est la mise en place d’un processus pour passer d'un thésaurus classique à une base de connaissances. Ainsi, la première phase de notre démarche permet de créer automatiquement une structure représentant sous forme de  thésaurus (le thésaurus TERRIDOC) le travail d’indexation des bibliothécaires  en  nous  appuyant  sur  les  notices  descriptives      pour
 
(ii) Navigation et interrogation du fonds documentaire en proposant une représentation sémantique de ce dernier. L’un de nos objectifs est la mise en place d’un processus pour passer d'un thésaurus classique à une base de connaissances. Ainsi, la première phase de notre démarche permet de créer automatiquement une structure représentant sous forme de  thésaurus (le thésaurus TERRIDOC) le travail d’indexation des bibliothécaires  en  nous  appuyant  sur  les  notices  descriptives      pour
Ligne 60 : Ligne 61 :
 
3 http://www.linguastream.org/whitepaper.html
 
3 http://www.linguastream.org/whitepaper.html
  
3 Travaux connexes
+
==Travaux connexes==
 +
 
 
Transformer des thésaurus en ontologie fait l’objet de travaux de recherche récents. Depuis plusieurs années, les ontologies sont créées et utilisées dans le domaine de l’ingénierie des connaissances et notamment leur représentation. Le champ d’application est très large [4] : d’une manière générale dans l’indexation et la recherche d’information, et plus particulièrement dans le domaine médical, dans le domaine touristique, dans le domaine de l’éducation, dans le domaine de l’héritage culturel.
 
Transformer des thésaurus en ontologie fait l’objet de travaux de recherche récents. Depuis plusieurs années, les ontologies sont créées et utilisées dans le domaine de l’ingénierie des connaissances et notamment leur représentation. Le champ d’application est très large [4] : d’une manière générale dans l’indexation et la recherche d’information, et plus particulièrement dans le domaine médical, dans le domaine touristique, dans le domaine de l’éducation, dans le domaine de l’héritage culturel.
 
La conception automatique d’ontologies émerge comme un sous-domaine de l’ingénierie des connaissances. Afin de créer ces ontologies, il existe diverses approches et méthodes. Certains travaux reposent sur l’analyse de textes afin d’aider à la construction semi automatique des  ontologies.
 
La conception automatique d’ontologies émerge comme un sous-domaine de l’ingénierie des connaissances. Afin de créer ces ontologies, il existe diverses approches et méthodes. Certains travaux reposent sur l’analyse de textes afin d’aider à la construction semi automatique des  ontologies.
Ligne 71 : Ligne 73 :
  
  
4 Du fonds documentaire indexé à l’ontologie
+
==Du fonds documentaire indexé à l’ontologie==
 +
 
 
Nous présentons à travers un exemple la méthodologie adoptée pour enrichir  un  premier  vocabulaire  de  termes  provenant  du      thésaurus
 
Nous présentons à travers un exemple la méthodologie adoptée pour enrichir  un  premier  vocabulaire  de  termes  provenant  du      thésaurus
  
Ligne 79 : Ligne 82 :
 
RAMEAU afin de créer un thésaurus adapté, et les étapes à suivre pour transformer ce thésaurus en une ontologie.
 
RAMEAU afin de créer un thésaurus adapté, et les étapes à suivre pour transformer ce thésaurus en une ontologie.
  
4.1 Représentation sémantique de connaissances expertes
+
===Représentation sémantique de connaissances expertes===
 +
 
 
Nous nous appuyons dans notre démarche sur la base de notices descriptives correspondantes aux documents (figure 1) ainsi que sur le thésaurus RAMEAU. Dans notre phase d’extraction et de structuration des connaissances, l’exploitation des relations va nous permettre de construire le thésaurus TERRIDOC.
 
Nous nous appuyons dans notre démarche sur la base de notices descriptives correspondantes aux documents (figure 1) ainsi que sur le thésaurus RAMEAU. Dans notre phase d’extraction et de structuration des connaissances, l’exploitation des relations va nous permettre de construire le thésaurus TERRIDOC.
 
La première étape du traitement consiste à identifier et extraire automatiquement tous les termes (autorités matières RAMEAU) utilisés pour décrire le contenu du document dans les notices descriptives XML. Lors de la phase d’indexation, ces autorités sont sélectionnées par les bibliothécaires dans RAMEAU et utilisées dans les notices via la ou les balise(s) DEE (figure 1).
 
La première étape du traitement consiste à identifier et extraire automatiquement tous les termes (autorités matières RAMEAU) utilisés pour décrire le contenu du document dans les notices descriptives XML. Lors de la phase d’indexation, ces autorités sont sélectionnées par les bibliothécaires dans RAMEAU et utilisées dans les notices via la ou les balise(s) DEE (figure 1).
Ligne 96 : Ligne 100 :
 
Figure. 2 – Extrait du thésaurus TERRIDOC
 
Figure. 2 – Extrait du thésaurus TERRIDOC
  
4.2 Transformation du thésaurus en ontologie légère
+
===Transformation du thésaurus en ontologie légère===
 +
 
 
Une contribution importante de notre travail concerne les étapes permettant de déceler puis de labéliser les ES ainsi que les relations associatives entre ces dernières et les concepts identifiés à partir du thésaurus RAMEAU.
 
Une contribution importante de notre travail concerne les étapes permettant de déceler puis de labéliser les ES ainsi que les relations associatives entre ces dernières et les concepts identifiés à partir du thésaurus RAMEAU.
 
Dans la volonté de définir une représentation d’un territoire en traitant la composante spatiale, la première étape de notre traitement consiste à identifier dans le thésaurus TERRIDOC les termes correspondants à  des
 
Dans la volonté de définir une représentation d’un territoire en traitant la composante spatiale, la première étape de notre traitement consiste à identifier dans le thésaurus TERRIDOC les termes correspondants à  des
Ligne 116 : Ligne 121 :
  
  
5 Conclusion
+
==Conclusion==
 +
 
 
Comme nous l’avons expliqué, notre premier objectif est d’expliciter la sémantique informelle du thésaurus autour de concepts décrivant un territoire en se restreignant à l’aspect spatial dans le but de spécifier des relations ambigües entre termes présentes dans les thésaurus. Les traitements effectués sur le corpus de documents mis à disposition par la MIDR nous ont permis de modéliser la phase de création d’une ontologie enrichie du territoire reposant sur quatre étapes principales : (i) l’extraction d’informations du corpus via les notices XML associées aux documents que l’on organise sous forme d’un vocabulaire contrôlé, (ii) la définition  d’un  thésaurus  (thésaurus  TERRIDOC)  caractérisant    le
 
Comme nous l’avons expliqué, notre premier objectif est d’expliciter la sémantique informelle du thésaurus autour de concepts décrivant un territoire en se restreignant à l’aspect spatial dans le but de spécifier des relations ambigües entre termes présentes dans les thésaurus. Les traitements effectués sur le corpus de documents mis à disposition par la MIDR nous ont permis de modéliser la phase de création d’une ontologie enrichie du territoire reposant sur quatre étapes principales : (i) l’extraction d’informations du corpus via les notices XML associées aux documents que l’on organise sous forme d’un vocabulaire contrôlé, (ii) la définition  d’un  thésaurus  (thésaurus  TERRIDOC)  caractérisant    le
  
Ligne 123 : Ligne 129 :
  
  
6 Références bibliographiques
+
==Références bibliographiques==
 +
 
 
[1] Alistair Miles, Brian Matthews, Dave Beckett, Dan  Brickley,  Michael Wilson and Nikki Rogers, SKOS Core: Simple Knowledge Organisation for the Web, 2005, http://www.w3.org/2004/02/skos/references, Dernier accès Web le 8 juillet 2009
 
[1] Alistair Miles, Brian Matthews, Dave Beckett, Dan  Brickley,  Michael Wilson and Nikki Rogers, SKOS Core: Simple Knowledge Organisation for the Web, 2005, http://www.w3.org/2004/02/skos/references, Dernier accès Web le 8 juillet 2009
 
[2]    Lesbegueries J., C. Sallaberry, and M. Gaio, « Associating spatial patterns to text-units for summarizing geographic information ». 29th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval - GIR (Geographic Information Retrieval) Workshop, pp. 40-43, www.geo.unizh.ch/~rsp/gir06/accepted.html, ACM SIGIR 2006.
 
[2]    Lesbegueries J., C. Sallaberry, and M. Gaio, « Associating spatial patterns to text-units for summarizing geographic information ». 29th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval - GIR (Geographic Information Retrieval) Workshop, pp. 40-43, www.geo.unizh.ch/~rsp/gir06/accepted.html, ACM SIGIR 2006.

Version du 11 juillet 2016 à 12:18

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.
… davantage au sujet de « CIDE (2009) Bessagnet »