CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Conclusion)
imported>Jacques Ducloy
(Problématiques et objectifs)
Ligne 42 : Ligne 42 :
  
 
L’intérêt de disposer d’un fonds documentaire et de pouvoir ensuite proposer à des utilisateurs d’accéder aux informations nécessaires pour leur activité est primordial. Cela implique, d’une part, la nécessité d’identifier les informations pertinentes et d’autre part, la possibilité de fournir des moyens pour y accéder. Les possibilités pour  organiser, classer et structurer un ensemble de documents sont nombreuses. Ainsi, afin d’offrir aux experts du domaine <ref>Nous collaborons avec les bibliothécaires de la Médiathèque Intercommunale à Dimension Régionale (MIDR) de Pau)</ref> un outil de validation de l’utilisation du langage contrôlé qu’ils ont mis en œuvre pour harmoniser leurs formulations de thèmes décrivant le contenu des documents, nous avons élaboré dans notre démarche deux phases préalables : (i) Extraction et Structuration des connaissances du domaine du fonds  documentaire ;
 
L’intérêt de disposer d’un fonds documentaire et de pouvoir ensuite proposer à des utilisateurs d’accéder aux informations nécessaires pour leur activité est primordial. Cela implique, d’une part, la nécessité d’identifier les informations pertinentes et d’autre part, la possibilité de fournir des moyens pour y accéder. Les possibilités pour  organiser, classer et structurer un ensemble de documents sont nombreuses. Ainsi, afin d’offrir aux experts du domaine <ref>Nous collaborons avec les bibliothécaires de la Médiathèque Intercommunale à Dimension Régionale (MIDR) de Pau)</ref> un outil de validation de l’utilisation du langage contrôlé qu’ils ont mis en œuvre pour harmoniser leurs formulations de thèmes décrivant le contenu des documents, nous avons élaboré dans notre démarche deux phases préalables : (i) Extraction et Structuration des connaissances du domaine du fonds  documentaire ;
(ii) Navigation et interrogation du fonds documentaire en proposant une représentation sémantique de ce dernier. L’un de nos objectifs est la mise en place d’un processus pour passer d'un thésaurus classique à une base de connaissances. Ainsi, la première phase de notre démarche permet de créer automatiquement une structure représentant sous forme de  thésaurus (le thésaurus TERRIDOC) le travail d’indexation des bibliothécaires  en  nous  appuyant  sur  les  notices  descriptives pour identifier les termes et sur RAMEAU pour extraire les relations entre ces termes.  Chacun  des  termes  est  ainsi  enrichi  par  les  relations  de type
+
(ii) Navigation et interrogation du fonds documentaire en proposant une représentation sémantique de ce dernier. L’un de nos objectifs est la mise en place d’un processus pour passer d'un thésaurus classique à une base de connaissances. Ainsi, la première phase de notre démarche permet de créer automatiquement une structure représentant sous forme de  thésaurus (le thésaurus TERRIDOC) le travail d’indexation des bibliothécaires  en  nous  appuyant  sur  les  notices  descriptives pour identifier les termes et sur RAMEAU pour extraire les relations entre ces termes.  Chacun  des  termes  est  ainsi  enrichi  par  les  relations  de type « employé pour », « terme associé » et « terme générique » et par les termes RAMEAU se trouvant liés par ces relations. Ainsi, nous considérons chaque terme extrait des notices descriptives comme    terme « de bas niveau » car rattaché directement à des documents et nous enrichissons le thésaurus avec les termes plus génériques du thésaurus RAMEAU. Le but visé par l’enrichissement du thésaurus via ces termes génériques est de permettre le regroupement en une seule structure des termes extraits. L’étape suivante consiste à enrichir cette première structure sémantique par des connaissances renseignant sur le territoire implicitement décrit par le fonds documentaire dans le but d’offrir aux utilisateurs un accès élargi à l’information. Ainsi, nous cherchons à exploiter dans nos ressources trois types d’informations : nous les qualifions d’entité thématique, d’entité spatiale (ES) [2] et d’entité temporelle (dans cet article, nous ne traiterons pas ce dernier type). Afin de capter ces entités et les relations existantes entre ces dernières, nous avons mis en place une chaîne de traitement sémantique automatisée, développée grâce à l'environnement Linguastream<ref>http://www.linguastream.org/whitepaper.html</ref>. Elle est composée de quatre grandes phases [3]: (a) la lemmatisation pour segmenter les mots ;
« employé pour », « terme associé » et « terme générique » et par les termes RAMEAU se trouvant liés par ces relations. Ainsi, nous considérons chaque terme extrait des notices descriptives comme    terme
 
« de bas niveau » car rattaché directement à des documents et nous enrichissons le thésaurus avec les termes plus génériques du thésaurus RAMEAU. Le but visé par l’enrichissement du thésaurus via ces termes génériques est de permettre le regroupement en une seule structure des termes extraits. L’étape suivante consiste à enrichir cette première structure sémantique par des connaissances renseignant sur le territoire implicitement décrit par le fonds documentaire dans le but d’offrir aux utilisateurs un accès élargi à l’information. Ainsi, nous cherchons à exploiter dans nos ressources trois types d’informations : nous les qualifions d’entité thématique, d’entité spatiale (ES) [2] et d’entité temporelle (dans cet article, nous ne traiterons pas ce dernier type). Afin de capter ces entités et les relations existantes entre ces dernières, nous avons mis en place une chaîne de traitement sémantique automatisée, développée grâce à l'environnement Linguastream3. Elle est composée de quatre grandes phases [3]: (a) la lemmatisation pour segmenter les mots ;
 
 
(b) l'analyse lexicale et morphologique pour la reconnaissance des mots  ;
 
(b) l'analyse lexicale et morphologique pour la reconnaissance des mots  ;
 
(c) l'analyse syntaxique, basée sur des grammaires, afin de trouver les relations entre les mots ; (d) enfin l'analyse sémantique pour réaliser une interprétation plus spécifique sur les syntagmes retenus.
 
(c) l'analyse syntaxique, basée sur des grammaires, afin de trouver les relations entre les mots ; (d) enfin l'analyse sémantique pour réaliser une interprétation plus spécifique sur les syntagmes retenus.
 +
 
Afin de détecter ces entités, la partie extraction est découpée en étapes.  La première (1) concerne la collecte d’ouvrages numérisés relatant d’un territoire. La seconde (2) supporte une analyse linguistique puis sémantique afin d'extraire les Entités précitées. La troisième (3) s’appuie d’une part sur des ressources géographiques (communes, lieux-dits, routes, pics, vallées, …) afin de valider les ES détectées à l’étape précédente et d’autre part sur la ressource RAMEAU afin de valider les Entités Thématiques. La dernière étape (4) propose la labellisation des relations entre ces diverses entités. Au vu de l’analyse de notre corpus, nous souhaitons nous intéresser à l’ensemble des relations binaires suivantes : Entité Thématique- Entité Spatiale et Entité Thématique- Entité Temporelle. Nous aborderons dans ce papier la relation Entité Thématique- Entité Spatiale. A cet effet, nous montrerons la démarche pour détecter des qualificatifs des toponymes ainsi que des relations d’approximation de sens avec les termes du thésaurus.
 
Afin de détecter ces entités, la partie extraction est découpée en étapes.  La première (1) concerne la collecte d’ouvrages numérisés relatant d’un territoire. La seconde (2) supporte une analyse linguistique puis sémantique afin d'extraire les Entités précitées. La troisième (3) s’appuie d’une part sur des ressources géographiques (communes, lieux-dits, routes, pics, vallées, …) afin de valider les ES détectées à l’étape précédente et d’autre part sur la ressource RAMEAU afin de valider les Entités Thématiques. La dernière étape (4) propose la labellisation des relations entre ces diverses entités. Au vu de l’analyse de notre corpus, nous souhaitons nous intéresser à l’ensemble des relations binaires suivantes : Entité Thématique- Entité Spatiale et Entité Thématique- Entité Temporelle. Nous aborderons dans ce papier la relation Entité Thématique- Entité Spatiale. A cet effet, nous montrerons la démarche pour détecter des qualificatifs des toponymes ainsi que des relations d’approximation de sens avec les termes du thésaurus.
  
Ligne 53 : Ligne 52 :
  
  
3 http://www.linguastream.org/whitepaper.html
+
3
  
 
==Travaux connexes==
 
==Travaux connexes==

Version du 25 août 2016 à 21:41

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.