CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Problématiques et objectifs)
imported>Jacques Ducloy
(Problématiques et objectifs)
Ligne 42 : Ligne 42 :
  
 
L’intérêt de disposer d’un fonds documentaire et de pouvoir ensuite proposer à des utilisateurs d’accéder aux informations nécessaires pour leur activité est primordial. Cela implique, d’une part, la nécessité d’identifier les informations pertinentes et d’autre part, la possibilité de fournir des moyens pour y accéder. Les possibilités pour  organiser, classer et structurer un ensemble de documents sont nombreuses. Ainsi, afin d’offrir aux experts du domaine <ref>Nous collaborons avec les bibliothécaires de la Médiathèque Intercommunale à Dimension Régionale (MIDR) de Pau)</ref> un outil de validation de l’utilisation du langage contrôlé qu’ils ont mis en œuvre pour harmoniser leurs formulations de thèmes décrivant le contenu des documents, nous avons élaboré dans notre démarche deux phases préalables : (i) Extraction et Structuration des connaissances du domaine du fonds  documentaire ;
 
L’intérêt de disposer d’un fonds documentaire et de pouvoir ensuite proposer à des utilisateurs d’accéder aux informations nécessaires pour leur activité est primordial. Cela implique, d’une part, la nécessité d’identifier les informations pertinentes et d’autre part, la possibilité de fournir des moyens pour y accéder. Les possibilités pour  organiser, classer et structurer un ensemble de documents sont nombreuses. Ainsi, afin d’offrir aux experts du domaine <ref>Nous collaborons avec les bibliothécaires de la Médiathèque Intercommunale à Dimension Régionale (MIDR) de Pau)</ref> un outil de validation de l’utilisation du langage contrôlé qu’ils ont mis en œuvre pour harmoniser leurs formulations de thèmes décrivant le contenu des documents, nous avons élaboré dans notre démarche deux phases préalables : (i) Extraction et Structuration des connaissances du domaine du fonds  documentaire ;
(ii) Navigation et interrogation du fonds documentaire en proposant une représentation sémantique de ce dernier. L’un de nos objectifs est la mise en place d’un processus pour passer d'un thésaurus classique à une base de connaissances. Ainsi, la première phase de notre démarche permet de créer automatiquement une structure représentant sous forme de  thésaurus (le thésaurus TERRIDOC) le travail d’indexation des bibliothécaires  en  nous  appuyant  sur  les  notices  descriptives pour identifier les termes et sur RAMEAU pour extraire les relations entre ces termes.  Chacun  des  termes  est  ainsi  enrichi  par  les  relations  de type « employé pour », « terme associé » et « terme générique » et par les termes RAMEAU se trouvant liés par ces relations. Ainsi, nous considérons chaque terme extrait des notices descriptives comme    terme « de bas niveau » car rattaché directement à des documents et nous enrichissons le thésaurus avec les termes plus génériques du thésaurus RAMEAU. Le but visé par l’enrichissement du thésaurus via ces termes génériques est de permettre le regroupement en une seule structure des termes extraits. L’étape suivante consiste à enrichir cette première structure sémantique par des connaissances renseignant sur le territoire implicitement décrit par le fonds documentaire dans le but d’offrir aux utilisateurs un accès élargi à l’information. Ainsi, nous cherchons à exploiter dans nos ressources trois types d’informations : nous les qualifions d’entité thématique, d’entité spatiale (ES) [2] et d’entité temporelle (dans cet article, nous ne traiterons pas ce dernier type). Afin de capter ces entités et les relations existantes entre ces dernières, nous avons mis en place une chaîne de traitement sémantique automatisée, développée grâce à l'environnement Linguastream<ref>http://www.linguastream.org/whitepaper.html</ref>. Elle est composée de quatre grandes phases [3]: (a) la lemmatisation pour segmenter les mots ;
+
(ii) Navigation et interrogation du fonds documentaire en proposant une représentation sémantique de ce dernier. L’un de nos objectifs est la mise en place d’un processus pour passer d'un thésaurus classique à une base de connaissances. Ainsi, la première phase de notre démarche permet de créer automatiquement une structure représentant sous forme de  thésaurus (le thésaurus TERRIDOC) le travail d’indexation des bibliothécaires  en  nous  appuyant  sur  les  notices  descriptives pour identifier les termes et sur RAMEAU pour extraire les relations entre ces termes.  Chacun  des  termes  est  ainsi  enrichi  par  les  relations  de type « employé pour », « terme associé » et « terme générique » et par les termes RAMEAU se trouvant liés par ces relations. Ainsi, nous considérons chaque terme extrait des notices descriptives comme    terme « de bas niveau » car rattaché directement à des documents et nous enrichissons le thésaurus avec les termes plus génériques du thésaurus RAMEAU. Le but visé par l’enrichissement du thésaurus via ces termes génériques est de permettre le regroupement en une seule structure des termes extraits. L’étape suivante consiste à enrichir cette première structure sémantique par des connaissances renseignant sur le territoire implicitement décrit par le fonds documentaire dans le but d’offrir aux utilisateurs un accès élargi à l’information. Ainsi, nous cherchons à exploiter dans nos ressources trois types d’informations : nous les qualifions d’entité thématique, d’entité spatiale (ES) [{{CIDE lien citation|2}}] et d’entité temporelle (dans cet article, nous ne traiterons pas ce dernier type). Afin de capter ces entités et les relations existantes entre ces dernières, nous avons mis en place une chaîne de traitement sémantique automatisée, développée grâce à l'environnement Linguastream<ref>http://www.linguastream.org/whitepaper.html</ref>. Elle est composée de quatre grandes phases [{{CIDE lien citation|3}}]: (a) la lemmatisation pour segmenter les mots ;
 
(b) l'analyse lexicale et morphologique pour la reconnaissance des mots  ;
 
(b) l'analyse lexicale et morphologique pour la reconnaissance des mots  ;
 
(c) l'analyse syntaxique, basée sur des grammaires, afin de trouver les relations entre les mots ; (d) enfin l'analyse sémantique pour réaliser une interprétation plus spécifique sur les syntagmes retenus.
 
(c) l'analyse syntaxique, basée sur des grammaires, afin de trouver les relations entre les mots ; (d) enfin l'analyse sémantique pour réaliser une interprétation plus spécifique sur les syntagmes retenus.

Version du 25 août 2016 à 21:42

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.