CIDE (2009) Bessagnet : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Travaux connexes)
imported>Jacques Ducloy
(Travaux connexes)
Ligne 53 : Ligne 53 :
  
 
La conception automatique d’ontologies émerge comme un sous-domaine de l’ingénierie des connaissances. Afin de créer ces ontologies, il existe diverses approches et méthodes. Certains travaux reposent sur l’analyse de textes afin d’aider à la construction semi automatique des  ontologies.
 
La conception automatique d’ontologies émerge comme un sous-domaine de l’ingénierie des connaissances. Afin de créer ces ontologies, il existe diverses approches et méthodes. Certains travaux reposent sur l’analyse de textes afin d’aider à la construction semi automatique des  ontologies.
D. Bourigault et al [{{CIDE lien citation|5}}] décrivent les quatre étapes de la méthodologie de construction d’une ontologie à partir de textes (constitution du corpus à partir d’une analyse des besoins de l’application, étude linguistique afin d’identifier les termes et relations constituant la structure sémantique, normalisation sémantique définissant dans un langage formel les concepts et relations identifiées, validation de la formalisation par des spécialistes du domaine étudié). On peut remarquer que pour bâtir une ontologie à partir de textes, on utilise soit des ressources linguistiques externes, soit  le corpus constitué des documents. Les outils supportant ces méthodes utilisent des techniques linguistiques pour retrouver les formes terminologiques dans l’analyse des textes. A Maedche et S. Staa [{{CIDE lien citation|6}}] décrivent différents types d’approches distinguées en fonction du support sur lequel elles se basent : les plus courantes sont comme ci-dessus à partir de textes, de dictionnaires, d’autres à partir de bases de connaissances, ou encore de schémas semi-structurés et de schémas relationnels. Les travaux de [{{CIDE lien citation|7}}] et [{{CIDE lien citation|8}}] proposent une approche permettant de construire une ontologie minimale ; le processus consiste “ in extracting from texts specific types of information, rather than general- purpose relations. Accordingly, they produced remarkable efforts to conceptualize their competence domain through the definition of a core ontology”.
+
D. Bourigault et al [{{CIDE lien citation|5}}] décrivent les quatre étapes de la méthodologie de construction d’une ontologie à partir de textes (constitution du corpus à partir d’une analyse des besoins de l’application, étude linguistique afin d’identifier les termes et relations constituant la structure sémantique, normalisation sémantique définissant dans un langage formel les concepts et relations identifiées, validation de la formalisation par des spécialistes du domaine étudié). On peut remarquer que pour bâtir une ontologie à partir de textes, on utilise soit des ressources linguistiques externes, soit  le corpus constitué des documents. Les outils supportant ces méthodes utilisent des techniques linguistiques pour retrouver les formes terminologiques dans l’analyse des textes. A Maedche et S. Staa [{{CIDE lien citation|6}}] décrivent différents types d’approches distinguées en fonction du support sur lequel elles se basent : les plus courantes sont comme ci-dessus à partir de textes, de dictionnaires, d’autres à partir de bases de connaissances, ou encore de schémas semi-structurés et de schémas relationnels. Les travaux de [{{CIDE lien citation|7}}] et [{{CIDE lien citation|8}}] proposent une approche permettant de construire une ontologie minimale ; le processus consiste “ ''in extracting from texts specific types of information, rather than general- purpose relations. Accordingly, they produced remarkable efforts to conceptualize their competence domain through the definition of a core ontology''”.
Comme déjà mentionné, nous nous intéressons plus particulièrement aux méthodes permettant de transformer un thésaurus en ontologie du domaine. Dans [9], l’approche présentée permet de transformer le thésaurus à facettes de l’art et de l’architecture AAT en ontologie pour indexer des images. Cette approche est entièrement manuelle.  L’ontologie est formalisée en RDFS. Deux étapes d’identification de concepts et d’augmentation des concepts grâce à des propriétés  permettent de définir cette ontologie. La méthode explicitée dans [10] repose sur trois étapes. Cette dernière a permis la transformation du thésaurus AGROVOC couvrant le domaine de l’agriculture, de la forêt,
 
  
de la nourriture et des domaines reliés tel que l’environnement. L’originalité se base sur une phase d’apprentissage afin d’extraire des relations supplémentaires augmentant ainsi la sémantique liée au thésaurus de base. Nos travaux actuels se rapprochent de ceux développés d’une part par [11], [12] et [13] qui s’appuient sur un thésaurus et un langage ontologique tel OWL pour améliorer l’interopérabilité entre  outils et pour donner accès à ce dernier à une plus large communauté et d’autre part ceux de [14] qui simplifient l’opération de création d’ontologie à travers une approche permettant d’enrichir un thésaurus pour créer une ontologie à partir de sources de connaissances du domaine (vocabulaires, thésaurus, etc). Ces sources formalisées, contenant des termes représentant le domaine et (pour les thésaurus) des relations entre ces termes, apportent alors un plus sémantique indéniable à la représentation du domaine étudié.
+
Comme déjà mentionné, nous nous intéressons plus particulièrement aux méthodes permettant de transformer un thésaurus en ontologie du domaine. Dans [{{CIDE lien citation|9}}], l’approche présentée permet de transformer le thésaurus à facettes de l’art et de l’architecture AAT en ontologie pour indexer des images. Cette approche est entièrement manuelle.  L’ontologie est formalisée en RDFS. Deux étapes d’identification de concepts et d’augmentation des concepts grâce à des propriétés  permettent de définir cette ontologie. La méthode explicitée dans [{{CIDE lien citation|10}}] repose sur trois étapes. Cette dernière a permis la transformation du thésaurus AGROVOC couvrant le domaine de l’agriculture, de la forêt, de la nourriture et des domaines reliés tel que l’environnement. L’originalité se base sur une phase d’apprentissage afin d’extraire des relations supplémentaires augmentant ainsi la sémantique liée au thésaurus de base. Nos travaux actuels se rapprochent de ceux développés d’une part par [{{CIDE lien citation|11}}], [{{CIDE lien citation|12}}] et [{{CIDE lien citation|13}}] qui s’appuient sur un thésaurus et un langage ontologique tel OWL pour améliorer l’interopérabilité entre  outils et pour donner accès à ce dernier à une plus large communauté et d’autre part ceux de [{{CIDE lien citation|14}}] qui simplifient l’opération de création d’ontologie à travers une approche permettant d’enrichir un thésaurus pour créer une ontologie à partir de sources de connaissances du domaine (vocabulaires, thésaurus, etc). Ces sources formalisées, contenant des termes représentant le domaine et (pour les thésaurus) des relations entre ces termes, apportent alors un plus sémantique indéniable à la représentation du domaine étudié.
En accord avec [11], l’une des étapes importantes pour transformer un thésaurus en ontologie est d’avoir une représentation des concepts et de leurs relations dans un format « traitable » par une machine. Nous avons choisi, dans un premier temps, de formaliser notre structure sémantique du domaine sur la base des Topics Map et sur OWL. D’une part, les TM sont le formalisme le plus adapté à des fins de navigation dans la carte de concepts4 et dans leurs instances, ce qui nous a permis de concevoir un premier prototype. Nous avons ensuite travaillé sur une représentation OWL pour ses propriétés d’interopérabilité. Ce travail doit encore être approfondi. Le but n’est pas de représenter automatiquement le thésaurus en OWL mais de représenter le thésaurus dans un langage comme OWL. Ainsi, les travaux décrits dans [11] et [12] ont abordé ce thème de recherche lié à cette transformation. Plus récemment, [13] en transformant le thésaurus NCI en OWL DL ont rencontré des problèmes de représentation de connaissances dont nous pourrons tirer profit dans la construction de l’ontologie.
+
 
 +
En accord avec [{{CIDE lien citation|11}}], l’une des étapes importantes pour transformer un thésaurus en ontologie est d’avoir une représentation des concepts et de leurs relations dans un format « traitable » par une machine. Nous avons choisi, dans un premier temps, de formaliser notre structure sémantique du domaine sur la base des Topics Map et sur OWL. D’une part, les TM sont le formalisme le plus adapté à des fins de navigation dans la carte de concepts4 et dans leurs instances, ce qui nous a permis de concevoir un premier prototype. Nous avons ensuite travaillé sur une représentation OWL pour ses propriétés d’interopérabilité. Ce travail doit encore être approfondi. Le but n’est pas de représenter automatiquement le thésaurus en OWL mais de représenter le thésaurus dans un langage comme OWL. Ainsi, les travaux décrits dans [{{CIDE lien citation|11}}] et [{{CIDE lien citation|12}}] ont abordé ce thème de recherche lié à cette transformation. Plus récemment, [13] en transformant le thésaurus NCI en OWL DL ont rencontré des problèmes de représentation de connaissances dont nous pourrons tirer profit dans la construction de l’ontologie.
 
Nous allons aborder dans la partie suivante la démarche adoptée pour construire le thésaurus TERRIDOC puis nous nous intéresserons aux éléments de la méthodologie qui permettent de transformer le thésaurus en une ontologie.
 
Nous allons aborder dans la partie suivante la démarche adoptée pour construire le thésaurus TERRIDOC puis nous nous intéresserons aux éléments de la méthodologie qui permettent de transformer le thésaurus en une ontologie.
  

Version du 25 août 2016 à 20:47

Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.


 
 

 
titre
Extraction de termes, reconnaissance et labellisation de relations dans un thésaurus – Vers une ontologie.
auteurs
Marie-Noelle Bessagnet(1), Eric Kergosien(2) et Mauro Gaio(2)
Affiliations
(1):UPPA, Laboratoire LIUPPA, IAE, Pau, France
(2) :UPPA, Laboratoire LIUPPA, Laboratoire LIUPPA, Département Informatique, Pau, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Bessagnet.pdf
Mots-clés 
Ingénierie des connaissances, Thésaurus, Représentation des connaissances, liste d’autorités, vedettes matière, ontologie
Keywords
Knowledge Engineering, thesaurus, Knowledge representation, Subject Headings, ontology
Résumé
Dans le domaine des systèmes de documentation, l’usage des thésaurus à des fins d’indexation puis de recherche d’information est courant voire obligatoire. Dans les bibliothèques et les médiathèques francophones, par exemple, les documents possèdent de par le travail effectué par les bibliothécaires de riches informations de description, sous la forme de notices descriptives, décrites sur la base du thésaurus RAMEAU. Nous exploitons ces deux types de ressources (documents et notices) afin de créer une première structure sémantique représentant le travail d’indexation des bibliothécaires pour élaborer le thésaurus TERRIDOC. Notre corpus de référence a une forte connotation territoriale. Nous nous intéressons également à la transformation de thésaurus en ontologie de domaine. En effet, nous souhaitons obtenir une ontologie de domaine offrant une représentation synthétique du territoire implicitement décrit par le fonds documentaire traité, en faisant appel à des ressources externes de type SIG.