Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Text Mining: Symbolic methods to build ontologies and to semantically annotate texts

Identifieur interne : 004A69 ( Hal/Curation ); précédent : 004A68; suivant : 004A70

Text Mining: Symbolic methods to build ontologies and to semantically annotate texts

Auteurs : Yannick Toussaint [France]

Source :

RBID : Hal:tel-00764162

Descripteurs français

English descriptors

Abstract

Extracting knowledge from texts is highly contextual and depends on the domain and on the task. We show that information retrieval, Natural Language Processing, data mining and Knowledge representation are research domains that all contribute to improve knowledge extraction from texts. My research project aims at building a semantic continuum between texts and knowledge. I claim that symbolic and formal classification methods such as Formal Concept Analysis are very promissing for the conceptualization phase in building ontology, to support interaction with experts and to ensure a direct link between texts and knowledge and in return, between knowledge and texts. Moreover this symbolic classification tool could prove very powerful for building sysnthesis of complexe phenomena such as diseases descriptions.

Url:

Links toward previous steps (curation, corpus...)


Links to Exploration step

Hal:tel-00764162

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en">Text Mining: Symbolic methods to build ontologies and to semantically annotate texts</title>
<title xml:lang="fr">Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances</title>
<author>
<name sortKey="Toussaint, Yannick" sort="Toussaint, Yannick" uniqKey="Toussaint Y" first="Yannick" last="Toussaint">Yannick Toussaint</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-2358" status="OLD">
<idno type="RNSR">200818291B</idno>
<orgName>Knowledge representation, reasonning</orgName>
<orgName type="acronym">ORPAILLEUR</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/equipes/orpailleur</ref>
</desc>
<listRelation>
<relation active="#struct-160" type="direct"></relation>
<relation name="UMR7503" active="#struct-441569" type="indirect"></relation>
<relation active="#struct-300009" type="indirect"></relation>
<relation active="#struct-300291" type="indirect"></relation>
<relation active="#struct-300292" type="indirect"></relation>
<relation active="#struct-300293" type="indirect"></relation>
<relation active="#struct-2496" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-160" type="direct">
<org type="laboratory" xml:id="struct-160" status="OLD">
<orgName>Laboratoire Lorrain de Recherche en Informatique et ses Applications</orgName>
<orgName type="acronym">LORIA</orgName>
<desc>
<address>
<addrLine>Campus Scientifique BP 239 54506 Vandoeuvre-lès-Nancy Cedex</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.loria.fr</ref>
</desc>
<listRelation>
<relation name="UMR7503" active="#struct-441569" type="direct"></relation>
<relation active="#struct-300009" type="direct"></relation>
<relation active="#struct-300291" type="direct"></relation>
<relation active="#struct-300292" type="direct"></relation>
<relation active="#struct-300293" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="UMR7503" active="#struct-441569" type="indirect">
<org type="institution" xml:id="struct-441569" status="VALID">
<idno type="IdRef">02636817X</idno>
<idno type="ISNI">0000000122597504</idno>
<orgName>Centre National de la Recherche Scientifique</orgName>
<orgName type="acronym">CNRS</orgName>
<date type="start">1939-10-19</date>
<desc>
<address>
<country key="FR"></country>
</address>
<ref type="url">http://www.cnrs.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300009" type="indirect">
<org type="institution" xml:id="struct-300009" status="VALID">
<orgName>Institut National de Recherche en Informatique et en Automatique</orgName>
<orgName type="acronym">Inria</orgName>
<desc>
<address>
<addrLine>Domaine de VoluceauRocquencourt - BP 10578153 Le Chesnay Cedex</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/en/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300291" type="indirect">
<org type="institution" xml:id="struct-300291" status="OLD">
<orgName>Université Henri Poincaré - Nancy 1</orgName>
<orgName type="acronym">UHP</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<addrLine>24-30 rue Lionnois, BP 60120, 54 003 NANCY cedex, France</addrLine>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300292" type="indirect">
<org type="institution" xml:id="struct-300292" status="OLD">
<orgName>Université Nancy 2</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<addrLine>91 avenue de la Libération, BP 454, 54001 Nancy cedex</addrLine>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300293" type="indirect">
<org type="institution" xml:id="struct-300293" status="OLD">
<orgName>Institut National Polytechnique de Lorraine</orgName>
<orgName type="acronym">INPL</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-2496" type="direct">
<org type="laboratory" xml:id="struct-2496" status="OLD">
<orgName>INRIA Lorraine</orgName>
<desc>
<address>
<addrLine>615 rue du Jardin Botanique 54600 Villers-lès-Nancy</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/centre-de-recherche-inria/nancy-grand-est</ref>
</desc>
<listRelation>
<relation active="#struct-300009" type="direct"></relation>
</listRelation>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="university">Université Nancy 2</orgName>
<orgName type="institution" wicri:auto="newGroup">Université de Lorraine</orgName>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="university">Institut national polytechnique de Lorraine</orgName>
<orgName type="institution" wicri:auto="newGroup">Université de Lorraine</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">HAL</idno>
<idno type="RBID">Hal:tel-00764162</idno>
<idno type="halId">tel-00764162</idno>
<idno type="halUri">https://tel.archives-ouvertes.fr/tel-00764162</idno>
<idno type="url">https://tel.archives-ouvertes.fr/tel-00764162</idno>
<date when="2011-11-21">2011-11-21</date>
<idno type="wicri:Area/Hal/Corpus">004A69</idno>
<idno type="wicri:Area/Hal/Curation">004A69</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en">Text Mining: Symbolic methods to build ontologies and to semantically annotate texts</title>
<title xml:lang="fr">Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances</title>
<author>
<name sortKey="Toussaint, Yannick" sort="Toussaint, Yannick" uniqKey="Toussaint Y" first="Yannick" last="Toussaint">Yannick Toussaint</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-2358" status="OLD">
<idno type="RNSR">200818291B</idno>
<orgName>Knowledge representation, reasonning</orgName>
<orgName type="acronym">ORPAILLEUR</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/equipes/orpailleur</ref>
</desc>
<listRelation>
<relation active="#struct-160" type="direct"></relation>
<relation name="UMR7503" active="#struct-441569" type="indirect"></relation>
<relation active="#struct-300009" type="indirect"></relation>
<relation active="#struct-300291" type="indirect"></relation>
<relation active="#struct-300292" type="indirect"></relation>
<relation active="#struct-300293" type="indirect"></relation>
<relation active="#struct-2496" type="direct"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-160" type="direct">
<org type="laboratory" xml:id="struct-160" status="OLD">
<orgName>Laboratoire Lorrain de Recherche en Informatique et ses Applications</orgName>
<orgName type="acronym">LORIA</orgName>
<desc>
<address>
<addrLine>Campus Scientifique BP 239 54506 Vandoeuvre-lès-Nancy Cedex</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.loria.fr</ref>
</desc>
<listRelation>
<relation name="UMR7503" active="#struct-441569" type="direct"></relation>
<relation active="#struct-300009" type="direct"></relation>
<relation active="#struct-300291" type="direct"></relation>
<relation active="#struct-300292" type="direct"></relation>
<relation active="#struct-300293" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="UMR7503" active="#struct-441569" type="indirect">
<org type="institution" xml:id="struct-441569" status="VALID">
<idno type="IdRef">02636817X</idno>
<idno type="ISNI">0000000122597504</idno>
<orgName>Centre National de la Recherche Scientifique</orgName>
<orgName type="acronym">CNRS</orgName>
<date type="start">1939-10-19</date>
<desc>
<address>
<country key="FR"></country>
</address>
<ref type="url">http://www.cnrs.fr/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300009" type="indirect">
<org type="institution" xml:id="struct-300009" status="VALID">
<orgName>Institut National de Recherche en Informatique et en Automatique</orgName>
<orgName type="acronym">Inria</orgName>
<desc>
<address>
<addrLine>Domaine de VoluceauRocquencourt - BP 10578153 Le Chesnay Cedex</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/en/</ref>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300291" type="indirect">
<org type="institution" xml:id="struct-300291" status="OLD">
<orgName>Université Henri Poincaré - Nancy 1</orgName>
<orgName type="acronym">UHP</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<addrLine>24-30 rue Lionnois, BP 60120, 54 003 NANCY cedex, France</addrLine>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300292" type="indirect">
<org type="institution" xml:id="struct-300292" status="OLD">
<orgName>Université Nancy 2</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<addrLine>91 avenue de la Libération, BP 454, 54001 Nancy cedex</addrLine>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-300293" type="indirect">
<org type="institution" xml:id="struct-300293" status="OLD">
<orgName>Institut National Polytechnique de Lorraine</orgName>
<orgName type="acronym">INPL</orgName>
<date type="end">2011-12-31</date>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
<tutelle active="#struct-2496" type="direct">
<org type="laboratory" xml:id="struct-2496" status="OLD">
<orgName>INRIA Lorraine</orgName>
<desc>
<address>
<addrLine>615 rue du Jardin Botanique 54600 Villers-lès-Nancy</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.inria.fr/centre-de-recherche-inria/nancy-grand-est</ref>
</desc>
<listRelation>
<relation active="#struct-300009" type="direct"></relation>
</listRelation>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="university">Université Nancy 2</orgName>
<orgName type="institution" wicri:auto="newGroup">Université de Lorraine</orgName>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="university">Institut national polytechnique de Lorraine</orgName>
<orgName type="institution" wicri:auto="newGroup">Université de Lorraine</orgName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="mix" xml:lang="en">
<term>Ontology</term>
<term>formal concept analysis</term>
<term>itemsets</term>
<term>terminology</term>
</keywords>
<keywords scheme="mix" xml:lang="fr">
<term>Analyse formelle de concepts</term>
<term>Ontologies</term>
<term>motifs</term>
<term>terminologie</term>
</keywords>
<keywords scheme="Wicri" type="topic" xml:lang="fr">
<term>Ontologie</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="en">Extracting knowledge from texts is highly contextual and depends on the domain and on the task. We show that information retrieval, Natural Language Processing, data mining and Knowledge representation are research domains that all contribute to improve knowledge extraction from texts. My research project aims at building a semantic continuum between texts and knowledge. I claim that symbolic and formal classification methods such as Formal Concept Analysis are very promissing for the conceptualization phase in building ontology, to support interaction with experts and to ensure a direct link between texts and knowledge and in return, between knowledge and texts. Moreover this symbolic classification tool could prove very powerful for building sysnthesis of complexe phenomena such as diseases descriptions.</div>
</front>
</TEI>
<hal api="V3">
<titleStmt>
<title xml:lang="en">Text Mining: Symbolic methods to build ontologies and to semantically annotate texts</title>
<title xml:lang="fr">Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances</title>
<author role="aut">
<persName>
<forename type="first">Yannick</forename>
<surname>Toussaint</surname>
</persName>
<email>yannick@loria.fr</email>
<idno type="halauthor">86274</idno>
<affiliation ref="#struct-2358"></affiliation>
</author>
<editor role="depositor">
<persName>
<forename>Yannick</forename>
<surname>Toussaint</surname>
</persName>
<email>Yannick.Toussaint@loria.fr</email>
</editor>
</titleStmt>
<editionStmt>
<edition n="v1" type="current">
<date type="whenSubmitted">2012-12-12 14:51:40</date>
<date type="whenModified">2016-05-18 09:01:04</date>
<date type="whenReleased">2012-12-12 15:46:19</date>
<date type="whenProduced">2011-11-21</date>
<date type="whenEndEmbargoed">2012-12-12</date>
<ref type="file" target="https://tel.archives-ouvertes.fr/tel-00764162/document">
<date notBefore="2012-12-12"></date>
</ref>
<ref type="file" n="1" target="https://tel.archives-ouvertes.fr/tel-00764162/file/hdr5.pdf">
<date notBefore="2012-12-12"></date>
</ref>
</edition>
<respStmt>
<resp>contributor</resp>
<name key="136639">
<persName>
<forename>Yannick</forename>
<surname>Toussaint</surname>
</persName>
<email>Yannick.Toussaint@loria.fr</email>
</name>
</respStmt>
</editionStmt>
<publicationStmt>
<distributor>CCSD</distributor>
<idno type="halId">tel-00764162</idno>
<idno type="halUri">https://tel.archives-ouvertes.fr/tel-00764162</idno>
<idno type="halBibtex">toussaint:tel-00764162</idno>
<idno type="halRefHtml">Traitement du texte et du document. Université Henri Poincaré - Nancy I, 2011</idno>
<idno type="halRef">Traitement du texte et du document. Université Henri Poincaré - Nancy I, 2011</idno>
</publicationStmt>
<seriesStmt>
<idno type="stamp" n="CNRS">CNRS - Centre national de la recherche scientifique</idno>
<idno type="stamp" n="INRIA">INRIA - Institut National de Recherche en Informatique et en Automatique</idno>
<idno type="stamp" n="INRIA-LORRAINE">INRIA Nancy - Grand Est</idno>
<idno type="stamp" n="LORIA2">Publications du LORIA</idno>
<idno type="stamp" n="INRIA-NANCY-GRAND-EST">INRIA Nancy - Grand Est</idno>
<idno type="stamp" n="LORIA">LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications</idno>
<idno type="stamp" n="LORIA-TALC" p="LORIA">Traitement automatique des langues et des connaissances</idno>
<idno type="stamp" n="INRIA2">INRIA 2</idno>
<idno type="stamp" n="INPL">Institut National Polytechnique de Lorraine</idno>
<idno type="stamp" n="LABO-LORIA-SET" p="LORIA">LABO-LORIA-SET</idno>
<idno type="stamp" n="UNIV-LORRAINE">Université de Lorraine</idno>
</seriesStmt>
<notesStmt></notesStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en">Text Mining: Symbolic methods to build ontologies and to semantically annotate texts</title>
<title xml:lang="fr">Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances</title>
<author role="aut">
<persName>
<forename type="first">Yannick</forename>
<surname>Toussaint</surname>
</persName>
<email>yannick@loria.fr</email>
<idno type="halAuthorId">86274</idno>
<affiliation ref="#struct-2358"></affiliation>
</author>
</analytic>
<monogr>
<imprint>
<date type="dateDefended">2011-11-21</date>
</imprint>
<authority type="institution">Université Henri Poincaré - Nancy I</authority>
<authority type="supervisor">Jean-Marie Pierrel, Professeur, Université UHP-Nancy 1, ATILF</authority>
<authority type="jury">Daniel Kayser (rapporteur), Professeur, Université Paris-Nord 13, LIPN</authority>
<authority type="jury">Stan Matwin (rapporteur), Professeur, Université d'Ottawa, Canada</authority>
<authority type="jury">Pierre Zweigenbaum (rapporteur) , DR CNRS, LIMSI</authority>
<authority type="jury">Nathalie Aussenac (examinatrice), DR CNRS, IRIT</authority>
<authority type="jury">Béatrice Daille (examinatrice), Professeur, Université de Nantes, LINA</authority>
<authority type="jury">Amedeo Napoli (directeur), DR CNRS, LORIA</authority>
<authority type="jury">Jean-Marie Pierrel (examinateur), Professeur, Université UHP-Nancy 1, ATILF</authority>
</monogr>
</biblStruct>
</sourceDesc>
<profileDesc>
<langUsage>
<language ident="fr">French</language>
</langUsage>
<textClass>
<keywords scheme="author">
<term xml:lang="en">Ontology</term>
<term xml:lang="en">formal concept analysis</term>
<term xml:lang="en">terminology</term>
<term xml:lang="en">itemsets</term>
<term xml:lang="fr">Ontologies</term>
<term xml:lang="fr">Analyse formelle de concepts</term>
<term xml:lang="fr">terminologie</term>
<term xml:lang="fr">motifs</term>
</keywords>
<classCode scheme="halDomain" n="info.info-tt">Computer Science [cs]/Document and Text Processing</classCode>
<classCode scheme="halTypology" n="HDR">Accreditation to supervise research</classCode>
</textClass>
<abstract xml:lang="en">Extracting knowledge from texts is highly contextual and depends on the domain and on the task. We show that information retrieval, Natural Language Processing, data mining and Knowledge representation are research domains that all contribute to improve knowledge extraction from texts. My research project aims at building a semantic continuum between texts and knowledge. I claim that symbolic and formal classification methods such as Formal Concept Analysis are very promissing for the conceptualization phase in building ontology, to support interaction with experts and to ensure a direct link between texts and knowledge and in return, between knowledge and texts. Moreover this symbolic classification tool could prove very powerful for building sysnthesis of complexe phenomena such as diseases descriptions.</abstract>
<abstract xml:lang="fr">Il n'existe pas d'outils clé en main pour extraire des connaissances de textes et le passage de la langue naturelle à des connaissances est très fortement contextualisé et dépendant de la tâche que l'on s'est fixée. Nous montrons que le défi d'extraction de connaissances à partir de textes reste aujourd'hui très vaste, avec de très nombreuses pistes de recherche que ce soit en lien avec des approche de type recherche d'information, traitement automatique des langues, fouille de données ou représentation des connaissances. Chacun de ces domaines de recherche recensent de nombreux sous-domaines tous très actifs. Le projet de recherche que je souhaite développer peut être vu comme un chemin au travers de ces domaines qui vise à créer un continuum (sémantique) entre les différentes étapes de la fouille de textes. L'extraction de connaissances à partir de textes est avant tout une construction de connaissances et suppose une cohérence méthodologique entre les différentes étapes de la fouille de textes. J'ai fait le choix d'ancrer mes travaux dans le domaine du formel en visant notamment une représentation des connaissances en logique, plus particulièrement en logique de descriptions. Malgré les restrictions liées à ce choix, notamment en ce qui concerne l'interaction avec des humains experts d'un domaine, la mise à jour, ou la correction d'une ontologie, une représentation formelle reste à mon sens la solution pour raisonner sur les textes et assurer la cohérence d'une ontologie. Si le but final d'un processus de fouille est de construire une représentation formelle qui puisse être le support de raisonnements, je me suis concentré dans ce projet de recherche sur la construction des connaissances en exploitant des méthodes à base de motifs, d'extraction de règles d'association ou de l'analyse formelle de concepts. L'intérêt de ces approches est qu'elles assureront un lien constant entre les textes et les connaissances. La modification des textes engendre une modification des connaissances et inversement la modification des connaissances (les ressources externes par exemple) modifient l'annotation des textes et l'ontologie. Des environnements coopératifs pourraient à terme intégrer nos travaux et faciliter ainsi la synergie entre les processus humains et les processus automatiques.</abstract>
</profileDesc>
</hal>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Hal/Curation
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 004A69 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Hal/Curation/biblio.hfd -nk 004A69 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Hal
   |étape=   Curation
   |type=    RBID
   |clé=     Hal:tel-00764162
   |texte=   Text Mining: Symbolic methods to build ontologies and to semantically annotate texts
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022