Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Aide à l’expertise des brevets par alignement avec les publications scientifiques

Identifieur interne : 001446 ( Main/Exploration ); précédent : 001445; suivant : 001447

Aide à l’expertise des brevets par alignement avec les publications scientifiques

Auteurs : Kafil Hajlaoui [France] ; Pascal Cuxac [France] ; Jean Charles Lamirel [France] ; Claire François [France]

Source :

RBID : ISTEX:F5C59FF96FB43017A01D3FD7EA8FCE056F177B2C

Descripteurs français

English descriptors

Abstract

Ce travail s’inscrit dans le cadre du programme de recherche QUAERO1, un vaste projet de recherche et d’innovation se rapportant au traitement automatique de contenus multimédias et multilingues. Cet article propose une méthode de classification automatique d’articles dans un plan de classement international de brevets relevant du même domaine. La finalité applicative de ce travail est une aide aux experts dans le processus d’évaluation de l’originalité et de la nouveauté d’un brevet, en proposant les citations scientifiques les plus pertinentes. Ce sujet soulève de nouveaux défis en catégorisation liés au fait que le plan de classement des brevets n’est pas directement adapté à la structure des documents scientifiques et que la répartition des exemples disponibles n’est pas nécessairement équilibrée entre les différentes classes d’apprentissage. Nous proposons d’appliquer une amélioration de l’algorithme des K-plus-proches-voisins (K-PPV) se basant sur l’exploitation des règles d’associations entre les termes descripteurs des documents et ceux des classes de brevets. En utilisant conjointement comme référentiels une base de brevets du domaine de la pharmacologie et une base bibliographique du même domaine issue de la collection Medline, nous montrons que cette nouvelle technique de catégorisation, qui combine les avantages des approches numériques et ceux des approches symboliques, permet d’améliorer sensiblement les performances de catégorisation, relativement aux méthodes de catégorisation usuelles, dans le cas du problème posé.
This paper focuses on a subtask of the QUAERO1 research program, a major innovating research project related to the automatic processing of multimedia and multilingual content. The objective discussed in this article is to propose a new method for the classification of scientific papers, developed in the context of an international classification assistance tool to experts in their task of evaluation of the originality and novelty of a patent, by offering to the latter the most relevant scientific citations. This issue raises new challenges in categorization research as the patent classification plan is not directly adapted to the structure of scientific documents and that there is not always a balanced distribution of the available examples within the different learning classes. We propose, as a solution to this problem, to apply an improved K-nearest-neighbors (KNN) algorithm based on the exploitation of association rules occurring between the index terms of the documents and the ones of the patent classes. By using a reference dataset of patents belonging to the field of pharmacology, on the one hand, and a bibliographic dataset of the same field issued from the Medline collection, on the other hand, we show that this new approach, which combines the advantages of both numerical and symbolical approaches, improves considerably categorization performance, as compared to the usual categorization methods.

Url:
DOI: 10.3166/dn.16.1.11-29


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI wicri:istexFullTextTei="biblStruct">
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Aide à l’expertise des brevets par alignement avec les publications scientifiques</title>
<author>
<name sortKey="Hajlaoui, Kafil" sort="Hajlaoui, Kafil" uniqKey="Hajlaoui K" first="Kafil" last="Hajlaoui">Kafil Hajlaoui</name>
</author>
<author>
<name sortKey="Cuxac, Pascal" sort="Cuxac, Pascal" uniqKey="Cuxac P" first="Pascal" last="Cuxac">Pascal Cuxac</name>
</author>
<author>
<name sortKey="Charles Lamirel, Jean" sort="Charles Lamirel, Jean" uniqKey="Charles Lamirel J" first="Jean" last="Charles Lamirel">Jean Charles Lamirel</name>
</author>
<author>
<name sortKey="Francois, Claire" sort="Francois, Claire" uniqKey="Francois C" first="Claire" last="François">Claire François</name>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:F5C59FF96FB43017A01D3FD7EA8FCE056F177B2C</idno>
<date when="2013" year="2013">2013</date>
<idno type="doi">10.3166/dn.16.1.11-29</idno>
<idno type="url">https://api.istex.fr/ark:/67375/HT0-DX6D1JNZ-V/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">003A85</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">003A85</idno>
<idno type="wicri:Area/Istex/Curation">003A41</idno>
<idno type="wicri:Area/Istex/Checkpoint">000071</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Checkpoint">000071</idno>
<idno type="wicri:doubleKey">1279-5127:2013:Hajlaoui K:aide:a:l</idno>
<idno type="wicri:Area/Main/Merge">001457</idno>
<idno type="wicri:source">HAL</idno>
<idno type="RBID">Hal:hal-00959424</idno>
<idno type="url">https://hal.archives-ouvertes.fr/hal-00959424</idno>
<idno type="wicri:Area/Hal/Corpus">005565</idno>
<idno type="wicri:Area/Hal/Curation">005565</idno>
<idno type="wicri:Area/Hal/Checkpoint">001169</idno>
<idno type="wicri:explorRef" wicri:stream="Hal" wicri:step="Checkpoint">001169</idno>
<idno type="wicri:doubleKey">1279-5127:2013:Hajlaoui K:aide:a:l</idno>
<idno type="wicri:Area/Main/Merge">001260</idno>
<idno type="wicri:source">INIST</idno>
<idno type="RBID">Pascal:13-0204304</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000068</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000097</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000939</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000039</idno>
<idno type="wicri:explorRef" wicri:stream="PascalFrancis" wicri:step="Checkpoint">000039</idno>
<idno type="wicri:doubleKey">1279-5127:2013:Hajlaoui K:aide:a:l</idno>
<idno type="wicri:Area/Main/Merge">001710</idno>
<idno type="wicri:Area/Main/Curation">001446</idno>
<idno type="wicri:Area/Main/Exploration">001446</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title level="a" type="main" xml:lang="fr">Aide à l’expertise des brevets par alignement avec les publications scientifiques</title>
<author>
<name sortKey="Hajlaoui, Kafil" sort="Hajlaoui, Kafil" uniqKey="Hajlaoui K" first="Kafil" last="Hajlaoui">Kafil Hajlaoui</name>
<affiliation></affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
<author>
<name sortKey="Cuxac, Pascal" sort="Cuxac, Pascal" uniqKey="Cuxac P" first="Pascal" last="Cuxac">Pascal Cuxac</name>
<affiliation></affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
<author>
<name sortKey="Charles Lamirel, Jean" sort="Charles Lamirel, Jean" uniqKey="Charles Lamirel J" first="Jean" last="Charles Lamirel">Jean Charles Lamirel</name>
<affiliation></affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
<author>
<name sortKey="Francois, Claire" sort="Francois, Claire" uniqKey="Francois C" first="Claire" last="François">Claire François</name>
<affiliation></affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series>
<title level="j" type="main">Document Numérique</title>
<title level="j" type="abbrev">Doc. Num.</title>
<idno type="ISSN">1279-5127</idno>
<idno type="eISSN">1963-1014</idno>
<imprint>
<publisher>Lavoisier</publisher>
<date type="published" when="2013-01">2013</date>
<biblScope unit="vol">16</biblScope>
<biblScope unit="issue">1</biblScope>
<biblScope unit="page" from="11">11</biblScope>
<biblScope unit="page" to="29">29</biblScope>
<biblScope unit="page-count">20</biblScope>
<biblScope unit="ref-count">0</biblScope>
<biblScope unit="fig-count">0</biblScope>
<biblScope unit="table-count">0</biblScope>
</imprint>
<idno type="ISSN">1279-5127</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<idno type="ISSN">1279-5127</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Association</term>
<term>Automatic processing</term>
<term>Classification</term>
<term>Expertise</term>
<term>Patents</term>
<term>Published document</term>
<term>Science watch</term>
<term>Scientific technical information</term>
<term>Technique</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Association</term>
<term>Brevet</term>
<term>Classification</term>
<term>Document publié</term>
<term>Expertise</term>
<term>Information scientifique technique</term>
<term>Publication scientifique</term>
<term>Technique</term>
<term>Traitement automatique</term>
<term>Veille scientifique</term>
</keywords>
<keywords scheme="Wicri" type="topic" xml:lang="fr">
<term>Association</term>
<term>Brevet</term>
<term>Classification</term>
</keywords>
<keywords scheme="mix" xml:lang="fr">
<term>Brevets</term>
<term>classification automatique</term>
<term>classification supervisée</term>
<term>texte</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Ce travail s’inscrit dans le cadre du programme de recherche QUAERO1, un vaste projet de recherche et d’innovation se rapportant au traitement automatique de contenus multimédias et multilingues. Cet article propose une méthode de classification automatique d’articles dans un plan de classement international de brevets relevant du même domaine. La finalité applicative de ce travail est une aide aux experts dans le processus d’évaluation de l’originalité et de la nouveauté d’un brevet, en proposant les citations scientifiques les plus pertinentes. Ce sujet soulève de nouveaux défis en catégorisation liés au fait que le plan de classement des brevets n’est pas directement adapté à la structure des documents scientifiques et que la répartition des exemples disponibles n’est pas nécessairement équilibrée entre les différentes classes d’apprentissage. Nous proposons d’appliquer une amélioration de l’algorithme des K-plus-proches-voisins (K-PPV) se basant sur l’exploitation des règles d’associations entre les termes descripteurs des documents et ceux des classes de brevets. En utilisant conjointement comme référentiels une base de brevets du domaine de la pharmacologie et une base bibliographique du même domaine issue de la collection Medline, nous montrons que cette nouvelle technique de catégorisation, qui combine les avantages des approches numériques et ceux des approches symboliques, permet d’améliorer sensiblement les performances de catégorisation, relativement aux méthodes de catégorisation usuelles, dans le cas du problème posé.</div>
<div type="abstract" xml:lang="en">This paper focuses on a subtask of the QUAERO1 research program, a major innovating research project related to the automatic processing of multimedia and multilingual content. The objective discussed in this article is to propose a new method for the classification of scientific papers, developed in the context of an international classification assistance tool to experts in their task of evaluation of the originality and novelty of a patent, by offering to the latter the most relevant scientific citations. This issue raises new challenges in categorization research as the patent classification plan is not directly adapted to the structure of scientific documents and that there is not always a balanced distribution of the available examples within the different learning classes. We propose, as a solution to this problem, to apply an improved K-nearest-neighbors (KNN) algorithm based on the exploitation of association rules occurring between the index terms of the documents and the ones of the patent classes. By using a reference dataset of patents belonging to the field of pharmacology, on the one hand, and a bibliographic dataset of the same field issued from the Medline collection, on the other hand, we show that this new approach, which combines the advantages of both numerical and symbolical approaches, improves considerably categorization performance, as compared to the usual categorization methods.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
</list>
<tree>
<country name="France">
<noRegion>
<name sortKey="Hajlaoui, Kafil" sort="Hajlaoui, Kafil" uniqKey="Hajlaoui K" first="Kafil" last="Hajlaoui">Kafil Hajlaoui</name>
</noRegion>
<name sortKey="Charles Lamirel, Jean" sort="Charles Lamirel, Jean" uniqKey="Charles Lamirel J" first="Jean" last="Charles Lamirel">Jean Charles Lamirel</name>
<name sortKey="Cuxac, Pascal" sort="Cuxac, Pascal" uniqKey="Cuxac P" first="Pascal" last="Cuxac">Pascal Cuxac</name>
<name sortKey="Francois, Claire" sort="Francois, Claire" uniqKey="Francois C" first="Claire" last="François">Claire François</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001446 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 001446 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     ISTEX:F5C59FF96FB43017A01D3FD7EA8FCE056F177B2C
   |texte=   Aide à l’expertise des brevets par alignement avec les publications scientifiques
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022