Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Réhabilitons les doublons !

Identifieur interne : 000873 ( PascalFrancis/Corpus ); précédent : 000872; suivant : 000874

Réhabilitons les doublons !

Auteurs : Emmanuel Nauer

Source :

RBID : Pascal:02-0253448

Descripteurs français

English descriptors

Abstract

Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.

Notice en format standard (ISO 2709)

Pour connaître la documentation sur le format Inist Standard.

pA  
A08 01  1  FRE  @1 Réhabilitons les doublons !
A09 01  1  FRE  @1 VSST'2001 : veille stratégique scientifique & technologique : systèmes d'information élaborée, bibliométrie, linguistique intelligence économique : Barcelone, 15-19 octobre 2001
A11 01  1    @1 NAUER (Emmanuel)
A14 01      @1 LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239 @2 54506 Vandoeuvre-lès-Nancy @3 FRA @Z 1 aut.
A18 01  1    @1 Université d'Aix-Marseille 3. Centre de recherche rétrospective de Marseille @2 Marseille @3 FRA @9 patr.
A18 02  1    @1 Université de Toulouse 3 @2 Toulouse @3 FRA @9 patr.
A18 03  1    @1 Universitat politècnica de Catalunya @2 Barcelona @3 ESP @9 patr.
A20       @2 Vol1.35-46
A21       @1 2001
A23 01      @0 FRE
A25 01      @1 Université Paul Sabatier @2 Toulouse
A30 01  1  FRE  @1 Veille stratégique scientifique et technologique. Colloque @3 Barcelone FRA @4 2001-10-15
A43 01      @1 INIST @2 Y 33431 (1) @5 354000097031340030
A44       @0 0000 @1 © 2002 INIST-CNRS. All rights reserved.
A45       @0 13 ref.
A47 01  1    @0 02-0253448
A60       @1 C
A61       @0 A
A66 01      @0 FRA
A68 01  1  ENG  @1 Rehabilitate duplicate!
C01 01    FRE  @0 Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.
C02 01  X    @0 001A01E04
C02 02  X    @0 205
C03 01  X  FRE  @0 Base donnée bibliographique @5 01
C03 01  X  ENG  @0 Bibliographic database @5 01
C03 01  X  SPA  @0 Base datos bibliográfica @5 01
C03 02  X  FRE  @0 Référence bibliographique @5 02
C03 02  X  ENG  @0 Bibliographic reference @5 02
C03 02  X  SPA  @0 Referencia bibliográfica @5 02
C03 03  X  FRE  @0 Doubles @5 03
C03 03  X  ENG  @0 Duplicate @5 03
C03 03  X  SPA  @0 Dobles @5 03
C03 04  X  FRE  @0 Redondance @5 04
C03 04  X  ENG  @0 Redundancy @5 04
C03 04  X  SPA  @0 Redundancia @5 04
C03 05  X  FRE  @0 Identification @5 05
C03 05  X  ENG  @0 Identification @5 05
C03 05  X  SPA  @0 Identificación @5 05
C03 06  X  FRE  @0 Exploitation @5 06
C03 06  X  ENG  @0 Exploitation @5 06
C03 06  X  SPA  @0 Explotación @5 06
C03 07  X  FRE  @0 Exemple @5 07
C03 07  X  ENG  @0 Example @5 07
C03 07  X  SPA  @0 Ejemplo @5 07
C03 08  X  FRE  @0 Analyse donnée @5 08
C03 08  X  ENG  @0 Data analysis @5 08
C03 08  X  SPA  @0 Análisis datos @5 08
C03 09  X  FRE  @0 Découverte connaissance @5 09
C03 09  X  ENG  @0 Knowledge discovery @5 09
C03 09  X  SPA  @0 Descubrimiento conocimiento @5 09
C03 10  X  FRE  @0 Dédoublonnage @2 NI @4 INC @5 27
N21       @1 147
N82       @1 PSI

Format Inist (serveur)

NO : PASCAL 02-0253448 INIST
FT : Réhabilitons les doublons !
ET : (Rehabilitate duplicate!)
AU : NAUER (Emmanuel)
AF : LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239/54506 Vandoeuvre-lès-Nancy/France (1 aut.)
DT : Congrès; Niveau analytique
SO : Veille stratégique scientifique et technologique. Colloque/2001-10-15/Barcelone FRA; France; Toulouse: Université Paul Sabatier; Da. 2001; Vol1.35-46
LA : Français
FA : Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.
CC : 001A01E04; 205
FD : Base donnée bibliographique; Référence bibliographique; Doubles; Redondance; Identification; Exploitation; Exemple; Analyse donnée; Découverte connaissance; Dédoublonnage
ED : Bibliographic database; Bibliographic reference; Duplicate; Redundancy; Identification; Exploitation; Example; Data analysis; Knowledge discovery
SD : Base datos bibliográfica; Referencia bibliográfica; Dobles; Redundancia; Identificación; Explotación; Ejemplo; Análisis datos; Descubrimiento conocimiento
LO : INIST-Y 33431 (1).354000097031340030
ID : 02-0253448

Links to Exploration step

Pascal:02-0253448

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Réhabilitons les doublons !</title>
<author>
<name sortKey="Nauer, Emmanuel" sort="Nauer, Emmanuel" uniqKey="Nauer E" first="Emmanuel" last="Nauer">Emmanuel Nauer</name>
<affiliation>
<inist:fA14 i1="01">
<s1>LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239</s1>
<s2>54506 Vandoeuvre-lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">02-0253448</idno>
<date when="2001">2001</date>
<idno type="stanalyst">PASCAL 02-0253448 INIST</idno>
<idno type="RBID">Pascal:02-0253448</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000873</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Réhabilitons les doublons !</title>
<author>
<name sortKey="Nauer, Emmanuel" sort="Nauer, Emmanuel" uniqKey="Nauer E" first="Emmanuel" last="Nauer">Emmanuel Nauer</name>
<affiliation>
<inist:fA14 i1="01">
<s1>LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239</s1>
<s2>54506 Vandoeuvre-lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Bibliographic database</term>
<term>Bibliographic reference</term>
<term>Data analysis</term>
<term>Duplicate</term>
<term>Example</term>
<term>Exploitation</term>
<term>Identification</term>
<term>Knowledge discovery</term>
<term>Redundancy</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Base donnée bibliographique</term>
<term>Référence bibliographique</term>
<term>Doubles</term>
<term>Redondance</term>
<term>Identification</term>
<term>Exploitation</term>
<term>Exemple</term>
<term>Analyse donnée</term>
<term>Découverte connaissance</term>
<term>Dédoublonnage</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.</div>
</front>
</TEI>
<inist>
<standard h6="B">
<pA>
<fA08 i1="01" i2="1" l="FRE">
<s1>Réhabilitons les doublons !</s1>
</fA08>
<fA09 i1="01" i2="1" l="FRE">
<s1>VSST'2001 : veille stratégique scientifique & technologique : systèmes d'information élaborée, bibliométrie, linguistique intelligence économique : Barcelone, 15-19 octobre 2001</s1>
</fA09>
<fA11 i1="01" i2="1">
<s1>NAUER (Emmanuel)</s1>
</fA11>
<fA14 i1="01">
<s1>LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239</s1>
<s2>54506 Vandoeuvre-lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</fA14>
<fA18 i1="01" i2="1">
<s1>Université d'Aix-Marseille 3. Centre de recherche rétrospective de Marseille</s1>
<s2>Marseille</s2>
<s3>FRA</s3>
<s9>patr.</s9>
</fA18>
<fA18 i1="02" i2="1">
<s1>Université de Toulouse 3</s1>
<s2>Toulouse</s2>
<s3>FRA</s3>
<s9>patr.</s9>
</fA18>
<fA18 i1="03" i2="1">
<s1>Universitat politècnica de Catalunya</s1>
<s2>Barcelona</s2>
<s3>ESP</s3>
<s9>patr.</s9>
</fA18>
<fA20>
<s2>Vol1.35-46</s2>
</fA20>
<fA21>
<s1>2001</s1>
</fA21>
<fA23 i1="01">
<s0>FRE</s0>
</fA23>
<fA25 i1="01">
<s1>Université Paul Sabatier</s1>
<s2>Toulouse</s2>
</fA25>
<fA30 i1="01" i2="1" l="FRE">
<s1>Veille stratégique scientifique et technologique. Colloque</s1>
<s3>Barcelone FRA</s3>
<s4>2001-10-15</s4>
</fA30>
<fA43 i1="01">
<s1>INIST</s1>
<s2>Y 33431 (1)</s2>
<s5>354000097031340030</s5>
</fA43>
<fA44>
<s0>0000</s0>
<s1>© 2002 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45>
<s0>13 ref.</s0>
</fA45>
<fA47 i1="01" i2="1">
<s0>02-0253448</s0>
</fA47>
<fA60>
<s1>C</s1>
</fA60>
<fA61>
<s0>A</s0>
</fA61>
<fA66 i1="01">
<s0>FRA</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG">
<s1>Rehabilitate duplicate!</s1>
</fA68>
<fC01 i1="01" l="FRE">
<s0>Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.</s0>
</fC01>
<fC02 i1="01" i2="X">
<s0>001A01E04</s0>
</fC02>
<fC02 i1="02" i2="X">
<s0>205</s0>
</fC02>
<fC03 i1="01" i2="X" l="FRE">
<s0>Base donnée bibliographique</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="ENG">
<s0>Bibliographic database</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="SPA">
<s0>Base datos bibliográfica</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE">
<s0>Référence bibliographique</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG">
<s0>Bibliographic reference</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA">
<s0>Referencia bibliográfica</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE">
<s0>Doubles</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG">
<s0>Duplicate</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA">
<s0>Dobles</s0>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE">
<s0>Redondance</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG">
<s0>Redundancy</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA">
<s0>Redundancia</s0>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE">
<s0>Identification</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG">
<s0>Identification</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA">
<s0>Identificación</s0>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE">
<s0>Exploitation</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG">
<s0>Exploitation</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA">
<s0>Explotación</s0>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE">
<s0>Exemple</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="ENG">
<s0>Example</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="SPA">
<s0>Ejemplo</s0>
<s5>07</s5>
</fC03>
<fC03 i1="08" i2="X" l="FRE">
<s0>Analyse donnée</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="ENG">
<s0>Data analysis</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="SPA">
<s0>Análisis datos</s0>
<s5>08</s5>
</fC03>
<fC03 i1="09" i2="X" l="FRE">
<s0>Découverte connaissance</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="ENG">
<s0>Knowledge discovery</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="SPA">
<s0>Descubrimiento conocimiento</s0>
<s5>09</s5>
</fC03>
<fC03 i1="10" i2="X" l="FRE">
<s0>Dédoublonnage</s0>
<s2>NI</s2>
<s4>INC</s4>
<s5>27</s5>
</fC03>
<fN21>
<s1>147</s1>
</fN21>
<fN82>
<s1>PSI</s1>
</fN82>
</pA>
</standard>
<server>
<NO>PASCAL 02-0253448 INIST</NO>
<FT>Réhabilitons les doublons !</FT>
<ET>(Rehabilitate duplicate!)</ET>
<AU>NAUER (Emmanuel)</AU>
<AF>LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239/54506 Vandoeuvre-lès-Nancy/France (1 aut.)</AF>
<DT>Congrès; Niveau analytique</DT>
<SO>Veille stratégique scientifique et technologique. Colloque/2001-10-15/Barcelone FRA; France; Toulouse: Université Paul Sabatier; Da. 2001; Vol1.35-46</SO>
<LA>Français</LA>
<FA>Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.</FA>
<CC>001A01E04; 205</CC>
<FD>Base donnée bibliographique; Référence bibliographique; Doubles; Redondance; Identification; Exploitation; Exemple; Analyse donnée; Découverte connaissance; Dédoublonnage</FD>
<ED>Bibliographic database; Bibliographic reference; Duplicate; Redundancy; Identification; Exploitation; Example; Data analysis; Knowledge discovery</ED>
<SD>Base datos bibliográfica; Referencia bibliográfica; Dobles; Redundancia; Identificación; Explotación; Ejemplo; Análisis datos; Descubrimiento conocimiento</SD>
<LO>INIST-Y 33431 (1).354000097031340030</LO>
<ID>02-0253448</ID>
</server>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/PascalFrancis/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000873 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000873 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    PascalFrancis
   |étape=   Corpus
   |type=    RBID
   |clé=     Pascal:02-0253448
   |texte=   Réhabilitons les doublons !
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022