Réhabilitons les doublons !
Identifieur interne : 000873 ( PascalFrancis/Corpus ); précédent : 000872; suivant : 000874Réhabilitons les doublons !
Auteurs : Emmanuel NauerSource :
Descripteurs français
- Pascal (Inist)
English descriptors
- KwdEn :
Abstract
Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.
Notice en format standard (ISO 2709)
Pour connaître la documentation sur le format Inist Standard.
pA |
|
---|
Format Inist (serveur)
NO : | PASCAL 02-0253448 INIST |
---|---|
FT : | Réhabilitons les doublons ! |
ET : | (Rehabilitate duplicate!) |
AU : | NAUER (Emmanuel) |
AF : | LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239/54506 Vandoeuvre-lès-Nancy/France (1 aut.) |
DT : | Congrès; Niveau analytique |
SO : | Veille stratégique scientifique et technologique. Colloque/2001-10-15/Barcelone FRA; France; Toulouse: Université Paul Sabatier; Da. 2001; Vol1.35-46 |
LA : | Français |
FA : | Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances. |
CC : | 001A01E04; 205 |
FD : | Base donnée bibliographique; Référence bibliographique; Doubles; Redondance; Identification; Exploitation; Exemple; Analyse donnée; Découverte connaissance; Dédoublonnage |
ED : | Bibliographic database; Bibliographic reference; Duplicate; Redundancy; Identification; Exploitation; Example; Data analysis; Knowledge discovery |
SD : | Base datos bibliográfica; Referencia bibliográfica; Dobles; Redundancia; Identificación; Explotación; Ejemplo; Análisis datos; Descubrimiento conocimiento |
LO : | INIST-Y 33431 (1).354000097031340030 |
ID : | 02-0253448 |
Links to Exploration step
Pascal:02-0253448Le document en format XML
<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="fr" level="a">Réhabilitons les doublons !</title>
<author><name sortKey="Nauer, Emmanuel" sort="Nauer, Emmanuel" uniqKey="Nauer E" first="Emmanuel" last="Nauer">Emmanuel Nauer</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239</s1>
<s2>54506 Vandoeuvre-lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">02-0253448</idno>
<date when="2001">2001</date>
<idno type="stanalyst">PASCAL 02-0253448 INIST</idno>
<idno type="RBID">Pascal:02-0253448</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000873</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="fr" level="a">Réhabilitons les doublons !</title>
<author><name sortKey="Nauer, Emmanuel" sort="Nauer, Emmanuel" uniqKey="Nauer E" first="Emmanuel" last="Nauer">Emmanuel Nauer</name>
<affiliation><inist:fA14 i1="01"><s1>LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239</s1>
<s2>54506 Vandoeuvre-lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Bibliographic database</term>
<term>Bibliographic reference</term>
<term>Data analysis</term>
<term>Duplicate</term>
<term>Example</term>
<term>Exploitation</term>
<term>Identification</term>
<term>Knowledge discovery</term>
<term>Redundancy</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Base donnée bibliographique</term>
<term>Référence bibliographique</term>
<term>Doubles</term>
<term>Redondance</term>
<term>Identification</term>
<term>Exploitation</term>
<term>Exemple</term>
<term>Analyse donnée</term>
<term>Découverte connaissance</term>
<term>Dédoublonnage</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.</div>
</front>
</TEI>
<inist><standard h6="B"><pA><fA08 i1="01" i2="1" l="FRE"><s1>Réhabilitons les doublons !</s1>
</fA08>
<fA09 i1="01" i2="1" l="FRE"><s1>VSST'2001 : veille stratégique scientifique & technologique : systèmes d'information élaborée, bibliométrie, linguistique intelligence économique : Barcelone, 15-19 octobre 2001</s1>
</fA09>
<fA11 i1="01" i2="1"><s1>NAUER (Emmanuel)</s1>
</fA11>
<fA14 i1="01"><s1>LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239</s1>
<s2>54506 Vandoeuvre-lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
</fA14>
<fA18 i1="01" i2="1"><s1>Université d'Aix-Marseille 3. Centre de recherche rétrospective de Marseille</s1>
<s2>Marseille</s2>
<s3>FRA</s3>
<s9>patr.</s9>
</fA18>
<fA18 i1="02" i2="1"><s1>Université de Toulouse 3</s1>
<s2>Toulouse</s2>
<s3>FRA</s3>
<s9>patr.</s9>
</fA18>
<fA18 i1="03" i2="1"><s1>Universitat politècnica de Catalunya</s1>
<s2>Barcelona</s2>
<s3>ESP</s3>
<s9>patr.</s9>
</fA18>
<fA20><s2>Vol1.35-46</s2>
</fA20>
<fA21><s1>2001</s1>
</fA21>
<fA23 i1="01"><s0>FRE</s0>
</fA23>
<fA25 i1="01"><s1>Université Paul Sabatier</s1>
<s2>Toulouse</s2>
</fA25>
<fA30 i1="01" i2="1" l="FRE"><s1>Veille stratégique scientifique et technologique. Colloque</s1>
<s3>Barcelone FRA</s3>
<s4>2001-10-15</s4>
</fA30>
<fA43 i1="01"><s1>INIST</s1>
<s2>Y 33431 (1)</s2>
<s5>354000097031340030</s5>
</fA43>
<fA44><s0>0000</s0>
<s1>© 2002 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45><s0>13 ref.</s0>
</fA45>
<fA47 i1="01" i2="1"><s0>02-0253448</s0>
</fA47>
<fA60><s1>C</s1>
</fA60>
<fA61><s0>A</s0>
</fA61>
<fA66 i1="01"><s0>FRA</s0>
</fA66>
<fA68 i1="01" i2="1" l="ENG"><s1>Rehabilitate duplicate!</s1>
</fA68>
<fC01 i1="01" l="FRE"><s0>Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.</s0>
</fC01>
<fC02 i1="01" i2="X"><s0>001A01E04</s0>
</fC02>
<fC02 i1="02" i2="X"><s0>205</s0>
</fC02>
<fC03 i1="01" i2="X" l="FRE"><s0>Base donnée bibliographique</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="ENG"><s0>Bibliographic database</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="SPA"><s0>Base datos bibliográfica</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE"><s0>Référence bibliographique</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG"><s0>Bibliographic reference</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA"><s0>Referencia bibliográfica</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE"><s0>Doubles</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG"><s0>Duplicate</s0>
<s5>03</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA"><s0>Dobles</s0>
<s5>03</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE"><s0>Redondance</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG"><s0>Redundancy</s0>
<s5>04</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA"><s0>Redundancia</s0>
<s5>04</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE"><s0>Identification</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG"><s0>Identification</s0>
<s5>05</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA"><s0>Identificación</s0>
<s5>05</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE"><s0>Exploitation</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG"><s0>Exploitation</s0>
<s5>06</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA"><s0>Explotación</s0>
<s5>06</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE"><s0>Exemple</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="ENG"><s0>Example</s0>
<s5>07</s5>
</fC03>
<fC03 i1="07" i2="X" l="SPA"><s0>Ejemplo</s0>
<s5>07</s5>
</fC03>
<fC03 i1="08" i2="X" l="FRE"><s0>Analyse donnée</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="ENG"><s0>Data analysis</s0>
<s5>08</s5>
</fC03>
<fC03 i1="08" i2="X" l="SPA"><s0>Análisis datos</s0>
<s5>08</s5>
</fC03>
<fC03 i1="09" i2="X" l="FRE"><s0>Découverte connaissance</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="ENG"><s0>Knowledge discovery</s0>
<s5>09</s5>
</fC03>
<fC03 i1="09" i2="X" l="SPA"><s0>Descubrimiento conocimiento</s0>
<s5>09</s5>
</fC03>
<fC03 i1="10" i2="X" l="FRE"><s0>Dédoublonnage</s0>
<s2>NI</s2>
<s4>INC</s4>
<s5>27</s5>
</fC03>
<fN21><s1>147</s1>
</fN21>
<fN82><s1>PSI</s1>
</fN82>
</pA>
</standard>
<server><NO>PASCAL 02-0253448 INIST</NO>
<FT>Réhabilitons les doublons !</FT>
<ET>(Rehabilitate duplicate!)</ET>
<AU>NAUER (Emmanuel)</AU>
<AF>LORIA UMR 7503, 615 rue du Jardin Botanique, BP 239/54506 Vandoeuvre-lès-Nancy/France (1 aut.)</AF>
<DT>Congrès; Niveau analytique</DT>
<SO>Veille stratégique scientifique et technologique. Colloque/2001-10-15/Barcelone FRA; France; Toulouse: Université Paul Sabatier; Da. 2001; Vol1.35-46</SO>
<LA>Français</LA>
<FA>Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. L'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans les doublons pour extraire de nouvelles connaissances.</FA>
<CC>001A01E04; 205</CC>
<FD>Base donnée bibliographique; Référence bibliographique; Doubles; Redondance; Identification; Exploitation; Exemple; Analyse donnée; Découverte connaissance; Dédoublonnage</FD>
<ED>Bibliographic database; Bibliographic reference; Duplicate; Redundancy; Identification; Exploitation; Example; Data analysis; Knowledge discovery</ED>
<SD>Base datos bibliográfica; Referencia bibliográfica; Dobles; Redundancia; Identificación; Explotación; Ejemplo; Análisis datos; Descubrimiento conocimiento</SD>
<LO>INIST-Y 33431 (1).354000097031340030</LO>
<ID>02-0253448</ID>
</server>
</inist>
</record>
Pour manipuler ce document sous Unix (Dilib)
EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/PascalFrancis/Corpus
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000873 | SxmlIndent | more
Ou
HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000873 | SxmlIndent | more
Pour mettre un lien sur cette page dans le réseau Wicri
{{Explor lien |wiki= Wicri/Lorraine |area= InforLorV4 |flux= PascalFrancis |étape= Corpus |type= RBID |clé= Pascal:02-0253448 |texte= Réhabilitons les doublons ! }}
This area was generated with Dilib version V0.6.33. |