Discussion Wicri:DanceTherParkinsonV1
Cette page présente et commente une expérimentation de l'utilisation des bibliographies contenues dans les parties texte intégral des documents ISTEX sur le serveur d'exploration : Danse-thérapie et Parkinson.
Il complète une première expérimentation sur la curation de ce corpus (voir Discussion:Danse-thérapie et Parkinson).
Essai technique biblio ISTEX
Avant curation
- Estimation du nombre de documents avec enrichissement
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| grep "istex:refBibTEI" \
| wc
Réponse : 36 sur 362 (10%).
- Estimation du nombre d'auteurs
Pour simplifier, seuls les éléments « surname » sont pris en compte:
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| grep "istex:refBibTEI" \
| SgmlFast -G istex:refBibTEI \
| SxmlSelect -s istex:refBibTEI/text/back/listBibl/biblStruct/analytic/author/persName -p @1 -p @s1 \
| SxmlSelect -g persName/surname/1 -p @g1 -p @1 \
| sort -u \
| wc
Réponse 8820 - Ce qui donne une moyenne de plus de 200 auteurs cités par article !!! Un traitement trop simple peut donc donner des résultats non significatifs.
- Aperçu des premiers auteurs
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
| grep "istex:refBibTEI" \
| SgmlFast -G istex:refBibTEI \
| SxmlSelect -s istex:refBibTEI/text/back/listBibl/biblStruct/analytic/author/persName -p @1 -p @s1 \
| SxmlSelect -g persName/surname/1 -p @g1 -p @1 \
| sort \
| IndexBuildRec \
| SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1 \
| sort -rn | head -50
Le résultat est alors :
141 Dr 84 King 62 Mr 61 Jr 57 Iii 55 Smith 50 Rourke 45 Sb 39 Brown 27 Sh 26 Sm 26 Sl 26 Sir 26 Gs 25 Jm 24 Lee 21 Sadler 20 Prof 20 Pj 20 Douglas 19 Me 19 @bullet 18 Zhang 18 Sg 18 Sc 18 Price 17 White 17 Ss 17 Se 16 Sa 16 Mc 16 Johnson 16 Campbell 16 Ar 15 Miller 15 Jw 15 Js 15 Da 15 Am 14 Spencer 14 Simon 14 Martin 14 Jp 14 Jones 14 Jh 13 Taylor 13 St 13 Sd 13 John 13 Jd
En fait une rapide analyse permet de repérer notamment 2 documents qui sont des bibliographies généralisées et qui concentrent des erreurs dans la mise au point des algorithmes de reconnaissances des bibliographies : Un examen plus détaillé montre que sur ces 12 documenta, 2 sont des bibliographies généralistes :
Après curation
- Analyse et décisions de curation
Une nouvelle série de repérage a été fait ensuite avec 3 niveaux de curation :
- Au lieu de traiter l'ensemble du corpus, on ne traite maintenant que les documents issus de l'étape curation - dans laquelle les revues de cardiologie en relation avec le Syndrome de Wolff-Parkinson-White ont notamment été éliminées (voir Discussion:Danse-thérapie et Parkinson). Il ne reste plus que 12 documents à examiner.
- Les 2 bibliographies citées précédemment ont ensuite été éliminées (voir les règles de curation dans Wicri:DanceTherParkinsonV1/Paramètres, data),
- enfin un document riche en biblio mais hors sujet a été éliminé :
- Nouvelle commande d'extraction des auteurs
HfdCat $EXPLOR_AREA/Data/Istex/Curation/biblio.hfd \
| SgmlFast -G publicationStmt \
| SxmlSelect -s publicationStmt/idno -p @s1 \
| grep "wicri:Area/Istex/Corpus" \
| SxmlSelect -g idno/1 -p @g1 \
| HfdSelect -h $EXPLOR_AREA/Import/IstexRepository.hfd -K \
| grep "istex:refBibTEI" \
| SgmlFast -G istex:refBibTEI \
| SxmlSelect -s istex:refBibTEI/text/back/listBibl/biblStruct/analytic/author/persName -p @1 -p @s1 \
| SxmlSelect -g persName/surname/1 -g persName/forename@type=first/1 -p "@g2. @g1" -p @1 \
| sort \
| IndexBuildRec \
| SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1 -p @1 \
| sort -rn | head -20
On obtient alors :
8 E. Martin <idx><k>E. Martin</k><f>8</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
7 L. Smith <idx><k>L. Smith</k><f>7</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
7 I. White <idx><k>I. White</k><f>7</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
6 S. Baylin <idx><k>S. Baylin</k><f>6</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
6 J. Herman <idx><k>J. Herman</k><f>6</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5 S. Shibutani <idx><k>S. Shibutani</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5 S. Marsella <idx><k>S. Marsella</k><f>5</f><l><e>000019</e><e>000019</e><e>000019</e><e>000019</e><e>000019</e></l></idx>
5 R. Heydon <idx><k>R. Heydon</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5 M. Peinado <idx><k>M. Peinado</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5 M. Esteller <idx><k>M. Esteller</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5 G. Capella <idx><k>G. Capella</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
4 P. Carthew <idx><k>P. Carthew</k><f>4</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
4 M. Toyota <idx><k>M. Toyota</k><f>4</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
3 N. Suzuki <idx><k>N. Suzuki</k><f>3</f><l><e>000343</e><e>000343</e><e>000343</e></l></idx>
3 K. Turteltaub <idx><k>K. Turteltaub</k><f>3</f><l><e>000343</e><e>000343</e><e>000343</e></l></idx>
3 G. Weismer <idx><k>G. Weismer</k><f>3</f><l><e>000035</e><e>000035</e><e>000035</e></l></idx>
3 F. De Matteis <idx><k>F. De Matteis</k><f>3</f><l><e>000343</e><e>000343</e><e>000343</e></l></idx>
2 V. Jordan <idx><k>V. Jordan</k><f>2</f><l><e>000343</e><e>000343</e></l></idx>
2 S. Meltzer <idx><k>S. Meltzer</k><f>2</f><l><e>000343</e><e>000343</e></l></idx>
2 S. Factor <idx><k>S. Factor</k><f>2</f><l><e>000035</e><e>000035</e></l></idx>
Cet essai met en avant les citations multiples. Il n'est donc pas très satisfaisant. Il permet cependant de repérer un document intéressant mais qui pose problème :
- Proceedings of the BTS annual congress - Il contient un paragraphe pertinent (correspondant à une intervention) ; mais l'ensemble de sa bibliographie est hors sujet....
- Élimination des citations multiples du même auteur
HfdCat $EXPLOR_AREA/Data/Istex/Curation/biblio.hfd \
| SgmlFast -G publicationStmt \
| SxmlSelect -s publicationStmt/idno -p @s1 \
| grep "wicri:Area/Istex/Corpus" \
| SxmlSelect -g idno/1 -p @g1 \
| HfdSelect -h $EXPLOR_AREA/Import/IstexRepository.hfd -K \
| grep "istex:refBibTEI" \
| SgmlFast -G istex:refBibTEI \
| SxmlSelect -s istex:refBibTEI/text/back/listBibl/biblStruct/analytic/author/persName -p @1 -p @s1 \
| SxmlSelect -g persName/surname/1 -g persName/forename@type=first/1 -p "@g2. @g1" -p @1 \
| sort -u \
| IndexBuildRec \
| SxmlSelect -g idx/k/1 -g idx/f/1 -g idx/l -p @g2 -p @g1 -p @g3 \
| sort -rn | head -20
Résultat
2 K. Cole <l><e>000035</e><e>000343</e></l>
1 ·. Ht <l><e>000340</e></l>
1 ~. Microarray Profiling Of Drugs-Can We Predict Toxicity And / Or Efficacy <l><e>000356</e></l>
1 ~. Folstein <l><e>000000</e></l>
1 ~--~ Okadaic Acid ( Oa ) Induces Apoptosis-In Caco-2. Cells <l><e>000356</e></l>
1 \. Ymoll7 <l><e>000340</e></l>
1 \. Sulfonylurea <l><e>000340</e></l>
1 Z. Ur <l><e>000340</e></l>
1 Y. Xia <l><e>000340</e></l>
1 Y. Stern <l><e>000000</e></l>
1 Y. Moon <l><e>000019</e></l>
1 X. Matias-Guiu <l><e>000343</e></l>
1 X. Han <l><e>000343</e></l>
1 W. Weiner <l><e>000035</e></l>
1 W. Tsukahara <l><e>000019</e></l>
1 W. Schmidt <l><e>000340</e></l>
1 W. Lieberthal <l><e>000343</e></l>
1 W. Johnson <l><e>000019</e></l>
1 W. Haskell <l><e>000020</e></l>
1 W. Harwin <l><e>000343</e></l>
Sur 9 documents, un seul auteur est cité plus d'une fois... Bien entendu cet essai ne porte que sur un tout petit volume. Il ne s'agit donc que d'un test de faisabilité mais qui montre l'importance des phases de curation.