Discussion Wicri:DanceTherParkinsonV1

De Wicri Psychologie

Cette page présente et commente une expérimentation de l'utilisation des bibliographies contenues dans les parties texte intégral des documents ISTEX sur le serveur d'exploration : Danse-thérapie et Parkinson.

Il complète une première expérimentation sur la curation de ce corpus (voir Discussion:Danse-thérapie et Parkinson).

Essai technique biblio ISTEX

Avant curation

Estimation du nombre de documents avec enrichissement
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd \
   | grep "istex:refBibTEI"                    \
   | wc

Réponse : 36 sur 362 (10%).

Estimation du nombre d'auteurs

Pour simplifier, seuls les éléments « surname » sont pris en compte:

HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd        \
  | grep "istex:refBibTEI"                            \
  | SgmlFast -G istex:refBibTEI                       \
  | SxmlSelect -s istex:refBibTEI/text/back/listBibl/biblStruct/analytic/author/persName -p @1 -p @s1      \
  | SxmlSelect -g persName/surname/1 -p @g1 -p @1     \
  | sort    -u                                        \
  | wc

Réponse 8820 - Ce qui donne une moyenne de plus de 200 auteurs cités par article !!! Un traitement trop simple peut donc donner des résultats non significatifs.

Aperçu des premiers auteurs
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd        \
  | grep "istex:refBibTEI"                            \
  | SgmlFast -G istex:refBibTEI                       \
  | SxmlSelect -s istex:refBibTEI/text/back/listBibl/biblStruct/analytic/author/persName -p @1 -p @s1      \
  | SxmlSelect -g persName/surname/1 -p @g1 -p @1     \
  | sort                                              \
  | IndexBuildRec                                     \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1    \
  | sort -rn    | head -50

Le résultat est alors :

141	Dr
84	King
62	Mr
61	Jr
57	Iii
55	Smith
50	Rourke
45	Sb
39	Brown
27	Sh
26	Sm
26	Sl
26	Sir
26	Gs
25	Jm
24	Lee
21	Sadler
20	Prof
20	Pj
20	Douglas
19	Me
19	@bullet
18	Zhang
18	Sg
18	Sc
18	Price
17	White
17	Ss
17	Se
16	Sa
16	Mc
16	Johnson
16	Campbell
16	Ar
15	Miller
15	Jw
15	Js
15	Da
15	Am
14	Spencer
14	Simon
14	Martin
14	Jp
14	Jones
14	Jh
13	Taylor
13	St
13	Sd
13	John
13	Jd

En fait une rapide analyse permet de repérer notamment 2 documents qui sont des bibliographies généralisées et qui concentrent des erreurs dans la mise au point des algorithmes de reconnaissances des bibliographies : Un examen plus détaillé montre que sur ces 12 documenta, 2 sont des bibliographies généralistes :

Après curation

Analyse et décisions de curation

Une nouvelle série de repérage a été fait ensuite avec 3 niveaux de curation :

  1. Au lieu de traiter l'ensemble du corpus, on ne traite maintenant que les documents issus de l'étape curation - dans laquelle les revues de cardiologie en relation avec le Syndrome de Wolff-Parkinson-White ont notamment été éliminées (voir Discussion:Danse-thérapie et Parkinson). Il ne reste plus que 12 documents à examiner.
  2. Les 2 bibliographies citées précédemment ont ensuite été éliminées (voir les règles de curation dans Wicri:DanceTherParkinsonV1/Paramètres, data),
  3. enfin un document riche en biblio mais hors sujet a été éliminé :
Nouvelle commande d'extraction des auteurs
HfdCat $EXPLOR_AREA/Data/Istex/Curation/biblio.hfd \
  | SgmlFast -G publicationStmt                    \
  | SxmlSelect -s publicationStmt/idno -p @s1      \
  | grep "wicri:Area/Istex/Corpus"                 \
  | SxmlSelect -g idno/1 -p @g1                    \
  | HfdSelect -h $EXPLOR_AREA/Import/IstexRepository.hfd -K \
  | grep "istex:refBibTEI"                            \
  | SgmlFast -G istex:refBibTEI                       \
  | SxmlSelect -s istex:refBibTEI/text/back/listBibl/biblStruct/analytic/author/persName -p @1 -p @s1      \
  | SxmlSelect -g persName/surname/1 -g persName/forename@type=first/1 -p "@g2. @g1" -p @1     \
  | sort                                              \
  | IndexBuildRec                                     \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1 -p @1  \
  | sort -rn | head -20

On obtient alors :

8	E. Martin	<idx><k>E. Martin</k><f>8</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
7	L. Smith	<idx><k>L. Smith</k><f>7</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
7	I. White	<idx><k>I. White</k><f>7</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
6	S. Baylin	<idx><k>S. Baylin</k><f>6</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
6	J. Herman	<idx><k>J. Herman</k><f>6</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5	S. Shibutani	<idx><k>S. Shibutani</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5	S. Marsella	<idx><k>S. Marsella</k><f>5</f><l><e>000019</e><e>000019</e><e>000019</e><e>000019</e><e>000019</e></l></idx>
5	R. Heydon	<idx><k>R. Heydon</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5	M. Peinado	<idx><k>M. Peinado</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5	M. Esteller	<idx><k>M. Esteller</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
5	G. Capella	<idx><k>G. Capella</k><f>5</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
4	P. Carthew	<idx><k>P. Carthew</k><f>4</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
4	M. Toyota	<idx><k>M. Toyota</k><f>4</f><l><e>000343</e><e>000343</e><e>000343</e><e>000343</e></l></idx>
3	N. Suzuki	<idx><k>N. Suzuki</k><f>3</f><l><e>000343</e><e>000343</e><e>000343</e></l></idx>
3	K. Turteltaub	<idx><k>K. Turteltaub</k><f>3</f><l><e>000343</e><e>000343</e><e>000343</e></l></idx>
3	G. Weismer	<idx><k>G. Weismer</k><f>3</f><l><e>000035</e><e>000035</e><e>000035</e></l></idx>
3	F. De Matteis	<idx><k>F. De Matteis</k><f>3</f><l><e>000343</e><e>000343</e><e>000343</e></l></idx>
2	V. Jordan	<idx><k>V. Jordan</k><f>2</f><l><e>000343</e><e>000343</e></l></idx>
2	S. Meltzer	<idx><k>S. Meltzer</k><f>2</f><l><e>000343</e><e>000343</e></l></idx>
2	S. Factor	<idx><k>S. Factor</k><f>2</f><l><e>000035</e><e>000035</e></l></idx>

Cet essai met en avant les citations multiples. Il n'est donc pas très satisfaisant. Il permet cependant de repérer un document intéressant mais qui pose problème :

Élimination des citations multiples du même auteur
HfdCat $EXPLOR_AREA/Data/Istex/Curation/biblio.hfd \
  | SgmlFast -G publicationStmt                    \
  | SxmlSelect -s publicationStmt/idno -p @s1      \
  | grep "wicri:Area/Istex/Corpus"                 \
  | SxmlSelect -g idno/1 -p @g1                    \
  | HfdSelect -h $EXPLOR_AREA/Import/IstexRepository.hfd -K \
  | grep "istex:refBibTEI"                            \
  | SgmlFast -G istex:refBibTEI                       \
  | SxmlSelect -s istex:refBibTEI/text/back/listBibl/biblStruct/analytic/author/persName -p @1 -p @s1      \
  | SxmlSelect -g persName/surname/1 -g persName/forename@type=first/1 -p "@g2. @g1" -p @1     \
  | sort    -u                                          \
  | IndexBuildRec                                     \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -g idx/l -p @g2 -p @g1 -p @g3  \
  | sort -rn | head -20

Résultat

2	K. Cole	<l><e>000035</e><e>000343</e></l>
1	·. Ht	<l><e>000340</e></l>
1	~. Microarray Profiling Of Drugs-Can We Predict Toxicity And / Or Efficacy	<l><e>000356</e></l>
1	~. Folstein	<l><e>000000</e></l>
1	~--~ Okadaic Acid ( Oa ) Induces Apoptosis-In Caco-2. Cells	<l><e>000356</e></l>
1	\. Ymoll7	<l><e>000340</e></l>
1	\. Sulfonylurea	<l><e>000340</e></l>
1	Z. Ur	<l><e>000340</e></l>
1	Y. Xia	<l><e>000340</e></l>
1	Y. Stern	<l><e>000000</e></l>
1	Y. Moon	<l><e>000019</e></l>
1	X. Matias-Guiu	<l><e>000343</e></l>
1	X. Han	<l><e>000343</e></l>
1	W. Weiner	<l><e>000035</e></l>
1	W. Tsukahara	<l><e>000019</e></l>
1	W. Schmidt	<l><e>000340</e></l>
1	W. Lieberthal	<l><e>000343</e></l>
1	W. Johnson	<l><e>000019</e></l>
1	W. Haskell	<l><e>000020</e></l>
1	W. Harwin	<l><e>000343</e></l>

Sur 9 documents, un seul auteur est cité plus d'une fois... Bien entendu cet essai ne porte que sur un tout petit volume. Il ne s'agit donc que d'un test de faisabilité mais qui montre l'importance des phases de curation.