Discussion:Serveur d'exploration sur Pittsburgh

De Wicri Amérique
Révision datée du 28 novembre 2017 à 15:35 par imported>Jacques Ducloy (PubMed Central)

Cette page introduit des éléments de discussion, liés notamment à la curation, pour la version PittsburghV1 du « Serveur d'exploration sur Pittsburgh ».

Index spécialisés pour la curation

Étape Corpus
index AutAff, combinant auteurs (patronymes) et affiliations
 
Étape Curation
index PaysInc pays inconnus
 
Étape Checkpoint
index RegInc régions inconnues

Flux Istex

  1. Wipf P (339)
  2. Curran D (325)
  3. Johnson J (130)
  4. Matyjaszewski K (117)
  5. Kim S (112)
  6. Lewis D (103)
  7. Wang Y (101)
  8. Cooper D (99)
  9. Snyderman C (87)
  10. Starzl T (86)
 
  1. Pa. (65)
  2. PA. (22)
  3. Pa (20)
  4. Bethesda (17)
  5. Medicine (14)
  6. 15213 (14)
  7. Rochester (12)
  8. ??? (12)
  9. PAUSA (11)
  10. Columbia (11)
 
  1. Atlanta (26)
  2. Cambridge (20)
  3. Cleveland (19)
  4. Pa. (17)
  5. Ontario (15)
  6. Toronto (14)
  7. Pennsylvania 15213 (14)
  8. Durham (14)
  9. Istanbul (13)
  10. Indianapolis (13)

Flux PubMed

  1. Wang J (112)
  2. Lee S (106)
  3. Lee J (103)
  4. Kim J (91)
  5. Chen Y (88)
  6. Kim H (87)
  7. Zhang J (86)
  8. Liu Y (86)
  9. Liu H (86)
  10. Kumar A (84)
 
  1. Pa (54)
  2. and (53)
  3. University of Pittsburgh. (37)
  4. University of Pittsburgh School of Medicine (30)
  5. Ann Arbor (15)
  6. Pennsylvania; and (14)
  7. University of Pittsburgh Medical Center (13)
  8. District of Columbia (13)
  9. Mass (11)
  10. USA and (10)
 
  1. USA (113)
  2. Pennsylvania 15213 (72)
  3. Pennsylvania 15260 (64)
  4. Ontario (43)
  5. Atlanta (42)
  6. 15213 (37)
  7. Pennsylvania 15261 (23)
  8. Pennsylvania (19)
  9. Shanghai (17)
  10. Palermo (16)

Détection des documents volumineux (auteurs)

PubMed

HfdCat $EXPLOR_AREA/Data/PubMed/Corpus/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih $EXPLOR_AREA/Data/PubMed/Corpus/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2
Résultat
pubmed:25814911	1434-6044	2902
pubmed:25814898	1434-6044	2895
pubmed:25814900	1434-6044	2883
 ...

pubmed:25814912	1434-6044	2126
pubmed:25814871	1434-6044	2123
  ...
pubmed:26041971	1434-6044	4

PubMed Central

HfdCat $EXPLOR_AREA/Data/Pmc/Corpus/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih $EXPLOR_AREA/Data/Pmc/Corpus/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2
Résultat
PMC:4371051	1434-6044	2902
PMC:4371126	1434-6044	2895
 ...
PMC:4370853	1434-6044	2140
PMC:4370929	1434-6044	2126
PMC:4370889	1434-6044	2123
PMC:4240198	0964-6906	351
PMC:4008818	1931-7557	289
PMC:4170219	0028-0836	259
PMC:4672734	1552-5260	186
PMC:4140093	1061-4036	160
PMC:4212832	1061-4036	147
PMC:4038791	0964-6906	130
HfdCat $EXPLOR_AREA/Data/Istex/Corpus/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih $EXPLOR_AREA/Data/Istex/Corpus/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2
Résultat

Istex