Discussion:Serveur d'exploration sur Pittsburgh : Différence entre versions

De Wicri Amérique
imported>Jacques Ducloy
(Page créée avec « Cette page introduit des éléments de discussion, liés notamment à la curation, pour la version PittsburghV1 du « Serveur d'exploration sur P... »)
 
imported>Jacques Ducloy
Ligne 25 : Ligne 25 :
 
{{PittsburghV1, include|section=RegIncPubMedCheckpoint}}
 
{{PittsburghV1, include|section=RegIncPubMedCheckpoint}}
 
{{Fin 3 colonnes}}
 
{{Fin 3 colonnes}}
 +
==Détection des documents volumineux (auteurs)==
 +
===PubMed===
 +
<source lang="sh">
 +
HfdCat $EXPLOR_AREA/Data/PubMed/Corpus/Author.i.hfd  \
 +
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
 +
  | sort                                    \
 +
  | IndexBuildRec                          \
 +
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
 +
  | sort -rn                                      \
 +
  | SxmlSelect -p @2 -p @1                        \
 +
  | HfdSelect -ih $EXPLOR_AREA/Data/PubMed/Corpus/biblio  \
 +
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
 +
    -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
 +
    -p @s1 -p @g1 -p @2
 +
</source>

Version du 28 novembre 2017 à 15:21

Cette page introduit des éléments de discussion, liés notamment à la curation, pour la version PittsburghV1 du « Serveur d'exploration sur Pittsburgh ».

Index spécialisés pour la curation

Étape Corpus
index AutAff, combinant auteurs (patronymes) et affiliations
 
Étape Curation
index PaysInc pays inconnus
 
Étape Checkpoint
index RegInc régions inconnues

Flux Istex

  1. Wipf P (339)
  2. Curran D (325)
  3. Johnson J (130)
  4. Matyjaszewski K (117)
  5. Kim S (112)
  6. Lewis D (103)
  7. Wang Y (101)
  8. Cooper D (99)
  9. Snyderman C (87)
  10. Starzl T (86)
 
  1. Pa. (65)
  2. PA. (22)
  3. Pa (20)
  4. Bethesda (17)
  5. Medicine (14)
  6. 15213 (14)
  7. Rochester (12)
  8. ??? (12)
  9. PAUSA (11)
  10. Columbia (11)
 
  1. Atlanta (26)
  2. Cambridge (20)
  3. Cleveland (19)
  4. Pa. (17)
  5. Ontario (15)
  6. Toronto (14)
  7. Pennsylvania 15213 (14)
  8. Durham (14)
  9. Istanbul (13)
  10. Indianapolis (13)

Flux PubMed

  1. Wang J (112)
  2. Lee S (106)
  3. Lee J (103)
  4. Kim J (91)
  5. Chen Y (88)
  6. Kim H (87)
  7. Zhang J (86)
  8. Liu Y (86)
  9. Liu H (86)
  10. Kumar A (84)
 
  1. Pa (54)
  2. and (53)
  3. University of Pittsburgh. (37)
  4. University of Pittsburgh School of Medicine (30)
  5. Ann Arbor (15)
  6. Pennsylvania; and (14)
  7. University of Pittsburgh Medical Center (13)
  8. District of Columbia (13)
  9. Mass (11)
  10. USA and (10)
 
  1. USA (113)
  2. Pennsylvania 15213 (72)
  3. Pennsylvania 15260 (64)
  4. Ontario (43)
  5. Atlanta (42)
  6. 15213 (37)
  7. Pennsylvania 15261 (23)
  8. Pennsylvania (19)
  9. Shanghai (17)
  10. Palermo (16)

Détection des documents volumineux (auteurs)

PubMed

HfdCat $EXPLOR_AREA/Data/PubMed/Corpus/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih $EXPLOR_AREA/Data/PubMed/Corpus/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2