Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Discussion:Serveur d'exploration sur les relations entre la France et l'Australie

De Wicri Asie

Contexte pédagogique

Sujet proposé aux étudiants

Le scénario proposé a été le suivant :

Vous faites partie de la cellule d'analyse stratégique rattachée à la région Grand Est. Un chargé de mission du Vice Président chargé de la recherche et de l'innovation vous signale le lundi matin une visite impromptue du président de l'Université de Sydney pour le lendemain. Vous disposerez de 5 minutes le mardi matin pour lui signaler des points qui vous paraissent importants pour des coopérations éventuelles avec l'Australie.

Déroulement du projet

Ce projet entre dans le cadre d'une formation qui est décrite sur le wiki CIDE :

Les étudiants se sont familiarisé avec les wikis sémantiques et les serveurs d'exploration sur différentes applications.

Puis 3 sujets ont été proposés et discutés avec les étudiants :

Un groupe de 2 étudiants s'est plus particulièrement impliqué sur ce sujet : Nicolas Vigour et Nathalie Schunck. Ils ont proposé des actions de curation et ont fait une restitution orale.

Curation des données

  • retrait de documents volumineux
  • correction d'un bug sur PubMed Central

Élimination de documents perturbants

Une première recherche sur les pays de faible poids donne des dizaines de documents avec plusieurs milliers d'auteurs.

Pour améliorer le processus, des filtres ont été mis au point.

PubMed

HfdCat Data/PubMed/Corpus/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih Data/PubMed/Corpus/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2


Résultat
(sur 3 colonnes / identifiant article / ISSN / nb auteurs)
pubmed:25814839	1434-6044	3043
pubmed:25814842	1434-6044	3031
pubmed:25814837	1434-6044	3024
pubmed:25814841	1434-6044	3023
pubmed:25814840	1434-6044	3022
pubmed:25814838	1434-6044	2959
pubmed:26709345	1434-6044	2919
pubmed:25814860	1434-6044	2918
pubmed:25814867	1434-6044	2902
pubmed:25814911	1434-6044	2902
pubmed:25814852	1434-6044	2900
pubmed:25814898	1434-6044	2895
pubmed:25814855	1434-6044	2885
pubmed:25904819	1434-6044	2883
pubmed:25814900	1434-6044	2883
pubmed:25814863	1434-6044	2882
pubmed:25814856	1434-6044	2882
pubmed:25983636	1434-6044	2880
pubmed:25838792	1434-6044	2880
pubmed:25838794	1434-6044	2880
pubmed:25838797	1434-6044	2880

PubMed Central

HfdCat Data/Pmc/Corpus/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih Data/Pmc/Corpus/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2

Vérification

HfdCat Data/Pmc/Curation/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih Data/Pmc/Curation/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2

Istex

HfdCat Data/Istex/Corpus/Author.i.hfd   \
  | SxmlSelect -s idx/l/e/1 -p @s1 -p @1    \
  | sort                                    \
  | IndexBuildRec                           \
  | SxmlSelect -g idx/k/1 -g idx/f/1 -p @g2 -p @g1  \
  | sort -rn                                       \
  | SxmlSelect -p @2 -p @1                        \
  | HfdSelect -ih Data/Istex/Corpus/biblio   \
  | SxmlSelect -s record/TEI/teiHeader/fileDesc/publicationStmt/idno@type=RBID/1    \
     -g record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno@type=ISSN/1 \
     -p @s1 -p @g1 -p @2

Index spécialisés pour la curation

Étape Corpus
index AutAff, combinant auteurs (patronymes) et affiliations
 
Étape Curation
index PaysInc pays inconnus
 
Étape Checkpoint
index RegInc régions inconnues

Flux Istex

  1. Ibata R (214)
  2. Lewis G (199)
  3. Irwin M (135)
  4. Tovey S (117)
  5. Fraternali M (97)
  6. Valdata Nappi M (93)
  7. Martin N (92)
  8. Gaillard J (91)
  9. Vercesi V (90)
  10. Pastore F (90)
  11. Iacopini E (88)
  12. Conta C (85)
  13. Parker Q (84)
  14. Polesello G (83)
  15. Taylor G (82)
 
  1. ??? (224)
  2. 0HA (61)
  3. 9AB (47)
  4. 7RH (25)
  5. and (21)
  6. 9SS (19)
  7. 2AZ (16)
  8. Caledonia (15)
  9. 5BG (14)
  10. 2HE (14)
  11. 3LE (13)
  12. Republic (12)
  13. 4QL (10)
  14. 3HJ (9)
  15. University (8)
 
  1. Victoria (223)
  2. Canberra (154)
  3. Brisbane (139)
  4. NSW (132)
  5. New South Wales (104)
  6. NSW 1710 (97)
  7. Ontario (96)
  8. ACT (94)
  9. Queensland (92)
  10. ACT 0200 (80)
  11. Adelaide (79)
  12. Perth (76)
  13. Geneva (75)
  14. Cambridge (71)
  15. Tasmania (68)

Flux PubMed

  1. Yu J (416)
  2. Wang J (354)
  3. Wang H (325)
  4. Hansen J (307)
  5. Meyer J (306)
  6. Yang H (288)
  7. Liu J (281)
  8. Beddall A (280)
  9. Young C (277)
  10. Li H (277)
  11. Potter C (276)
  12. Meyer C (276)
  13. Liu M (255)
  14. Pastore F (249)
  15. Gabrielli A (249)
 
  1. no dot (39)
  2. New Caledonia (28)
  3. and (23)
  4. France; and (15)
  5. Australia; and (15)
  6. Bolivia (11)
  7. Ann Arbor (10)
  8. Slovak Republic (9)
  9. Kingdom of Saudi Arabia (9)
  10. Lao PDR (8)
  11. VIC Australia (7)
  12. United Kingdom; and (7)
  13. SP Brazil (7)
  14. Md (7)
  15. WA Australia (6)
 
  1. Victoria (337)
  2. NSW (262)
  3. Brisbane (250)
  4. Queensland (234)
  5. Villejuif (231)
  6. VIC (204)
  7. Leuven (196)
  8. Ontario (191)
  9. New South Wales (190)
  10. Helsinki (188)
  11. QLD (142)
  12. Cambridge (132)
  13. Basel (129)
  14. ON (128)
  15. Geneva (128)

Effets de la curation

Affiliations

Avant curation
  1. Université de Toronto (218)
  2. Université d'Aix-Marseille (215)
  3. Université Pierre-et-Marie-Curie (210)
  4. Université de Cambridge (197)
  5. Université d'Oxford (178)
  6. Université Paris-Sud (147)
  7. University College de Londres (144)
  8. Université d'Amsterdam (143)
  9. Université d'Édimbourg (127)
  10. Université de Manchester (124)
  11. Université Paris-Descartes (115)
  12. Université de Birmingham (114)
  13. Université Grenoble-Alpes (114)
  14. Université de Washington (113)
  15. Université de Londres (99)
 
Après curation
  1. Université de Melbourne (1892)
  2. Université de Sydney (1849)
  3. Université de Toronto (557)
  4. Université d'Oxford (548)
  5. Université de Cambridge (541)
  6. University College de Londres (404)
  7. Université d'Édimbourg (375)
  8. Université de Washington (313)
  9. Université d'Aix-Marseille (313)
  10. Université de Manchester (302)
  11. Université Paris-Descartes (297)
  12. Université d'Amsterdam (278)
  13. Université Paris-Sud (271)
  14. Université de Londres (266)
  15. Université Pierre-et-Marie-Curie (261)

Régions

Avant curation
  1. Île-de-France (3754)
  2. Auvergne-Rhône-Alpes (1819)
  3. Rhône-Alpes (1713)
  4. Angleterre (1580)
  5. Occitanie (région administrative) (1533)
  6. Nouvelle-Galles du Sud (1139)
  7. Provence-Alpes-Côte d'Azur (1060)
  8. Grand Londres (868)
  9. Languedoc-Roussillon (793)
  10. Midi-Pyrénées (786)
  11. Grand Est (726)
  12. Californie (677)
  13. Bade-Wurtemberg (521)
  14. État de New York (505)
  15. Nouvelle-Aquitaine (497)
 
Après curation
  1. Île-de-France (5982)
  2. Angleterre (3221)
  3. Nouvelle-Galles du Sud (3072)
  4. Victoria (État) (2755)
  5. Auvergne-Rhône-Alpes (2691)
  6. Rhône-Alpes (2496)
  7. Occitanie (région administrative) (2162)
  8. Grand Londres (1971)
  9. Californie (1830)
  10. Provence-Alpes-Côte d'Azur (1541)
  11. Massachusetts (1434)
  12. État de New York (1396)
  13. Languedoc-Roussillon (1171)
  14. Bade-Wurtemberg (1106)
  15. Maryland (1093)

Pays

Avant curation
  1. France (12324)
  2. Australie (12117)
  3. États-Unis (4092)
  4. Royaume-Uni (3183)
  5. Allemagne (2435)
  6. Italie (1664)
  7. Canada (1569)
  8. Pays-Bas (1379)
  9. Espagne (1241)
  10. Suisse (1024)
  11. Belgique (934)
  12. Japon (865)
  13. Suède (723)
  14. Danemark (603)
  15. Autriche (505)
 
Après curation
  1. France (18920)
  2. Australie (18549)
  3. États-Unis (7479)
  4. Royaume-Uni (6045)
  5. Allemagne (4588)
  6. Italie (3380)
  7. Canada (3114)
  8. Pays-Bas (2938)
  9. Espagne (2652)
  10. Suisse (2044)
  11. Belgique (2003)
  12. Suède (1682)
  13. Japon (1620)
  14. Danemark (1382)
  15. République populaire de Chine (1119)