Nuvola apps important.png Attention, suite à une analyse de sécurité, les liens vers quelques serveurs d'exploration sont désactivés.

-

Discussion:Serveur d'exploration sur le cobalt au Maghreb

De Wicri Terre

Questions/réponses

Concernant les ISSN

Je voulais vérifier si les article de la revue dont l'ISSN est 0368-4075 s'intéresse vraiment à notre sujet. je pense qu'elle augmente le niveau de bruit et qu'elle n'est pas pertinente mais on ne peux pas non plus le vérifier (pas de résumé ni de full text), et on ne peut pas non plus vérifier s'il y a des articles à "sauver". je vais regarder pour les autres ISSN pour faire un peu de curation. la je travaille sur la revue allemande "Zeitschrift für Lebensmittel-Untersuchung und Forschung".

L'item "001C36" n'est pas pertinent car il s'agit d'un article qui parle des effets du cobalt et d'autres métaux qui sont présent dans les moules du coté du golf de trieste et l'un des auteurs dans les références de l'article porte le nom de Tunis.

Question: doit-on vérifier tous les ISSN de notre corpus ou juste un échantillon ?

La revue dont l'issn est « 1572-901X » me parait non pertinent et il faudrait donc le retirer du corpus. Par ailleurs, en visualisant la liste des ISSN de notre corpus, on retrouve les même items dans l'issn "0590-9791" et dans l'issn "J. Chem. Soc., Abstr.". est ce que dans ce cas il s'agit d'une redondance de même article dans notre corpus? ou pas vraiment puisqu'il s'agit du même item donc c'est que le lien vers l'article qui est répété?

Abdellah El Maziane 2 décembre 2016 à 0:15

réponse

En fait le plus simple est, dans un premier temps, d'éliminer quelques revues ayant une forte volumétrie.

  • Je suis d'accord pour supprimer 1572-901X, mais l'impact est faible (3 articles)
  • Tout à fait d'accord pour supprimer 0590-9791 et 0368-4075
  • Je propose de supprimer 0001-9852 (explication en séance de TP)
Jacques Ducloy 2 décembre 2016 à 15:39 (CET)

Récapitulatif des remarques

  • Dans la liste des auteurs de notre corpus, l’auteur R.H.S ne nous parait pas pertinent. Dans les documents que nous avons vérifiés, nous nous sommes aperçus que les documents en question sont composés de résumés d’articles. Dans un des résumés le mot cobalt est cité, dans un autre le mot «Algérie » est cité, et dans un autre résumé le nom d’auteur R.H.S est cité mais les trois non rien avoir avec la requête initiale. Donc il va falloir supprimer les documents dont l’auteur est. R.H.S. et R. H. S.
    • Exemple:
    R.H.S.
  • La visualisation des documents par ISSN ne prend pas en compte l’historique de changement de nom de la revue en question, et donc d’ISSN. Nous pouvons citer l’exemple de l’ISSN 0937-0633 (13 documents), qui est devenu plus tard 0016-1152 (21 documents). Peut être qu’un travail humain est souhaitable pour donner au chercheur la possibilité de faire le lien entre ces deux regroupement d’article alors qu’il s’agit de la même revue (besoin d’étude bibliométrique aussi comme le cas de l’université de lorraine qui a changé de nom en 2012, dans la requête il faut combiner entre la nouvelle et l’ancienne appellation pour avoir un résultat fiable).
    Abdellah El Maziane
    Vincent Courquet
  • Le compte de l’AffOrg concernant les villes de Casablanca et El Jadida est correct. Par contre on remarque une absence des AffOrg se situant dans la ville de Marrakech Marrakech ou encore dans la région Marrakech-Tensift-Al Haouz Marrakech-Tensift-Al Haouz (32 occurrences). Il s’agit de l’université Cadi Ayyad mais qui est absente de la liste des AffOrg. Il va falloir procéder à une étape d’enrichissement des métadonnées.
  • A l’inverse, il existe un document avec une AffOrg d’une université tunisienne. Mais sans pour autant que l’AffRegion ne comportent le nom d’une région de Tunisie. Il faut aussi procéder à un enrichissement pour une meilleure visibilité.
  • En ce qui concerne la revue dont l’ISSN est : 0198-0254, il y a beaucoup d’articles qui ne sont pas pertinents car il s’agit d’un ensemble index thématiques. Les autres articles ne sont pas pertinents car dans certaines parties il signale le cobalt et dans d’autres parties du texte il parle du Maroc par exemple mais d’un autre sujet. Nous pouvons donner l’exemple de l’article dont le doi est 10.1016/0198-0254(89)92706-4. Chemical Oceanography
    • Le titre de l’article est : Chemical Oceanography. Il y a un petit paragraphe qui parle de la présence du cobalt dans le milieu aquatique autour de Monaco. Sauf que l’article a été scanné avec le début d’un autre article (voir dernière page) où est signalé le terme Algérie. Il est donc important de supprimer cet ISSN de notre corpus.
    • (Suppression de la revue DSRB vu qu’il s’agit du même ISSN.
  • En ce qui concerne les auteurs, nous avons remarqué que dans la liste des auteurs de plus forte occurrences l’absence de noms d’auteurs dans 13 articles : Anonymous nous avons trouvé des noms de personnes ayant contribué à la réalisation de l’article. Il va falloir donc rectifier cela par un enrichissement car chaque article a au moins un seul auteur. Rapport d’étonnement concernant le serveur d’exploitation sur le cobalt au Maghreb.

    Autres remarques

  • Tout d’abord, nous avons remarqué lors des séances TD qu’effectuer une recherche et exploiter les résultats parait évident mais n’est pas aussi facile qu’on ne le croit. La requête de recherche cobalt and (Maghreb ou Maroc ou Tunisie ou Algérie) nous permet de constituer un corpus de quelques milliers d’articles. Cependant, un traitement de ce corpus est indispensable pour ne retenir que les documents pertinents. Parfois, et à cause des erreurs d’océrisation par exemple, certains documents ressort dans les résultats sans qu’il ne soit pour autant pertinent. D’autres fois c’est parce que les termes constituants notre requête figure dans un même document constitué de quelques articles dont chacun de ces articles figure un mot clé de la requête. Nous pouvons illustrer cela par un document constitué de deux articles, dans le premier figure le mot cobalt. Et on retrouve dans le deuxième le terme « Maroc » alors qu’en réalité aucun des deux ne parle du cobalt au Maroc par exemple. La curation donc du corpus permet de le nettoyer, de réduire le taux de bruit et d’avoir un corpus propre qui répond à la question initiale pour permettre son exploitation ainsi que la réalisation d’étude bibliométrique de qualité.
  • Redondance au niveau des ISSN remarquée avec les mêmes items qui les constituent. Il s’agit de numéro ISSN et également du nom de la revue en question qui se répète :
    • l’ISSN 0140-6701 et l’ISSN « JFEA ».
    • L’ISSN 0198-0254 a les mêmes items que l’ISSN DSRB (Deep sea research )
    • L’ISSN 0022-5215 et le nom de la revue « Journal of Thermal Analysis ». une particularité a été remarquée concernant cet exemple. Le nombre d’item n’est pas le même. En accédant par numéro ISSN 0022-5215 nous retrouvons 34 articles alors qu’en y accédant par le nom de la revue on retrouve seulement 33 articles identiques à ceux de l’ISSN en question.
    • L’ISSN 0022-5215 et l’ISSN 1572-8943 qui sont composé des mêmes articles bien qu’il ne s’agit pas du même identifiant ISSN. En fait, il s’agit de la version électronique de la revue en question « Journal of Thermal Analysis ».
    • Même cas pour L’ISSN 2211-6001, l’ISSN 0191-8575 et la revue OCYO = Ocean Yearbook Online (L’ISSN 2211-6001 est la revue en version électronique).
    • Il y a bien d’autres exemples.
    Normalement cela n’implique pas une présence double ou triple de ces articles en question car l’application reprend à chaque fois qu’elle retrouve la balise ISSN dans l’article pour calculer le nombre d’occurrence de cette valeur dans le corpus.
  • Suppression également des ISSN : 1572-901X, 0590-9791, 0368-4075 et 0001-9852. Car les articles les constituants ces revues, ne sont pas pertinents. Nous pouvons prendre l’exemple d’un article de la revue allemande "Zeitschrift für Lebensmittel-Untersuchung und Forschung", il s'agit d'un article qui parle des effets du cobalt et d'autres métaux qui sont présent dans les moules du coté du golf de Trieste et l'un des auteurs dans les références de l'article porte le nom de Tunis.
  • Suppression aussi de l’ISSN : 1522-2667 tout en gardant deux articles pertinents dont les Istex sont : 52AD2539EBFB878A116A5565672B9345140AFDDD ; 77BDEABE46C7982580E051A746C449263708A0C3 (réalisée par le prof).
  • Concernant notre sujet : « le cobalt au Maghreb » l’ensemble des mots clés choisis sont en anglais alors qu’il s’agit de pays francophone (Maroc, Algérie et Tunisie) et que la plus grande partie du corpus est en Français aussi.
  • Une remarque frappante, c’est que dans la liste des « keywords », on remarque une absence du terme : « Algérie » alors qu’il s’agit d’une composante géographique cruciale dans le traitement du sujet. Il s’agit d’une absence de document traitant du cobalt en Algérie ce qui rend le corpus moins riche que ce qu’il parait.
  • Présence minimale des régions du Maghreb dans la liste des AffRegion.i. dans Affville.i on remarque une présence de quelque ville du Maroc « Casablanca », Marrakech et EL Jadida. Cela reste très peu surtout que le sujet concerne le Maghreb. L’étape d’enrichissement a permis de déduire le nom de région pour compléter les AffRegion et les Affville.
    • Ville : EL Jadida.
    • Région : Casablanca-Settat.
    • Ville : Casablanca.
    • Région : Casablanca-Settat.
    • Ville : Marrakech
    • Région Marrakech-Tensift-Al Haouz
  • Il est à noter également que la liste des noms n’est pas normalisée. parfois on a le nom et prénom complets de l’auteur, d’autres fois on a le nom et l’initiale du prénom seulement.
  • L’idée de projection sur une table de classification périodique est intéressante.

    Curation

    Proposition d'un travail de curation

    Ce corpus contient de nombreux documents basés sur des listes de résumés.

    Exemple introductif

    Par exemple : All in One ‐ Complete Issue: ChemInform 28/2010.

    Il est extrait de la revue dont l'ISSN est : 1522-2667.

    Au moment où ce commentaire est écrit, la revue a été retirée du corpus, à l'aide d'un paramétrage (dans la page Wicri:CobaltMaghrebV1/Paramètres, data. Voir notamment :

    type étape valeur
    ... ... ...
    rejectIdnoISSN Area/Istex/Curation 1522-2667
    keepIdnoRBID Area/Istex/Curation ISTEX:52AD2539EBFB878A116A5565672B9345140AFDDD ; ISTEX:77BDEABE46C7982580E051A746C449263708A0C3

    La ligne suivante dans le tableau indique que 2 articles ont cependant été « sauvés » :

    Question
    trouver d'autres exemples de ce type (avec éventuellement des articles à sauver).
    Jacques Ducloy 29 novembre 2016 à 15:15 (CET)

    Nouvelle version suite aux propositions des étudiants

    • création de 3 nouveaux Zoom : Maroc, Algérie, Tunisie

    Éléments de comparaisons

    Avant

    Attention, les liens vers l'ancienne version ne sont plus actifs

     
    Après
    Auteurs
    1. H. Lassri (20)
    2. G. Davidson (15)
    3. G. A. Webb (15)
    4. Ahmed Driss (15)
    5. A. Dinia (15)
    6. A. Berrada (15)
    7. G. Schmerber (13)
    8. Anonymous (13)
    9. W. Czysz (12)
    10. Hocine Merazig (12)
    11. F. Jancik (12)
    12. E. Svatek (11)
    13. Abderrahmen Guesmi (11)
    14. S. Alleg (10)
    15. R. Glutz (10)
     
    1. H. Lassri (20)
    2. Ahmed Driss (15)
    3. A. Dinia (15)
    4. A. Berrada (15)
    5. Abderrahmen Guesmi (14)
    6. G. Schmerber (13)
    7. Hocine Merazig (12)
    8. S. Alleg (10)
    9. M. Ayadi (10)
    10. Lahcen El Ammari (10)
    11. R. Belhi (9)
    12. N. Mliki (9)
    13. N. Amdouni (9)
    14. Mohamed Saadi (9)
    15. Mohamed Rzaigui (9)
    Villes
    1. Paris (55)
    2. Grenoble (45)
    3. Strasbourg (43)
    4. Londres (36)
    5. Montpellier (27)
    6. Pessac (24)
    7. Villeurbanne (22)
    8. Orsay (21)
    9. Toulouse (19)
    10. Marseille (19)
    11. Vienne (Autriche) (17)
    12. Rennes (16)
    13. Le Mans (14)
    14. Thiais (12)
    15. Saint Martin d'Hères (11)
     
    1. Tunis (87)
    2. Rabat (77)
    3. Paris (54)
    4. Grenoble (45)
    5. Strasbourg (43)
    6. Londres (36)
    7. Alger (36)
    8. Marrakech (32)
    9. Montpellier (27)
    10. Pessac (24)
    11. Villeurbanne (22)
    12. Orsay (20)
    13. Toulouse (19)
    14. Marseille (19)
    15. Vienne (Autriche) (17)
    Pays
    1. France (537)
    2. États-Unis (304)
    3. Maroc (260)
    4. Tunisie (242)
    5. Algérie (211)
    6. Royaume-Uni (166)
    7. Allemagne (81)
    8. Canada (60)
    9. Espagne (58)
    10. Italie (47)
    11. Belgique (41)
    12. Japon (39)
    13. Australie (38)
    14. République populaire de Chine (32)
    15. Autriche (30)
     
    1. France (535)
    2. États-Unis (303)
    3. Maroc (261)
    4. Tunisie (248)
    5. Algérie (211)
    6. Royaume-Uni (168)
    7. Allemagne (81)
    8. Espagne (58)
    9. Canada (58)
    10. Italie (46)
    11. Belgique (41)
    12. Japon (38)
    13. Australie (38)
    14. République populaire de Chine (31)
    15. Autriche (30)
    Titres
    1. abstracts (189)
    2. africa (161)
    3. research (123)
    4. cobalt (122)
    5. series (117)
    6. bulletin (108)
    7. properties (107)
    8. economic (105)
    9. magnetic (98)
    10. published (92)
    11. technical (91)
    12. financial (90)
    13. index (89)
    14. structure (79)
    15. issue (72)
     
    1. abstracts (170)
    2. cobalt (119)
    3. properties (107)
    4. magnetic (98)
    5. structure (79)
    6. effects (58)
    7. new (54)
    8. metal (51)
    9. ceramic (50)
    10. analysis (48)
    11. effect (45)
    12. studies (42)
    13. synthesis (40)
    14. review (39)
    15. meeting (39)

    Problèmes rencontrés lors de la génération du serveur

    • erreur de paramétrage sur le nom du wiki (Wicri/terre au lieu de Wicri/Terre) cela implique une régénération
    • interface de navigation sur Wicri/Afrique à créer