Discussion:Serveur d'exploration sur l'oranger : Différence entre versions

De Wicri Bois
imported>Claire Sinigaglia
imported>Jacques Ducloy
m (29 révisions importées)
 
(3 révisions intermédiaires par un autre utilisateur non affichées)
Ligne 46 : Ligne 46 :
  
 
:[[Utilisateur:Jacques Ducloy|Jacques Ducloy]] 29 novembre 2016 à 14:43 (CET)
 
:[[Utilisateur:Jacques Ducloy|Jacques Ducloy]] 29 novembre 2016 à 14:43 (CET)
 +
 +
===Remarques relatives à la la répartition géographique des publications===
 +
 +
Nous avons observé plusieurs choses :
 +
 +
* les auteurs ayant le plus publié sur le sujet sont chinois ; dans le top 5 des auteurs sur le sujet il y a quatre auteurs chinois qui, à eux seuls, ont publié environ 150 documents, même si les USA et l'Europe ont publié plus de documents en terme de volumétrie. 
 +
* en parallèle, l'Université de Sao Paulo est la plus active avec 95 publications, soit trois fois plus que la seconde.
 +
* les pays qui publient le plus sur le sujet sont aussi les pays qui sont les plus important en terme de production d'orangers.
 +
::[[Utilisateur:Maxime Chobeau|Maxime Chobeau]] 8 décembre 2016
 +
::[[Utilisateur:Claire Sinigaglia|Claire Sinigaglia]] 8 décembre 2016
  
 
==Exploration du corpus par mots-clés==
 
==Exploration du corpus par mots-clés==
 
Nous avons utilisé la liste de mots-clés en anglais pour explorer le corpus, un des premiers éléments qui nous a interpellé a été de voir la forte occurrence du mot-clé "animals". Il arrive en 9ème position dans la liste des mots-clés avec 266 occurrences avant certains autres mots-clés tels que "orange" ou "fruit (chemistry)". En explorant les articles indexés par ce mots-clés, nous avons remarqué que beaucoup provenaient de la revue "Nutrients" et certains ne semblent pas être pertinents, tels que :  
 
Nous avons utilisé la liste de mots-clés en anglais pour explorer le corpus, un des premiers éléments qui nous a interpellé a été de voir la forte occurrence du mot-clé "animals". Il arrive en 9ème position dans la liste des mots-clés avec 266 occurrences avant certains autres mots-clés tels que "orange" ou "fruit (chemistry)". En explorant les articles indexés par ce mots-clés, nous avons remarqué que beaucoup provenaient de la revue "Nutrients" et certains ne semblent pas être pertinents, tels que :  
  
{{Explor lien
+
* {{Explor lien
 
   |wiki=    Wicri/Bois
 
   |wiki=    Wicri/Bois
 
   |area=    OrangerV1
 
   |area=    OrangerV1
Ligne 58 : Ligne 68 :
 
   |clé=    PMC:4794190
 
   |clé=    PMC:4794190
 
   |texte=  ''Murciano-Granadina Goat Performance and Methane Emission after Replacing Barley Grain with Fibrous By-Products''  
 
   |texte=  ''Murciano-Granadina Goat Performance and Methane Emission after Replacing Barley Grain with Fibrous By-Products''  
}}
+
}} dont la problématique nous semble éloignée de l'arbre "citrus sinensis" en tant que tel.  
dont la problématique nous semble éloignée de l'arbre "citrus sinensis" en tant que tel.  
 
 
 
 
 
  
 +
Alors que ce document :
 +
* {{Explor lien
 +
  |wiki=    Wicri/Bois
 +
  |area=    OrangerV1
 +
  |flux=    Main
 +
  |étape=  Exploration
 +
  |type=    RBID
 +
  |clé=    pubmed:26459376
 +
  |texte=  Development and reproduction of Panonychus citri (Prostigmata: Tetranychidae) on different species and varieties of citrus plants.
 +
}} correspond plus à la question de la plante à part entière par son nom binomial. En effet, le terme "citrus sinensis" apparaît plusieurs fois dans l'abstract du document et traite de la production même de l'arbre. Pourtant, le terme "citrus sinensis" n’apparaît pas dans les mots-clés. Cette observation rejoint la première que nous avons émise sur le tri possible du corpus en excluant les documents ne contenant que le terme "citrus".
  
 +
::[[Utilisateur:Maxime Chobeau|Maxime Chobeau]] 8 décembre 2016
 +
::[[Utilisateur:Claire Sinigaglia|Claire Sinigaglia]] 8 décembre 2016
  
 
==Problèmes rencontrés lors de la génération du serveur==
 
==Problèmes rencontrés lors de la génération du serveur==

Version actuelle datée du 3 juillet 2017 à 16:46

Curation

Volumétrie

proposition

Claire a posé un problème concernant la pertinence du serveur dans la mesure où de nombreux articles ne contiennent qu'une référence à l'oranger.

Un examen des métadonnées ou des mots du titre montrent cependant une volumétrie conséquente. Exemple, l'index Mots-clés en anglais révèle :

La volumétrie étant importante nous nous sommes posés la question sur une éventuelle réduction du nombre de documents à l'intérieur du corpus. Étant donné que le corpus est focalisé sur l'oranger par son nom binomial "citrus sinensis" on peut voir qu'environ seulement 2000 documents sur 8819 sont indexés par ce terme précis. On peut donc se questionner sur la cohérence et la pertinence pour les autres textes où le terme n'est cité qu'une seule fois dans le texte en intégralité.

  • garder comme base ces 2000 documents qui sont indexés avec le terme qui nous intéresse ne nous permettrait-il pas de limiter le bruit et de faciliter l'exploration du corpus ?
  • cependant en amont le terme "citrus sinensis" n'a peut-être pas été correctement utilisé pour indexer le document et limiter de cette façon le corpus pourrait nous faire passer à côté de documents tout de même pertinents.
Maxime Chobeau 8 décembre 2016
Claire Sinigaglia 8 décembre 2016

Un zoom sur une telle volumétrie ne me parait pas pertinent. En revanche, on peut imposer que les documents contiennent au moins une fois la référence à citrus sinensis dans les métadonnées.

Jacques Ducloy 6 décembre 2016 à 09:54 (CET)

Articles posant des problèmes pour les coopérations internationales

Ce corpus contient des articles qui entraînent des génération abusives de coopération.

Voir par exemple : Fungal Planet description sheets: 400–468

En effet, le document ici déposé sur PubMed Central contient une collection d'articles relativement courts portant sur des sujets différents.

Pour les localiser, on peut explorer les pays de très faible fréquence.

Pour mettre un lien sur un article, il faut aller sur la page contenant l'article et faire un copier/coller d'un appel de modèle donné en bas de page (voir par exemple comment cette page est rédigée en faisant « Modifier » ou » Voir le texte source »).

Jacques Ducloy 29 novembre 2016 à 14:43 (CET)

Remarques relatives à la la répartition géographique des publications

Nous avons observé plusieurs choses :

  • les auteurs ayant le plus publié sur le sujet sont chinois ; dans le top 5 des auteurs sur le sujet il y a quatre auteurs chinois qui, à eux seuls, ont publié environ 150 documents, même si les USA et l'Europe ont publié plus de documents en terme de volumétrie.
  • en parallèle, l'Université de Sao Paulo est la plus active avec 95 publications, soit trois fois plus que la seconde.
  • les pays qui publient le plus sur le sujet sont aussi les pays qui sont les plus important en terme de production d'orangers.
Maxime Chobeau 8 décembre 2016
Claire Sinigaglia 8 décembre 2016

Exploration du corpus par mots-clés

Nous avons utilisé la liste de mots-clés en anglais pour explorer le corpus, un des premiers éléments qui nous a interpellé a été de voir la forte occurrence du mot-clé "animals". Il arrive en 9ème position dans la liste des mots-clés avec 266 occurrences avant certains autres mots-clés tels que "orange" ou "fruit (chemistry)". En explorant les articles indexés par ce mots-clés, nous avons remarqué que beaucoup provenaient de la revue "Nutrients" et certains ne semblent pas être pertinents, tels que :

Alors que ce document :

Maxime Chobeau 8 décembre 2016
Claire Sinigaglia 8 décembre 2016

Problèmes rencontrés lors de la génération du serveur

Volumétrie

Volumétrie assez conséquente :

  • explication : 2000 documents PubMed Central
  • environ une heure de génération (contre 20 minutes pour les autres serveurs)
  • saturation de l'espace disque sur la machine Ticri/INPL (un nettoyage a du être effectué)

Mise à niveau du wiki bois

Mise à niveau Serveur d'exploration sur la recherche forestière en France pour obtenir un espace de test moins volumineux.

Revues :

Mise à niveau Serveur d'exploration sur le frêne (Pascal) pour obtenir un espace de test moins volumineux sur les auteurs.