Discussion:Serveur d'exploration sur l'oranger

De Wicri Bois

Curation

Volumétrie

proposition

Claire a posé un problème concernant la pertinence du serveur dans la mesure où de nombreux articles ne contiennent qu'une référence à l'oranger.

Un examen des métadonnées ou des mots du titre montrent cependant une volumétrie conséquente. Exemple, l'index Mots-clés en anglais révèle :

La volumétrie étant importante nous nous sommes posés la question sur une éventuelle réduction du nombre de documents à l'intérieur du corpus. Étant donné que le corpus est focalisé sur l'oranger par son nom binomial "citrus sinensis" on peut voir qu'environ seulement 2000 documents sur 8819 sont indexés par ce terme précis. On peut donc se questionner sur la cohérence et la pertinence pour les autres textes où le terme n'est cité qu'une seule fois dans le texte en intégralité.

  • garder comme base ces 2000 documents qui sont indexés avec le terme qui nous intéresse ne nous permettrait-il pas de limiter le bruit et de faciliter l'exploration du corpus ?
  • cependant en amont le terme "citrus sinensis" n'a peut-être pas été correctement utilisé pour indexer le document et limiter de cette façon le corpus pourrait nous faire passer à côté de documents tout de même pertinents.
Maxime Chobeau 8 décembre 2016
Claire Sinigaglia 8 décembre 2016

Un zoom sur une telle volumétrie ne me parait pas pertinent. En revanche, on peut imposer que les documents contiennent au moins une fois la référence à citrus sinensis dans les métadonnées.

Jacques Ducloy 6 décembre 2016 à 09:54 (CET)

Articles posant des problèmes pour les coopérations internationales

Ce corpus contient des articles qui entraînent des génération abusives de coopération.

Voir par exemple : Fungal Planet description sheets: 400–468

En effet, le document ici déposé sur PubMed Central contient une collection d'articles relativement courts portant sur des sujets différents.

Pour les localiser, on peut explorer les pays de très faible fréquence.

Pour mettre un lien sur un article, il faut aller sur la page contenant l'article et faire un copier/coller d'un appel de modèle donné en bas de page (voir par exemple comment cette page est rédigée en faisant « Modifier » ou » Voir le texte source »).

Jacques Ducloy 29 novembre 2016 à 14:43 (CET)

Remarques relatives à la la répartition géographique des publications

Nous avons observé plusieurs choses :

  • les auteurs ayant le plus publié sur le sujet sont chinois ; dans le top 5 des auteurs sur le sujet il y a quatre auteurs chinois qui, à eux seuls, ont publié environ 150 documents, même si les USA et l'Europe ont publié plus de documents en terme de volumétrie.
  • en parallèle, l'Université de Sao Paulo est la plus active avec 95 publications, soit trois fois plus que la seconde.
  • les pays qui publient le plus sur le sujet sont aussi les pays qui sont les plus important en terme de production d'orangers.
Maxime Chobeau 8 décembre 2016
Claire Sinigaglia 8 décembre 2016

Exploration du corpus par mots-clés

Nous avons utilisé la liste de mots-clés en anglais pour explorer le corpus, un des premiers éléments qui nous a interpellé a été de voir la forte occurrence du mot-clé "animals". Il arrive en 9ème position dans la liste des mots-clés avec 266 occurrences avant certains autres mots-clés tels que "orange" ou "fruit (chemistry)". En explorant les articles indexés par ce mots-clés, nous avons remarqué que beaucoup provenaient de la revue "Nutrients" et certains ne semblent pas être pertinents, tels que :

Alors que ce document :

Maxime Chobeau 8 décembre 2016
Claire Sinigaglia 8 décembre 2016

Problèmes rencontrés lors de la génération du serveur

Volumétrie

Volumétrie assez conséquente :

  • explication : 2000 documents PubMed Central
  • environ une heure de génération (contre 20 minutes pour les autres serveurs)
  • saturation de l'espace disque sur la machine Ticri/INPL (un nettoyage a du être effectué)

Mise à niveau du wiki bois

Mise à niveau Serveur d'exploration sur la recherche forestière en France pour obtenir un espace de test moins volumineux.

Revues :

Mise à niveau Serveur d'exploration sur le frêne (Pascal) pour obtenir un espace de test moins volumineux sur les auteurs.