Discussion:Serveur d'exploration sur l'oranger
Sommaire
Curation
Volumétrie
- proposition
Claire a posé un problème concernant la pertinence du serveur dans la mesure où de nombreux articles ne contiennent qu'une référence à l'oranger.
Un examen des métadonnées ou des mots du titre montrent cependant une volumétrie conséquente. Exemple, l'index Mots-clés en anglais révèle :
La volumétrie étant importante nous nous sommes posés la question sur une éventuelle réduction du nombre de documents à l'intérieur du corpus. Étant donné que le corpus est focalisé sur l'oranger par son nom binomial "citrus sinensis" on peut voir qu'environ seulement 2000 documents sur 8819 sont indexés par ce terme précis. On peut donc se questionner sur la cohérence et la pertinence pour les autres textes où le terme n'est cité qu'une seule fois dans le texte en intégralité.
- garder comme base ces 2000 documents qui sont indexés avec le terme qui nous intéresse ne nous permettrait-il pas de limiter le bruit et de faciliter l'exploration du corpus ?
- cependant en amont le terme "citrus sinensis" n'a peut-être pas été correctement utilisé pour indexer le document et limiter de cette façon le corpus pourrait nous faire passer à côté de documents tout de même pertinents.
- Maxime Chobeau 8 décembre 2016
- Claire Sinigaglia 8 décembre 2016
Un zoom sur une telle volumétrie ne me parait pas pertinent. En revanche, on peut imposer que les documents contiennent au moins une fois la référence à citrus sinensis dans les métadonnées.
- Jacques Ducloy 6 décembre 2016 à 09:54 (CET)
Articles posant des problèmes pour les coopérations internationales
Ce corpus contient des articles qui entraînent des génération abusives de coopération.
Voir par exemple : Fungal Planet description sheets: 400–468
En effet, le document ici déposé sur PubMed Central contient une collection d'articles relativement courts portant sur des sujets différents.
Pour les localiser, on peut explorer les pays de très faible fréquence.
Pour mettre un lien sur un article, il faut aller sur la page contenant l'article et faire un copier/coller d'un appel de modèle donné en bas de page (voir par exemple comment cette page est rédigée en faisant « Modifier » ou » Voir le texte source »).
- Jacques Ducloy 29 novembre 2016 à 14:43 (CET)
Exploration du corpus par mots-clés
Nous avons utilisé la liste de mots-clés en anglais pour explorer le corpus, un des premiers éléments qui nous a interpellé a été de voir la forte occurrence du mot-clé "animals". Il arrive en 9ème position dans la liste des mots-clés avec 266 occurrences avant certains autres mots-clés tels que "orange" ou "fruit (chemistry)". En explorant les articles indexés par ce mots-clés, nous avons remarqué que beaucoup provenaient de la revue "Nutrients" et certains ne semblent pas être pertinents, tels que :
- Murciano-Granadina Goat Performance and Methane Emission after Replacing Barley Grain with Fibrous By-Products dont la problématique nous semble éloignée de l'arbre "citrus sinensis" en tant que tel.
Alors que ce document :
- Development and reproduction of Panonychus citri (Prostigmata: Tetranychidae) on different species and varieties of citrus plants. correspond plus à la question de la plante à part entière par son nom binomial. En effet, le terme "citrus sinensis" apparaît plusieurs fois dans l'abstract du document et traite de la production même de l'arbre. Pourtant, le terme "citrus sinensis" n’apparaît pas dans les mots-clés. Cette observation rejoint la première que nous avons émise sur le tri possible du corpus en excluant les documents ne contenant que le terme "citrus".
Problèmes rencontrés lors de la génération du serveur
Volumétrie
Volumétrie assez conséquente :
- explication : 2000 documents PubMed Central
- environ une heure de génération (contre 20 minutes pour les autres serveurs)
- saturation de l'espace disque sur la machine Ticri/INPL (un nettoyage a du être effectué)
Mise à niveau du wiki bois
Mise à niveau Serveur d'exploration sur la recherche forestière en France pour obtenir un espace de test moins volumineux.
Revues :
- Plant Physiology (revue)
- Forêt méditerranéenne (revue)
- Wicri:Liste pour l'édition d'ISSN en sylviculture
Mise à niveau Serveur d'exploration sur le frêne (Pascal) pour obtenir un espace de test moins volumineux sur les auteurs.