Discussion:Serveur d'exploration sur l'oranger : Différence entre versions

De Wicri Bois
imported>Claire Sinigaglia
(Volumétrie)
imported>Claire Sinigaglia
Ligne 15 : Ligne 15 :
 
   |texte=plus de 2000 documents indexés par '''citrus sinensis'''
 
   |texte=plus de 2000 documents indexés par '''citrus sinensis'''
 
}}
 
}}
 +
 +
La volumétrie étant importante nous nous sommes posés la question sur une éventuelle réduction du nombre de documents à l'intérieur du corpus.
 +
Étant donné que le corpus est focalisé sur l'oranger par son nom binomial "citrus sinensis" on peut voir qu'environ seulement 2000 documents sur 8819 sont indexés par ce terme précis. On peut donc se questionner sur la cohérence et la pertinence pour les autres textes où le terme n'est cité qu'une seule fois dans le texte en intégralité.
 +
* garder comme base ces 2000 documents qui sont indexés avec le terme qui nous intéresse ne nous permettrait-il pas de limiter le bruit et de faciliter l'exploration du corpus ?
 +
* cependant en amont le terme "citrus sinensis" n'a peut-être pas été correctement utilisé pour indexer le document et limiter de cette façon le corpus pourrait nous faire passer à côté de documents tout de même pertinents.
 +
::[[Utilisateur:Maxime Chobeau|Maxime Chobeau]] 8 décembre 2016
 +
::[[Utilisateur:Claire Sinigaglia|Claire Sinigaglia]] 8 décembre 2016
 +
  
 
Un zoom sur une telle volumétrie ne me parait pas pertinent. En revanche, on peut imposer que les documents contiennent au moins une fois la référence à '''citrus sinensis''' dans les métadonnées.
 
Un zoom sur une telle volumétrie ne me parait pas pertinent. En revanche, on peut imposer que les documents contiennent au moins une fois la référence à '''citrus sinensis''' dans les métadonnées.

Version du 8 décembre 2016 à 15:35

Curation

Volumétrie

proposition

Claire a posé un problème concernant la pertinence du serveur dans la mesure où de nombreux articles ne contiennent qu'une référence à l'oranger.

Un examen des métadonnées ou des mots du titre montrent cependant une volumétrie conséquente. Exemple, l'index Mots-clés en anglais révèle :

La volumétrie étant importante nous nous sommes posés la question sur une éventuelle réduction du nombre de documents à l'intérieur du corpus. Étant donné que le corpus est focalisé sur l'oranger par son nom binomial "citrus sinensis" on peut voir qu'environ seulement 2000 documents sur 8819 sont indexés par ce terme précis. On peut donc se questionner sur la cohérence et la pertinence pour les autres textes où le terme n'est cité qu'une seule fois dans le texte en intégralité.

  • garder comme base ces 2000 documents qui sont indexés avec le terme qui nous intéresse ne nous permettrait-il pas de limiter le bruit et de faciliter l'exploration du corpus ?
  • cependant en amont le terme "citrus sinensis" n'a peut-être pas été correctement utilisé pour indexer le document et limiter de cette façon le corpus pourrait nous faire passer à côté de documents tout de même pertinents.
Maxime Chobeau 8 décembre 2016
Claire Sinigaglia 8 décembre 2016


Un zoom sur une telle volumétrie ne me parait pas pertinent. En revanche, on peut imposer que les documents contiennent au moins une fois la référence à citrus sinensis dans les métadonnées.

Jacques Ducloy 6 décembre 2016 à 09:54 (CET)

Articles posant des problèmes pour les coopérations internationales

Ce corpus contient des articles qui entraînent des génération abusives de coopération.

Voir par exemple : Fungal Planet description sheets: 400–468

En effet, le document ici déposé sur PubMed Central contient une collection d'articles relativement courts portant sur des sujets différents.

Pour les localiser, on peut explorer les pays de très faible fréquence.

Pour mettre un lien sur un article, il faut aller sur la page contenant l'article et faire un copier/coller d'un appel de modèle donné en bas de page (voir par exemple comment cette page est rédigée en faisant « Modifier » ou » Voir le texte source »).

Jacques Ducloy 29 novembre 2016 à 14:43 (CET)

Problèmes rencontrés lors de la génération du serveur

Volumétrie

Volumétrie assez conséquente :

  • explication : 2000 documents PubMed Central
  • environ une heure de génération (contre 20 minutes pour les autres serveurs)
  • saturation de l'espace disque sur la machine Ticri/INPL (un nettoyage a du être effectué)

Mise à niveau du wiki bois

Mise à niveau Serveur d'exploration sur la recherche forestière en France pour obtenir un espace de test moins volumineux.

Revues :

Mise à niveau Serveur d'exploration sur le frêne (Pascal) pour obtenir un espace de test moins volumineux sur les auteurs.