Serveur d'exploration sur la méthode scrum : Différence entre versions
imported>Jacques Ducloy (→Les corpus) |
imported>Jacques Ducloy (→Autres sources de bruit) |
||
(24 révisions intermédiaires par le même utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
Cette page introduit le « [[Serveur d'exploration sur la méthode scrum]] ». | Cette page introduit le « [[Serveur d'exploration sur la méthode scrum]] ». | ||
− | Il contient [[A pour volumétrie (serveur d'exploration)::{{ScrumV2, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents. | + | |
+ | Il contient [[A pour volumétrie (serveur d'exploration)::{{ScrumV2, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents (Une recherche documentaire avec le critère « scrum » donne un corpus de plus de {{formatnum:10000}} références). A la suite d'un travail de curation (non achevé) la volumétrie finale est de {{formatnum:{{ScrumV2, Explor size|stream=Main|step=Exploration|index=biblio}}}} références. | ||
{{Wicri tp | {{Wicri tp | ||
Ligne 18 : | Ligne 19 : | ||
:'''Hal''' : <code>scrum</code><ref>Compte tenu de son faible volume et d'un bruitage léger le corpus a été miantenu en l'état</ref> | :'''Hal''' : <code>scrum</code><ref>Compte tenu de son faible volume et d'un bruitage léger le corpus a été miantenu en l'état</ref> | ||
:'''Pascal / Francis''': <code>scrum</code><ref>Corpus bruité mais qui permet de guider une curation au niveau du serveur par les ISSN</ref> | :'''Pascal / Francis''': <code>scrum</code><ref>Corpus bruité mais qui permet de guider une curation au niveau du serveur par les ISSN</ref> | ||
+ | |||
+ | Les données médicales ont été volontairement conservées pour trouver ces applications de la méthode Scrum en milieu médical. Cette contrainte complique très nettement les actions de curation. | ||
==Navigation== | ==Navigation== | ||
+ | |||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
Ligne 96 : | Ligne 100 : | ||
==Projections géographiques== | ==Projections géographiques== | ||
+ | {{Avertissement|texte=Le travail de curation n'est pas terminé, les projections géographiques doivent être interprétées avec la plus grande précaution}} | ||
{{Début 2 colonnes}} | {{Début 2 colonnes}} | ||
{{Explor plateforme ScrumV2/Carte France|taille=400}} | {{Explor plateforme ScrumV2/Carte France|taille=400}} | ||
Ligne 108 : | Ligne 113 : | ||
{{Explor plateforme ScrumV2/Carte Monde}} | {{Explor plateforme ScrumV2/Carte Monde}} | ||
}} | }} | ||
+ | |||
+ | ==Observations== | ||
+ | ===Personnalités repérées=== | ||
+ | * [[A pour personnalité citée::Frank Maurer]], [[Université de Calgary]], [[Calgary]], ([[Alberta]], [[Canada]]), | ||
+ | * [[A pour personnalité citée::Barry Boehm]], [[Université de Californie du Sud]] à [[Los Angeles]] ([[Californie]], USA) | ||
+ | |||
+ | ==Curation des données== | ||
+ | ===Sérum=== | ||
+ | Les mécanismes d'OCR ont provoqué un grand nombre de transformation « serum -> scrum ». Ce phénomène est ici particulièrement gênant (voir [[Serveur d'exploration sur la méthode scrum (premier essai)]]). Il a conduit à une stratégie de sélection « non exhaustive » mais pour laquelle l'influence de l'OCR sur sérum est encore considérable. | ||
+ | |||
+ | La curation a été effectuée principalement à partir des ISSN. Voici un exemple de script utilisé pour repérer les revues sensibles à partir de l'{{Explor lien|wiki=Informatique|area=ScrumV2|url=Main/Exploration/indexHead.php?index=Title.i|texte=index des mots du titre}}<ref>Pour montrer l'évolution une ancienne version est visible {{Explor lien|wiki=Informatique|area=Scrum.storage/ScrumV2.20160513|url=Main/Exploration/indexHead.php?index=Title.i|texte=ici}}.</ref> : | ||
+ | <source lang="sh"> | ||
+ | HfdIndexSelect -h $EXPLOR_AREA/Data/Main/Exploration/Title.i -Sk "serum" \ | ||
+ | | HfdSelect -Kh $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \ | ||
+ | | SxmlSelect -s record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno/1 -p @s1 -p @1 \ | ||
+ | | sort | IndexBuildRec | grep ">3<" | ||
+ | </source> | ||
+ | |||
+ | ===Autres sources de bruit=== | ||
+ | Il existe également | ||
+ | * une société nommée Scrum Inc (dans le bio médical), | ||
+ | * un modèle océanique nommé SCRUM (S-Coordinates Rutgers University Model). | ||
+ | |||
+ | ===Archives=== | ||
+ | Pour garder une trace des curations la première version a été conservée (voir {{Explor lien|wiki=Informatique|area=Scrum.storage/ScrumV2.20160513|url=Main/Exploration|texte=la version du 13 mai 2016}}. Attention, dans cette première version les données venant de PubMed Central ont pratiquement disparues à la suite d'un bug). | ||
+ | |||
==Paramétrage== | ==Paramétrage== | ||
*[[Wicri:ScrumV2]] - ''introduction'' | *[[Wicri:ScrumV2]] - ''introduction'' | ||
Ligne 114 : | Ligne 145 : | ||
*[[Wicri:ScrumV2/Paramètres, génération des cartes]] - ''génération de cartes géographiques'' | *[[Wicri:ScrumV2/Paramètres, génération des cartes]] - ''génération de cartes géographiques'' | ||
*[[Wicri:ScrumV2/Paramètres, templates size]] - ''paramétrage des modèles liés aux valeurs numériques'' | *[[Wicri:ScrumV2/Paramètres, templates size]] - ''paramétrage des modèles liés aux valeurs numériques'' | ||
+ | |||
==Voir aussi== | ==Voir aussi== | ||
;Notes: | ;Notes: |
Version actuelle datée du 17 mai 2016 à 11:08
Cette page introduit le « Serveur d'exploration sur la méthode scrum ».
Il contient 2769 documents (Une recherche documentaire avec le critère « scrum » donne un corpus de plus de 10 000 références). A la suite d'un travail de curation (non achevé) la volumétrie finale est de 1 665 références.
Sommaire
Les corpus
Après un premier essai, les corpus ont été affinés comme suit :
- ISTEX :
scrum AND (method agil* sprint* cycle)
[1] - PubMed :
scrum NOT football
[2] - PubMed Central :
scrum NOT football
- Hal :
scrum
[3] - Pascal / Francis:
scrum
[4]
Les données médicales ont été volontairement conservées pour trouver ces applications de la méthode Scrum en milieu médical. Cette contrainte complique très nettement les actions de curation.
Ce flux donne accès 2000 documents ISTEX (et 1159 après curation). | |||
Ce flux traite 152 références, dont 2 venant de Francis, et 150 venant de Pascal.
Après curation le volume est réduit à 135. | |||
Ce flux traite 14 références téléchargées de HAL. Après curation le volume est réduit à 14. | |||
Ce flux traite 561 références ou documents provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 42. | |||
Ce flux traite 561 références ou documents provenance de l'archive PubMed Central. Après curation le volume est réduit à 377. | |||
Ce flux traite 419 références, Après curation le volume est réduit à 416. | |||
Flux principal | Ce flux fusionne 1 724 références issues des étapes précédentes.
Ce volume est ramené à 1 717 après dédoublonnage par DOI. Enfin, il est réduit à 1 665 par clé de dédoublonnage IDAT. | ||
Zoom | France | Ce flux donne accès à une bibliographie contenant 51 références ayant au moins un auteur avec une affiliation française. | |
Zoom | UK | Ce flux donne accès à une bibliographie contenant 112 références ayant au moins un auteur avec une affiliation du Royaume-Uni. | |
Zoom | USA | Ce flux donne accès à une bibliographie contenant 324 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique. | |
Zoom | Allemagne | Ce flux donne accès à une bibliographie contenant 92 références ayant au moins un auteur avec une affiliation allemande. |
Projections géographiques
|
|
Observations
Personnalités repérées
- Frank Maurer, Université de Calgary, Calgary, (Alberta, Canada),
- Barry Boehm, Université de Californie du Sud à Los Angeles (Californie, USA)
Curation des données
Sérum
Les mécanismes d'OCR ont provoqué un grand nombre de transformation « serum -> scrum ». Ce phénomène est ici particulièrement gênant (voir Serveur d'exploration sur la méthode scrum (premier essai)). Il a conduit à une stratégie de sélection « non exhaustive » mais pour laquelle l'influence de l'OCR sur sérum est encore considérable.
La curation a été effectuée principalement à partir des ISSN. Voici un exemple de script utilisé pour repérer les revues sensibles à partir de l'index des mots du titre[5] :
HfdIndexSelect -h $EXPLOR_AREA/Data/Main/Exploration/Title.i -Sk "serum" \
| HfdSelect -Kh $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd \
| SxmlSelect -s record/TEI/teiHeader/fileDesc/sourceDesc/biblStruct/series/idno/1 -p @s1 -p @1 \
| sort | IndexBuildRec | grep ">3<"
Autres sources de bruit
Il existe également
- une société nommée Scrum Inc (dans le bio médical),
- un modèle océanique nommé SCRUM (S-Coordinates Rutgers University Model).
Archives
Pour garder une trace des curations la première version a été conservée (voir la version du 13 mai 2016. Attention, dans cette première version les données venant de PubMed Central ont pratiquement disparues à la suite d'un bug).
Paramétrage
- Wicri:ScrumV2 - introduction
- Wicri:ScrumV2/Paramètres, data - génération des données
- Wicri:ScrumV2/Paramètres, fr - génération de l'interface
- Wicri:ScrumV2/Paramètres, génération des cartes - génération de cartes géographiques
- Wicri:ScrumV2/Paramètres, templates size - paramétrage des modèles liés aux valeurs numériques
Voir aussi
- Notes
- ↑ On impose la présence de scrum et on ajoute un ensemble de termes permettant à ElasticSearch de faire monter les scores des documents effectivement relatifs à la méthodologie scrum
- ↑ On écarte les documents contenant football tout en laissant le rugby pour retenir les documents méthodologiques pouvant faire allusion à la mêlée de rugby.
- ↑ Compte tenu de son faible volume et d'un bruitage léger le corpus a été miantenu en l'état
- ↑ Corpus bruité mais qui permet de guider une curation au niveau du serveur par les ISSN
- ↑ Pour montrer l'évolution une ancienne version est visible ici.