TD Master 2 (Université Paris 8, 2016)

De CIDE

Ceci est une page de liaison pour les travaux dirigés des Masters 2 GSI (Gestion Stratégique de l'Information) et AVUN (Analyse et Valorisation des Usages Numériques) de l'Université Paris 8 en 2017.

Les sujets en bref

Liste générale

Sujet Wiki principal Autres wiki
Maladie de Parkinson en France Wicri/Santé Wicri/France, Wicri/Psychologie
Paléopathologie Wicri/Archéologie Wicri/Santé
Le nickel au Maghreb Wicri/Terre Wicri/Afrique, Wicri/Maroc
Université de Trèves Wicri/Rhénanie-Palatinat Wicri/Allemagne, Wicri/Grande Région
L'esturgeon Wicri/Eau Wicri/Agronomie
Thérapie familiale (contexte francophone) Wicri/Psychologie Wicri/France,

Wicri/Amérique, Wicri/Wallonie

Le renard (contexte Europe de l'ouest) Wicri/Bois Wicri/Europe,

Wicri/France, Wicri/Grande Région

Système d'information stratégique et agriculture Wicri/Agronomie Wicri/Informatique
Le chêne en Belgique Wicri/Bois Wicri/Belgique

Exemples de sujets déjà traités (en Lorraine)

Dans le cadre des TD de l'Université de Lorraine en 2016.

Supports de cours

Les supports de cours seront accessibles sur le wiki.

Séance du 2 février 2017

Les diapositives sont disponibles :

Pour en savoir plus :

Une première visite des wikis sémantiques :

examiner quelques pages en utilisant
  • l'onglet « voir le texte source » (en haut)
  • l'onglet « Chercher les propriétés » (en bas à gauche)
  • la boîte sémantique (en bas de page)
Voir notamment les pages :

Séance du 16 février 2017

La travail portera sur la définition des critères d'extraction de corpus.

Trois sites seront interrogés :

Séance du 16 mars 2017

Sujets d'investigation

Remarques sur les choix des sujets

Les serveurs d'explorations donnent des résultats intéressants sur un plan pédagogique quand ils mettent en relation l'ensemble des ressources actuellement traitées par les outils :

  • ISTEX est très riche en antériorité mais peu performant dans l'actualité,
  • les bases Pascal et Francis sont plus récentes mais ne donnent accès qu'aux résumés,
  • les bases de la NLM ont une large couverture temporelle mais sont limités aux sciences de la vie et aux thématiques de la santé.

Il est donc conseillé de choisir un sujet qui présente une antériorité significative avec une relation avec les sciences du vivant.

Compte tenu des contraintes liées aux travaux pratiques, il importe de choisir des sujets qui ne posent pas de trop problèmes d'ambiguïté dans une recherche sur texte intégral. De même, une volumétrie inférieure à 3000 documents (ou références) est souhaitable pour pouvoir réaliser des cycles de mise à jour ou de curation dans délai raisonnable.


Sujets disponibles pour analyse

Maladie de Parkinson en France

Source critère d'extraction
ISTEX parkinson AND (abstract:france OR title:france OR author.affiliations:france)
PubMed parkinson AND france
PMC "parkinson disease" AND (france[affiliation])
Pascal/Francis ( pa = fr* ) et parkinson
HAL parkinson

Paléopathologie

La paléopathologie est une branche de la médecine spécialisée dans l'étude des maladies et des évolutions dégénératives observées chez les populations du passé.

Source critère d'extraction
ISTEX paleopathology
PubMed paleopathology
PMC paleopathology
Pascal/Francis paleopathology
HAL paleopathologie


Le nickel au Maghreb

Dans un premier temps, les critères de sélection sur ISTEX et PMC ont été « réduits » pour des raisons liées au contexte expérimental de l'ensemble ISTEX/LorExplor.

Source critère d'extraction
ISTEX nickel AND ( maghreb OR tunis* OR alger* OR morocco)


avec une limite sur les 2500 premiers documents

PubMed nickel AND (maghreb OR tunis* OR alger* OR morocco)
PMC nickel[abstract] AND (maghreb OR tunis* OR alger* OR morocco)
Pascal/Francis nickel et (maroc ou tunisie ou tunis ou algerie ou maghreb ou ( pa = mar ) ou (pa = tun) ou ( pa = dza))
HAL nickel AND (maghreb OR tunis* OR alger* OR morocco)

Université de Trèves

Sujets liés à la Grande Région 

La Grande-Région est une association de régions frontalières entre la France, l'Allemagne, la Belgique et le Luxembourg.

Source critère d'extraction
ISTEX "university of trier" OR "trier university" OR author.affiliations:trier
PubMed trier[affiliation]
PMC trier[affiliation]
Pascal/Francis (af = treves ) ou (af = trier)
HAL

L'esturgeon

  • complète un ensemble déjà existant avec La perche commune, la lote de rivière, la grémille, le scalaire.

Pour les travaux dirigés, on s'intéressera à une limitation sur la France, l'Allemagne, la Belgique et le Luxembourg pour un approfondissement sur les bassins du Rhin ou de la Moselle.

Source critère d'extraction
ISTEX "Acipenser sturio" OR (Acipenser AND (france OR french OR rhine OR mosel OR germany OR belg*))
PubMed Acipenser
PMC Acipenser sturio
Pascal/Francis acipenser
HAL acipenser

Thérapie familiale

Un premier essai (sans précision géographique) est visible sur Wicri/Psychologie.

Source critère d'extraction
ISTEX ("family therapy" OR "therapie familiale") AND (france OR belg* OR quebec OR montreal OR luxembourg)
PubMed "family therapy" AND (france OR belg* OR quebec OR montreal OR luxembourg)
PMC "family therapy" AND (france OR belgium OR quebec OR montreal OR luxembourg)
Pascal/Francis "therapie familiale" ou "family therapy"
HAL thérapie familiale

Le renard

A partir du genre vulpes, la volumétrie du corpus ISTEX serait de 6000 documents. Pour les travaux dirigés on se limitera aux pays concernés par la Grande Région.

Source critère d'extraction
ISTEX vulpes AND (france OR germany OR belg* OR luxembourg)
PubMed vulpes AND (france OR germany OR belg* OR luxembourg)
PMC vulpes[abstract] AND (france OR germany OR belg* OR luxembourg)
Pascal/Francis vulpes et (( pa=fr* ) ou (pa=bel) ou (pa=deu) ou (pa=lux))
HAL vulpes

Système d'information stratégique et agriculture

Source critère d'extraction
ISTEX (agrovoc OR ("information system" AND abstract:agric*))
PubMed information system" AND agric*
PMC (agrovoc OR ("information system" AND agriculture*[abstract]))
Pascal/Francis agriculture et "information system"

HAL

Le chêne en Belgique

Source critère d'extraction
ISTEX quercus AND belgi*
PubMed quercus AND belgi*
PMC quercus AND ( belgium OR belge OR belgique )
Pascal/Francis quercus et ( belgique ou (pa=bel))
HAL quercus AND belgique

Travail personnel

Pour chaque étudiant, sur le serveur d'exploration de votre choix (un serveur différent peut être utilisé pour chaque question).

Question 1

Thème : nettoyage des corpus

  • Donner la référence d'une revue (par son ISSN) ou d'une revue à éliminer (par son RBID).
  • justifier votre choix (en moins de 5 lignes).

Exemple de réponse

  • Sur le Serveur d'exploration sur le nickel au Maghreb, la revue dont l'ISSN est 1612-1872 (Chemistry & Biodiversity) ne contient que 4 articles qui ne sont que des index et qui peuvent être supprimés. Cette revue a été détectée à partir de l'entrée « index » sur l'index des mots du titre en anglais.
Question 2

Homogénéisation des noms d'auteurs

  • proposer un nom d'auteur à homogénéiser (en tenant compte des homonymies)

explications Sur Wicri/Archéologie, le Serveur d'exploration sur la paléopathologie contient une mention d'auteur Bruce M. Rothschild (médecin). Il contient également 2 autres auteurs (liens bleus) pour lesquels le nom n'a pas été qualifié.

Pour localiser les auteurs à homogénéiser il faut aller dans les index AutAff. Ils Pour les trouver, il faut cliquer sur l'icône représentant un CR-ROM dans les cartouches tels que :

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Pour Bruce Rothschild, le traitement à consisté à créer une entrée, sur Wicri/Santé dans la Liste de personnalités en Santé.

On y trouve notamment la liste des expressions pour lesquelles on propose une substitution :

  • Bruce M. Rothschild ; Bruce Rothschild ; B M Rothschild ; B. M. Rothschild

On en profite pour renseigner sur ses affiliations qui seront automatiquement ajoutées.

Exemple de réponse

  • Sur Wicri/Archéologie, Bruce Rothschild apparait en tête des listes des index AutAff. Une consultation sur Internet monte que plusieurs personnalités possèdent ce nom et ce prénom (par exemple Bruce Lee Rothschild en mathématique). Nous proposons donc d'ajouter médecin à son nom pour le désigner sans ambiguïté.
Question 3

curation des pays

  • Repérer un nom de pays qui n'a pas été reconnu et qui pose problème compte tenu de sa fréquence dans un corpus.

explications

Dans les étapes "curation" des principaux flux d'alimentation (ISTEX, PubMed ou PubMed Central), un index nommé AffPaysInc repère les pays qui n'ont pas été reconnus.

Pour trouver cet index, il faut cliquer l'icône « H » des cartouches tels que (pour le serveur d'exploration sur l'OCR) :

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

On trouve alors une page avec une liste contenant :

  • Pays inc. (1141)
  • En cliquant sur Pays inc. on arrive à une liste comme celle-ci.
  • En cliquant sur un élément de la liste (par exemple Karlsruhe), on arrive à accéder à des documents qui contiennent des éléments d'adresse non reconnus. Ils sont identifiés par un élément xml de type wicri:noCountry. En faisant une recherche dans le texte XML, on trouver alors un élément affiliation qui indique qur Karlshruhe a été utilisé en place d'un nom de pays dans une adresse. Exemple :
<affiliation>
   <mods:affiliation>Universität Karlsruhe (TH), Am Fasanengarten 5, 76128, Karlsruhe</mods:affiliation>
   <wicri:noCountry code="subField">Karlsruhe</wicri:noCountry>
</affiliation>

Dans les dernières version des serveurs (par exemple, sur Wicri/Archéologie Serveur d'exploration sur la paléopathologie, dans la page de discussion, on trouve un tableau qui donne les 10 premières valeurs de cet index.

Pour faire une proposition complète il faut prendre connaissance des informations données, sur Wicri/Métadonnées, dans la page Curation des noms de pays

Exemple de réponse

Sur le wiki Wicri/Psychologie, dans le serveur sur la thérapie familiale nous proposons d'inclure l'"Université Laval" dans la liste des Université américaines. Nous recommandons la prudence dans les formes à reconnaitre compte tenu du Centre Universitaire de Laval en France. (Par exemple la forme « Université de Laval » sans mention de pays est trop ambiguë pour être déterminante).

Question 4

mention d'étonnement

Signaler en moins de 10 lignes, un fait ou une information, que vous avez trouvé sur un serveur et qui vous a étonné (ou que vous ne connaissiez pas).

Les réponses doivent porter sur le contenu, et non sur la compréhension du Mode opératoire.

Exemple de réponse

Dans le serveur sur la paléopathologie, en consultant la bibliographie de Bruce Rothschild, rhumatologue (praticien et chercheur), j'ai été surpris de constater le large spectre de la thématique qui englobe la palépathologie. En effet, à coté de publications attendues sur l'histoire de maladies comme la tuberculose ou la syphilis, on trouve des références de travaux sur des espèces animales actuelles comme les gorilles, anciennes comme les bisons préhistoriques ou encore plus anciens comme le Tyrannosaurus rex.

Autres sujets proposés

Empreinte environnementale du web

Sujet proposé par les étudiants :

On propose de travailler sur le sujet des déchets numériques et plus exactement "l’empreinte

environnementale du web"

Tableau global

sera affiné début mars

Sujet groupe (GSI / AVUN)
SIS Agriculture Zaïd Adamou Zaitoune, Farah Douiri, Sonia El Ghali, Astride Guefack / Tarik Allal, Noual Aoucheta, Ji Shi
Parkinson France Jihad Chakhi, Carole Mongrenier, Ilyas Seddouki, Afaf Taibi / Alexandrine Platon, Nawal Aouchiche, Naïma Saigh
Thérapie familiale Rokhaya Camara, Paul Garlot, Nils Girouard, Florence Magny, Naomi Packar / Sihan Bellabas
Paléopathologie Aliou Diouf, Ana Tsitsagi / Sirine Abdallah, Nisrine Elloumi , Rachid Hadji, Jean-Rémi Bonnemain
Chêne en Belgique Laura Anastasie / Marie Cloupet, Marine Corviole, Julien Daninthe, Walid Hammache
Université de Trèves Uyên Le Bihan, Lydia Loumi / Thillali Belbachir, Hamida Tabet, Siren Jiang, Calypso Legrand
Métal au Maghreb / Mohamed Lamine Diallo, Claire Cailleau, Ben Youcef Moussa, Souad Meziani, Aghiles Mohammedi, Gaëlle Molina
L’esturgeon / Massinissa Bechar, Svetlana Kineva, Yulia Nikolaeva, Dhoimir Toiha, Salim Moussi, Mame-Awa Nguer
Déchets numériques / Massinissa Bechar, Svetlana Kineva, Yulia Nikolaeva, Dhoimir Toiha

Voir aussi

Dans le réseau Wicri

Pour ceux qui ont un login sur Wicri