TD Master 2 (Université Paris 8, 2016) : Différence entre versions
imported>Jacques Ducloy (→Travail personnel) |
imported>Jacques Ducloy (→Travail personnel) |
||
Ligne 305 : | Ligne 305 : | ||
On trouve alors une page avec une liste contenant : | On trouve alors une page avec une liste contenant : | ||
:* Pays inc. (1141) | :* Pays inc. (1141) | ||
− | En cliquant sur Pays inc. on arrive à une {{Explor lien | + | * En cliquant sur Pays inc. on arrive à une {{Explor lien |
|wiki= Ticri/CIDE | |wiki= Ticri/CIDE | ||
|area= OcrV1 | |area= OcrV1 | ||
|url=/Istex/Curation/indexHead.php?index=AffPaysInc.i | |url=/Istex/Curation/indexHead.php?index=AffPaysInc.i | ||
|texte=liste comme celle-ci}}. | |texte=liste comme celle-ci}}. | ||
+ | * En cliquant sur un élément de la liste (par exemple Karlsruhe), on arrive à accéder à des documents qui contiennent des éléments d'adresse non reconnus. Ils sont identifiés par un élément xml de type <code>wicri:noCountry</code>. En faisant une recherche dans le texte XML, on trouver alors un élément affiliation qui indique qur Karlshruhe a été utilisé en place d'un nom de pays dans une adresse. Exemple : | ||
<source lang="xml"> | <source lang="xml"> | ||
<affiliation> | <affiliation> |
Version du 21 mars 2017 à 19:41
Ceci est une page de liaison pour les travaux dirigés des Masters 2 GSI (Gestion Stratégique de l'Information) et AVUN (Analyse et Valorisation des Usages Numériques) de l'Université Paris 8 en 2017.
Sommaire
Supports de cours
Les supports de cours seront accessibles sur le wiki.
Séance du 2 février 2017
Les diapositives sont disponibles :
Pour en savoir plus :
Une première visite des wikis sémantiques :
- examiner quelques pages en utilisant
- l'onglet « voir le texte source » (en haut)
- l'onglet « Chercher les propriétés » (en bas à gauche)
- la boîte sémantique (en bas de page)
- Voir notamment les pages :
Séance du 16 février 2017
La travail portera sur la définition des critères d'extraction de corpus.
Trois sites seront interrogés :
- le démonstrateur ISTEX : http://demo.istex.fr/
- syntaxe
- opérateurs AND OR
- ex1 : (parkinson AND france)
- sélection sur champs (ex: title, abstract, author.name, anthor.affiliation)
- opérateurs AND OR
- syntaxe
- le site américain du NCBI :
- pour l'accès à MEDLINE : https://www.ncbi.nlm.nih.gov/pubmed
- pour l'accès à l'archive Pubmed Central : https://www.ncbi.nlm.nih.gov/pmc
- https://hal.archives-ouvertes.fr/
Séance du 16 mars 2017
Sujets d'investigation
Remarques sur les choix des sujets
Les serveurs d'explorations donnent des résultats intéressants sur un plan pédagogique quand ils mettent en relation l'ensemble des ressources actuellement traitées par les outils :
- ISTEX est très riche en antériorité mais peu performant dans l'actualité,
- les bases Pascal et Francis sont plus récentes mais ne donnent accès qu'aux résumés,
- les bases de la NLM ont une large couverture temporelle mais sont limités aux sciences de la vie et aux thématiques de la santé.
Il est donc conseillé de choisir un sujet qui présente une antériorité significative avec une relation avec les sciences du vivant.
Compte tenu des contraintes liées aux travaux pratiques, il importe de choisir des sujets qui ne posent pas de trop problèmes d'ambiguïté dans une recherche sur texte intégral. De même, une volumétrie inférieure à 3000 documents (ou références) est souhaitable pour pouvoir réaliser des cycles de mise à jour ou de curation dans délai raisonnable.
Exemples de sujets déjà traités (en Lorraine)
Dans le cadre des TD de l'Université de Lorraine en 2016.
- Le scalaire (poisson) - sur Wicri/Eau,
- L'oranger - sur Wicri/Bois et Wicri/Agronomie
- Le Libre accès en Belgique sur Wicri/Belgique, et sur ce wiki
- La visibilité du Havre sur Wicri/France et Wicri/Eau
- Le cobalt au Maghreb sur Wicri/Terre, Wicri/Maroc et Wicri/Afrique.
Sujets disponibles pour analyse
Maladie de Parkinson en France
- La maladie de Parkinson en France
- accessible sur Wicri/Santé, Wicri/Psychologie et Wicri/France.
- avec un sujet complémentaire « danse-thérapie et Parkinson (sur Wicri/Psychologie) ».
Source | critère d'extraction |
---|---|
ISTEX | parkinson AND (abstract:france OR title:france OR author.affiliations:france)
|
PubMed | parkinson AND france
|
PMC | "parkinson disease" AND (france[affiliation])
|
Pascal/Francis | ( pa = fr* ) et parkinson
|
HAL | parkinson
|
Paléopathologie
La paléopathologie est une branche de la médecine spécialisée dans l'étude des maladies et des évolutions dégénératives observées chez les populations du passé.
- sera traité sur Wicri/Archéologie et Wicri/Santé (forte dimension interdisciplinaire)
Source | critère d'extraction |
---|---|
ISTEX | paleopathology
|
PubMed | paleopathology
|
PMC | paleopathology
|
Pascal/Francis | paleopathology
|
HAL | paleopathologie
|
Le nickel au Maghreb
- Le nickel au Maghreb - sur Wicri/Terre, Wicri/Afrique et Wicri/Maroc
Dans un premier temps, les critères de sélection sur ISTEX et PMC ont été « réduits » pour des raisons liées au contexte expérimental de l'ensemble ISTEX/LorExplor.
Source | critère d'extraction |
---|---|
ISTEX | nickel AND ( maghreb OR tunis* OR alger* OR morocco)
|
PubMed | nickel AND (maghreb OR tunis* OR alger* OR morocco)
|
PMC | nickel[abstract] AND (maghreb OR tunis* OR alger* OR morocco)
|
Pascal/Francis | nickel et (maroc ou tunisie ou tunis ou algerie ou maghreb ou ( pa = mar ) ou (pa = tun) ou ( pa = dza))
|
HAL | nickel AND (maghreb OR tunis* OR alger* OR morocco)
|
Université de Trèves
- Sujets liés à la Grande Région
La Grande-Région est une association de régions frontalières entre la France, l'Allemagne, la Belgique et le Luxembourg.
Source | critère d'extraction |
---|---|
ISTEX | "university of trier" OR "trier university" OR author.affiliations:trier
|
PubMed | trier[affiliation]
|
PMC | trier[affiliation]
|
Pascal/Francis | (af = treves ) ou (af = trier)
|
HAL |
|
L'esturgeon
- complète un ensemble déjà existant avec La perche commune, la lote de rivière, la grémille, le scalaire.
Pour les travaux dirigés, on s'intéressera à une limitation sur la France, l'Allemagne, la Belgique et le Luxembourg pour un approfondissement sur les bassins du Rhin ou de la Moselle.
Source | critère d'extraction |
---|---|
ISTEX | "Acipenser sturio" OR (Acipenser AND (france OR french OR rhine OR mosel OR germany OR belg*))
|
PubMed | Acipenser
|
PMC | Acipenser sturio
|
Pascal/Francis | acipenser
|
HAL | acipenser
|
Thérapie familiale
- La thérapie familiale en francophonie
Un premier essai (sans précision géographique) est visible sur Wicri/Psychologie.
Source | critère d'extraction |
---|---|
ISTEX | ("family therapy" OR "therapie familiale") AND (france OR belg* OR quebec OR montreal OR luxembourg)
|
PubMed | "family therapy" AND (france OR belg* OR quebec OR montreal OR luxembourg)
|
PMC | "family therapy" AND (france OR belgium OR quebec OR montreal OR luxembourg)
|
Pascal/Francis | "therapie familiale" ou "family therapy"
|
HAL | thérapie familiale
|
Le renard
A partir du genre vulpes, la volumétrie du corpus ISTEX serait de 6000 documents. Pour les travaux dirigés on se limitera aux pays concernés par la Grande Région.
Source | critère d'extraction |
---|---|
ISTEX | vulpes AND (france OR germany OR belg* OR luxembourg)
|
PubMed | vulpes AND (france OR germany OR belg* OR luxembourg)
|
PMC | vulpes[abstract] AND (france OR germany OR belg* OR luxembourg)
|
Pascal/Francis | vulpes et (( pa=fr* ) ou (pa=bel) ou (pa=deu) ou (pa=lux))
|
HAL | vulpes
|
Système d'information stratégique et agriculture
- Système d'information stratégique et agriculture
- en relation directe avec la thématique du Master Humanités numériques.
- sera traité sur Wicri/Agronomie et Wicri/Informatique.
Source | critère d'extraction |
---|---|
ISTEX | (agrovoc OR ("information system" AND abstract:agric*))
|
PubMed | information system" AND agric*
|
PMC | (agrovoc OR ("information system" AND agriculture*[abstract]))
|
Pascal/Francis | agriculture et "information system"
|
HAL |
|
Le chêne en Belgique
- sur Wicri/Bois et Wicri/Belgique
Source | critère d'extraction |
---|---|
ISTEX | quercus AND belgi*
|
PubMed | quercus AND belgi*
|
PMC | quercus AND ( belgium OR belge OR belgique )
|
Pascal/Francis | quercus et ( belgique ou (pa=bel))
|
HAL | quercus AND belgique
|
Travail personnel
Pour chaque étudiant, sur le serveur d'exploration de votre choix. (un serveur différent peut être utilisé pour chaque question).
- Question 1
nettoyage des corpus
- Donner le référence d'une revue (par son ISSN) ou d'une revue à éliminer (par son RBID).
- justifier votre choix (en moins de 5 lignes).
- Question 2
curation des pays Dans les étapes "curation" des principaux flux d'alimentation (ISTEX, PubMed ou PubMed Central), un index nommé AffPaysInc repère les pays qui n'ont pas été reconnus.
Pour trouver cet index, il faut cliquer l'icône « H » des cartouches tels que (pour le serveur d'exploration sur l'OCR) :
On trouve alors une page avec une liste contenant :
- Pays inc. (1141)
- En cliquant sur Pays inc. on arrive à une liste comme celle-ci.
- En cliquant sur un élément de la liste (par exemple Karlsruhe), on arrive à accéder à des documents qui contiennent des éléments d'adresse non reconnus. Ils sont identifiés par un élément xml de type
wicri:noCountry
. En faisant une recherche dans le texte XML, on trouver alors un élément affiliation qui indique qur Karlshruhe a été utilisé en place d'un nom de pays dans une adresse. Exemple :
<affiliation>
<mods:affiliation>Universität Karlsruhe (TH), Am Fasanengarten 5, 76128, Karlsruhe</mods:affiliation>
<wicri:noCountry code="subField">Karlsruhe</wicri:noCountry>
</affiliation>
Dans les dernières version des serveurs (par exemple, sur Wicri/Archéologie Serveur d'exploration sur la paléopathologie, dans la page de discussion, on trouve un tableau qui donne les 10 premières valeurs de cet index.
Autres sujets proposés
Empreinte environnementale du web
Sujet proposé par les étudiants :
- On propose de travailler sur le sujet des déchets numériques et plus exactement "l’empreinte
environnementale du web"
Tableau global
sera affiné début mars
Sujet | groupe (GSI / AVUN) |
---|---|
SIS Agriculture | Zaïd Adamou Zaitoune, Farah Douiri, Sonia El Ghali, Astride Guefack / Tarik Allal, Noual Aoucheta, Ji Shi |
Parkinson France | Jihad Chakhi, Carole Mongrenier, Ilyas Seddouki, Afaf Taibi / Alexandrine Platon, Nawal Aouchiche, Naïma Saigh |
Thérapie familiale | Rokhaya Camara, Paul Garlot, Nils Girouard, Florence Magny, Naomi Packar / Sihan Bellabas |
Paléopathologie | Aliou Diouf, Ana Tsitsagi / Sirine Abdallah, Nisrine Elloumi , Rachid Hadji, Jean-Rémi Bonnemain |
Chêne en Belgique | Laura Anastasie / Marie Cloupet, Marine Corviole, Julien Daninthe, Walid Hammache |
Université de Trèves | Uyên Le Bihan, Lydia Loumi / Thillali Belbachir, Hamida Tabet, Siren Jiang, Calypso Legrand |
Métal au Maghreb | / Mohamed Lamine Diallo, Claire Cailleau, Ben Youcef Moussa, Souad Meziani, Aghiles Mohammedi, Gaëlle Molina |
L’esturgeon | / Massinissa Bechar, Svetlana Kineva, Yulia Nikolaeva, Dhoimir Toiha, Salim Moussi, Mame-Awa Nguer |
Déchets numériques | / Massinissa Bechar, Svetlana Kineva, Yulia Nikolaeva, Dhoimir Toiha |
Voir aussi
- Dans le réseau Wicri
Pour ceux qui ont un login sur Wicri