Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

Utilisateur:Philippe Kislin/ISTEX

De H2PTM

Cette page introduit un espace de travail pour l'élaboration d'une réponse à l'appel à propositions chantier d'usage d'ISTEX.

Réponse à l'appel à propositions Chantier d'usages ISTEX

Documents


http://www.istex.fr/wp-content/uploads/2015/06/AppelChantiersUsageV19062015.pdf


Les propositions en réponse à cet appel à propositions, exclusivement limité à l’ESR (Enseignement supérieur et Recherche) français, devront préciser dans un dossier de 10 pages maximum :

Réponse à l'appel à propositions

TITRE DU PROJET : Formation à l'utilisation des corpus ISTEX pour les acteurs de la recherche

Un des objectifs d'ISTEX est de mettre à disposition des chercheurs de l'ESR français des collections numériques ; leur volumétrie, et la variété des traitements qu'elles requièrent, modifieront nécessairement les usages des acteurs de la recherche. En effet, un chercheur qui auparavant aurait été confronté à la lecture de quelques dizaines de documents, devra désormais travailler sur des corpus pouvant en compter plusieurs milliers.

Pour faire face à cette évolution, il est indispensable de se préparer à former les acteurs de la recherche, qu'ils soient déjà en poste ou encore dans leur cursus universitaire. Le projet XXXXXXX vise à tester auprès d'étudiants en Master et de doctorants, une méthodologie d'appropriation pouvant ensuite être étendue à l'intégralité du public d'ISTEX.

Dans le cadre du projet LorExplor, des expérimentations initiales ont été menées, depuis 2013, dans l'optique d'organiser une première infrastructure pédagogique qu'il s'agit aujourd'hui de valider avant de l'étendre. Lors de ce chantier d'usage, cette infrastructure sera mobilisée afin d'observer et d'analyser l'appropriation par les apprenants d'une plateforme d'exploration de corpus et des outils associés.

1. les équipes impliquées, leurs statuts et les personnels impliqués

Deux équipes de Recherche KIWI et INDEX, rattachées respectivement aux laboratoires LORIA - UMR 7503 et Paragraphe - EA 349, affiliées aux Universités de Lorraine (UDL) et de Paris 8 - Vincennes sont impliquées dans ce projet :


- Philippe Kislin-Duval (Porteur du projet), Maître de Conférences à l'Université de Paris 8, rattaché à l'UFR MITSIC (Mathématiques, Informatique, Technologies, Sciences de l'Information et de la Communication). Enseignant en Humanités Numériques en charge des cours dans les Masters 2 GSI (Gestion Stratégique de l'Information) et AVUN (Analyse et Valorisation des Usages du Numérique). Chercheur au laboratoire Paragraphe au sein de l'équipe INDEX (Information et Documents en Contextes).

- Samuel Nowakowski, Maître de Conférences HDR à l'université de Lorraine. Enseignant en Humanités numériques dans le collegium SHS à l'Université de Lorraine. Chargé de mission TICE UFR SHS Nancy - Responsable des enseignements d'humanités à l'école des Mines de Nancy. Chercheur au LORIA dans l’équipe KIWI (Knowledge Information and Web Intelligence).

- Audrey Knauf, Maître de Conférences à l'Université de Lorraine, responsable de la licence 3 IC. Chercheure au LORIA dans l’équipe KIWI (Knowledge Information and Web Intelligence). Partenaire du projet AUF BASAR en e-éducation, du projet MESR STAPS et du projet D-Transform

- Thierry Daunois,


Ce projet se fédère également autour de partenaires associés pour l'aide au développement informatique et support à la logistique, au conseil pédagogique et à l'analyse de la démarche et des processus engagés :

- Jean-Charles Lamirel Maître de Conférences Habilité à Diriger des Recherches et chargé de cours (à compléter) à l'Université de Strasbourg. Chercheur au laboratoire LORIA au sein de l'équipe SYNALP.


- Jacques Ducloy, consultant, porteur du projet LorExplor. Ingénieur, retraité du CNRS, ayant exercé des responsabilités dans le bibliothèques numériques à l'INIST, à l'INRIA et à l'Université de Lorraine.


- Imad Saleh, - Hakim Achour,

- Brigitte Simonot,

2. La thématique scientifique du projet

Ce projet de chantier d'usage se donne pour ambition de constituer une première étape dans la mise en place d'une méthodologie de formation des chercheurs et futurs chercheurs à l'utilisation des collections acquises dans le cadre d'ISTEX. En effet, le projet ISTEX va amener les scientifiques à modifier leurs usages, en les confrontant à des masses de données hétérogènes, là où ils obtenaient quelques documents via leurs bibliothèques universitaires. Une telle évolution nécessite de prévoir un accompagnement et des actions de formation, à la fois dans une optique d'utilisation d'un corpus, dans une perspective d'ingénierie de la connaissance, voire de fouille de données.

Ainsi, nous proposons de tester auprès d'étudiants de Master et de doctorants la façon dont ils s'approprient ces technologies. Nous faisons le choix, pour des raisons d'efficacité, de restreindre cette expérimentation à des étudiants (2 groupes de 10 à 15) et doctorants (1 groupe de 10) en sciences de l'information et de la communication.

Une première phase de ce chantier d'usage (premier semestre 2016) consistera à définir à la fois une démarche pédagogique et les modalités de l'observation et de l'analyse des usages des étudiants et doctorants. La seconde phase (second semestre 2016) verra la mise en place sur le terrain de l'expérimentation. Les résultats de l'observation permettront de définir la façon dont les futurs chercheurs peuvent s'emparer d'ISTEX (pour les doctorants, dans l'élaboration de leur bibliographie initiale ; pour les étudiants de master, pour l'approfondissement d'une thématique de leur programme), mais également de dégager des pistes d'amélioration de la démarche pédagogique.

L'objectif final est en effet de valider ou d'améliorer la méthodologie de formation, de façon à pouvoir, par la suite, l'étendre à toutes les disciplines scientifiques.

Deux pratiques pédagogiques seront mobilisées : des apprentissages s'effectueront en mode « travaux pratiques », dans le cadre d'un objectif pédagogique bien défini, d'autres seront menés en mode « projet », sous la forme d'expérimentations sur des sujets choisis par les étudiants.

3. Les objectifs poursuivis - démarche & méthodologie

3.1. Démarche pédagogique

Dans une perspective pédagogique en sciences de l'information, nous disposons d'une infrastructure initiale constituée des éléments suivants :

  • une plateforme d'exploration hypertexte et hypermédias comportant un micro-corpus de 30.000 documents extraits d'ISTEX. Ce corpus est constitué de l'intégralité des articles publiés dans les actes des conférences internationales H2PTM - Hypertextes et Hypermédias. Produits, Outils et Méthodes) entre 1989 et 2015.
  • un wiki, développé sous MediaWiki (Creative Commons v3.0), offrant un environnement éditorial et collaboratif pour les travaux pratiques. Celui-ci est associé au réseau Wicri afin de disposer d'un ensemble terminologique de référence et des règles de curation.
  • une bibliothèque DILIB composée de parsers JSON/XML, de méthodes d'accès de type séquentiel indexé, complétées par des modules de reformatages et d'enrichissement spécialisé. Elle comporte également un ensemble de macro-commandes, relativement simples à mettre en oeuvre pour la génération des plateformes d'exploration. Cet ensemble a déjà été utilisé pour des séances de travaux pratiques en Master.

Des expérimentations seront menées, pour intégrer des outils ou services existants complémentaires (type ElasticSearch), qui seront mis à disposition des apprenants.

Une première phase (6 à 10h) vise, sous la forme de travaux pratiques cadrés, à donner aux apprenants des bases de compréhension des mécanismes en jeu. Exemples de questions abordées : qu'est-ce qu'un corpus ? Quel sens donner aux résultats d'une requête dans un moteur de recherche ? Comment fonctionnent les étapes de curation sur la plateforme, et comment contribuer à les améliorer ? Comment peut-on travailler, dans un corpus ISTEX, sur les métadonnées mais également sur le texte intégral ?

Puis les apprenants seront amenés à formuler leur requête, celle qui permettra de constituer leur propre corpus, qu'ils seront alors appelés à explorer, afin de créer du sens. En fonction des thématiques explorées, plusieurs orientations pourront être mises en avant : sensibilisation à l'activité bibliométrique par la pratique (plutôt que par l'histoire de l'IST), travail sur le texte intégral (par filtrage) pour rechercher des signaux faibles...

Lors d'expérimentations précédentes en Master2, les étudiants et les enseignants fonctionnaient en « mode accompagné avec sous-traitance », avec l'assistance des développeurs LorExplor. Pour cette expérimentation d'un an, deux objectifs techniques sont posés :

  • améliorer le mode opératoire pour que les enseignants fonctionnent en mode autonome
  • poursuivre cette amélioration pour un même type de résultat au niveau des étudiants

3.2. Observation

Observation – définir un protocole (équipe KIWI) - (NB pour nous : observation entre oct 2016 - mars 2017 -- restitution des résultats à ISTEX au 2nd trimestre 2017 // élaboration du protocole d'observation au 1er trimestre 2016) Montrer comment une telle plateforme est utilisable et utilisée (#son intérêt) par des chercheurs (en passant par la formation des étudiants à l'utiliser, en testant leur manipulation et en déterminer leur manière de percevoir l'outil, de l'appropriation de l'outil, etc...). Analyser/observer la façon dont des étudiants, confrontés à l'emploi d'ISTEX, réagissent, qu'en tirent-ils, à quoi ça permet de les sensibiliser, les difficultés rencontrées, ce qu'ils en retiennent, etc...

Expérimentation : développer un protocole d’observation de ces explorations de corpus par les étudiants pour en déduire leur système d’appropriation/d’apprentissage. Quelles sont leurs pratiques et comment les améliorer/ Quelles sont les difficultés. Quel accompagnement mettre en place et par qui ? Part on d’un pré-requis sur un domaine de connaissance (en déterminant un certain nombre de mots-clés) ou de rien et on extrait statistiquement des MC (selon leur poids). Manipuler des corpus existant et stabilisés. Jusqu’où va l’exploration/manipulation ?? Juste extraction de données OU traitement en plus ? Plein texte + filtrage pour trouver des signaux faibles. Elasticsearch comme moteur de recherche

- qualitative : questionnaire sur ressenti de la manipulation

- quantitative : étude des traces de navigation (observation des logs. Temps passé sur une page. Comment l'étudiant est arrivé sur cette page. Quelles ont été ses actions, nombre de clics, etc....) – possibilité d’accéder aux stat sur elastic search pour voir quel type de requête les étudiants posent / dans un cadre d'apprentissage (1ère phase) et dans un cadre d'évaluation-réinvestissement (2ème phase). En présentiel (observer en cours) / en distanciel (via le wiki par exemple, comment ils collaborent, ils communiquent, ils interviennent sur le projet, etc...) essayer d'observer le lien entre le déclaratif et les actions réalisées

- comparative : entre les 2 groupes (Paris 8/ UL)

étudiant en situation d'apprenant chaque sujet nous amène une adaptation et mise en forme pour favoriser les accès documents; mettre en place de scénarios pour que l'étudiant puisse acquérir chaque aspect de manière rapide


Pour le mode « travaux pratiques » en sciences de l'information

Lors des expérimentations précédentes dans les Master2 en Lorraine et à Paris 8, les étudiants et les enseignants ont fonctionné en « mode accompagné avec sous-traitance ». En effet, toutes les manipulations ont été réalisées avec l'assistance des développeurs LorExplor qui ont très souvent réalisés « en sous-traitance » (hors de la présence des étudiants) des manipulations conséquentes en temps.

Pour cette expérimentation d'un an, deux objectifs techniques sont posés :

  1. Améliorer le mode opératoire pour que les enseignants fonctionnent en mode autonome.
  2. Poursuivre cette amélioration pour un même type de résultat au niveau des étudiants.

(en vrac)

  1. idée : opportunité pour un futur professionnel de l'information de découvrir en quoi consiste une activité bibliométrique. En effet, dans les formations universitaires, une sensibilisation à la bibliométrie se fera principalement à travers l'histoire de l'information scientifique et technique (IST) et non à travers une mise en pratique au moyen de manipulations concrètes des différents outils.
  1. Quelle Ingéniérie de la connaissance mettre en oeuvre pour exploiter de très grand corpus bibliographique ?
  2. Découvrir une problématique à travers l'étude d'un texte et sa mise en ligne
  3. Passage du serveur d'investigation à partir de métadonnées vers l'analyse en texte intégraL En travaillant sur les métadonnées, l'utilisateur récupère du signal fort... Il doit alors imaginer un ou plusieurs filtrages dans le texte intégral pour aller vers le signal faible (par exemple, recherche des premières références sur l'hypertexte)
  4. Préférer utiliser des technologies existantes que d'aller vers de nouveaux algorithmes (selon les appréciations de JM Pierrel et Laurent Pierron)
  5. Bien argumenter sur le fait que l'on utilise des corpus... (je prends un corpus et je reconstruis un système d'investigation)

4. Les résultats envisagés

cf ouverture (suite - dans le cadre de ISTEX 2 : ouvrir à d'autres disciplines et/ou thésards)


Quels livrables ? Comment mesurer les objectifs ? "valise pédagogique" - définir une sorte de protocole qui sera réutilisable dans le cadre d'autres formations

5. Le Soutien sollicité

(50 000 euros) : fonctionnement = équipement (hébergement machine virtuelle à partager (5000 euros) / Personnel = (1 Post-Doc OU ingénieur sur 12 mois / stagiaire), missions (déplacement)

(en vrac) - Mise en budget d'une machine virtuelle et ses fonctions : Une machine serveur "virtuelle", avec sauvegardes incrémentales. Demande que la sauvegarde soit réalisée par l'équipe informatique de l'UDL et jointe avec le serveur actuel. Trouver un hébergeur relativement fiable (Université de Lorraine, ou Loria, Paris 8) (Thierry se renseigne en local) - Adresse IP fixe enregistrable - Recherche en plein texte, création de serveur....

- Machine actuelle est à l'UDL (ticri) (montet ? Lionnois ?) - Pouvoir plus tard, installer sur la plateforme un outil de catégorisation. - Voir elastic search.. (se rendre compte sur un petit corpus de 2000 documents, pour qu'il puisse imaginer ce qu'il se passe sur des corpus plus grand. Mise en plateforme d'outils développés par des chercheurs pour les mettre à disposition à des étudiants...)

Notes en Vrac (réunion du 2/10)

Explorer un corpus dont le domaine est connu (par exemple H2PTM) travaux pour faire sensibiser les étudiants à la curation... Essayer diverses stratégies de curation sur un temps et un domaine donnés. Pour faire cela, il est nécessaire de réaliser des activités de développement à optimiser (aujourd'hui pour une demie heure de manip oblige à faire plus d'une demie-journée de travail)

- travail en mode assisté (jacques et ou ali).. Installation des serveurs par eux deux pour la semaine suivante.

20 000 documents ITEX dans le corpus H2ptm

Vise les formateurs de formateurs priorité cette année sur les sciences de l'information pour aller ensuite vers d'autres disciplines.

recherche de concept en sciences de l'information n'est jamais facile. Domaine pas nécessairement spécifique (comme par exemple dans les sciences dures).. Recherche d'entités nommées fortes, OK, mais pour des concepts plus vagues, ce n'est pas simple.

Corpus de moins de 1000 documents, mais en temps très limité, d'où un développement informatique à valeur ajoutée pour pouvoir assurer ces requêtes.

Dernier semestre du projet, des outils linguistiques.

- Beaucoup d'activités aujourd'hui ne peuvent être réalisées en mode autonome...La plupart doit être en mode accompagné.

Voir page d'introduction sur H2ptm. pour explication du projet.

rappeler la démarche mais pas le développer complètement.


Tant que les machines virtuelles ne sont pas budgétisées, ce sera Jacques et Ali qui assureront toutes les activités de Back office

Pour l'analyse des activités pédagogiques (pour l'instant de type Clickstream) les fichiers log PHP sont stockés et sont disponibles.

Développement informatique : amélioration du procole informatique pour que le mode de curation ne soit plus assisté.

Installation et mise en oeuvre d'elastic search et intégration à la plateforme du serveur d'exploration.

Partie projet en mode assisté : Installation d'outils de la recherche portant sur de l'ingéniérie linguiste (librairie NLTK par exemple) et outils statistiques développés par Synalp (équipe représentée par Jean-Charles Lamirel)


retombées attendues : Fournir des "valises pédagogiques, des modules prets à l'emploi" pour la formation des professionnels de l'information

Ce chantier d'usage a pour finalité d'examiner les confrontations à ISTEX, quelles stratégies utilisent-ils, Qu'en retirent-ils ? Quelles difficultés rencontrent-ils ? Quelles modalités mettent-ils en oeuvre ?

modalités de fonctionnement:

Phase de terrain : Travaux dirigés : (mode apprentissage) 3 fois trois heures avec les étudiants en mode encadré (converger vers une valise pédagogique et un protocole d'interrogation) démarrage et montrer les mécanismes du requêtage

Mode Projet : mode accompagné et d'appropriation et de réinvestissement... recherche libre..plus en mode d'observation. Une page de projet (questionnement initial et résultats attendus) et une page pour présenter leurs principaux résultats.

Rappel

Ils devront être soumis par mail à l’adresse chantiers-usage-@services.fr au plus tard le 15 octobre 2015 à minuit.

La sélection des dossiers sera effectuée sous la responsabilité du comité exécutif d’ISTEX (cf. http://www.istex.fr/la-gouvernance/).

Groupe de Travail

Liste à utiliser
  • groupe : philippe@kislin.fr ; Philippe.Kislin@gmail.com; Jacques.Ducloy@loria.fr ; ali.tebbakh@loria.fr ; thierry.daunois@univ-lorraine.fr ;Audrey.Knauf@loria.fr ; jean-charles.lamirel@loria.fr ; samuel.nowakowski@univ-lorraine.fr
  • copie 1 (lien H2PTM) : imad.saleh@univ-paris8.fr ; khaldoun.zreik@univ-paris8.fr ; nasreddine.bouhai@univ-paris8.fr ;claire.sini@gmail.com
  • copie 2 (ouverture pédagogique) : frederique.peguiron@univ-lorraine.fr ; Sahbi.Sidhom@loria.fr ; Anne-Marie.Chabrolle-Cerretini@univ-lorraine.fr ; samuel.szoniecky@univ-paris8.fr ; hhachour@gmail.com ; luc.massou@univ-lorraine.fr ; ghislaine.azemard@wanadoo.fr