Wicri Musique:Actualités/Archive 2016

De Wicri Musique

Mozart et Salieri

Моцарт и Сальери 1884.jpg

Une expérience est en cours sur la versification de la traduction de la pièce Mozart et Salieri.

Elle s'appuie notamment sur la musique de l'opéra que Rimski Korsakov a écrit à partir du texte de Pouchkine.

Séminaire ISTEX

ExplorationMusiqueLorExplor.png

Ce wiki est un espace de démonstration autour de la présentation du projet LorExplor au séminaire technique ISTEX qui a eu lieu à l'INIST les 25 et 26 avril 2016.

Séminaire ISTEX illustré par Mozart, retours d'expériences et interpellations à la hauteur de 60.000.000€ (soixante millions d'euros)...

Bonjour,

Le Projet d'Investissement d'avenir ISTEX organise les 25 et 26 avril un séminaire technique pour le lancement d'une dizaine de projets d'usage (en gros un homme année par projet). Le projet LorExplor va présenter ses retours d'expérience ici.

Ce message va commencer par une interpellation qui me semble nécessaire compte tenu du montant du budget ISTEX.

Rappelons le budget de l'investissement ISTEX : soixante millions d'euros (60.000.000€), soit le salaire chargé de 1.000 à 2.000 infirmiers ou chercheurs débutants pendant un an....). Compte-tenu du coût des revues, l'utilité de cet investissement ne me semble, personnellement, pas contestable. En revanche nos retours d'expérience nous amènent à formuler une interpellation sur la nécessaire évolution des services de soutien à la recherche autour de l'information scientifique.

D'un point de vue strictement technique, le bilan est positif : l'api ISTEX donne déjà accès, pour les chercheurs de l'ESR, à plus de quinze million de documents en texte intégral.

Mais en réalité, le bilan est nettement plus nuancé. En effet, tous ces documents ont un DOI (identifiant normalisé). Celui-ci permet à tout chercheur de la planète d'en connaître l'existence par Google and co. et de les commander aux éditeurs le cas échéant. Pour les établissements de recherche français, le service de fourniture de commandes de l'INIST permet d'avoir une estimation du nombre de besoins non satisfaits (avant ISTEX) dans les BU : de 50 à 100 commandes par jour, soit 30.000 par an (et donc un ordre de grandeur d'un rapport 1000 par rapport à ISTEX) . De ce point de vue, l'intérêt économique du projet ISTEX est donc très discutable.

Sur un autre plan, le projet ISTEX met l'accent sur des mécanismes d'enrichissements, avec notamment la reconnaissance des bibliographies. Là encore, d'un point de vue strictement technique, les premiers résultats à partir de l'API ISTEX sont déjà pertinents. Malheureusement, nos retours d'expériences ne sont pas très bons. Pour faire simple, les réponses que nous avons eues sur le terrain, depuis le niveau des vice-présidents des universités jusqu'aux chercheurs de base, sont simples : « si ISTEX ne fait pas mieux que le WOS nous ne l'utiliserons pas ».

La réalité pourrait être un peu plus nuancée. Avec LorExplor, nous avons montré que nous pouvions améliorer les performances par des actions de curations spécialisées, mais nous sommes tombé sur une difficulté de couverture. En effet, ISTEX ne couvre pas les années les plus récentes et devient donc inutilisable pour de l'évaluation courante. Dans le domaine bio-médical nous avons montré que des stratégies consistant à associer à des corpus ISTEX des corpus venant de PubMed ou de PubMed Central (sans oublier HAL) pouvaient donnaient des résultats intéressants. Mais là encore nous sommes tombés sur d'autres difficultés, d'ordre logistique, qui seront évoquées dans un instant.

Nous avons donc commencé à explorer des corpus d'un point de vue scientifique - ce qui est en réalité la vraie motivation du projet ISTEX. Nous avons commencé avec des étudiants en master (Université de Lorraine et Paris 8) en partant d'études (de type rapport d'étonnement) qui leur étaient demandées par ailleurs. Avec des outils encore très imparfaits nous avons pu extraire des résultats qu'il n'était pas possible de trouver avec une application courante du WOS ou de Google Scholar. En allant plus loin, nous avons défrichés, notamment avec l'INRA, des études sur des sujets stratégiques, comme l'identification d'espèces de poissons pouvant être domestiquées. Là encore nos premiers résultats sont intéressants mais ils montrent qu'il y a encore un chemin consistant à parcourir sur un plan technique. Aux États-Unis, dans le domaine de la Santé ou du bio-médical, le NCBI (opérateur du Ministère de la Santé) montre depuis 2 décennies l'intérêt (et le succès) de ce type d'approches. Ce retard ne peut pas être comblé en quelques mois, mais encore une fois, le bilan technique est plutôt encourageant.

Malheureusement, nous avons mis en évidence une incompréhension quasi-totale des appareils de la recherche (CNRS et Universités ici réunies !) sur la logistique nécessaire à ce type de projet. Sans trop caricaturer, pratiquement toutes les dispositions des services de soutien à la recherche en matière de numérique sont exclusivement orientées vers la réponse aux besoins individuels, ou strictement circonscrites à une unité administrative (exemple un ENT ou une classe d'étudiants). Or toute étude de corpus impliquant plus d'un individu (un chercheur et son patron de thèse par exemple) demande un site informatif collectif. La moindre étude interdisciplinaire mettant en jeu plus d'une seule équipe d'un seul laboratoire demande la disponibilité d'un environnement collectif.

Et là le bilan est clairement catastrophique ! Voici un exemple de blocage purement administratif : le téléchargement de corpus ISTEX.

Voici d'abord quelques exemples de volume. Une requête sur une espèce de poisson demande de traiter un corpus dont la taille varie entre 2000 et 15.000 documents ; une étude exhaustive sur Mozart demande 15.000 documents. On arrive donc à des volumétries conséquentes (100.000) dès que l'on s'attaque à un ensemble de sujets (les poissons susceptibles d'être domestiqués = 150.000 documents à traiter).

En pratique, dès que l'on se trouve en dehors des locaux de l'INIST, il faut environ 15 minutes pour télécharger 2000 documents. Compte tenu de problèmes réseaux potentiel, dès que l'on dépasse 4000 à 5000 documents, on est donc amené à découper un corpus en tranches pour le télécharger. Il faut donc rapidement quelques heures pour un corpus de taille modeste (10.000 à 15.000 documents). Au delà cela devient vite rédhibitoire. Par exemple, à cause de quelques menus problème de liaison, j'ai, passé 3 jours pour constituer un ensemble de 30.000 références sur l'hypertexte.

En réalité, la même opération dans l'environnement INIST demande au moins 10 fois moins de temps. Cela correspond au performances que peut trouver un chercheur français sur le site américain BioMed Central.

Les solutions techniques pour y remédier sont très simples sur un plan technique et reposent sur des machines virtuelles. Les services de l'INIST (ou de l'Université de Lorraine) maitrisent parfaitement la technique. Ils sont capables de répondre à ce type de demandes en quelques heures avec des coûts relativement faibles en ressources.

Toutes les demandes que nous avons formulées sur ces aspects depuis 2 ans à l'INIST se sont heurtées à des fins de non-recevoir. Si j'ai bien compris la dernière argumentation, le besoin commence à être reconnu, mais on a pas encore tranché pour savoir qui devait y répondre. Autrement dit : comment bloquer l'avancement d'un projet de 60.000.000 € par des tergiversations sur des opérations dont le coût est de.. quelques centaines d'euros (ceci incluant ressources informatiques et heures d'ingénieur).

Nous avons cependant pu réussir à mener des actions ISTEX sur des machines individuelles et grâce à la disponibilité de la machine Ticri, acquise avant le montage de l'Université de Lorraine. En effet la machine Ticri héberge les wikis de l'ancien « projet Wicri ». Nous avons donc pu, sur cette machine résoudre très partiellement la logistique de nos actions ISTEX.

Le contexte politique est intéressant. En effet, la machine Ticri avait été mis en place, avec la bénédiction des anciens présidents et de la Région Lorraine comme un symbole commun de la future Université. Cette politique inter-établissements mous avait permis d'aller au delà des frontières de la Lorraine. Malheureusement, avec la création de l'Université de Lorraine, il n'y avait plus besoin d'espace fédératif, et nous sommes retombés dans la logique d'appareil !

Autrement dit, grâce au détournement de la machine TICRI nous avons pu mener des expérimentations et nous avons obtenu quelques résultats intéressants. Si nous n'avions compté que sur la logistique ISTEX le bilan aurait été totalement nul !

Ces retours d'expériences étant faits, soyons maintenant positif !

Le projet LorExplor, qui s'appuie sur le réseau Wicri, va donc présenter son approche, ses pratiques et les solutions techniques qu'il a testé. Pour cela le wiki Wicri/Musique va héberger les diapositives de présentation en les accompagnant d'exemples.

La musique est ici utilisée comme un support qui permet de faire des démonstrations compréhensibles par tous. Par exemple, la mise en musique de la traduction française de la pièce de Pouchkine, Mozart et Salieri, montre qu'un wiki n'est pas seulement un outil de communication mais également un support pour un travail collectif.

Par exemple la page :

est une page qui présente un projet de traduction

En revanche la page :

devrait permettre à un ensemble de personnes de composer collectivement la mise en musique de la traduction française.

On peut également montrer « assez facilement » comment un corpus sur Mozart peut être exploré pour en extraire les œuvres les plus commentées dans la littérature scientifique.

Vous trouverez de nombreux autres exemples, des poissons aux matériaux en passant par l'hypertexte ou la philologie sur la page du séminaire.

A titre personnel, atteignant bientôt l'âge respectable de 70 ans, je dois avouer que trouve beaucoup de plaisir à travailler avec les données ISTEX dans un environnement logistique collaboratif (2.0) et sémantique (3.0). Des dizaines de milliers de personnels de la recherche, chercheurs ou ingénieurs des services de soutien à la recherche, pourraient y trouver le même type d'intérêt et améliorer leurs performances scientifiques. En termes de ressources humaines, les moyens logistiques me semblent en réalité négligeables. Ils sont déjà présents dans les universités et au CNRS (ou dans les autres EPST).

La « seule » difficulté à lever est liée à la compréhension des changements liés au nouveau paradigme introduit numérique .

Et peut-être à un minimum d'analyse critique des prises de décision (à tous les niveaux) en regard du montant des investissements demandés aux contribuables...

Bien cordialement.

Jacques Ducloy


Mozart, Salieri et Pouchkine en soutien pédagogique aux pratiques numériques de la recherche – traducteurs volontaires bienvenus

Diffusé sur Wicri-info le 24 février 2016 par Jacques Ducloy.

Bonjour,

Je voudrais vous faire partager une expérience en cours sur la versification d’une traduction d’une pièce de Pouchkine qui a été à la source du film célèbre Amadeus. La pièce se nomme Mozart et Salieri. Elle est visible sur ce wiki, et plus précisément, sur la page :

Voici quelques explications sur la présence de cette traduction dans le réseau Wicri et une invitation à contributions.

Le projet Wicri, dopé en France par ISTEX, offre un cadre pour des expérimentations sur les nouvelles pratiques numériques pour la recherche. Or, les technologies utilisées sont parfois complexes et doivent s’appuyer sur des exemples intelligibles par un public assez large. De même, la mise au point d’outils, de fouille de données par exemple, doit pouvoir s’appuyer sur des situations dans lesquelles un chercheur peut lui-même interpréter les résultats.

Le réseau Wicri offre donc un ensemble de sujets qui peuvent être intégrés dans des stratégies pédagogiques ou pour approfondir des investigations. Il y a quelques mois j’avais signalé la page sur Aussois qui peut servir dans une introduction. Pour les chercheurs ou étudiants de l’hypertexte, le wiki H2PTM offre une mine de problèmes mais qui deviennent vite rébarbatifs pour le non-spécialiste d’une sous-discipline… Grâce à une coopération avec l’INRA nous avons quelques ressources sur les poissons (perche, grémille ou lotte de rivière). Elles offrent des exemples intéressants dans les cas simples (identification d’un ensemble d’espèces par les noms binomiaux) mais il est difficile d’aller au delà pour les non-spécialistes en biologie…

Pour élargir le paysage, nous avons ouvert un wiki sur la Musique dont les résultats dépassent mes espérances. Par exemple, sur Mozart, grâce à ISTEX et à d'autres sources (PubMed...), nous pouvons travailler sur 14.000 articles en texte intégral. Cet ensemble offre une véritable mine de problèmes dont la compréhension est souvent relativement simple mais dont la solution peut faire appel à des pratiques de complexité très variée.

Par exemple, les œuvres de Mozart sont très souvent signalées par la notation Köchel, avec des formulations comme la « sonate pour deux piano KV. 448 ». Cette notation est relativement facile à extraire du texte des articles. Dans un premier essai sur les métadonnées de ces 14.000 documents nous avons justement pu repérer cette sonate qui fait l’objet d’une littérature abondante dans le monde médical ou psychothérapique. Voir un premier résultat (encore très brut dans sa présentation) ici :

Le thème de la mort est également fréquent, comme le montre l'index des mots des titres en anglais :

Pour construire le socle informationnel d’un dossier sur le sujet, il paraissait utile de s’appuyer sur des textes de référence, et donc sur la pièce de Pouchkine, écrite en 1835 et qui s’appuie sur l’hypothèse de l’empoisonnement de Mozart par Salieri. Il était alors très facile de trouver une traduction numérique disponible sur WikiSource.

A ce niveau, une précision s’impose pour ne pas faire hurler mes amis traducteurs : je suis totalement béotien en matière de traduction et ma connaissance en russe se limite à «Я не говорю по-русски ».

Sur un plan pédagogique, j’ai donc pensé intéressant de montrer qu’un wiki était un bon outil pour aligner un texte et sa traduction. Et là les ennuis ont commencé… En effet la traduction française sur WikiSource découpe le texte en 4 scènes, là où le texte de Pouchkine n’en compte que 2 ! J’ai donc recherché des traductions en anglais et découvert que les traducteurs anglo-américains cherchent à restituer la versification, là où les français choisissent souvent de se limiter à la prose…

D’où un exercice qui pourrait devenir collectif :

  • Est-t-il possible de réaliser un exercice de traduction sur un wiki en utilisant un ensemble de ressources disponibles sur Internet ?

J'ai commencé un travail que je laisse volontairement inachevé. La page citée en tête du message est à votre disposition pour toute contribution concernant cette versification. Vous pouvez également donner votre avis sur la démarche, apporter des compléments. L'ensemble du wiki et du réseau Wicri sont à votre disposition.


Si vous avez déjà un compte, pas de problème. Sinon vous pouvez m'envoyer un courriel pour une contribution ponctuelle ou me demander de vous ouvrir un compte.

En espérant que vous partagerez l'intérêt que j'ai trouvé au texte de Pouchkine et à l'exercice de découverte de son rythme par la versification...

Bien cordialement

Jacques Ducloy
Ingénieur émérite, Laboris causa, au Loria...