Utilisateur:Jacques Ducloy/Blog/Bonne année 2024 : Différence entre versions

Version du 5 janvier 2024 à 17:48

Sur la liste Wicri IST

Chères et chers collègues.

Pour 2024 je vous propose de revisiter ce montage d'Albert Bergeret, concepteur et imprimeur de cartes postales du mouvement de l’École de Nancy.

Carte-postale-ancienne-nouvel-an-adieu-vieille-femme-1901-et-jeune-fille-qui-apporte-l-esperance-1902-par-bergeret.jpg

Il venait de remporter une médaille d'or en photographie à l'exposition universelle de 1900 avant de se lancer la construction de sa « Maison Bergeret » (dont l'architecte est Lucien Weissenburger). Cette maison a été le siège de la présidence de Nancy-Université...

Pour 2024, je suis impliqué sur une histoire de l'IST avec un groupe de travail sur les nouvelles pratiques informationnelles à l'heure de l'intelligence artificielle. Nous sommes donc invités à travailler sur deux évènements majeurs où le CNRS a su placer la recherche française au niveau mondial. Voici un petit rappel.

Dans les années 60, le CNRS (avec le soutien logistique des universités lorraines) a soutenu le recteur Imbs pour lancer le dictionnaire TLF (avec le soutien logistique de Jean Legras puis de Claude Pair). Ce dictionnaire a été réalisé avec des techniques préfiguratrices de l'intelligence artificielle (les groupes binaires). Ci dessous le mythique Gamma 60 du TLF.

Dans les années 1970, toujours au CNRS, sur les traces de Jean Wyard, Nathalie Dusoulier a joué un rôle moteur dans l'informatisation des bulletins signalétiques du CNRS (400.000 analyses par an) pour produire les bases Pascal, dans un format ouvert aux coopérations internationales. Cette action est marquée par une grande première dans une compétition internationale dopée par une volonté de coopération : Pascal sera accessible en 1975 avec le mythique moteur français MISTRAL sur le réseau Cyclades, préfigurateur français de l'INTERNET.

Dans les années 85, toujours au CNRS, et depuis Nancy, Jacques Dendien concevait le moteur Stella pour explorer les corpus textuels catégorisés et développait la version initiale du futur TLFi. Ce premier dictionnaire français, pensé avec le web, a mis le CNRS en tête des services scientifiques et culturels les plus consultés dans les années 2000.

Dans les années 1990, toujours au CNRS (et sur Nancy), Nathalie Dusoulier et Goéry Dealcôte ont créé l'INIST avec un succès technique incontestable : le premier système de fourniture numérique de documents ; la reprise de la production des bases Pascal et Francis ; et, dans un esprit de compétition scientifique, cerise sur le gâteau, la conversion des formats MARC sous SGML, 5 ans avant MarcXml de la Library of Congress. La photo ci-dessous montre la visite de Goury Martchouk, ministre de la recherche en URSS qui s'était déplacé spécialement pour voir l'INIST...

Pour nous inspirer en 2024, quels sont les pistes ouvertes par le CNRS ?

C'est une très bonne nouvelle, mais cet essai doit maintenant être transformé, dans un contexte mondial de guerre de l'information.

Comme nous l'avons souvent évoqué ici, nous sommes devenus de plus en plus dépendant des organisations américaines pour nos données scientifiques (PubMed, American Chemical Society, etc). Du côté des citoyens, Wikipédia, est de plus en plus menacé par une pollution de type réseau social par l'anonymat et se met de plus en plus au service des stratégies publicitaires des GAFAM. Cette dépendance s'accentue dramatiquement avec la généralisation de l'intelligence artificielle qui repose sur ces sources d'informations pour ses mécanismes d'apprentissages.

Les réalisations de la fondation Wikimedia montrent que pratiquement tous les services informationnels connus sont implémentables avec le moteur MediaWiki (et ses extensions). Une communauté scientifique peut maintenant se constituer une plateforme où toutes les activités sont interconnectés et poussées à l'excellence. Rappelons que MediaWiki peut être paramétré pour offrir une sureté totale des contributions avec des contributeurs dument identifiés. Un wiki peut être piloté par un commité scientifique et modéré par ses membres et des secrétaires de rédaction. Il est possible de créer des réseaux de wikis, avec des composantes hiérarchisées pour faciliter les coordinations.

Autrement dit, les universités et établissements de recherche ont maintenant tous les moyens techniques pour maitriser leurs mécanismes d'évaluations et répondre aux besoins informationnels de la société. Le CNRS est donc positionné comme le leader français de la science ouverte. En coopérant avec les universités et établissements français il pourrait maintenant propulser la France dans le peloton de tête. En utilisant les multiples solutions de coopérations européennes (comme les Universités Européennes) ou francophones, il pourrait offrir au Monde une alternative réellement science ouverte en matière d'information scientifique et culturelle. Les universités et le CNRS ont su trouver des stratégies pour encourager des initiatives individuelles de dépôts dans des archives ouvertes. Ils pourraient maintenant aller beaucoup plus loin.

Par exemple, le réseau des universités européennes rassemble près de 6,9 millions d'étudiants dans plus de 280 établissements. En Lorraine l'Université de la Grande Région regroupe des étudiants issus de 4 pays (Belgique, Luxembourg, Allemagne). En multipliant des projets informationnels communs entre étudiants sous la relecture de leurs enseignants, on favorise l'excellence dans l'exploration numérique collaborative, tout en constituant une force de travail colossale pour la production numérique d'informations culturelles voire stratégiques.

Oui, mais, en même temps...

Tout à fait d'accord par rapport à l'utilisation stratégique de nos données de la recherche par des entreprises américaines. Nous devons contribuer à la compétitivité des entreprises au service de la société.

En revanche je préfèrerai parler d'émulation avec nos partenaires potentiels dans une constante recherche de coopérations.

Cela dit, pour être compétitif, il faut utiliser, avec excellence, les meilleures techniques disponible à l'heure du numérique et de l'intelligence artificielle.

A la recherche de l'excellence dans les pratiques informationnelles...

Nous avons évoqué plus haut des travaux à l'INIST sur SGML pour lequel les algorithmes d'exploration de corpus me paraissaient un excellent champ d'application. Après un premier prototype centré sur les bases Pascal (Ilib) à l'INIST, j'ai développé en 95 une solution XML (DILIB) qui a montré la puissance des boîtes à outils XML pour la construction de solutions modulables (Nous avons un exemple où l'on peut par exemple naviguer à partir d'une table de Mendéléiv). Mais il fallait une forte expertise (Unix - Langage C) pour utiliser cette approche.

Grâce au financements ISTEX, nous avons mis au point une solution utilisant simultanément notre bibliothèque XML dans un environnement MediaWiki. Si la présence d'une expertise informatique est encore nécessaire, un très grand nombre d'opérations (exploration, paramétrage, curation des données) peuvent être réalisées directement par les chercheurs du domaine.

Nous sommes en train de constituer un inventaire des serveurs réalisés pendant le programme ISTEX, puis dans le contexte de la pandémie du COVID-19 (où nous avons mis au point une solution rapide pour explorer un corpus issu de Pubmed). Compte tenu d'un incident de sécurité il y a 2 ans, une partie des serveurs doit être régénéré. En rappelant que ce travail a été mené par une seule personne (votre serviteur) les chiffres sont significatifs sur la puissance de l'approche :

36 serveurs permettent d'explorer un total de 250.000 références bibliographiques.
40 serveurs sont identifiés pour une phase ultérieure avec la même volumétrie (soit 500.000 au total)

Au delà des améliorations dans l'archivage, de l'indexation et de la diffusion des informations et données, nous avons donc montré la puissance de l'approche « wikis sémantiques + ingénierie XML » dans des actions de recherche dans toutes les disciplines scientifiques où l'on doit explorer des corpus textuels, notamment en santé et dans les sciences de vivant.

La Chanson de Roland nous a permis de montrer qu'une bibliothèque numérique pouvait devenir un véritable espace de travail. Là encore la puissance de MediaWiki est remarquable : 16.000 pages hypertextes ont été générées en deux ans. Une page peut contenir un chapitre d'une ouvrage de référence, une partition LilyPond que l'on peut écouter, ou un verset de manuscrit enrichi par de multiples points de vue. Nos expériences avec des stagiaires montrent qu'un chercheur peut intervenir au bout de quelques heures et qu'un bon niveau d'indépendance est acquis en quelques mois d'assistance.

Dans de nombreuses disciplines et notamment en sciences humaines les chercheurs peuvent acquérir une indépendance opérationnelle pour des actions compétitives et coopératives.

Vous connaissez probablement la carte du réseau Wicri. Elle illustre une stratégie de déploiement possible.

A titre d'exemple, je viens de remettre en service un robot (basé sur DILIB) pour construire un récapitulatif statistique à partir des API du réseau de wikis. Voici un résultat partiel sur 79 wikis : 152.000 pages wiki ; 35.900 articles significatifs ; 500.000 contributions ; 13.000 fichiers multimédia.

Ce résultat a été acquis en 2 temps. Pendant environ 3 ans, au départ, nous avons bénéficié d'une petite équipe (2 ingénieurs et un type stagiaire). Nous avons pu initié des dizaines d'expérimentations avec des chercheurs de toutes disciplines. Le meilleur exemple est la revue Les Mots de l'Agronomie de l'INRAE. Nous avons aussi mené une expérimentation pour l'IHEST. Le projet Vioramil a produit 6000 pages. Etc. Malheureusement ce soutien s'est arrête à mon départ en retraite, mais j'ai pu continuer tous seul et soutenir quelques actions avec la Bibliothèque universitaire de lettres de Nancy (voir la Chanson de Roland).

Rappelons que Wikipédia a démarré des moyens très faibles (moins de 10 personnes au départ). Sur cette base il a su mobiliser des millions de contributions. La version anglaise de Wikipédia revendique maintenant 46 millions d'utilisateurs inscrits dont 115.000 considérés comme actifs (s'ils ont créé ou modifié au moins une page depuis 30 jours).

Une alliance entre le CNRS et quelques établissements français peut arriver à des résultats suffisamment significatifs en quelques mois pour déclencher de plus vastes opérations. L'INIST, opérateur du « CNRS leader de la science ouverte », a largement la taille critique pour initier un tel processus. Mais, le CNRS, comme toute institution humaine a parfois ses faiblesses. N'importe quelle université disposant d'un service système correct (comme l'Université de Lorraine avec son Data Center) peut se lancer dans un telle aventure et devenir un leader mondial dans le monde de l'information scientifique numérique dopé par l'intelligence artificielle. Rappelons une fois de plus que Wikipédia a démarré avec moins de 10 personnes. Rappelons également que quelques perles informationnelles comme Persée ou OpenEdition ont été initialisées dans un cadre universitaire (avant d'être soutenues par le CNRS).

Du côté du prototype Wicri

Grâce à la gouvernance ISTEX qui nous a offert un hébergement à l'INIST, je peux continuer à mener quelques travaux individuels pour contribuer à promouvoir ces idées. Je peux aussi témoigner de l'immense plaisir que procure le fait de faire et diffuser de la science en numérique.

Mais surtout, je peux mettre mon expertise au service de n'importe quelle unité (si possible en Lorraine) qui voudrait monter une dispositif d'assistance et de déploiement des technologies répondant aux enjeux donnés par le CNRS : l'excellence numérique pour la compétitivité des chercheurs

Et pour finir

Bonne année à tous...

Avec le prototype Wicri, nous travaillons sur une approche en réseau de wikis avec un accès sécurisé et la perspective d'orientation et de modération par des comités scientifiques issus des laboratoires et proches des chercheurs. Dans la continuité de Nathalie Dusoulier, championne des échanges entre bibliothèques sous l'égide de l'ONU, nous étudions les mécanismes coopératifs pour proposer une alternative aux monstres informationnels issus des réseaux sociaux.

Rappelons que Wikipédia a démarré des moyens très faibles (moins de 10 personnes au départ). Sur cette base il a su mobiliser des millions de contributions. La version anglaise de Wikipédia revendique maintenant 46 millions d'utilisateurs inscrits dont 115.000 considérés comme actifs (s'ils ont créé ou modifié au moins une page depuis 30 jours).

@@ Ligne 76 : / Ligne 76 : @@
 Ce résultat a été acquis en 2 temps. Pendant environ 3 ans, au départ, nous avons bénéficié d'une petite équipe (2 ingénieurs et un type stagiaire). Nous avons pu initié des dizaines d'expérimentations avec des chercheurs de toutes disciplines. Le meilleur exemple est la revue Les Mots de l'Agronomie de l'INRAE. Nous avons aussi mené une expérimentation pour l'IHEST. Le projet Vioramil a produit 6000 pages. Etc. Malheureusement ce soutien s'est arrête à mon départ en retraite, mais j'ai pu continuer tous seul et soutenir quelques actions avec la Bibliothèque universitaire de lettres de Nancy (voir la Chanson de Roland).
+Rappelons que Wikipédia a démarré des moyens très faibles (moins de 10 personnes au départ). Sur cette base il a su mobiliser des millions de contributions. La version anglaise de Wikipédia revendique maintenant 46 millions d'utilisateurs inscrits dont 115.000 considérés comme actifs (s'ils ont créé ou modifié au moins une page depuis 30 jours).
+Une alliance entre le CNRS et quelques établissements français peut arriver à des résultats suffisamment significatifs en quelques mois pour déclencher de plus vastes opérations. L'INIST, opérateur du « CNRS leader de la science ouverte », a largement la taille critique pour initier un tel processus.  Mais, le CNRS, comme toute institution humaine a parfois ses faiblesses. N'importe quelle université disposant d'un service système correct (comme l'Université de Lorraine avec son Data Center) peut se lancer dans un telle aventure et devenir un leader mondial dans le monde de l'information scientifique numérique dopé par l'intelligence artificielle. Rappelons une fois de plus que Wikipédia a démarré avec moins de 10 personnes. Rappelons également que quelques perles informationnelles comme Persée ou OpenEdition ont été initialisées dans un cadre universitaire (avant d'être soutenues par le CNRS).
-L'INIST, opérateur du « CNRS leader de la science ouverte », a largement la taille critique pour initier un processus basé sur un réseau de coopérations.
-Mais, le CNRS, comme toute institution humaine a parfois ses faiblesses. N'importe quelle université disposant d'un service système correct (comme l'Université de Lorraine avec son Data Center) peut se lancer dans un tel processus et devenir un leader mondial dans le monde de l'information scientifique numérique dopé par l'intelligence artificielle. Rappelons que Wikipédia a démarré avec moins de 10 personnes. Rappelons également que quelques perles informationnelles comme Persée ou OpenEdition ont été initialisées dans un cadre universitaire (avant d'être soutenues par le CNRS).
 ;Du côté du prototype Wicri:
-Grâce à la gouvernance ISTEX qui nous a offert un hébergement à l'INIST, nous pouvons continuer à mener quelques travaux individuels qui démontrent la puissance de cette approche.
+Grâce à la gouvernance ISTEX qui nous a offert un hébergement à l'INIST, je peux continuer à mener quelques travaux individuels pour contribuer à promouvoir ces idées. Je peux aussi témoigner de l'immense plaisir que procure le fait de faire et diffuser de la science en numérique.
-Toujours à titre d'exemple, nous avons développé environ 150 serveurs d'explorations dans le contexte ISTEX. Nous avons subi quelques déboires dus aux changements de machine (et un problème de sécurité). Je suis en train de construire un récapitulatif (avec des techniques wikis sémantiques). Un premier ensemble de 26 serveurs permet de naviguer dans 200.000 documents (dont 35.000 sur le patient édenté). Un autre ensemble de 13 serveurs (40.000 documents) devrait pouvoir être porté assez facilement depuis notre ancienne plateforme. Un dernier ensemble (23 serveurs 185.000 documents doit être régénéré). Dans une situation stabilisée, c'est donc près de 500.000 documents qui sont explorables avec des mécanismes de classification et de curation de données.
-Avec quelques journées d'assistance technique, et de meilleures garanties de continuité, le prototype Wicri peut devenir une plateforme immédiatement utilisable pour un ensemble conséquent de formations, d'expérimentations ou de réalisations.
-Avec des moyens encore très limités (votre serviteur et quelques contributions) je vous propose donc de faire progresser cette réflexion dans trois directions :
-* nous continuons à travailler sur la Chanson de Roland qui se révèle un excellent support de démonstration,
-* nous reprenons le travail sur l'histoire de l'IST, en y appliquant les mécanismes explorés avec la Chanson, avec comme axe directeur la rédaction d'un chapitre sur l'histoire IST dans un livre sur les pratiques informationnelles à heure de l'IA,
-* je propose enfin d'inscrire ces axes thématiques dans l'hypertexte du réseau Wicri avec la reprise des expérimentations XML avec la bibliothèque DILIB.
-;En guise d'apéritif:
+Mais surtout, je peux mettre mon expertise au service de n'importe quelle unité (si possible en Lorraine) qui voudrait monter une dispositif d'assistance et de déploiement des technologies répondant aux enjeux donnés par le CNRS : l'excellence numérique pour la compétitivité des chercheurs
-Je suis en train de de paramétrer un robot (réalisé avec DILIB) qui construit une page de statistiques
-* cet ensemble contient déjà 130.000 pages wikis dont 26.000 documents significatifs et 11.000 fichiers images
-* pour voir le détail
-Voici également un lien sur les serveurs d'explorations (qui sont en cours de portage depuis une ancienne machine virtuelle). 200.000 documents dans les thématiques des wikis sont explorables.
 ;Et pour finir:

Utilisateur:Jacques Ducloy/Blog/Bonne année 2024 : Différence entre versions

Version du 5 janvier 2024 à 17:48

Sur la liste Wicri IST

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils