Utilisateur:Jacques Ducloy/Blog/Bonne année 2024

De Wicri Wicri Fr

Sur la liste Wicri IST

Chères et chers collègues.

Pour 2024 je vous propose de revisiter ce montage d'Albert Bergeret, concepteur et imprimeur de cartes postales du mouvement de l’École de Nancy.

Carte-postale-ancienne-nouvel-an-adieu-vieille-femme-1901-et-jeune-fille-qui-apporte-l-esperance-1902-par-bergeret.jpg

Il venait de remporter une médaille d'or en photographie à l'exposition universelle de 1900 avant de se lancer la construction de sa « Maison Bergeret » (dont l'architecte est Lucien Weissenburger). Cette maison a été le siège de la présidence de Nancy-Université...

Villa Bergeret - Nancy - P1300758-P1300760.jpg

Pour 2024, je suis impliqué sur une histoire de l'IST avec un groupe de travail sur les nouvelles pratiques informationnelles à l'heure de l'intelligence artificielle. Nous sommes donc invités à travailler sur deux évènements majeurs où le CNRS a su placer la recherche française au niveau mondial. Voici un petit rappel.

Dans les années 60, le CNRS (avec le soutien logistique des universités lorraines) a soutenu le recteur Imbs pour lancer le dictionnaire TLF (avec le soutien logistique de Jean Legras puis de Claude Pair). Ce dictionnaire a été réalisé avec des techniques préfiguratrices de l'intelligence artificielle (les groupes binaires). Ci dessous le mythique Gamma 60 du TLF.

Gamma60 du TLF.png

Dans les années 1970, toujours au CNRS, sur les traces de Jean Wyard, Nathalie Dusoulier a joué un rôle moteur dans l'informatisation des bulletins signalétiques du CNRS (400.000 analyses par an) pour produire les bases Pascal, dans un format ouvert aux coopérations internationales. Cette action est marquée par une grande première dans une compétition internationale dopée par une volonté de coopération : Pascal sera accessible en 1975 avec le mythique moteur français MISTRAL sur le réseau Cyclades, préfigurateur français de l'INTERNET.

Logo Pascal Francis.jpg

Dans les années 85, toujours au CNRS, et depuis Nancy, Jacques Dendien concevait le moteur Stella pour explorer les corpus textuels catégorisés et développait la version initiale du futur TLFi. Ce premier dictionnaire français, pensé avec le web, a mis le CNRS en tête des services scientifiques et culturels les plus consultés dans les années 2000.

Logo TLFi.jpg

Dans les années 1990, toujours au CNRS (et sur Nancy), Nathalie Dusoulier et Goéry Dealcôte ont créé l'INIST avec un succès technique incontestable : le premier système de fourniture numérique de documents ; la reprise de la production des bases Pascal et Francis ; et, dans un esprit de compétition scientifique, cerise sur le gâteau, la conversion des formats MARC sous SGML, 5 ans avant MarcXml de la Library of Congress. La photo ci-dessous montre la visite de Goury Martchouk, ministre de la recherche en URSS qui s'était déplacé spécialement pour voir l'INIST...

Delacôte et Martchouk à l'INIST.jpg

Pour nous inspirer en 2024, quels sont les pistes ouvertes par le CNRS ?

CNRS Science ouverte.jpg

C'est une très bonne nouvelle, mais cet essai doit maintenant être transformé, dans un contexte mondial de guerre de l'information.

Comme nous l'avons souvent évoqué ici, nous sommes devenus de plus en plus dépendant des organisations américaines pour nos données scientifiques (PubMed, American Chemical Society, etc). Du côté des citoyens, Wikipédia, est de plus en plus menacé par une pollution de type réseau social par l'anonymat et se met de plus en plus au service des stratégies publicitaires des GAFAM. Cette dépendance s'accentue dramatiquement avec la généralisation de l'intelligence artificielle qui repose sur ces sources d'informations pour ses mécanismes d'apprentissages.

Avec le prototype Wicri, nous travaillons sur une approche en réseau de wikis avec un accès sécurisé et la perspective d'orientation et de modération par des comités scientifiques issus des laboratoires et proches des chercheurs. Les réalisations de la fondation Wikimedia montrent que pratiquement tous les services informationnels connus sont implémentables avec le moteur MediaWiki. Une communauté scientifique peut maintenant se constituer une plateforme où toutes les activités sont interconnectés et poussées à l'excellence. Dans la continuité de Nathalie Dusoulier, championne des échanges entre bibliothèques sous l'égide de l'ONU, nous étudions les mécanismes coopératifs pour proposer une alternative aux monstres informationnels issus des réseaux sociaux.

Le CNRS est donc positionné comme le leader français de la science ouverte. En coopérant avec les universités et établissements français il pourrait maintenant propulser la France dans le peloton de tête. En utilisant les multiples solutions de coopérations européennes (comme les Universités Européennes) ou francophones, il pourrait offrir au Monde une alternative réellement science ouverte en matière d'information scientifique et culturelle.

Cnrs Le Monde.jpg
Oui, mais, en même temps...

Tout à fait d'accord par rapport à l'utilisation stratégique de nos données de la recherche par des entreprises américaines. Nous devons contribuer à la compétitivité des entreprises au service de la société.

En revanche je préfèrerai parler d'émulation avec nos partenaires potentiels dans une constante recherche de coopérations.

Cela dit, pour être compétitif, il faut utiliser, avec excellence, les meilleures techniques disponible à l'heure du numérique et de l'intelligence artificielle.

Au delà des améliorations dans l'archivage, de l'indexation et de la diffusion des informations et données, nous avons avons montré la puissance de l'approche « wikis sémantique + ingénierie XML » dans des actions de recherche sur de multiples exemples en santé (et sciences de vivant), puis de façon approfondie avec la Chanson de Roland. Nous pensons que cette stratégies se généralise dans toutes les disciplines scientifiques où l'on doit explorer des corpus textuels.

Rappelons que Wikipédia a démarré des moyens très faibles au départ (moins de 10 personnes). Sur cette base il a su mobiliser des millions de contributions. La version anglaise de Wikipédia revendique maintenant 46 millions d'utilisateurs inscrits dont 115.000 considérés comme actifs (s'ils ont créé ou modifié au moins une page depuis 30 jours).

A titre d'exemple, le réseau des universités européennes rassemble près de 6,9 millions d'étudiants dans plus de 280 établissements. Fort de sa légitimité historique, le CNRS peut y soutenir de pratiques de construction collective de connaissance. Les étudiants de master et les doctorants, sous la relecture de leurs enseignants, tout en acquérant l'excellence dans l'exploration numérique, constituent une force de travail colossale pour la production d'informations stratégiques et de données d'apprentissage.

L'INIST, opérateur du « CNRS leader de la science ouverte », a largement la taille critique pour initier un processus basé sur un réseau de coopérations.

Mais, le CNRS, comme toute institution humaine a parfois ses faiblesses. N'importe quelle université disposant d'un service système correct (comme l'Université de Lorraine avec son Data Center) peut se lancer dans un tel processus et devenir un leader mondial dans le monde de l'information scientifique numérique dopé par l'intelligence artificielle. Rappelons que Wikipédia a démarré avec moins de 10 personnes. Rappelons également que quelques perles informationnelles comme Persée ou OpenEdition ont été initialisées dans un cadre universitaire (avant d'être soutenues par le CNRS).

Du côté du prototype Wicri

Grâce à la gouvernance ISTEX qui nous a offert un hébergement à l'INIST, nous pouvons continuer à mener quelques travaux individuels qui démontrent la puissance de cette approche.

A titre d'exemple, je viens de remettre en service un robot (basé sur DILIB) pour construire un récapitulatif statistique à partir des API du réseau de wikis. Voici un résultat partiel sur 79 wikis : 145.000 pages wiki ; 27.404 articles significatifs ; 427.000 contributions ; 12.103 fichiers multimédia.

Toujours à titre d'exemple, nous avons développé environ 150 serveurs d'explorations dans le contexte ISTEX. Nous avons subi quelques déboires dus aux changements de machine (et un problème de sécurité). Je suis en train de construire un récapitulatif (avec des techniques wikis sémantiques). Un premier ensemble de 26 serveurs permet de naviguer dans 200.000 documents (dont 35.000 sur le patient édenté). Un autre ensemble de 13 serveurs (40.000 documents) devrait pouvoir être porté assez facilement depuis notre ancienne plateforme. Un dernier ensemble (23 serveurs 185.000 documents doit être régénéré). Dans une situation stabilisée, c'est donc près de 500.000 documents qui sont explorables avec des mécanismes de classification et de curation de données.

Avec quelques journées d'assistance technique, et de meilleures garanties de continuité, le prototype Wicri peut devenir une plateforme immédiatement utilisable pour un ensemble conséquent de formations, d'expérimentations ou de réalisations.

Avec des moyens encore très limités (votre serviteur et quelques contributions) je vous propose donc de faire progresser cette réflexion dans trois directions :

  • nous continuons à travailler sur la Chanson de Roland qui se révèle un excellent support de démonstration,
  • nous reprenons le travail sur l'histoire de l'IST, en y appliquant les mécanismes explorés avec la Chanson, avec comme axe directeur la rédaction d'un chapitre sur l'histoire IST dans un livre sur les pratiques informationnelles à heure de l'IA,
  • je propose enfin d'inscrire ces axes thématiques dans l'hypertexte du réseau Wicri avec la reprise des expérimentations XML avec la bibliothèque DILIB.
En guise d'apéritif

Je suis en train de de paramétrer un robot (réalisé avec DILIB) qui construit une page de statistiques

  • cet ensemble contient déjà 130.000 pages wikis dont 26.000 documents significatifs et 11.000 fichiers images
  • pour voir le détail

Voici également un lien sur les serveurs d'explorations (qui sont en cours de portage depuis une ancienne machine virtuelle). 200.000 documents dans les thématiques des wikis sont explorables.

Et pour finir

Bonne année à tous...