Utilisateur:Jacques Ducloy/Blog/Bonne année 2024 : Différence entre versions

Version du 3 janvier 2024 à 20:55

Sur la liste Wicri IST

Chères et chers collègues.

Pour 2024 je vous propose de revisiter une carte postale d'Albert Bergeret, concepteur et imprimeur de cartes postales du mouvement de l’École de Nancy.

Carte-postale-ancienne-nouvel-an-adieu-vieille-femme-1901-et-jeune-fille-qui-apporte-l-esperance-1902-par-bergeret.jpg

Il venait de remporter une médaille d'or en photographie à l'exposition universelle de 1900 avant de lancer la construction de la Maison Bergeret (dont l'architecte est Lucien Weissenburger) qui a été le siège de la présidence de Nancy-Université...

Pour 2024, je suis impliqué sur une histoire de l'IST avec un groupe de travail sur les nouvelles pratiques informationnelles à l'heure de l'intelligence artificielle. Je vais donc avoir le plaisir de travailler sur deux évènements majeurs où le CNRS a su être un entrepreneur au niveau mondial.

Dans les années 70, avec le recteur Imbs (et le soutien logistique de Jean Legras puis de Claude Pair) le CNRS, a lancé le dictionnaire TLF. Il a été réalisé avec des techniques préfiguratrices de l'intelligence artificielle (les groupes binaires). Ci dessous le mythique Gamma 60.

Au même moment, toujours au CNRS, sur les traces de Jean Wyard, Nathalie Dusoulier joue un rôle moteur dans l'informatisation des bulletins signalétiques du CNRS (400.000 analyses par an) pour produire les bases Pascal, dans un format ouvert aux coopérations internationales. Une grande première dans une compétition internationale : Pascal sera accessible en 1975 avec le mythique moteur français MISTRAL sur le réseau Cyclades, préfigurateur français de l'INTERNET.

Toujours au CNRS et depuis Nancy, Jacques Dendien concevait le moteur Stella pour explorer les corpus textuels et développait la version initiale du futur TLFi qui a mis le CNRS en tête des services scientifiques les plus consultés dans les années 2000.

Dans les années 1990, toujours au CNRS (et sur Nancy), Nathalie Dusoulier et Goéry Dealcôte ont lancé l'INIST avec un succès technique incontestable : le premier système de fourniture numérique de documents ; la reprise de la production des bases Pascal et Francis par l'INIST ; et cerise sur le gâteau, la conversion des formats MARC sous SGML, 5 ans avant MarcXml de la Library of Congress. La photo ci-dessous montre la visite de Goury Martchou, ministre de la recherche en URSS qui s'était déplacé spécialement pour voir l'INIST...

En 2024, quels sont les pistes ouvertes par le CNRS ?

Comme nous l'avons souvent évoqué ici, nous sommes devenus de plus en plus dépendant des organisations américaines pour nos données scientifiques (PubMed, American Chemical Society, ...) ou citoyennes (Wikipédia, qui de plus est polué par l'anonymat). Cette dépendance s'accentue dramatiquement avec la généralisation de l'intelligence artificielle. En effet, celle-ci repose sur ces sources d'informations dans ses mécanismes d'apprentissages.

Le prototype Wicri travaille sur une approche en réseau de wikis avec un accès sécurisé et la perspective d'orientation et de modération par de comités scientifiques issus des laboratoires et des chercheurs. La fondation

Le CNRS est déjà positionné comme le leader français de la science ouverte.

il nous parait fondamental d'étudier les mécanismes organisationnels qui répondent à cet objectif en gardant la maitrise de l'exploitation et de la fiabilisation de ces données. Avec des moyens modestes nos démonstrations valident la faisabilité de cette approche. Le prototype Wicri actuel peut jouer un rôle fondamental pour spécifier un modèle opérationnel.

Un enjeu pour la compétitivité des chercheurs des sciences humaines et expérimentales

Avec la Chanson de Roland, avons avons montré la puissance de notre prototype dans toutes les disciplines scientifiques où l'on doit explorer des corpus pour construire des hypertextes explicatifs et exploitables. Avec quelques journées d'assistance technique, le prototype Wicri peut devenir une plateforme immédiatement utilisable pour un ensemble conséquent de formations, d'expérimentations ou de réalisations.

Rappelons que Wikipédia a démarré des moyens très faibles au départ (moins de 10 personnes), sur cette base il a su mobiliser des millions de contributions. La version anglaise de Wikipédia revendique maintenant 46 millions d'utilisateurs inscrits dont 115.000 ont créés modifiés des pages depuis 30 jours. Avec des moyens modestes au départ, le CNRS, associé avec la CPU, en s'appuyant sur des réseaux européens (les universités européennes ou des réseaux spécialisés comme ERCIM) ou francophones, peuvent mobiliser des millions d'étudiants et des chercheurs, dûment identifiés...

L'INIST, opérateur du CNRS leader de la science ouverte, a largement la taille critique pour initier un tel processus. Mais n'importe quelle université disposant d'un service système correct (comme l'Université de Lorraine avec son Data Center) peut se lancer dans un programme de mutation numérique pour soutenir la compétitivité de ses chercheurs et la diffusion informationnelle de ses résultats. La première qui se lance dans une aventure au départ locale peut se positionner en leader pour animer un réseau potentiellement mondial.

Du côté de notre prototype

Avec des moyens encore très limités (votre serviteur et quelques contributions) je vous propose donc de faire progresser cette réflexion dans trois directions :

nous continuons à travailler sur la Chanson de Roland qui se révèle un excellent support de démonstration,
nous reprenons le travail sur l'histoire de l'IST, en y appliquant les mécanismes explorés avec la Chanson, avec comme axe directeur la rédaction d'un chapitre sur l'histoire IST dans un livre sur les pratiques informationnelles à heure de l'IA,
je propose enfin d'inscrire ces axes thématiques dans l'hypertexte du réseau Wicri avec la reprise des expérimentations XML avec la bibliothèque DILIB.

En guise d'apéritif

Je suis en train de de paramétrer un robot (réalisé avec DILIB) qui construit une page de statistiques à partir des API du réseau de wikis. Voici un résultat partiel sur 73 wikis :

cet ensemble contient déjà 130.000 pages wikis dont 26.000 documents significatifs et 11.000 fichiers images
pour voir le détail

Voici également un lien sur les serveurs d'explorations (qui sont en cours de portage depuis une ancienne machine virtuelle). 200.000 documents dans les thématiques des wikis sont explorables.

Et pour finir

Bonne année à tous...

Utilisateur:Jacques Ducloy/Blog/Bonne année 2024 : Différence entre versions

Version du 3 janvier 2024 à 20:55

Sur la liste Wicri IST

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils

@@ Ligne 19 : / Ligne 19 : @@
 [[File:Logo TLFi.jpg|300px|center]]
-Dans les années 1990, toujours au CNRS (et sur Nancy), Nathalie Dusoulier et Goéry Dealcôte ont lancé l'INIST avec un succès technique incontestable : le premier système de fourniture numérique de documents ; la reprise de la production des bases Pascal et Francis par l'INIST ; et cerise sur le gâteau, la conversion des formats MARC sous SGML, 5 ans avant MarcXml de la Library of Congress. La photo ci-dessous montre la visite de
+Dans les années 1990, toujours au CNRS (et sur Nancy), Nathalie Dusoulier et Goéry Dealcôte ont lancé l'INIST avec un succès technique incontestable : le premier système de fourniture numérique de documents ; la reprise de la production des bases Pascal et Francis par l'INIST ; et cerise sur le gâteau, la conversion des formats MARC sous SGML, 5 ans avant MarcXml de la Library of Congress. La photo ci-dessous montre la visite de Goury Martchou, ministre de la recherche en URSS qui s'était déplacé spécialement pour voir l'INIST...
 [[File:Delacôte et Martchouk à l'INIST.jpg|300px|center]]
@@ Ligne 29 : / Ligne 29 : @@
 Comme nous l'avons souvent évoqué ici, nous sommes devenus de plus en plus dépendant des organisations américaines pour nos données scientifiques (PubMed, American Chemical Society, ...) ou citoyennes (Wikipédia, qui de plus est polué par l'anonymat). Cette dépendance s'accentue dramatiquement avec la généralisation de l'intelligence artificielle. En effet, celle-ci repose sur ces sources d'informations dans ses mécanismes d'apprentissages.
-Le prototype Wicri travaille sur une approche en réseau de wikis avec un accès sécurisé et la direction de comités scientifiques issus  des laboratoires et des chercheurs.
+Le prototype Wicri travaille sur une approche en réseau de wikis avec un accès sécurisé et la perspective d'orientation et de modération par de comités scientifiques issus  des laboratoires et des chercheurs. La fondation
 Le CNRS est déjà positionné comme le leader français de la science ouverte.