Piia de Majorque (2024) Ducloy : Différence entre versions

Version du 23 janvier 2024 à 10:06

Piia de Mallorca est un groupe de travail sur les pratiques informationnelles à l'heure de l'Intelligence Artificielle.

Un point de vue de Jacques Ducloy

L'essentiel de cette page sera intégrée dan un document commun au groupe de travail.

Sommaire

1 Vers un cinquième paradigme avec Wikipédia et l'IA
2 Les comportements informationnels, de l'antiquité au temps de l'intelligence artificielle
3 A réintégrer

Vers un cinquième paradigme avec Wikipédia et l'IA

L'hypothèse de Jim Gray sur les pratiques scientifiques met en perspective quatre changements de paradigmes dans les pratiques scientifiques :

diapositive utilisée par Jim Gray pour illustrer son propos

La groupe de réflexion Piia de Mallorca explore, notamment en SHS, un cinquième paradigme introduit par les pratiques numériques coopérativo-sémantique et par l'intelligence artificielle.

Les comportements informationnels, de l'antiquité au temps de l'intelligence artificielle

Depuis l'an 2000, une simple phrase comme « j'ai lu dans Google que... » remplace « J'ai lu dans le Larousse que » dans les années 90. Elle pose déjà, pour le public, la difficulté d'évaluer la fiabilité d'un message. En 2024, comment va être vécue l'explosion de l'intelligence artificielle.

Dans ses missions éducatives, l'Université doit enseigner la lecture dans un monde informationnel débordé par la désinformation. Elle doit le faire dans un paysage technologique très complexe celui de l'hypertexte, de l'hypermédia, des robots informationnels et maintenant l'IA. Mais depuis une autre explosion, celle de l'évaluation bibliométrique d'un déluge d'articles de 9-12 pages en double aveugle, met à mal leur disponibilité pour affronter les défis de l'information numérique.

Or le numérique offre une gigantesque palette de possibilités avec le multimédia, l'écriture numérique et depuis 15 ans la généralisation de l'écriture collaborative, programmatique, l'hypertexte et maintenant l'IA. Comment repenser l'écriture numérique dans toutes ces dimensions.

Les chercheurs, praticiens et médiateurs de l'information (conservateurs, éditeurs, bibliothécaires, archivistes, rédacteurs de l'innovation) ont su faire évoluer leurs pratiques sur plusieurs millénaires en fonction de l'évolution des supports. Ils disposent d'une offre d'outils de plus en plus sophistiqués avec les logiciels d'édition, les systèmes de gestion de contenu, wikis programmables et sémantiques, et maintenant l'IA. Comment former les ingénieurs de la connaissances pour qu'ils encadrent les praticiens des nouvelles pratiques informationnelles en pleine mutation.

Enfin l'IA est de fait alimentée par des pratiques informationnelles. Les algorithmes d'apprentissage sont particulièrement consommateurs de données résumées et indexées.

Nous proposons une réflexion historique pour mieux comprendre ces multiples évolutions des comportements informationnels.

Avant l'imprimerie

La fabrication des premiers supports d'écriture (tablette, papyrus ou parchemin) était complexe (et coûteuse). La pratique de l'écriture était limité à la classe des érudits. Mais déjà, les premiers auteurs ont du faire évoluer leurs comportements pour passer de la tablette au volumen puis au codex. Ce dernier modèle, très proche du livre actuel pour la rédaction d'un roman ou d'un poème épique, ouvrait la porte à de nouvelles pratiques de lecture comme le feuilletage.

Le monde de l'édition était représenté par les scribes et les copistes.

Un scribe en Égypte (2500 av. J.-C.)

Une œuvre littéraire pouvait évoluer assez naturellement, chaque copiste pouvant introduire des modifications (ou faire des erreurs). Voici un exemple sur la Chanson de Roland.

Manuscrit d'Oxford : 2^ème quart du XII^e siècle.

Carles apelet Rabe 7 Guineman ;
Ço dist li Reis : Seignurs, jo vus cumant ;
Seiez es lius Oliver 7 Rollant :
L’uns port l’espée 7 l’altre l’olifant ;

Manuscrit de Châteauroux : XIII^e siècle.

Carllemene apele Rabel et Guineraant
et dist li rois baron uenez auant
pe amistie et par bien uos comant
soiez en leu Oliuer et -R-
luns port lespee et lautre lolifan

Manuscrit de Paris : XIII^e siècle.

Charles apelle Sanson et Guinemant :
« Seignor, dist-il, por Deu le vos commant
En lieu serez Olivier et Rollant;
L'uns port l'escu et l'autres l'olifant,

Manuscrit de Venise IV : : XIII^e siècle, dialecte franco-italien.

Çarllo apella Rabels e Guinimant.
Ço dis li roi: - Segnur, e' ve comant,
Sià' in logo d'Oliver et de Rollant:
L'un porti la spea et l'altro l'oliphant,

Il s'agit bien du même passage. Charlemagne de retour à Roncevaux demande à deux de ses pairs de prendre la place d'Olivier et de Roland (l'un portant l'épée et l'autre l’olifant). Chaque version est adaptée à différents niveaux de langue. On notera des différences sensibles.

Au delà des poèmes, des textes administratifs ou religieux, la volonté de rassembler des connaissances a provoqué la naissance des encyclopédies. Dès le troisième millénaire avant Jésus-Christ, on trouve en Mésopotamie des tablettes contenant des listes (par exemple de noms de villes). En Grèce, dans l'île de Kos, l’École d'Hiprocrate produit un ensemble d'ouvrages médicaux. L'Histoire naturelle de Pline l'Ancien marque une recherche d'exhaustivité dans la production de connaissances. Cette tradition se poursuit au Moyen Âge avec par exemple Etymologiae d'Isidore de Séville. Cet ouvrage comporte 20 livres et 448 chapitres et a fait l'objet de plus d'un millier de copies.

La multiplication des livres dans les bibliothèques a commencé à poser quelques problèmes d'organisation. Par exemple, la bibliothèque d'Alexandrie contenait suivant les auteurs de 40.000 à 400.000 ouvrages. Callimaque aurait rédigé une bibliographie sur la littérature grecque de cette bibliothèque.

Depuis plus de deux millénaires les érudits ont mis au point des organisations pour résoudre leurs besoins de recherche d'information.

L'imprimerie

Vers 1450, Gutenberg initialise un changement de paradigme majeur dans les pratiques rédactionnelles avec l'invention de l'imprimerie. En fait cette mutation s'est étalée sur cinq siècles.

Par exemple, le coût d'une édition était considérable au départ. Et il a fallu de nombreuses innovations pour arriver à une démocratisation. La première parution du journal des Sçavants (et des Philosophical Transactions of the Royal Society) date de 1665 (soit un siècle plus tard). Dans les années 1700, en musique, les livrets étaient imprimés mais les partitions pour les orchestres étaient encore recopiées.

Pour le grand public, la bibliothèque bleue (de colportage) démarre de 1602 et trouve son apogée au XVIII^e siècle.

L'almanach de 1814 avec sa couverture bleue

L'accès du public à des images de qualité date pratiquement de la Révolution avec l'imagerie d’Épinal. La fabrication du papier va bénéficier de multiples améliorations au XIX^e siècle qui va notamment conduire aux formats de type livres de poche qui se généralise vers 1925.

Contrairement aux pratiques des copistes, l'imprimerie produit une reproduction à l'identique quelle que soit la culture de la cible...

Du côté des auteurs, l'imprimerie favorise l'apparition des éditeurs-imprimeurs-bibliothécaires qui favorisent l'émergence d'auteurs identifiés (Montaigne en 1580) ou les compositeurs de la Renaissance grâce à Pierre Attaingnant qui invente un procédé d'impression de la musique par caractères mobiles.

Avant l'invention des phonographes vers 1870, la lecture musicale collective est le seul moyen de découvrir une œuvre. L'émergence des éditeurs est corrélé avec celle de la propriété intellectuelle et droits d'auteurs. Paradoxalement une technologie qui favorise la diffusion à grande échelle induit des pratiques de restriction d'accès.

 les bibliothèques

 les bibliographies... Paul Otlet

L'arrivée des ordinateurs

A la fin de la deuxième guerre mondiale, un ordinateur comme l'ENIAC est plutôt dédié à la construction de la bombe nucléaire dans un modèle de type Analyse numérique. En revanche au Royaume-Uni, Alan Turing travaille sur le déchiffrage des codes allemands, dans une démarche qui préfigure l'intelligence artificielle. Mais la manipulation de ces machines était très complexe et très proche du hardware.

Des programmeurs sur les tableaux de l'ENIAC

Assez rapidement, avec les architectures Von Neumann, les langages de programmation émergent dans les années 50. En 1954 (ou plus précisément 1957 pour une version opérationnelle) le langage Fortran a permis une première démocratisation des pratiques numériques vers les ingénieurs. Signalons également Algol 60 qui introduit la structure de bloc (et la récursivité), mais qui dans sa version de base est limité au numérique. La société Burroughs Large Systems a lancé une gamme de machines à pile (B5000...) dont le système était écrit avec un sur-ensemble d'Algol (ESPOL). A la même époque le langage Lisp a ouvert la voie aux travaux d'informatique théorique et d'intelligence artificielle.

Des ingénieurs souvent issus de l’analyse numérique ont appliqué leur expérience sur des actions culturelles. Ils écrivent des programmes pour résoudre des problème rencontrés dans les SHS. La Chanson de Roland a par exemple inspiré Joseph J. Duggan⁽⁾ qui a publié en 1969 des concordances sur le manuscrit d'Oxford. Sur ce même sujet, en Italie, Gian Piero Zarri a tenté des rapprochements entre plusieurs manuscrits. A Nancy, une version du jeux du mot le plus long sur a été développé sur les formes fléchies du Trésor de la Langue Française que nous allons présenter.

Les grandes applications des STIC

A la même période, en France, le CNRS crée le CRTLF qui va réaliser le dictionnaire Trésor de la langue française. Pour ce projet, programmé sur 20 ans, le CNRS fait l'acquisition d'un Gamma 60, l'ordinateur le plus puissant réalisé en France et lance des développements qui préfigurent l'intelligence artificielle. Cela dit, les rédacteurs travaillent uniquement avec des listings et n'ont donc pas de « contact physique » avec le numérique.

L'IA avec les bandes magnétiques du Gamma 60 du TLF

Les techniques émergences étaient essentiellement basées sur les listes de concordances. Cette approche était sans problème pour les termes de faible fréquence dans le corpus. Pour les termes de fortes fréquences une stratégie nommée « groupe binaire » avait été développée. En fait, il s'agissait d'un algorithme de classification basée sur les co-occurences (simple lien). Dans les années 1970, environ 1000 textes avait été saisis (les termes étaient catégorisés). Les traitements informatiques étaient basés sur des manipulations de bandes magnétiques (il fallait par exemple 6 dérouleurs pour réaliser un tri). Un traitement de type group binaire s'étalait sur environ un mois. Il ne faut que quelques minutes en 2020.

Du côté des publications bibliographiques,aux Etats-Unis, de gros serveurs émergent comme Dialog par la société Lockheed.

En 1965, à la Library of Congress, Henriette Avram développe les formats MARC pour l'informatisation des bibliothèques, dans la perspective d'échanges de catalogues.

En France et au CNRS, Nathalie Dusoulier et Pierre Buffet réalisent l'informatisation des bulletins signalétiques du CNRS (400.000 analyses pas an) pour fabriquer la base Pascal avec un formalisme basé sur la norme ISO 2709 utilisée pour les formats MARC. Pascal sera accessible sur le réseau Cyclades avec le logiciel MISTRAL. Cependant la rédaction des notices bibliographiques reste manuelle. En effet, les ingénieurs analystes rédigent des bordereaux qui sont traités par un imprimeur (Jouve SA).

Des progiciels pour la recherche d'information

A la même époque (1973), aux États-Unis,la compagnie IBM lançait le logiciel STAIRS (Storage and Information Retrieval System). Sa mise en œuvre sous CICS (gestionnaire de transactions) avec des moniteurs orientés gestion (IBM 3270) pour la gamme IBM/360 était relativement complexe.

En France, dans la dynamique du Plan Calcul, pour répondre aux besoins du CNEXO (qui est devenu l'IFREMER), la Cii lançait sur IRIS 80 le logiciel MISTRAL. La première version (cartes perforées - imprimante) était très complexe (quasiment inutilisable) à mettre en œuvre (bandes magnétiques uniquement). Mais très rapidement (1973-1974), une version disque, nous a permis à Nancy de faire des premiers essais, avec, comme cobayes, les étudiants de l'IUT en option documentation. Nous visions des services pour le TLF qui pouvaient justifier un ingénieur système pendant plusieurs mois (votre serviteur). Nos étudiants ont ainsi pu bénéficier d'un environnement technique exceptionnel. D'autant plus qu'un 1975, toujours grâce au TLF, nous sommes devenus testeur d'une version avancée du système de temps partagé (Siris 8) de la Cii, avec une version expérimentale de MISTRAL offrant une navigation interactive avec navigation dans un thésaurus. Faute de corpus, nous avions monté des séances de travaux pratiques (sur les bandes dessinées) où les étudiants pouvaient expérimenter une démarche complète (paramétrage, saisie de documents et de relations, interrogation). En 1976, nous avons monté avec le TLF une base bibliographique sur le BALF (bulletin analytique de la langue française) et les étudiants ont pu expérimenter des recherches documentaire en vraie grandeur, et, par leurs erreurs ou approximations, découvrir la sérendipité. En 1979, j'ai été chargé de faire un inventaire de logiciels issus de la recherche en génie logiciel et intelligence artificielle. A côté d'un catalogue papier (mais déjà généré dans un contexte numérique). Avec les étudiants nous avons pu montrer qu'un système documentaire pouvant traiter d'autres types de données que des références bibliographiques (association fiche logiciel et fiche organisme).

Malheureusement, avec l'arrêt du plan calcul, l'aventure MISTRAL s'est achevée. En effet, l'équipe MISTRAL a été débauchée par la société TéléSystèmes pour devenir Questel. Avec une facturation au temps de connexion, la navigation sur le thésaurus n'était plus utilisée, et cette fonctionnalité a été arrêtée. Ces interrogations étaient financièrement inaccessibles pour les étudiants. Concernant les logiciels, nous nous sommes recentré sur TEXTO, plus facile à mettre en œuvre mais avec de nombreuses restrictions, notamment l'absence de navigation dans une ontologie. Il faudra quasiment attendre MediaWiki en 2005 pour retrouver le niveau de fonctionnalité de MISTRAL en 1980 (avec un saut offert par les extensions sémantiques).

Années 70 - 80: Des progiciels pour la documentation et les bibliothèques.

Des informaticiens s’approprient les problématiques des Systèmes de Recherche d'information (SRI) puis des systèmes de gestion de bibliothèque pour réaliser des applications paramétrables.

exemple, STAIRS aux USA, GEAC au Canada pour les bibliothèques

En France, la Cii développe le logiciel MISTRAL.

les administrateurs SHS ont une action éventuellement conséquente de paramétrage

les utilisateurs SHS n’ont aucune marge de manoeuvre et conservent leurs pratiques antérieures

Stations de travail Unix et XML une clé pour une intelligence au service de l'exploration

Nous avons évoqué plus haut un inventaire des logiciels d'intelligence artificielle en 1980. A cette époque, les chercheurs étaient très dépendants des gros systèmes universitaires, avec plusieurs types de restrictions. Par exemple, la disponibilité d'un logiciel de bon niveau (exemple LISP) était différente sur un Vax, un Iris 80 ou un IBM 370. De plus les travaux informatiques étaient « partiellement financés » par un ticket modérateur. Une erreur dans un programme de calcul numérique se traduit généralement par un arrêt au bout de quelques secondes. Une erreur dans un programme LISP génère souvent une boucle qui peut n'être détectée qu'au bout de quelques minutes et donc coûter relativement cher. Enfin, même dans des conditions de gratuité (mini-ordinateur de laboratoire), deux chercheurs travaillant simultanément en LISP (ou Prolog) pouvaient saturer la machine.

Des SM 90 à l'INRIA (GIP SM 90)

Les stations de travail comme Sun, aux Etats-Unis, ou, en France, la SM 90 ont transformé leur vie, et pas seulement du côté du hardware. En effet, le système Unix s'avérait particulièrement commode pour explorer ou gérer des corpus. Ce système avait été conçu dans les années 70 par une équipe d'ingénieurs du Bell Labs mené par Ken Thompson. Ils avaient participé à l'expérience Multics et ont cherché à faire plus simple en introduisant des dispositifs particulièement bien adaptés aux traitements de textes, comme le mécanisme des pipes qui permet un mode de modularité par programme ou la banalisation d'outils de compilation comme l'analyseur lexical lex.

Au même moment, Charles Goldfarb qui avait conçu chez IBM un langage de balisage nommé GML Generalized Markup Language conçoit SGML (Standard Generalized Markup Language), publié en 1986 comme norme ISO (ISO 8879:1986). Puis Tim Berners-Lee invente HTML pour le web et Lou Burnard anime le projet TEI.

Du côté du TLF, Jacques Dendien conçoit le moteur Stella pour explorer Frantext qui contient les textes qui ont servi à constituer le dictionnaire dans une normalisation XML/TEI. Ce moteur permet des recherches avancées (avec notamment des expressions régulières).

...

Années 80 - 90: Unix, un système pour concevoir du génie logiciel s'applique au génie documentaire et éditorial

...

Années 85 - 95: De SGML à XML pour le Web et des boites à outils pour la manipulation des corpus

...

Les CMS pour les revues et les archives ouvertes

...

Les wikis programmables et sémantiques

Wikipédia démontre la puissance des wikis programmables puis sémantiques

Dans l'ingénierie et les sciences expérimentales

 DARC en chimie

MEDLARS Vs Pascal (CNRS _ INSERM)

Le décrochage français

Après un incontestable succès initial le CNRS n'a pas su maintenir le niveau d'expertise des équipes initiales. Les deux institutions ont rencontré des difficultés croissantes pour aborder les mutations informatiques.

Malgré un sursaut du TLF vers 2985 avec une version numérique du dictionnaire qui sera disponible sur le Web, le CNRS a renoncé à mettre à jour le TLF.

Du côté des bases Pascal et Francis, le CNRS a créé l'INIST autour de 1990. Dans une première phase, l'INIST a su informatiser la bibliothèque, la fourniture de documents et la fabrication de bases Pascal et Francis. Malheureusement le CNRS a engagé deux réformes qui se sont avérées catastrophiques. En 1992, une première étape visait à créer un groupe commercial de vente de documents numériques en ligne. Suite à un premier fiasco en 1998 le CNRS a décidé, sans aucune étude préalable, de réduire de 50% les effectifs et ressources de l'INIST avec l'intention de produire les bases par des moyens automatiques dans système centralisé basé sur un SGBD relationnel.

Les raisons d'un décrochage

problème : grandes difficultés avec la départ des concepteurs initiaux

Habitudes organisationnelles issues de l'édition papier

forte spécialisation des rédacteurs acteurs : les erreurs inter spécialité ne sont visibles que dans l'édition papier ou sur les serveurs.

Dominance américaine

Intelligence économique

IA au service de la mercantilisation du Web

Des stratégies pour un futur humaniste

Au niveau des personnes

Au niveau des communautés

A réintégrer

Suite réduites à des notes à intégrer plus haut

années 85 !- 2000 : boîtes à outils XML la conception des outils est complexe l’assemblage peut être réalisé par des informaticiens moins qualifiés en informatique mais double compétence (exemple iNRAE, INSERM) les utilisateurs très motivés peuvent devenir autonomes années 2000 CMS en PDP MySQL exemple OpenEdition, HAL, Omeka paramétrage par des équipes mixtes les pratiques restent traditionnelles années 2005 wikis puis wikis sémantiques les utilisateurs motivés deviennent concepteurs changement de paradigme du mode étitorial ‘hypertexte, hypermédia)

@@ Ligne 77 : / Ligne 77 : @@
 Il s'agit bien du même passage. Charlemagne de retour à Roncevaux demande à deux de ses pairs de prendre la place d'Olivier et de Roland (l'un portant l'épée et l'autre l’olifant). Chaque version est adaptée à différents niveaux de langue. On notera des différences sensibles.
-Au delà des poèmes, des textes administratifs ou religieux, la volonté de rassembler des connaissances a provoqué la naissance des [[encyclopédie]]s. Dès le troisième millénaire avant Jésus-Christ, on trouve en Mésopotamie des tablettes contenant des listes (par exemple de noms de villes). En Grèce, dans l'île de Kos, l’École d'Hiprocrates produit un ensemble d'ouvrages médicaux. L'Histoire naturelle de Pline l'Ancien marque une recherche d'exhaustivité dans la production de connaissances. Cette tradition se poursuit au Moyen Âge avec par exemple ''Etymologiae'' d'Isidore de Séville. Cet ouvrage comporte 20 livres et 448 chapitres et a fait l'objet de plus d'un millier de copies.
+Au delà des poèmes, des textes administratifs ou religieux, la volonté de rassembler des connaissances a provoqué la naissance des [[encyclopédie]]s. Dès le troisième millénaire avant Jésus-Christ, on trouve en Mésopotamie des tablettes contenant des listes (par exemple de noms de villes). En Grèce, dans l'île de Kos, l’École d'Hiprocrate produit un ensemble d'ouvrages médicaux. L'Histoire naturelle de Pline l'Ancien marque une recherche d'exhaustivité dans la production de connaissances. Cette tradition se poursuit au Moyen Âge avec par exemple ''Etymologiae'' d'Isidore de Séville. Cet ouvrage comporte 20 livres et 448 chapitres et a fait l'objet de plus d'un millier de copies.
 La multiplication des livres dans les bibliothèques a commencé à poser quelques problèmes d'organisation. Par exemple, la bibliothèque d'Alexandrie contenait suivant les auteurs de 40.000 à 400.000 ouvrages. Callimaque aurait rédigé une bibliographie sur la littérature grecque de cette bibliothèque.