Banques de données ou base de données ? (VSOC 1 2021-2022)

De Wicri Incubateur

BANQUES DE DONNÉES OU BASE DE DONNÉES ?

Les considérations qui suivent, qui ont comme origine la question angoissée de Philippe Paschel, « Banques ou bases ? » posée dans le n° 3 du « Médiéviste et l'ordinateur », ne prétendent certainement pas résoudre le problème de l'usage ambigu de ces deux termes, ni faire vraiment le tour de la question. Elles sont uniquement destinées à fournir des éléments d'information à propos d'une querelle qui, à notre avis, est liée plus à l'existence de phénomène d'incommunicabilité entre praticiens (documentalistes) et techniciens (informaticiens) qu'à celle de problèmes concrets.

Nous commencerons alors en constatant que, dans les milieux des spécialistes français en information documentaire, la terminologie qui est en train de s'imposer est celle mise à la mode par le célèbre rapport Nora-Minc[1]:

« Les fichiers et catalogues indexés des bibliothèques ont donné naissance aux « bases de données » bibliographiques. Dans ces bases, l'élément unitaire d'information est une référence d'ouvrage, d'article, de rapport, ou de thèse, quelquefois accompagnée d'un résumé, et presque toujours de « mots clés ». Un exemple de base de données est Pascal du CNRS. Dans les banques de données factuelles, en revanche, l'information élémentaire est selon E. Labin « bien circonscrite », elle « porte sa signification en elle-même » et l'on n'a besoin, pour son intelligence ou son exploitation « ni de contexte ni de commentaire ». Elle « peut se ramasser en une expression succincte telle qu'un chiffre, un nom, une marque cochée dans un bordereau, un schéma, une carte, une photo ». Théoriquement cette information est directement utilisable. Un exemple typique de banque factuelle est le fichier des établissements tenu par l'INSEE. Un autre exemple est Thermodata, banque sur les propriétés thermodynamiques des matériaux, qui indique quatre valeurs numériques par corps ou mélange et permet de calculer leur variation en fonction de la température »[2].

On retrouve ainsi cette différentiation entre « bases de données », qui contiendraient uniquement des références à des documents, des articles, des publications, et « banques de données », exploitant directement les données-source elles-mêmes, dans toute une série de documents officieux, le rapport Lenoir-Prot[3], les documents de la MIDIST, Mission interministérielle de l'information scientifique et technique[4]. Cette définition est désormais passée dans la presse spécialisée : Jacques Rosselin[5] écrit dans le numéro « Spécial santé » d'Infotecture, bimensuel d'actualité des banques de données :

« Une base de données bibliographiques est un ensemble de fichiers contenant des références d'ouvrages, articles, publications diverses, par opposition aux banques de données, ou banque de connaissances, qui donnent accès à des données brutes »[6].

Elle est reprise par les médias, et il suffit ici de citer le célèbre dossier du « Monde diplomatique[7] » de novembre 1979 (La « guerre des données »...). Bien que discutable, cette répartition des rôles entre « banques » et « bases » aurait du moins l'avantage de trancher sur la question si elle n'était pas désespérément en contradiction avec l'usage courant du terme « base de données » en informatique et en science de l'information :

« A data-base may be defined as a collection of inter-related data stored together without harmful or unnecessary redundancy to serve multiples applications »[8].

Pour ne pas être accusés d'anglophilie, notons que cette définition classique est reprise et précisée, par exemple, dans les documents préparés par Microfor inc., un bureau d'études franco-canadien bien connu, à l'intention du Bureau central de l'informatique (BCI) du Ministère des communications du Québec :

« Bases de données : ensemble de données stockées dans la mémoire à accès sélectif d'un ordinateur avec le moins possible de redondance nuisible ou inutile, de manière à avoir une indépendance logique par rapport au logiciel et une indépendance physique par rapport au matériel, ces données étant reliées entre elles de telle sorte que leur structure permettent de satisfaire plusieurs usages, de répondre à des demandes d'information imprévues et de prévoir immédiatement les développements futurs »[9].

Une définition de ce type s'insère dans un réseau cohérent de propositions terminologiques qui précisent exactement le domaine de la recherche sur les bases de données dans son acception informatique. Ainsi :

Un « système de gestion de bases de données » (DBMS - Database management system) « … is a general-purpose tool that accomodates the logical structuring, physical storage, and control of data, and that provides access interface (s) to databases. A DBMS is a general-purpose facility, in the sense that is important to understand this domain-independent orientation of database systems research »[10].

En ce qui concerne l'organisation logique des bases de données, nettement séparée de sa réalisation physique sur mémoire de masse, tout le monde connaît les trois modèles[11] « classiques », le modèle hiérarchique, le modèle à réseau, et le modèle relationnel, voir par exemple le numéro spécial sur les systèmes de gestion de bases de données publié par Computing surveys vol. VIII, n° 1, mars 1976). La séparation entre niveau logique et niveau physique est liée à l'exigence de l'« indépendance des données », « the ability to separate the logical and physical views of date, permetting certain changes to one without having to change the other »[12]. Exprimé d'une autre façon, le principe de l'indépendance des données exige qu'aucun programme d'application, qui est toujours conçu en fonction de l'organisation logique des données, ne soit modifié à cause de changements qui concernent uniquement sa représentation physique[13]. Expliquer comme une adhésion trop rigide au principe de l'indépendance des données peut poser des problèmes en ce qui concerne la prise en compte de leur contenu sémantique, et montrer que l'on cherche à pallier cet inconvénient en développant d'autres modèles d'organisation des données qui s'ajoutent aux modèles classiques, nous mènerait trop loin de notre sujet ; pour quelques informations à ce propos, nous renvoyons encore, par exemple à Mc Leod et Smith et à Zarri.


Pour revenir à la querelle « base-banque », il est donc évident que la définition de « base de données » more informatico met l'accent sur une méthodologie générale de structuration des données qui ne se soucie pas du fait que ces données puissent appartenir à un « type » plutôt qu'à un autre. Dans le rapport déjà cité, Jean-Louis Rioux s'indigne en examinant la manière dont « les français » brouillent cette distinction si simple. Il écrit entre autres : « Les auteurs de systèmes de gestion de bases de données comme TOTAL et ADABAS seraient sans doute bien étonnés d'apprendre que leurs progiciels ne peuvent traiter des « banques de données » (numériques ou factuelles), comme on le laisse sous-entendre en opposant « banques de données » et « bases de données »[14]. Nous pourrions ajouter, de notre côté, que tous les familiers du sempiternel exemple de l'employé, son numéro d'ordre, son nom, le nom de son patron, son bureau d'appartenance, etc., qui sert à expliquer le modèle rationnel de base de données - pour un dernier avatar de cet exemple voir Sandberg[15]- seraient bien étonnés d'apprendre qu'il est extrêmement impoli d'utiliser ces informations, évidemment « factuelles », à l'intérieur d'une « base », même pour des fins tout à fait innocentes et bien délimitées d'exemplification.

A propos de l'emploi du terme « base de données », nos sympathies vont donc résolument à la définition du type informatique. Pour le terme « banque », nous n'avons pas d'opinions personnelles tranchées, même si nous préférons peut-être éviter de lui donner une signification strictement technique. « ... Being given the confusion of existing terminology, I will use the generic term « data bank » to refer to a centralized system for the processing of information, taking as a whole its functions and charateristics, not merely technological, but also financial, social etc. « Database », however, I shall use in its usual technical sense »[16]. Nous allons toutefois conclure ces notes en présentant brièvement une proposition, celle de Microfor inc., à laquelle nous avons déjà fait plusieurs fois allusion. Cette proposition nous semble particulièrement intéressante en fonction aussi du souci constant des Québécois de concilier les exigences légitimes de la langue françaises avec les réalités techniques nord-américaines.

La proposition de Microfor inc. pour une typologie du domaine de l'informatique documentaire s'articule autour de la définition de 34 termes (Rioux 1980 : 19-22) ; nous avons fourni plus haut celle de « base de données », et nous donnons maintenant quelques exemples de définitions appartenant au champ lexical « banque ». Précisons tout de suite qu'il revient à ces termes, selon Microfor inc., de fournir les classifications définissant le contenu intrinsèque des données. Les chercheurs québécois rangent alors l'« information documentaire » (qui a le caractère d'un document ou qui repose sur des documents), en trois classes :

  • Information primaire : information documentaire constituant la création intellectuelle de base, les « matières premières » intellectuelles, c'est-à-dire le produit de la pensée des auteurs, des journalistes, des chercheurs, des musiciens, des cinéastes, etc. Exemple : la loi 101 du Québec contient de l'information primaire.
  • Information secondaire : information documentaire résultant du traitement de l'information primaire, les documents secondaires étant les produits du traitement des documents primaires. Exemple : « index de l'actualité vue à travers la presse écrite » de Microfor inc. contient de l'information secondaire.
  • Information tertiaire :
    • Information documentaire servant au traitement de l'information primaire, les documents tertiaires étant les instruments de traitement des documents primaires et de production des documents secondaires. Exemple : le « Répertoire de vedettes-matière » delà Bibliothèque de l'université Laval contient de l'information tertiaire.
    • Information documentaire résultant de l'inventaire et de l'évaluation des ressources documentaires en vue d'orienter les usagers des services d'information documentaire, les documents tertiaires étant souvent les produits du traitement des documents secondaires. Exemple : la « Bibliographie de bibliographies québécoises » de la Bibliothèque nationale du Québec contient de l'information tertiaire.

En définissant alors une « banque d'information » comme un ensemble de données matérialisées sur un support, pourvues d'un dispositif d'entrée/sortie et constituant de l'information différée (c'est-à-dire de l'information où le récepteur ne capte pas le message en même. Temps que l'émetteur le produit, un livre contient de l'information différée), et « banque d'information documentaire » comme l'un des deux types fondamentaux de banque d'information (l'autre étant constitué par les « banques d'information administrative » qui concernent l'information de gestion, c'est à dire les tâches de planification, de décision, d'exécution et de contrôle des administrateur d'un organisme), on aura les trois types suivants de banques d'information documentaire :

  • Banque primaire : banque d'information documentaire contenant de l'information primaire. Types : banque de données, banque documentaire. Exemple : la Banque des lois et règlements refondus du Québec du ministère de la Justice est une banque primaire.
  • Banque secondaire : banque d'information documentaire contenant de l'information secondaire. Types : banque catalographique, banque d'analyse et d'indexation. Exemple : Quebec-actualité de Microfor inc. est une banque secondaire.
  • Banque tertiaire : banque d'information documentaire contenant de l'information tertiaire. Élément documentaire : dossier ou document ou notice documentaire. Exemple : le fichier de vedettes-matière de la Bibliothèque de l'université Laval

Les banques primaires comprennent les :

  • Banques de données : banques primaires contenant de l'information brute, c'est-à-dire qui n'a subi que peu d'élaboration intellectuelle. Types : banque numérique, banque factuelle. Exemple : CANSIM, Canadian Socio-economic information management system, de Statistique Canada est une banque de données.
  • Banques documentaires : banques primaires contenant de l'information textuelle ou audio-visuelle, c'est-à-dire des écrits, des sons, des images. Élément documentaire : document primaire. Exemple : la Banque des lois et règlements refondus du Québec du ministère de la Justice est une banque documentaire.

A leur tour les banques de données se divisent en :

  • Banques factuelles : banques de données contenant de l'information descriptive, c'est-à-dire des faits, des adresses, des phénomènes, des propriétés, etc. Élément documentaire : dossier. Exemple : la Banque des produits québécois du centre de recherche industrielle du Québec (CRIQ) est une banque factuelle.
  • Banques numériques : banques de données contenant de l'information quantitative, c'est-à-dire des données discrètes, statistiques, physiques, chimiques, etc. Élément documentaire : dossier. Exemple : CANSIM de Statistique Canada est une banque numérique.

En ce qui concerne les banques secondaires, nous aurons les :

  • Banques catalographiques : banques secondaires contenant de l'information visant à la description détaillée, à la localisation précise, à la classification encyclopédique et au repérage sommaire des documents primaires. Élément documentaire : notice documentaire. Exemple : le réseau informatisé des bibliothèque québécoise (RIBLIN) est une banque catalographique.
  • Banques d'analyse et d'indexation : banques secondaires contenant de l'information visant à la description sommaire, à la classification spécialisée et au repérage détaillé des documents primaires (aucune information sur la localisation ). Élément documentaire : notice documentaire. Exemple : Quebec-actualité de Microfor inc. est une banque d'analyse et d'indexation.

Même si le caractère encyclopédique de cette proposition lui confère forcément une allure un peu rigide et artificielle, il nous semble qu'elle contient beaucoup d'éléments d'intérêt. En particulier, les définitions de « banque de données », « banque factuelle », « banque numérique » nous semblent particulièrement heureuses.

Source : Meissonnier Vincent et Zarri Gian Piero, « Banque de données ou Base de données ? », Le médiéviste et l'ordinateur, 1981[17]

  1. Rapport sur l'informatique de 1977, responsable de l'apparition de plusieurs notions d'informatique et favorisant l'apparition du réseau Minitel (source : rapport de Nora-Minc attention en suivant ce lien vous quittez le wicri incubateur).
  2. NORA S., MINC A. ( 1 978), L ’informatisation de la société - annexes, Paris, La Documentation française.
  3. LENOIR R., PROT B. (1979), L’information économique et sociale, Paris, La Documentation française.
  4. MIDIST (1980), Les banques de données, enjeux et réalités - documents de la Mission interministérielle de l’information scientifique et technique, dans Informatique et gestion, n° 118, p. 74-84., etc. ; voir aussi à ce propos Meissonnier. Les banques de données s’ouvrent sur l’extérieur, dans Informatique et gestion, n° 1 17, p. 41-46
  5. Jacques Rosselin est un journaliste spécialisé dans les technologies informatiques, notamment dans les bases de données. Il consacre actuellement sa carrière à la construction d'un "data-journalisme" pour en faire une spécialité à part entière. (Source : Jacques Rosselin, attention, en suivant ce lien vous quittez le wicri incubateur.
  6. ROSSELIN J. (1980), La grande illusion ? , dans Infotecture - Spécial santé, n° 19, p. 2-3.
  7. Site web du Monde diplomatique, attention, en suivant ce lien vous quittez le wicri incubateur.
  8. MARTIN J. (1977), Computer data-base organization, Englewood cliffs : Prentice hall.
  9. RIOUX J.L. (1980), L ’utilisation de banques d’information documentaire au Québec, Québec, Microfor inc.
  10. Mc LEOD D., SMITH J.M. (1981), Abstraction in databases, dans Proceedings of the workshop on data abstraction, databases and conceptual modelling-special issue of the ACM sigart newsletter, n° 74, p. 19-25.
  11. Depuis la parution de ce texte, les modèles de bases de données ont évolué et de nouveaux sont apparus, le site Lucide chart les décrit attention, en suivant ce lien vous sortez du wicri incubateur
  12. HUFFENBERGER M., WIGINGTON R. (1979), Database management systems, dans Annual review of information science and technology , vol. 14, New York, ASIS.
  13. ZARRI G. P. (1981), Relations between artificial intelligence and information science : expert systems and factual data banks, dans Pre-proceedings of the international study congress on logica, informatica, diritto, firenze, Istituto per la documentazione giuridica del CNR
  14. RIOUX J.L. (1980), L ’utilisation de banques d’information documentaire au Québec, Québec, Microfor inc.
  15. SANDBERG G. (1981), A primer on relational data base concepts, dans IBM System Journal, XX, p. 23-40.
  16. ZARRI G. P. (1981), Relations between artificial intelligence and information science : expert systems and factual data banks, dans Pre-proceedings of the international study congress on logica, informatica, diritto, firenze, Istituto per la documentazione giuridica del CNR
  17. Attention, le lien suivant est extérieur au wicri incubateur « Banque de données ou Base de données ? », Le médiéviste et l'ordinateur