Solaris (1995) Polanco 2

De Wicri SIC

Aux sources de la scientométrie

Un modèle bibliométrique de la science


 
 

Cette page contient une réédition hypertexte d'un article de Xavier Polanco, « Aux sources de la scientométrie », publié dans la revue Solaris[1], en 1995.

Le contenu et le style initial ont été respectés. La seule adaptation dans le corps de l'article concerne l'insertion de liens hypertextes.

logo travaux document en cours d'importation

Solaris Btnacc.gif Solaris Btncom.gif Solaris Btnsom.gif Solaris Btn.gif


[Introduction] [Partie 1 : Un modèle statistique de la science] [Partie 2 : un modèle bibliométrique de la science]


 

Aux sources de la scientométrie  

Suite de...


Le but de cette seconde partie est d'exposer la manière selon laquelle Price formule un modèle bibliométrique de la science. Un aspect très important de ce modèle est l'introduction de l'analyse des citations. Elle vient désormais s'ajouter à la statistique de la littérature scientifique (que nous avons vu dans la première partie).
A ce propos, la démarche de Price se développe en parallèle avec l'industrialisation, depuis 1961, de cette analyse par l'Institute for Scientific Information (ISI) de Philadelphie.
On analyse en premier lieu la fonction que le modèle de Price assigne à l'article dans la pratique scientifique. Puis, on montre comment Price établit au moyen de l'analyse des citations : un, la distinction entre "archive" et "front de recherche" (research front) dans un domaine scientifique ; et deux, il trace une ligne de démarcation empirique entre la science et les autres formes de connaissance. On voit aussi que l'analyse des citations est la technique que Price utilise pour relever le réseau constitutif de la science (sa structure socio-cognitive), et pour concevoir la cartographie de la science.
Les conclusions proposent une nouvelle orientation en scientométrie, ou si l'on préfère, un changement de paradigme : le projet d'une ingénierie de la connaissance.

 


Solaris Btnup2.gif Deuxième partie : Un modèle bibliométrique de la science

PLAN :


Solaris Btnup3.gif 1. Le rôle de l'article scientifique.

L'utilisation de l'article scientifique comme un instrument de définition de la science est la conséquence de ce que j'ai appelé le réductionnisme bibliométrique dans la première partie. Au cours de ses conférences de Pegram (1962), réunies dans le célèbre ouvrage Little Science, Big Science, (1963), Price s'interroge, notamment dans le chapitre 3, sur le rôle de l'article scientifique et pose en même temps la question de son utilisation comme un indicateur de production (output) de l'activité scientifique.

"A en croire tout ce qui vient d'être dit sur la croissance exponentielle et la répartition de la productivité scientifique, on pourrait penser que les articles scientifiques n'ont d'autre but que d'être comptés par les doyens, les administrateurs et les historiens, et les savants d'autre motivation que de produire le plus possible. En face de ces comptes dénués de sens, la première réaction est instinctivement d'admettre que chaque papier représente au moins un quantum d'information scientifique utile (...)".

A la lumière de cette objection et de la réaction qu'il remarque, Price précise sa conception sur le rôle de l'article scientifique : "L'objectif premier du savant n'est pas après tout la publication d'articles scientifiques. En outre, la publication d'un article n'est pas pour lui purement et simplement un moyen de communiquer son savoir" [135]. C'est une façon de dire que l'article scientifique est lui aussi un moyen d'affirmer la propriété intellectuelle sur le produit de ses recherches. Price va l'utiliser dans ce sens en tant qu'indicateur de l'activité scientifique. Je dirai qu'il ne fonde pas l'utilisation scientométrique de l'article scientifique sur sa nature de moyen de communication du savoir scientifique, mais sur son rôle de titre de propriété d'un produit intellectuelle. Une option dont il trouve un important appui dans la sociologie des sciences de Merton.

Le modèle bibliométrique de Price attribue un rôle prépondérant à l'article scientifique, minimisant en même temps son rôle de moyen de communication scientifique. Il privilégie sa fonction de moyen pour s'assurer publiquement de la propriété intellectuelle d'une connaissance (ou résultat cognitif). A son avis, la définition bibliométrique de la science comme "ce qui est publié dans les publications scientifiques" est non seulement utile parce qu'elle se prête à l'analyse statistique, mais aussi parce qu'elle est conforme avec l'analyse sociologique de Merton sur la propriété scientifique, les découvertes multiples et les disputes de priorité [136].

La réduction de la science à la littérature scientifique a été critiquée pour deux raisons principales [137]. En premier lieu, parce qu'on reste au seul niveau de la communication scientifique formelle, celle qui se diffuse à travers la presse scientifique et qui représente un produit final hautement formalisé du travail scientifique. D'autre part, parce que le vaste domaine de la communication informelle et non écrite n'est donc pas saisie lorsqu'on se limite à analyser la littérature scientifique. Le problème est ici de pouvoir mesurer le degré d'importance du niveau informel dans la communication scientifique et de le comparer avec le niveau formel.

Croire que la communication formelle représente le sommet émergé de l'iceberg, constitue une analogie inexacte selon Edge, parce que les domaines formels et informels constituent deux classes parallèles radicalement différentes de communication, comme le montrent, à son avis, les études sociologiques de la vie de laboratoire [138].

Arrêtons-nous un instant sur deux de ces études. Latour et Woolgar développent un point de vue qui accorde un rôle prépondérant au document écrit, définissant le laboratoire comme "un système d'inscription littéraire". En revanche, Lynch propose, conformément à son approche ethnométhodologique, la notion de "laboratory shop talk", c'est-à-dire le laboratoire comme un espace d'échanges oraux de nature principalement informelle. Or, Latour et Woolgar insistent sur le fait que "la plupart des communications informelles ont pour référence la littérature publiée", ou si l'on préfère la communication formelle, celle-ci étant en dernier ressort l'objet des échanges informels qui ont lieu au laboratoire [139].

Quoi qu'il en soit, jusqu'ici la scientométrie s'est essentiellement concentrée sur deux types de documents : les articles scientifiques et les brevets. Mais elle pourrait en principe s'appliquer à l'ensemble de documents élaborés et mis en circulation par les chercheurs [140].



Solaris Btnup3.gif 2. Les origines et les fonctions de l'article scientifique.

L'article scientifique est une innovation étroitement liée à la révolution scientifique du XVIIe siècle. Les Philosophical Transactions de la Royal Society de Londres ont commencé en 1650. En France, le Journal des savants en 1665 et les Comptes rendus de l'Académie des sciences de Paris en 1666.

Il semble que l'article scientifique a été créé comme une alternative au livre ; c'est un moyen de communication qui présente les avantages d'être à la fois plus bref et plus rapide dans la diffusion de connaissances. En réalité, il n'atteint son stade moderne que vers la moitié du XIXe siècle. Selon Price, "l'examen d'une série assez longue de n'importe quel périodique scientifique révèle que le schéma moderne, devenu familier, de la référence explicite aux travaux antérieurs sur lesquels repose l'addition distincte, bien structurée, qui est dans l'idéal la substance de chaque article, apparaît vers 1850" [141].

Quant à sa fonction, l'article scientifique a toujours rempli deux fonctions différentes depuis ses origines. D'une part, il est un moyen de régler le problème de la priorité dans les recherches ou de la propriété intellectuelle des découvertes scientifiques. D'autre part, il représente en même temps un moyen de communication de l'information scientifique ; de ce point de vue, nous pouvons considérer "que chaque papier représente au moins un quantum d'information scientifique utile" et qu'il s'agit donc d'une "technique" pour diffuser et accumuler "les particules d'information" [142]. S'appuyant essentiellement dans les travaux de Merton "Priorities in scientific discovery" (1957) et "Singletons and multiples in scientific discovery" (1961) [143], Price soutient l'hypothèse que la fonction principale de l'article scientifique est, compte tenu du fait historique des innombrables querelles entre les scientifiques au sujet de la priorité de leurs découvertes, d'être un "moyen social" (social device) pour établir et maintenir la propriété intellectuelle, plutôt qu'une technique de communication.

Suite à l'observation que les découvertes multiples, celles qui sont faites par deux ou plusieurs chercheurs travaillant séparément et qui deviennent en règle générale l'objet de querelles de priorité, Price exprime le sentiment que "l'article scientifique semble donc être né pour affirmer les privilèges qui sont l'enjeu de tant d'efforts concurrents". Par conséquent, on serait en droit de dire que son "origine sociale en est le désir qu'ont tous les individus d'enregistrer leurs droits et de se les réserver", et que l'article scientifique [144]. On voit donc que l'hypothèse de Price est que "la communication scientifique au moyen d'articles publiés est et a toujours été une façon de régler les conflits de priorité en revendiquant ses droits plutôt qu'une façon de les éviter en passant de l'information" [145].

Nous savons que Merton a expliqué ce phénomène par des raisons qui sont fondées sur sa théorie sociologique des normes institutionnelles de la science. Selon cette théorie, les luttes pour la priorité pour passionnées qu'elles soient ne s'expliquent pas d'un point de vue subjectif (comme un effet du tempérament des sujets), "elles constituent une réponse à ce que l'on considère comme des violations des normes institutionnelles de la propriété intellectuelle" [146]. Price adhère entièrement à l'explication institutionnelle de Merton et il ajoute de son côté une raison de type "ontologique" : le monde à découvrir par la science est un ; par conséquent le scientifique n'a pas le privilège de l'artiste que son oeuvre soit unique et ne puisse en aucun cas être le résultat du travail d'autre chercheur.

"Si Michel-Ange ou Beethoven n'avaient pas existé, leurs oeuvres auraient été remplacées par des contributions tout à fait différentes. Si Copernic ou Fermi n'avaient jamais existé, des contributions essentiellement semblables aux leurs auraient été faites par d'autres. Il n'y a vraiment qu'un monde à découvrir, et après qu'un fragment en a été perçu, il ne reste au découvreur qu'a être honoré ou oublié. La création de l'artiste est intensément personnelle, tandis que celle du savant doit être ratifiée par ses pairs" [147].

Celle-ci est une raison de plus pour que le chercheur se presse de publier ses résultats et de demander de ses pairs la reconnaissance de sa priorité dans la découverte scientifique. L'oeuvre scientifique demande à être ratifiée par les pairs. Autrement dit, les connaissances scientifiques sont des connaissances dont la qualité et l'intérêt sont certifiés par une communauté scientifique donnée, et à laquelle tout scientifique doit s'empresser de soumettre les écrits où il consigne les résultats de ses recherches, afin d'obtenir leur validation et la reconnaissance de sa priorité.

On voit donc que Price fonde l'usage de l'article comme un indicateur de l'activité scientifique sur le fait que la littérature scientifique n'est pas seulement "un mode de stocker et de communiquer de l'information" (a mode of storing or communicating information) [148], mais aussi et surtout le moyen que le chercheur emploie pour s'assurer la propriété intellectuelle du produit final de sa recherche [149]. En science, la seule originalité consiste comme dans les compétitions sportives à être reconnu le premier. La pratique est consacrée par la coutume des éponymes dans la désignation des objets scientifiques.



Solaris Btnup3.gif 3. Le problème de l'information en science.

Le problème de l'information peut se résumer au problème quotidien des hommes de science essayant de se tenir au courant les uns du travail des autres. Ici nous nous trouvons confrontés au problème de la prolifération de la littérature scientifique et de sa pertinence. Ce que l'on connaît comme "l'effet Barnaby Rich". Cet intellectuel anglais se plaignait déjà en 1613 de la prolifération de la littérature. "L'une des maladies de notre époque est la multiplicité de livres", écrivait-il, en ajoutant : "ils surchargent tellement le public que celui-ci est incapable de digérer l'abondance de matière oiseuses quotidiennement éclose et répandue dans le monde" [150].

Si l'on se donne l'année 1665 comme date de départ de la publication scientifique moderne, on remarquera que vers 1830 le nombre de revues scientifiques avait déjà atteint le chiffre de trois cents de par le monde, et le problème était de pouvoir les lire toutes pour se tenir au courant. C'est alors que l'on invente la revue bibliographique publiant seulement des résumés de chaque article. Un outil qui permet au lecteur de s'informer et de se rapporter ensuite aux seuls textes qu'il estime utile de lire in extenso. Comme le souligne Price [151] le nombre de ces recueils d'"abstracts" n'a pas non plus cessé de grandir au même rythme que l'ensemble de la littérature scientifique qu'ils résumaient, décuplement tous les cinquante ans. Ainsi en 1950, les "abstracts" atteint eux aussi le "seuil critique" d'environ trois cents.

On peut traiter le problème en termes de production et de consommation de l'information. D'un côté, la somme de publications que les hommes de science produisent concernant leurs domaines de recherche ; et de l'autre, tous ceux qui cherchent à se tenir au courant de ce qui se fait et se publie autour d'eux au sujet des recherches menées dans les domaines qui les intéressent.

"Peut-être le vrai chercheur ne lit-il pas du tout, mais utilise-t-il d'autres moyens pour aborder l'information, la conversation et les contacts personnels", remarque judicieusement Price [152]. On revient donc sur le problème de la signification de la communication informelle ou interpersonnelle dans la vie scientifique. Toutefois, à chaque occasion que des nouveaux fronts de recherche s'organisent, on observe en général que ce phénomène s'accompagne de la création de nouveaux périodiques scientifiques. Comme dit Price : "Traditionnellement, nos groupes de savants ont recours pour s'exprimer à un organe scientifique nouveau, un périodique qui leur sert de moyen de communication" [153].

Parallèlement, les scientifiques de leur côté mettent au point "des mécanismes de communication quotidienne" [154], "des dispositifs minutieux pour faire circuler non seulement des tirages-à-part de publications, mais des prétirages et des pré-prétirages des travaux en cours et des résultats imminents", ils trouvent par ailleurs "d'autres voies et moyens pour se réunir en chair et os que l'échange de prétirages", ce sont les conférences, les colloques, les journées d'étude et les écoles d'été. Parmi tous ces moyens, Price tient à souligner les collèges invisibles [155].

Ce qui lui conduit à formuler l'hypothèse que "l'une des grandes conséquences de la transition vers la mégascience (big science) a été de transformer radicalement le rôle qu'avait joué pendant trois siècles l'article scientifique" [156] notamment sur le plan de l'information. "A bien des égards, les facilités modernes de transport et la prospérité du savant d'élite tiennent lieu d'articles et jouent le même rôle. On tend maintenant à communiquer de personne à personne plutôt que de papier à papier" [157]. Ainsi, Price a l'impression (prémonitoire peut-être) que "L'article scientifique est devenu un art mort ou en train de se mourir" [158], en tant que technique de communication (au sens de moyen de transmission d'information), mais il ne précise pas si l'on peut dire la même chose en tant que moyen pour établir la propriété intellectuelle.

Cette prémonition est-elle aujourd'hui en chemin de s'accomplir ? Il est vrai que du seul point de vue des technologies de l'information, l'édition papier peut actuellement être substituée par l'édition électronique, et les moyens de communication traditionnels dans le monde de la science remplacés non seulement par des réseaux télématiques, mais aussi de plus en plus par des "groupwares" c'est-à-dire des technologies informatiques permettant le "travail de groupe" [159].

Les remarques de Price vont dans le sens de ceux qui pensent que la diffusion de l'information scientifique se fait de préférence par des canaux informels, surtout dans les fronts de recherche où se constituent des réseaux denses de contacts entre chercheurs et qu'on appelle les "collèges invisibles".



Solaris Btnup3.gif 4. La structure de l'article scientifique.

Après cette véritable mise en demeure de l'article scientifique, considérons néanmoins sa "anatomie". Intéressons-nous à la question de savoir quelle est la place des citations dans la structure d'une publication scientifique.

Schématiquement, une contribution scientifique se compose au moins de trois éléments. Le premier est le travail ou apport personnel du chercheur (individuel ou collectif). Le second est l'emploi d'un corps de savoir commun ou acquis qui se passe de citation. Le troisième élément est un certain nombre de références bibliographiques ou citations, le renvoi dans l'article à un certain nombre d'autres articles [160]. "Chaque article repose sur la fondation de papiers antérieurs, puis il sert à son tour de point de départ, entre autres, pour l'article suivant. Cette maçonnerie savante est bien illustrée par la citation de références" [161].

Il importe de savoir que dans l'analyse de citations/références, et Price a été le premier à le reconnaître : "On ne peut pas tabler sur la rigueur, la cohérence et la conscience absolue de tous les auteurs dans la notation de leurs sources" [162]. Ce qui signifie qu'il faut tenir compte "des méfaits de certains auteurs citant de préférence leurs propres articles, ceux de leurs amis ou ceux de savants puissants ou importants conférant un statut à leur travail" [163]. Il faut également considérer "que la pratique consistant à écrire d'abord l'article, puis à ajouter pour la décoration le quota orthodoxe d'une douzaine de références, ne fausse pas sensiblement en moyenne le souci consciencieux de rendre justice aux articles sur lesquels s'est appuyé le travail" [164]. C'est-à-dire que la citation peut être un décor mais aussi et surtout un rituel à travers lequel s'expriment ou doivent s'exprimer les attachements. D'un autre côté, les non-citations soigneusement calculées, représentent elles aussi une manière non seulement d'exclure mais aussi de clôturer un groupe, exprimant ainsi un certain tribalisme intellectuel [165].

La différence entre "citation" et "référence" est seulement une différence de perspective sur la liaison bidirectionnelle entre le document citant et le document cité ; dans le sens du document qui cite à celui qui est cité, c'est une "référence" ; dans le sens contraire, c'est-à-dire du document cité à celui qui cite, il s'agit d'une "citation" [166].

Le schéma de base de la citation est le suivant : si l'article A (source) a une note bibliographique utilisant et décrivant l'article B, alors A contient une référence à B, et B reçoit une citation de A. De façon générale, le nombre de références d'un article correspond au nombre de notes bibliographiques de bas de page ou groupées à la fin de l'article.

En vérité, ce n'est pas l'analyse de citations en tant que technique largement diffusée aujourd'hui et même industrialisée, qui m'intéresse ici de traiter [167]. Mes remarques se limitent à l'emploi et à la théorie que Price propose au cours du développement de son programme scientométrique. Car comme explique Garfield : "When the Citation Index was first developed, its primary purpose was information retrieval (...) we never dreamed that the availability of large scale citation indexes would spur the development of an entirely new field of scientometrics" [168].

Du côté de Price, nous pouvons distinguer deux phases : une que j'appelle proto-analyse des citations et une autre où il est vraiment question de l'analyse des citations à proprement parler.


Solaris Btnup3.gif 5. Vers l'analyse des citations.

Afin de mesurer et de représenter l'activité scientifique, la première et la plus simple des approches est le comptage des publications, ce qui peut être fait selon deux critères : la quantité produite et/ou le degré d'utilisation des articles et des périodiques scientifiques. Price suggère que "le degré d'utilisation semble être un meilleur test de qualité" que le simple critère de la "la quantité produite" [169].

En principe, selon la thèse scientométrique mise en oeuvre ici, "la quantité d'utilisation fournit une mesure raisonnable de l'importance scientifique d'un périodique ou des travaux d'un individu" [170]. Dans Little Science, Big Science (1963), Price s'est intéressé principalement à l'utilisation ou à la valeur d'usage des périodiques scientifiques, c'est-à-dire, pour la courbe statistique que l'on peut dessiner en fonction de la fréquence de consultation d'un périodique au cours d'une période déterminée, en ordonnée, et le rang des périodiques par ordre décroissant de consultation en abscisse. La courbe va nous montrer une distribution obéissant la loi de Bradford.

On ne saura pas être surpris de découvrir une répartition de type Zipf ou Pareto. Le nombre relativement restreint des revues et des articles les plus consultés, les plus populaires, en tête de la courbe, et à l'extrémité inférieure un nombre considérable de revues ou d'articles "consultés deux fois, une fois ou même jamais" [171]. Autrement dit, une distribution hyperbolique des périodiques et des usagers.

L'hypothèse de base de l'analyse des citations de Price dans Little Science, Big Science est que la fréquence des citations et des références mesure "l'utilité des différents articles", et comme on sait "elle ne peut se répartir uniformément", puisque "certains travaux seront beaucoup plus cités que d'autres ; certains peuvent passer inaperçus et ne jamais être cités" [172]. Price examinera "d'abord le phénomène de la disparition des citations avec le temps", et ensuite "comment les références et citations se distribuent indépendamment de la date" [173]. Ce sont ces deux observations qui constituent chez Price ce que nous pouvons désigner comme sa phase de la proto-analyse des citations.

Le nombre de fois (fréquence), qu'un texte est cité, diminue en proportion à son ancienneté. Autrement dit, il y a une répartition des références en fonction de l'âge des articles cités. On peut donc étudier la répartition de références des articles publiés dans une revue, ou dans les numéros d'un volume annuel selon la date des textes qu'elles citent. L'analyse de cette variable permet de comparer par domaines la durée de vie utile de la littérature scientifique. La tendance générale dans les disciplines scientifiques est que l'utilisation décroît avec le temps, notamment là où le flot d'articles est important. En d'autres termes, la règle générale est que les articles sont de moins en moins cités dans la proportion où ils s'éloignent dans le temps. Un calcul permet de déterminer la valeur du facteur selon lequel le nombre de références tombe avec le temps [174].

Quant au problème de savoir "comment les références et les citations se distribuent indépendamment de la date", le travail qu'il préconise consiste à ordonner une population d'articles scientifiques mettant en tête l'article le plus cité de l'année et en fin de liste ceux notés en référence une fois. Le résultat est évidemment "une distribution du type conforme à la loi de Pareto, analogue à celle que l'on trouve pour l'utilité des journaux scientifiques", et comme observe Price : "On pourrait donc affirmer, si l'on disposait de l'information nécessaire, que la moitié de toutes les citations sont extraites d'un petit nombre d'articles existant à l'époque" [175].

L'article "Networks of Scientific Papers", de 1965, marque le début de la phase de l'analyse des citations proprement dite dans le développement de la théorie scientométrique de Price [176]. Ce texte envisage explicitement les citations comme l'indicateur relationnel permettant non seulement de reconstruire empiriquement la dimension socio-cognitive sous-jacente d'un champ scientifique, mais aussi de la représenter visuellement sous la forme d'une carte.

Sa source des données est désormais le Science Citation Index [177], et quelque chose encore plus important : la citation est, j'insiste, utilisée par Price comme un indicateur relationnel, car elle met en évidence les relations existantes entre les articles et entre les auteurs scientifiques. Ainsi donc, l'analyse de citations apparaît entre les mains de Price comme un moyen pour déceler le système de relations sous-jacentes de la production scientifique.

Maintenant, les objectifs de son programme scientométrique sont fondamentalement de relever le réseau constitutif de la science et de suggérer qu'on peut le cartographier. En même temps, l'analyse des citations lui apparaît comme un instrument empirique adéquat pour distinguer la science des autres formes de connaissance, au sens où il peut, à l'aide de cet outil, tracer une ligne de démarcation bibliométrique entre la science, la technologie et les sciences humaines et sociales. Par la suite, on verra donc les outils analytiques conçus par Price (je dirai sa "boîte à outils") pour opérer une telle démarcation : à savoir les notions "d'archive", de "front de recherche", de "scholarliness", ainsi que "l'effet d'immédiateté" et "l'indice de Price".


Solaris Btnup3.gif 6. Archive et front de recherche.

L'analyse des citations montre que la structure des publications scientifiques s'accroître suivant une dynamique interne, les nouveaux articles sont liés aux anciens par un certain nombre de références qui renvoient à la littérature récente ou plus ancienne. L'analyse découvre que ces références se distribuent en deux classes comme résultat de deux modes de citation : l'archive et le front de recherche [178].

Le premier type est un mode qui puisse ses citations dans l'ensemble de la littérature scientifique antérieure, sans trop compter l'âge du document cité, ce qui donne lieu à la classe appelée "citations d'archive" (archival citations). Ce mode de citation se caractérise pour être plus ou moins aléatoire, et il correspond "au processus normal du savoir académique (scholarship) partagé par les sciences et les humanités" [179].

L'autre type est en revanche un mode assez bien structuré et il est caractéristique de la science en particulier. C'est le mode que Price appelle "front de recherche" [180]. On le reconnaît par la tendance forte à ce que les liens créés par les citations soient entre articles qui sont assez proches dans le temps [181]. Price propose l'image familière d'un tricot pour représenter ce fait  : "Dans un domaine particulier chaque article récent est lié à ses voisins par des nombreuses lignes de citations. Une image appropriée de ce pattern on le trouve dans le tricot où chaque point est fermement attaché à la rangée précédente et à ses voisins. Pour étendre l'analogie, parfois il arrive qu'un point fasse défaut, ainsi le tricot se sépare en plusieurs rangées, chacune d'elles créant un nouveau sous-domaine issu du premier" [182].

Price utilise également l'image du tricot avec des points qui font défaut pour décrire la division du front de recherche en divers groupes sociaux ; chacun de ces groupes correspondraient à un certain nombre de scientifiques, membres d'un collège invisible,

"qui font réellement le travail dans un secteur particulier du front de recherche" [183]. Price observe qu'il y a une proportion entre la moyenne des articles par revue dans un an et la magnitude moyenne des collèges invisibles, oscillant entre 100 et 200 membres et "chacun d'eux écrivant au moins un article par an dans toutes les sous-disciplines dans lesquelles la science est divisée" [184].

Une autre image que Price emploie, pour représenter le mode de croissance de la science (ou de la recherche) sur un plan bidimensionnel, est le jeu de puzzle (jigsaw puzzle) [185]. En vérité, il cherche à l'aide de ces images de signifier l'aspect structurel caractéristique de la croissance scientifique.

Ces modèles métaphoriques, le tricot et le puzzle, représentent la science comme un système dont l'accroissement se réalise à partir de ses bords ultimes, "de l'épiderme plus que du corps". Si le développement se réalise à partir de l'épiderme, alors la croissance est rapide. Celui-ci est un trait caractéristique (pattern) de la science (Naturwissenschaft) et qui la distingue de la connaissance en général (Wissenschaft).

"Dans le cas où vous avez un sujet où vous ne pouvez pas créer un épiderme à rayonnage court, la croissance est lente comme par exemple en histoire et en philosophie". La question est de montrer, au moyen de l'analyse de citations, "que si les sciences ont la structure qu'elles ont, c'est parce que les forces et les connections sont à rayon court, alors que dans le reste de la connaissance non scientifique les forces sont de rayon long" [186]. Price fait la démonstration dans "The Structures of Publication in Science and Technology" (1969) et "Citations Measures of Hard Science, Soft Science, Technology and Nonscience" (1970). Le but de ces travaux est de caractériser la science et de tracer une ligne de démarcation entre elle dans son acception restreinte de science "dure" (hard science) et les autres formes de la connaissance.


Solaris Btnup3.gif 7. La science et les autres formes de connaissance écrite.

Dans son texte "Is Technology Historically Independent of Science ? A Study in Statistical Historiography" (1965), Price pense que "l'on peut tracer un spectre allant de la science pure à la pure non science, mesurant et disposant selon magnitudes décroissantes la proportion de citations de front de recherche à celle de citations d'archive" [187]. Ce qu'il expose cinq ans plus tard dans "Citations Measures of Hard Science, Soft Science, Technology and Nonscience" (1970). Il est question ici de faire la distinction entre "science dure, science molle, technologie et non science" grâce à la mesure des citations. Price explique que le problème à résoudre est de savoir "ce qui distingue l'information scientifique, dans son contenu, de tout autre information" [188]. Utilisant toujours le Science Citation Index, son intention est de diagnostiquer si "un champ de connaissance agit comme "science" ou comme "non-science"" [189].

En effet, le but qu'il se propose est de développer une méthode qui puisse servir pour déterminer si un document (piece of scholarship) appartient à la "science" ou la "non-science", mais aussi pour distinguer également le "hard" du "soft" sur le plan de la connaissance écrite.


Solaris Btnup3.gif 8. Scholarliness.

Je vais maintenant analyser les outils scientométriques permettant à Price de construire son tableau différentiel "science dure, science molle, technologie et non science".

Price utilise le terme scholarliness pour désigner la somme de références d'un texte. L'étymologie du mot latin scholia qui est à l'origine des mots anglais scholar, scholarship, désigne justement les notes explicatives qui accompagnaient à un texte académique. C'est dans ce sens que Price l'utilise.

Le nombre de références permet de trier les articles scientifiques au moins en trois classes par ordre décroissant du nombre de références bibliographiques :

  1. les articles de synthèse (review) qui condensent et donnent accès à la littérature récente dans un domaine ou spécialité ;
  2. les articles de recherche qui rendent compte des résultats d'une expérience de laboratoire, ou d'une enquête, ou des observations de terrain [190] ;
  3. Les articles ex cathedra : on appelle ainsi les documents qui ne présentent aucune référence explicite (ou un nombre insignifiant) ; en règle générale ils correspondent à des prises de position de scientifiques expérimentés s'exprimant sur la seule base de leur propre connaissance du domaine.


Une partie non négligeable de la littérature sur des sujets technologiques ne fait pas usage des références, ou bien à peine de quelques-unes, aux yeux de Price : la science serait essentiellement papyrocentrique, tandis que la technologie aurait une tendance forte à être papyrophobique [191].

S'appuyant sur le fait empirique que dans le Science Citation Index le nombre de références par article s'accroît au cours des années, Price suggère que c'est le volume d'articles déjà produits qui provoque les citations ; au sens où les articles précédents créent l'occasion pour l'émergence d'une nouvelle littérature scientifique. Son hypothèse est que la valeur moyenne des références par article est déterminée par la grandeur de l'archive selon un ordre qui serait proche au logarithme de celui-ci. En fonction des données statistique couvrant la période 1961-1977 pour le Science Citation Index, et la période 1970-1976 pour le Social Sciences Citation Index, Price constate que le nombre de références par article augmente conformément à la croissance de l'archive de ces deux bases de données [192].

Les références renvoient aux documents disponibles selon une distribution qui est en accord avec le principe des avantages cumulés. On trouve ici un mécanisme que l'on peut décrire à l'aide de la loi de Zipf, comme pour la fréquence de mots-clés lorsqu'on analyse un vocabulaire d'indexation : une proportion limitée de documents (concentration) ont une fréquence significativement importante, et une masse considérable (dispersion) ne sera citée qu'une fois ou bien pas du tout.

Lorsqu'on utilise le nombre de citations que les articles cités reçoivent de la part des articles sources (articles citant) au cours d'une période déterminée, on voit que ce paramètre s'accroît progressivement, et comme pour le cas des références, celui-ci obéirait également au logarithme du corpus disponible de la littérature scientifique [193].

La quantité de références par article (scholarliness) ne permet pas à elle seule d'établir les distinctions que Price cherche à tracer entre science et non-science, entre science "dure" (hard) et science "molle" (soft). Ce qui lui est nécessaire "c'est une certaine mesure de la texture du système de références et citations" [194]. Alors il constate que les articles plus récents reçoivent un nombre de citations plus élevé que ce qu'on pouvait supposer selon un modèle probabiliste à partir de la magnitude de l'archive, en l'occurrence le logarithme de la somme de la littérature disponible à un moment donné. Il faut donc considérer cet autre facteur : l'effet d'immédiateté.


9. L'effet d'immédiateté et l'obsolescence.

A la notion de front de recherche est associé le phénomène que Price a nommé le facteur ou l'effet d'immédiateté dans le mécanisme de citation [195]. Quelque chose comme si les relations entre les références (documents qui citent) et les citations (documents cités) se serraient à moment donné les unes contre les autres (bunching) [196]. La notion d'immédiateté suppose donc la variable temps : la fréquence (ou nombre) de citations des articles qui sont proches dans le temps est plus élevée que celle des articles moins récents.

Courtial définit l'effet d'immédiateté comme le rapport du nombre de citations des documents publiés dans l'année à ce nombre de documents. Et à son avis, cet indicateur permet de mettre en évidence des fronts de recherche très actifs ; comparé d'un domaine à un autre, il indique la rapidité d'utilisation des articles publiés [197].

Susan E. Cozzens remarque que l'effet d'immédiateté est une notion qui est liée dans les textes de Price, "Network of Scientific Papers" (1965) et "Citation Measures of Hard Science, Soft Science, Technology, and Non-science" (1970), à la question de la différence qui existe entre les systèmes de connaissance quant à leur processus de croissance.

Pour sa part, Price a proposé l'effet d'immédiateté comme un instrument de diagnostic (diagnostic tool) pour déterminer justement les différentes classes de croissance de la connaissance humaine [198].

Ce serait une erreur de croire que le facteur d'immédiateté est responsable de l'obsolescence de la littérature scientifique. Comme Price le dit lui-même : "cette immédiateté est quelque chose d'absolument différente quant au vieillissement normal de la littérature" [199]. La croyance que la diminution du nombre de citations se trouve causalement connectée avec la perte de valeur scientifique des articles est, selon Marton [200], le "dogme central" de l'obsolescence.

Le fait que l'on observe initialement une baisse rapide du nombre de citations, suivie ensuite par une lente descente de la courbe dans le temps [201], Price ne l'interprète pas en termes d'obsolescence de la littérature scientifique, mais comme un effet du facteur d'immédiateté. Ce qui signifie que la nouvelle littérature scientifique gagne plus des citations que l'on pourrait espérer sur la base d'un taux de vieillissement normal. Or, ce taux de vieillissement est conséquence de la croissance exponentielle de la littérature scientifique qui, comme le rappelle Price, double tous les dix ans à peu près [202]. La vraie réponse à cette question, d'après Marton, consiste à voir que c'est l'effet d'immédiateté qui est responsable de la diminution des citations. Ce qui ne signifie pas forcément de l'obsolescence. Ce n'est pas que les articles plus anciens perdent de la valeur scientifique. Le fait est que les articles plus récents reçoivent un surplus de citations [203].

On trouve donc deux populations d'articles dans un fonds documentaire, d'une part l'archive c'est-à-dire l'ensemble de la littérature intéressant un domaine scientifique, et d'autre part le front de recherche qui est la littérature soumise à l'effet d'immédiateté, et par conséquent où un surnombre de citations est observable et mesurable [204].

Cet effet de sur-citation des articles les plus récents, les plus proches dans le temps, par rapport à ceux qui ont été produits dans les dernières années, dépend bien entendu du fait que l'information soit disponible et connue. On sait qu'un laps de temps s'écoule entre le moment de la proposition d'un article scientifique et sa publication dans une revue, et ensuite entre sa publication et sa citation comme référence dans d'autres articles.

En fait, ce qui importe le plus c'est de voir la proportion entre cette "immédiateté du front de recherche" (research front immediacy) et "l'usage normal de l'archive" (the normal archival use of the literature). A cet effet, Price propose de prendre en considération comme un indice empirique raisonnable "la proportion des références qui sont faites de la littérature des cinq dernières années" [205] et que lui-même appelle "l'indice de Price" ; la convention est ici qu'au-delà de cinq ans l'effet d'immédiateté caractérisant le front actuel de la recherche est pratiquement nul.

Encore un mot à propos de l'obsolescence, étant définie en 1974 par Line et Sandison comme le déclin en validité ou utilité de l'information au cours du temps (decline over time in validity or utility of information), elle est un sujet intéressant la bibliothéconomie ; mais il semble que les résultats obtenus sont trop imparfaits pour qu'ils représentent une aide à la gestion de bibliothèques ; telle est au moins l'avis de Kaye Gapen et Milner dans leur évaluation de la question, dans le numéro spécial de Library Trends (1981) consacré à la bibliométrie [206].


10. L'indice de Price.

Cet indice est le pourcentage de références datées dans les cinq dernières années. A part les quelques cas aberrants, l'utilisation de cet indice est un outil de diagnostic pour déterminer si "la croissance se fait à partir de l'épiderme plutôt qu'à partir du corps". Un indice faible est le signe que nous avons un type de métabolisme qui est propre aux humanités [207].

Selon l'avis de son auteur, "l'indice de Price semble correspondre très bien avec notre intuition au sujet de la hard science, de la soft science, et de la non-science lorsque nous descendons dans l'échelle" [208]. Dans un échantillon de 154 périodiques, la physique et la biochimie présentent des indices de 60% à 70% ; les périodiques des sciences sociales se situent à mi-échelle entre 40% et 50% ; et la "non-science" se trouve en bas de l'échelle, ce sont les périodiques qui ont un indice très faible, plus bas que le quartile inférieur [209]. Son interprétation est que les revues avec un indice plus élevé que le quartile supérieur sont sans doute une variété de la science dure, et celles avec un indice supérieur à 60% sont juste celles où tous les symptômes de la compétition, la mode et les collèges invisibles sont évidents [210].

Price déduit également de cet indice une prescription concernant le système d'information. On pourrait à l'aide de cet indice savoir si l'on gère une archive, une bibliothèque, ou bien une véritable base de données de la littérature la plus avancée des fronts de la recherche. "Si le gens écrivent des articles avec un indice de Price bas, on doit juste maintenir une bibliothèque d'archive ; si au contraire ils écrivent des articles avec un indice de Price élevé, c'est l'indication que le système d'information est plus actif et il correspond au front de recherche" [211].

Ceci s'accompagne de la conjecture sociologique selon laquelle "la science dure, la science molle, la technologie et la non-science" sont toutes des "systèmes sociaux différents", présentant chacun "sa machinerie particulière pour traiter les processus de publication et de communication entre les gens qui se trouvent dans les fronts de recherche, aussi bien qu'en arrière de ces fronts". Price suggère que "la compréhension de la science en tant que système social permettra d'éliminer la méconnaissance naïve qui entoure l'industrie de l'information scientifique" [212]. C'est la reconnaissance du besoin qu'il y a d'une sociologie des sciences dans l'analyse des systèmes de communication scientifique, et par voie de conséquence dans l'analyse des problèmes concernant l'entreprise de l'information scientifique (Price écrit : the business of science information).


11. L'article, comme indicateur social.

Price reconnaît que dans les distinctions "hard" et "soft" de la science, ou entre "science" et "non-science", ou encore entre "science" et "technologie", "nous ne pouvons pas et nous ne devons pas séparer artificiellement le contenu et le comportement social (social behavior)" [213] ; la science "dure" (hard), la science "molle" (soft), la technologie et la non-science seraient non seulement des modes distincts de connaissance écrite mais aussi des systèmes sociaux différents [214].

Une publication scientifique n'est pas seulement "une pièce d'information", elle est surtout "une expression de l'état d'un savant (scholar) ou d'un groupe de savants à un moment donné". L'hypothèse est alors que nous pouvons "dire quelque chose sur les relations entre les gens à partir des articles eux-mêmes" [215]. On prendra les références bibliographiques (ou citations) et les co-signatures comme des indications concernant les liens sociaux (social links) [216]. De cette manière, l'article scientifique est défini comme un indicateur social, car il nous permet de dire quelque chose sur les associations entre les acteurs de la pratique scientifique, et ici acteur et auteur se recouvrent.

Par exemple, les publications à plusieurs auteurs constituent un moyen pour analyser les relations de collaboration qui se développent entre les acteurs (individuels et institutionnels) d'un champ scientifique.

D'autre part, Price corrobore l'observation que le volume des co-signatures (collaborative autorship) serait en relation directe à la magnitude du soutient économique consacré à un secteur scientifique. Comme il le rappelle, ses propres analyses sur les collèges invisibles ont montré que le phénomène de la collaboration scientifique, qui s'exprime par le nombre de co-signatures, dépend beaucoup plus du facteur économique que d'un facteur intellectuel [217].

Historiquement, depuis la révolution scientifique du XVIIe siècle et jusqu'à la première guerre mondiale, la norme était qu'un savant actif produisait un article par an et qu'il signait seul. A partir de la seconde guerre mondiale, le phénomène des co-signatures est devenu la règle dans la publication scientifique. Price suggère que dans la mesure où les ressources économiques sont allouées au travers d'un patron scientifique, celui-ci se trouve en état de se payer des "auteurs subsidiaires" ; l'explication est certes sommaire mais ce qu'il faut retenir c'est la supposition scientométrique de Price, à savoir "que le nombre d'auteurs par article est devenu un assez bon indicateur du support économique du domaine" [218].

La question est alors de savoir si ce mouvement exprime une relation directe, comme le suppose Price, avec l'évolution du financement de la recherche au cours de la même période. Il faudrait suivre quelques disciplines ou domaines de recherche afin de pouvoir tester cette conjecture.

Je finirai en me référant brièvement à deux autres aspects de la démarche scientométrique de Price : l'idée de considérer la science en termes de réseau et le projet de cartographier la science (mapping science). Ces deux contributions sont capitales à mon avis et elles s'appuient fortement sur l'utilisation des citations comme indicateur relationnel.


12. L'idée de réseau.

Dans son texte "Science de la science" (1964), Price reconnaît que les citations forment un réseau (network) liant les articles d'une façon complexe. Là il suggère également qu'on peut se servir de la théorie de graphes ou de la méthode des matrices pour étudier ou analyser les propriétés (pattern) de ce réseau [219].

Mais le texte clé au sujet de la notion de réseau est bien entendu l'article "Network of Scientific Papers" (1965). Comme explique Price, l'objectif de cet article est de "décrire la nature du réseau mondial d'articles scientifiques dans ses lignes principales". L'analyse de citations est employée comme le moyen de mettre en évidence le système de relations constitutives d'un tel réseau [220]. Plus tard, dans son essai "The Citation Cycle" (1980), il précise que son intention est non seulement de produire un "modèle quantitatif" mais aussi un "schéma structurel" [221], ce qui me semble fondamental.

L'analyse des citations (références et citations) indique "un attribut assez important du réseau", à savoir sa composition en deux types différents de relations que Price nomme l'archive et le front de recherche et que nous avons déjà analysé plus haut [222]. Dans la représentation de la connaissance acquise c'est-à-dire faisant partie de l'archive, l'emploi de systèmes de classement apparaît comme une procédure adéquate, compte tenu de sa stabilité. En revanche, le caractère éminemment actif et mouvant du front de recherche demande un véritable dispositif de veille scientifique et ici l'analyse des citations lui apparaît comme beaucoup plus adaptée pour représenter un tel réseau. Price envisage justement l'utilisation de cartes de la science pour répertorier les fronts de recherche [223].


13. Le projet de cartes de la science.

H. Small et E. Garfield affirment que Price fut le premier au cours des années 1960 à énoncer l'idée que la science pouvait être cartographiée (mapped) [224]. Une esquisse de cette idée se trouve déjà dans son essai "The Science of Science" (1964), là où il suggère que le pattern du réseau d'articles scientifiques pouvait être étudié par la théorie de graphes et par les méthodes des matrices, et il propose l'image selon laquelle "les articles se groupent dans des continents et dans des états qui peuvent eux aussi être cartographiés (mapped)".

Le projet devient explicite dans la dernière partie de son article "Network of Scientific Papers" (1965). C'est en fonction de l'analyse de citations et de son modèle du tricot, qu'il envisage la possibilité de faire une carte topographique de la littérature scientifique en cours, introduisant du même coup la notion de centralité (centralness). Il voit qu'il serait alors possible d'indiquer "les recouvrements et l'importance relative des périodiques, et aussi des pays et des auteurs, ou des articles individuels, par la place qu'ils occupent dans la carte, et par leur degré de centralité stratégique" [225].

La représentation de la croissance scientifique que Price propose dans "Citation Cycle" [226], est l'image de l'oignon, en d'autres termes celle des couches minces et successives qui se superposent les unes après les autres.

Figure 4 -- Ces couches bibliographiques sont unies par des liens de référence et citation selon l'exemple du tricotage. La couche mince d'articles porteurs de références (citants) renvoie à la couche ou les couches précédentes d'articles cités ; au fur et à mesure que le temps passe, celles-ci accroissent le corpus de la connaissance acquise et collectée dans l'archive.

Pour représenter les références (R) et les citations (C) sur une surface plane, on peut supposer comme dit Price quatre liens par item et représenter sa structure (pattern) par un treillis carré où chaque intersection est un item et les quatre lignes ses liens. Si l'on suppose que les quatre liens ne sont que la moyenne statistique, alors les treillis avec des nombreux liens présenteront un aspect beaucoup plus proche d'un filet de pêche à mailles déchirées.

Figure 5 -- Celle-ci est une image de "la structure qui se construit dans le réseau du corpus de la science" [227], et elle ouvre la possibilité de "modéliser la structure relationnelle de ce qu'on a appelé "subject space"" [228] et que je traduis par espace thématique.


On voit donc que l'idée d'une carte de la littérature scientifique a pour base, chez Price, les "relations structurelles du réseau de références et citations" [229]. Le projet ne sera développé que dans la première moitié des années 1970, à l'Institut of Scientific Information (ISI) de Philadelphie, par Small et ses collaborateurs utilisant la méthode de co-citations, la technique du simple lien pour la constitution des clusters de co-citations, et la méthode du multidimensional scaling pour la construction des cartes [230].

Dans la construction de cartes, comme notent Garfield, Malin et Small [231] une possibilité est de placer les éléments dans un espace métrique où leur distance soit signifiante et bien définie. En réalité, ils adoptent une autre orientation : construire des cartes de la science avec des données ordinales et à l'aide de l'analyse multidimensionnelle (multidimensional scaling). C'est l'option qui a été retenue en France, avec quelques particularités, par l'école des mots associés dans l'élaboration des cartes stratégiques [232].


14. Conclusions.

En examinant la construction du modèle bibliométrique de la science de Price, nous avons présenté, suite au réductionnisme bibliométrique évoqué dans la première partie, le rôle et les fonction ainsi que la structure et les origines historiques de l'article scientifique, signalant au passage que le problème de l'information en science ne doit pas se confondre avec l'emploi de l'article scientifique comme unité d'analyse bibliométrique et indicateur de l'activité scientifique. Nous avons montré que, dans le modèle de Price, l'article scientifique joue aussi un rôle d'indicateur social, dans la mesure où il permet de dire quelque chose sur les associations entre les acteurs de la pratique scientifique. Nous avons ensuite analysé les deux étapes conduisant dans l'oeuvre de Price vers l'analyse des citations ; nous avons vu comment Price construit un certain nombre d'outils permettant d'appliquer l'analyse des citations dans le but précis de distinguer la science des autres formes de connaissances. Et enfin, nous nous sommes intéressés à deux aspects qui débordent le modèle bibliométrique de l'analyse des citations, à savoir l'idée que la science se développe en réseau, et que nous pouvons représenter ce réseau au moyen de cartes.

Nous sommes maintenant en mesure d'observer que les outils mis en oeuvre par le modèle bibliométrique de la science de Price ne saisissent pas directement le contenu cognitif des articles scientifiques, autrement dit les connaissances qu'ils véhiculent. Les informations présentes dans le titre de l'article, dans son résumé, ou dans le texte lui-même sont en réalité ignorées dans l'approche scientométrique instauré par Price et que je viens d'exposer. De ce fait, un tel dispositif ne réalise qu'une scientométrie "externaliste". Par conséquent, le défi est maintenant de développer une scientométrie "internaliste" si l'on peut ainsi s'exprimer. Ce qui s'est fait en France avec la mise au point de la méthode des mots associés au début des années quatre-vingts, utilisant justement les mots-clés comme indicateurs de connaissance, et mettant à contribution ces deux idées originales de Price, la structure en réseau et la cartographie de la science. Une tradition dans laquelle nous nous inscrivons comme le montre ci-après l'article de Luc Grivel et Claire François.

Voici donc à guise de conclusion des remarques concernant le développement d'une "scientométrie cognitive". Ce sont des remarques que l'analyse patiente du modèle de Price (le retour aux sources) me permet aujourd'hui d'énoncer.

D'abord, un changement de base mathématique apparaît nécessaire par rapport à la démarche statistique classique de Price. En effet, compte tenu le type de distribution que l'on observe en bibliométrie et en scientométrie, Haitun arrive à la conclusion qu'il y a en statistique deux catégories principales de distribution des fréquences, l'une gaussienne (normale) et l'autre zipfienne (skewed, c'est-à-dire asymétriques) ; à son avis, les techniques paramétriques ne sont adaptées que pour des variables obéissant à une distribution gaussienne ; par conséquent, il propose le développement de nouvelles techniques [233]. En réalité, Mandelbrot a été le premier à observer ce phénomène et à avoir le besoin de créer de nouvelles techniques [234].

En fait, la démarche consiste aujourd'hui à utiliser l'analyse multidimensionnelle des données et plus particulièrement l'emploi de méthodes de classification automatique, sur des données qualitatives binaires (0,1), permettant leur représentation graphique. En d'autres termes, la tendance actuelle est à utiliser la famille des techniques factorielles et de classification (cluster analysis en anglais) développées à côté de la statistique traditionnelle dans le champ de l'analyse des données ; ce sont des techniques produisant toutes une réduction du nombre de caractères, aboutissant à des représentations graphiques, et basées sur le calcul matriciel et l'algèbre linéaire.

Tout porte à croire que dans la structure en réseau de la connaissance scientifique prévaut une dimension fractale, D, que l'on peut donc calculer puisque D = log N/log (1/r) [235]. L'équation traduit en termes mathématiques la structure géométrique de la connaissance scientifique ainsi que de sa croissance et de sa diffusion comme, par ailleurs, le modèle qualitatif de Holton le suggère [236]. Van Raan a déjà appliqué le calcul de la dimension fractale dans l'analyse de l'information scientifique à partir des amas ou agrégats de co-citations [237]. Je pense qu'un tel calcul s'applique aussi aux agrégats de mots-clés et de documents que nous utilisons comme indicateurs de connaissance pour l'analyse thématique, et la représentation graphique de l'information scientifique et technique.

Quant à la suggestion de Price de nous servir de la théorie de graphes ou de la méthode des matrices pour étudier ou analyser les propriétés d'un réseau, elle me semble riche de promesses ; surtout si l'objectif est désormais de procéder à la représentation des connaissances à l'aide des techniques issues de l'informatique et de l'intelligence artificielle comme, par exemple, les réseaux sémantiques et les graphes conceptuels.

Ma dernière remarque est relative à la composante sociale de la connaissance scientifique. Nous l'avons vu, le modèle bibliométrique de Price fait référence à une certaine sociologie des sciences. Maintenant, dans le projet de développer des méthodes infométriques s'orientant de plus en plus du côté d'une ingénierie de la connaissance, il me paraît nécessaire de s'appuyer sur le "programme fort" en sociologie des sciences [238] ; car il affirme que dans toute connaissance existe une composante sociale ; question qu'il nous faut considérer dans les modèles scientométriques au moment de vouloir expliquer les phénomènes que les lois bibliométriques décrivent sous une forme statistique.




Solaris Btnup2.gif Notes

[135]

Science et Suprascience, op. cit., p. 67.

[136]

Voir "The Structure of Publication in Science and Technology", W.H. Gruber et D.G. Marquis (éds.), Factors in the Transfer of Technology, op. cit.. p. 94.

[137]

Voir D. Edge, "Quantitative Mesures of communication in science: a critical review", History of Science, vol. 17, 1979, p. 102-134.

[138]

Ibid., p. 114.

[139]

B. Latour et S. Woolgar, La vie de laboratoire. Paris, Editions La Découverte, 1988, voir notamment p. 44-45. M. Lynch, Art and Artifact in Laboralory Science. London, Routledge & Kegan Paul, 1985.

[140]

Comme le soulignent M. Callon, J-P. Courtial et H. Penan, La scientométrie, op. cit., p. 13-14. A travers les articles scientifiques et les brevets, c'est de la connaissance certifiée que l'on analyse quantitativement.

[141]

Science et Suprascience, op. cit., p. 70 ; voir p. 68-70.

[142]

op. cit., p. 67, 70.

[143 ]

op. cit. p. 70-74 ;
cette même référence à Merton nous la trouvons dans "The Structures of Publication in Science and Technology", loc. cit., p. 95, et dans ::"Measuring the Size of Science", je cite ici sa réédition dans D. J. de Solla Price, Little Science, Big Science...and Beyond. New York, Columbia University Press, 1986, (ch. 7, p. 135-154), voir p. 138.
Robert K. Merton, The Sociology of Science. Chicago & London: University of Chicago Press, 1974, ch. 14 et 16.
Price se référera constamment à ces deux travaux de Merton. En fait, tout au long de son œuvre scientométrique, Price se réclame de la sociologie de Merton et de ses disciples.

[144]

op. cit., p. 74 : "Il n'était même pas exceptionnel autrefois pour Galilée, Hooke ou Kepler, d'annoncer leurs découvertes sous forme de cryptogramme de lettres brouillées destiné à réserver l'antériorité sans transmettre l'information qui aiderait les rivaux" (cf. Merton, "Priorities in Scientific Discovery", loc. cit., p. 315).
L'Académie des Sciences de Paris institua en 1666 les fameux Plis cachetés destinés à préserver la priorité d'une découverte ou d'une idée. Les auteurs devaient placer dans un enveloppe ferme, portant leurs noms et adresse, le texte auquel ils désiraient donner une date. L'Académie le recevait, l'enregistrait avec sa date et le conservait.

[145]

Science et Suprascience, op. cit., p. 75. D'autre part, il faut noter à la lumière de l'information historique que "les revendications de propriété scientifique font partie intégrante et vital du savant et de ses institutions" (p. 75).
Voir aussi "A Theoretical Basis for Input-Output Analysis of National R&D Policies", D. Sahal (éd.), Research Development and Technological Innovation. op. cit., p. 252, où Price revient sur cette même idée.

[146]

Merton, The Sociology of Science. op. cit., "To say that these frequent conflicts over priority ar rooted in the egotism of human nature, then, explains next to nothing; to say that they are rooted in the contentious personalities of those recruited by science may explain part, but not enough" (p. 293.).

[147]

Science et Suprascience, op. cit., p. 74-75.
Price revient encore une fois sur la même idée dans "The Structures of Publication in Science and Technology", loc. cit., p. 95.

[148]

Voir "A Theoretical Basis for Input-Output Analysis of National R&D Policies", loc. cit., p. 252.

[149]

Price écrit dans "A Theoretical Basis for Input-Output Analysis of National R&D Policies, loc. cit.  : "The more open the publication, the more secure the private property; scientific discoveries can only become the property of the discoverer by the act that involves giving them away freely to the world community" (p. 252) ;
et dans "Measuring the Size of Science", loc. cit. : "Because of the utter impersonality of scientific creative knowledge, we have the paradox that Robert Merton has pointed out : one can only secure this private intellectual property of discovery and creativity by open publication. The more open the publication, the more secure the private property" (p. 138).

[150]

Cité par Price dans Science et Suprascience, op. cit., p. 68.
Voir, T. Braun et S. Zsindely, "Growth of Scientific Literature and the Barnaby Rich Effect", Scientometrics, vol. 7, nº 3-6, 1985, p. 529-530. "The Barnaby Rich effect is defined as a high output of scientific writings accompanied by complaints on the excessive productivity of other authors" (p. 529).

[151 ]

Voir Price, Science since Babylon, op. cit., p. 96-98.

[152]

Science et Suprascience., op. cit., p. 78.

[153]

op. cit., p. 79.

[154]

op. cit., p. 90. Aujourd'hui, ce serait l'utilisation des technologies de la communication les plus avancées comme les systèmes de réseau et de serveurs ouverts.

[155]

op. cit., p. 91.

[156]

op. cit., p. 97.

[157]

op. cit.

[158]

op. cit., je rapelle au passage qu'il s'exprime au début des années 1960.

[159]

Comme le souligne, par exemple, l'article "Computer Tools for Thinking in Tandem" de la revue Science, du 2 août 1991, p. 505-507.

[160]

op. cit., p. 84.

[161]

op. cit., p. 70.

[162]

Ibid.

[163]

op. cit., p. 83,
quant à sa propre démarche, Price dit : "Nous ne tiendrons pas compte des méfaits de certains auteurs citant de préférence leurs propres articles, ceux de leurs amis ou ceux de savants puissants ou importants conférant un statut à leur travail".

[164]

op. cit., p. 83-84.

[165]

On peut ainsi reconnaître à peu près les "cliques" dans la vie scientifique.

[166]

H.G. Small, "Cited Documents as Concept Symbols", Social Studies of Science, vol. 8, 1978, (p.327-340) : "The difference between « citation » and « reference » is only one of perspective on the linkage between citing and cited documents; if one is looking from the citing document to the cited document, it is a « reference » ; if one is looking from the cited to the citing, it is a « citation »" (p. 339 n. 1).

[167]

Pour une présentation d'ensemble, on peut consulter l'article de Linda C. Smith, "Citation Analysis", Library Trends, vol. 30, nº 1, 1981, p. 83-106 ;
pour une évaluation critique, voir M.H. MacRoberts et B.R. MacRoberts, "Problems of Citation Analysis: A Critical Review", Journal of the American Society for Information Science, vol. 40, nº 5, 1989, p.342-349 ;
pour une critique de l'analyse des co-citations, voir D. Sullivan, D. H. White, E.J. Barboni, "Co-Citation Analysis of Science: An Evaluation", Social Studies of Science, vol. 7, 1977, p. 223-240 ;
ainsi que D. Hicks, "Limitations of Co-Citation Analysis as a Tool for Science Policy", Social Studies of Science, vol. 17, 1987, p. 295-316.
Pour une critique de la démarche scientométrique fondée dans l'analyse de citations et de co-citations dans l'étude de la science, voir D. Edge, "Quantitative Mesures of communication in science: a critical review", loc. cit., p. 102-134.

[168]

Dans les "Editorial Statements", Scientometrics, vol. 1, nº 1, septembre 1978, p. 5.

[169]

Science et Suprascience., op. cit.., p. 82.

[170]

op. cit., p. 83.

[171]

op. cit., p. 82. Comme pour la productivité, Price croit que "la ligne de démarcation est tracée par la racine carrée de la population totale" (p. 82).

[172]

Science et Suprascience., op. cit., p. 84. La phase industrielle de l'analyse de citations et la génération de l'étape des co-citations (ce qui signifie une technique plus élaborée) ont été assurées par la création de l'Institute of Scientific Information (ISI) de Philadelphie aux Etats Unis, et la production de ses fameux Science Citations Index (1961).

[173]

op. cit. Le premier de ces deux phénomènes sera plus tard analysé comme le problème de l'obsolescence de la littérature scientifique.

[174]

Iop. cit., voir p. 84-86.

[175]

op. cit., p. 88. Ces observations signalent un type non-gaussien de distribution et que nous pouvons appeller avec Yablonsky le « modèle Zipf-Pareto ».
Voir à ce sujet :
  • A. I. Yablonsky, "On Fundamental Regularities of the Distribution of Scientific Productivity", Scientometrics, vol. 2, nº 1, 1980, p. 3-34 ;
  • "Stable Non-Gaussian Distributions in Scientometrics", Scientometrics, vol. 7, nº 3-6, 1985, p. 459-470.

[176]

Cet article porte comme sous-titre la légende "The patterns of bibliographic references indicates the nature of scientific research front", publié dans la revue Science, vol. 149, nº 3683, du 30 July 1965, p. 510-515.
Price se réfère à ce travail, dans "The Structure of Publication in Science and Technology", loc. cit., dans ces termes : "Working from the population of papers, then, treating each as a sort of atom of knowledge, we have been able to derive something of a model to show how new papers are related to old ones" (p. 92).

[177]

Comme témoigne E. Garfield, "Price's Citation Cycle", dans D.J. de Solla Price, Little Science, Big Science...and Beyond, op. cit. : "He has served on the advisory board of the Science Ciation Index since 1964 (...) He chides us constantly for neglecting to exploit adequarely the statistical data which we generate each year in the creation of our indexes and for neglecting the more sophisticated statistic we could generate" (p. 274-275).

[178]

Price signale ce phénomène en 1965 dans son article "Network of Scientific Papers", loc. cit., voir p. 512. Ici Price dit que c'est par le front de recherche que la science se distingue des autres disciplines intellectuelles (scholarship), et c'est pourquoi il propose "that one of the major task of statistical analysis is to determine the mechanism that enables science to cumulate so much faster than nonscience that it produces a literature crisis".

[179]

Price, "Is Technology Historically Independent of Science ? A Study in Statistical Historiography", loc. cit. : "It represents a raiding of the archive, almost completely independent of the age of the older paper being cited, and without structure. The absence of structure occurs as a random and patternless set of connections between the new papers and the entire body of old papers in that particular field" (p. 557-558).
Voir aussi "The Structure of Publication in Science and Technology", loc. cit., p. 92.

[180]

Voir "Network of Scientific Papers", loc. cit., p. 512. Il faut noter que ce mode de citation est l'indicateur d'un front de recherche et par conséquent cette expression désigne un type ou mode de citation.

[181]

Price, "Is Technology Historically Independent of Science ? A Study in Statistical Historiography", loc. cit., p. 557-558.

[182]

Price, "The Structure of Publication in Science and Technology", loc. cit., p. 92. Il avait déjà utilisé cette image dans "Network of Scientific Papers", loc. cit., : "The total research front of science has never, however, been a single row of knitting. It is, instead, divided by dropped stitches into quite small segments and strips" (p. 515).

[183]

Price, "Is Technology Historically Independent of Science ? A Study in Statistical Historiography", loc. cit., p. 557.

[184]

"The Citation Cycle" (1980), je cite sa réédition dans le ch. 13 de D.J. de Solla Price, Little Science, Big Science...and Beyond. Op. cit., p. 259.
À ce propos, Price renvoit à son essai "Collaboration in an Invisible College", loc. cit., p. 1011-1018.

[185]

Voir "The Science/Technology Relationship, the Craft of Experimental Science, and Policy for the Improvement of High Technology Innovation", Research Policy, vol. 13, nº 1, 1984, (p. 3-20), p. 4-5.

[186]

Price, "The Relation between Science and Technology and their implication for Policy Formation", Sweden, FOA Reprints, 1972, p. 13.

[187]

Price, "Is Technology Historically Independent of Science ? A Study in Statistical Historiography", loc. cit., p. 558.

[188]

Price, "Citations Measures of Hard Science, Soft Science, Technology and Nonscience", C. Nelson et D. Pollock (éds.), Communication among Scientists and Engineers. Lexington, Mass., Heath & Co., 1970, (p. 3-22), p. 3.

[189]

Ibid. : p. 4.

[190]

Price constate dans "Citations Measures of Hard Science, Soft Science, Technology and Nonscience", loc. cit., qu'il n'y a pas une différence aussi marquée comme il le croyait entre les articles de synthèse et les articles de recherche : "they merge into each other insensibly" (p. 8).
Quant à l'utilisation des articles de synthèse pour l'analyse d'un domaine scientifique, voir F. Bastide, J.P. Courtial et M. Callon, "The Use of Review Articles in the Analysis of a Research Area", Scientometrics, vol. 15, nº 5-6, 1989, p. 535-562.

[191]

C'est par rapport à cette position de Price que F. Narin et E. Noma constatent qu'à son tour la technologie se met elle aussi à la pratique de citations telle que la science, voir leur étude "Is Technology Becoming Science", Scientometrics, vol. 7, nº 3-6, 1985, p. 369-381.

[192]

"The Citation Cycle", loc. cit., p. 260-261.

[193]

Ibid., p. 263.

[194]

Price, "Citations Measures of Hard Science, Soft Science, Technology and Nonscience", loc. cit., p. 9.

[195]

Dans "Network of Scientific Papers", loc. cit., Price emploit l'expression "immediacy factor" ; par la suite, il utilisera "immediacy effect" pour désigner le même phénomène.

[196]

Price, "Network of Scientific Papers", loc. cit. : "The "immediacy factor" - the "bunching", or more frequent citation, of recent papers relative to earlier one" ; "more frequent citation of recent papers relative to earlier ones" (p. 513) ; "tendency for the most-cited papers to be also the most recent, the number of citations per paper is shown as a function of the age of the cited paper" (p. 514 ; données Science Citation Index 1961, voir figure 5 de la p. 514). L'actualité de l'article cité est donc significative au point que nous devons considérer cet effet d'immédiateté, c'est-à-dire une sorte de hyper-utilisation de la littérature scientifique la plus récente.

[197]

J-P. Courtial, Introduction à la scientométrie, op. cit.. p. 31-32. "Il varie de 5 environ (physique), à 10-12 (mathématiques, géologie) en passant par 8 (chimie)" (p. 32).

[198]

Susan E. Cozzens, "Using the Archive: Derek Price's Theory of Differences among the Sciences", Scientometrics, vol. 7, nº3-6, 1985, (p.431-441) : "to the question of differences among knowledge systems in their growth process" (p. 432) ; "a diagnostic tool to sort out the various kinds of knowledge growth" (p. 433) ; "a diagnostic tool to describe and compare differences among the sciences in their processes of knowledge growth" (p. 440).

[199]

"Citations Measures of Hard Science, Soft Science, Technology and Nonscience", loc. cit., "I want to stress that this immediacy is something quite different from the normal aging of the literature" (p. 9).

[200]

J. Marton, "Obsolescence or Immediacy ? Evidence Supporting Price's Hypothesis", Scientometrics, vol. 7, nº 3-6, 1985, p. 145-153 ; voir notamment les p. 146 et 153.

[201]

Price considère un siècle (1860-1960) de littérature scientifique dans "Network of Scientific Papers", loc. cit., voir p. 513.

[202]

Price, "Citations Measures of Hard Science, Soft Science, Technology and Nonscience", loc. cit., p. 9.

[203]

Comme Marton remarque dans "Obsolescence or Immediacy ? Evidence Supporting Price's Hypothesis", loc. cit. : "A correct epistemological interpretation of this phenomenon necessitates further investigations" (p. 153).

[204]

Price, "Citations Measures of Hard Science, Soft Science, Technology and Nonscience", loc. cit., p. 9.

[205]

Ibid., p. 10.

[206]

Voir D. Kaye Gapen et S. P. Milner, "Obsolescence", Library Trends, vol. 30, nº 1, 1981, p. 107-124.

[207]

Price, "Citations Measures of Hard Science, Soft Science, Technology and Nonscience", loc. cit., p. 9.

[208]

Ibid., p. 12.

[209]

Quartile inf. Médiane Quartile sup.
Nbre de références/article 10 16 22 (ordonnée, Y)
Pourcentage de références des 5 dernières années. 21 % 32 % 42 % (abscisse, X)

[210]

Ibid., p. 15.

[211]

Ibid. "If people write papers with a low Price's Index you just have to maintain an archival library; if however they write with a high Price's Index, it is some indication that the information system is most active at the research front" (p. 22).

[212]

Ibid.

[213]

Ibid. p. 6.

[214]

Ibid. p. 22. Selon ses propres mots "hard science, soft science, technology and non-science may be all different social systems"

[215]

Ibid. , p. 6-7.

[216]

Ibid. , p. 7.

[217]

Ibid. .
Voir "Collaboration in an Invisible College", loc. cit., p. 1013.

[218]

"The Citation Cycle", loc. cit., p. 259.

[219]

Price, "The Science of Science", loc. cit., p. 206.

[220]

Price, "Network of Scientific Papers", loc. cit., p. 510.
Price ne se pose pas ici de questions au sujet de la pratique de citations, il se limite à considérer les citations d'un point de vue strictement statistique, car elles se prêtent au calcul dans le but de décrire le réseau d'articles scientifiques.

[221]

Price, "The Citation Cycle", loc. cit., p. 269.

[222]

Price, "Network of Scientific Papers", loc. cit., p. 512. Dans la première partie de ce travail, nous avons vu également le lien qui existe entre les collèges invisibles et les fronts de recherche.

[223]

Ibid., p. 515.

[224]

H. Small et E. Garfield, "The geography of science: disciplinary and national mappings, Journal of Information Science, vol. 11, 1985, p. 147-159. Je cite ici sa reproduction dans le Science Citation Index de 1988, édité par l'Institute for Scientific Information de Philadelphia (USA), p. 46-58.
Selon ces auteurs : "The notion that science can be mapped was first clearly stated by Derek Price during the 1960s" (p. 46).
Ils renvoient à l'article de Price intitulé "The Science of Scientists" publié dans Medical Opinion and Review, vol. 1, nº 10, 1966, p. 88-97. Mais comme je viens d'exposer ci-dessus, ce texte, que je n'ai pas pu consulter, a été précédé par les deux autres que je cite.

[225]

Price, "Network of Scientific Papers", loc. cit., p. 515.

[226]

Voir "Citation Cycle", loc. cit., p. 268.

[227]

Ibid., comme Price écrit : "the structure that is built into the network linkage of the corpus of science" (p. 269.

[228]

Ibid., Price écrit "to model the relational structure of what has been called « subject space »".
Voir à ce propos, P. Meincke et P. Atherton, "Knowledge space: A Conceptual Basis for the Organization of Knowledge", Journal of the American Society for Information Science, vol. 27, 1976, p. 18-24 ;
M. J. McGill, "Knowledge and Information Spaces: Implications for Retrieval Systems", Journal of the American Society for Information Science, vol. 27, 1976, p. 205-210.

[229]

Price, "The Citation Cycle", loc. cit., p. 266. Ici il renvoit à son article "Network of Scientific Papers" (1965).

[230]

Voir H.G. Small et B.C. Griffith, "The Structure of Scientific Literature I: Identifying and Graphing Specialties", Science Studies, vol. 4, 1974, p. 17-40 ;
B.C. Griffith et H.G. Small, "The Structure of Scientifique Literature II: The macro- and microstructure of Science", Science Studies, vol. 4, 1974, p. 339-365.

[231]

"Citation Data as Science Indicators", dans Y. Elkana, J. Lederberg, R.K. Merton, A. Tackray, H. Zuckerman (éds.), Toward a Metric of Science : The advent of Science Indicators, op. cit., p. 192-193 ;
voir aussi A. Rip, "Mapping of Science: Possibilities and Limitations", A.F.J. van Raan (éd.), Handbook of Quantitative Studies of Science and Technology, op. cit., p. 253-254.

[232]

Voir notamment J-P. Courtial Introduction à la scientométrie. op. cit. ;
M. Callon, J-P. Courtial et H. Penan, La scientométrie, op. cit., ch. VII.

[233]

Voir S.D. Haitun, "Stationary Scientometric Distributions : Part II. Non-Gaussian Nature of Scientific Activities", Scientometrics, vol. 4, nº 2, 1982, p. 89-104 ;
mais aussi "Problems of Quantitative Analysis of Scientific Activities: The Non-Additivity of Data. Part I : Statement and Solution", Scientometrics, vol. 10, nº 1-2, 1986, p. 3-16.

[234]

B. Mandelbrot, "New Methods in Statistical Economics", Journal of Political Economy, vol. LXXI, nº 5, 1963, p. 421-440 ;
voir aussi son essai "Sur l'épistémologie du hasard dans les sciences sociales. Invariance des lois et vérification des prédictions", dans J. Piaget, éd., Logique et connaissance scientifique, sous la direction de J. Piaget, op. cit., p. 1097-1113.

[235]

B. Mandelbrot, Les objets fractals, op. cit..

[236]

G. Holton, L'imagination scientifique, op. cit., p. 357-362.

[237]

A.F.J. Van Raan, "Fractal dimension of co-citation", Nature, vol. 347, nº 6294, 18 october 1990, p. 626 ;
"Fractal Geometry of Information Space as Representation by Co-Citation Clustering", Scientometrics, vol. 20, nº 3, 1991, p. 439-449.

[238]

Pour la définition du "programme fort" en sociologie de la connaissance scientifique, voir D. Bloor, Sociologie de la logique ou les limites de l'épistémologie. Traduit de l'anglais par D. Ebnöther. Paris, Pandore, 1982. Une approche sociologique de ce type en scientométrie est surtout développé par le Centre de Sociologie de l'Innovation (CSI) de l'Ecole des Mines de Paris utilisant le programme LEXIMAPPE.

[Introduction] [Partie 1 : Un modèle statistique de la science] [Partie 2 : un modèle bibliométrique de la science]


© "Les sciences de l'information : bibliométrie, scientométrie, infométrie". In Solaris, nº 2, Presses Universitaires de Rennes, 1995.

Solaris Btnacc.gif Solaris Btncom.gif Solaris Btnsom.gif Solaris Btn.gif

Voir aussi

Notes
  1. Cet article a pu être réédité à partir du site de Gabriel Gallezot : http://gabriel.gallezot.free.fr/Solaris/d02/2polanco3.html
Dans le réseau Wicri :

Ceci est la page de référence de « Solaris (1995) Polanco 2 »

Cet article est repris sur Wicri/Histoire de l'IST