Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

Bilan d’une enquête sur les archives ouvertes dans les établissements d’enseignement supérieur et de recherche

De Wicri SIC
Ametist-logo-lettres-small.jpg
Ametist 2 Logo oiseau.jpg
Revue Ametist
Numéro 2 (2008)
Numéro spécial archives ouvertes


Bilan d’une enquête sur les archives ouvertes dans les établissements d’enseignement supérieur et de recherche

Compléments
* Webographie
Caroline Bruley,i
caroline.bruley@adm.univ-lyon1.fr
Nolwen Huet,ii
nolwen.huet@insa-lyon.fr
Jérôme Kalfon,iii
jerome.kalfon@univ-paris5.fr
Gaid Thirion.iv
gaid.thirion@univ-rennes2.fr
  • i - Service Système d’Information Bibliothèque Electronique du Service Commun de Documentation de l’Université Lyon 1.
  • ii - Centre de documentation scientifique INSA de Lyon.
  • iii - Direction du Service Commun de la Documentation de l’Université René Descartes
  • iv - Cellule de Diffusion Electronique des Travaux de la Recherche du Service Commun de Documentation de l’Université Rennes 2.


Mots-clés 
archives ouvertes, résultat, enquête, gestion projet, publication scientifique, universités, France.
Keywords 
open archives, result, survey, project management, scientific publication, universities, France.
Résumé 
Cet article présente de façon synthétique les résultats d’une enquête sur les archives ouvertes institutionnelles menée en avril 2007 par le groupe de travail sur les archives ouvertes de Couperin auprès des établissements d’enseignement supérieur et de recherche membres du consortium. Ce sont principalement la gestion de projet ainsi que le contenu et les fonctionnalités de l’archive qui ont été étudiés.
Abstract 
This article synthesizes the results of a survey about open archives which the Couperin open archive workgroup carried out in April 2007 with research Couperin members. The study was mainly about project management, what to put in the archive and how to achieve it.

Origine et objectifs de l’enquête

Le consortium français Couperin est une association de mutualisation regroupant différentes structures. L’objectif initial de Couperin est la négociation au meilleur prix des conditions de vente des périodiques électroniques pour ses membres, mais cet objectif s’est considérablement élargi et Couperin contribue aujourd’hui à donner les instruments de la maîtrise intellectuelle et matérielle des conditions stratégiques et technologiques de la publication et de la diffusion de l’IST aux établissements publics de l’enseignement supérieur et de la recherche. Parmi ces 210 membres, nous trouvons l’ensemble des universités françaises, plus de 70 écoles supérieures, des organismes de recherche et d’autres organismes. Cette association est constituée d’un conseil d’administration, d’un bureau professionnel et de 2 départements dont le département « études et prospective » qui est chargé des dossiers concernant les systèmes d’information documentaire, l’archivage pérenne, l’accès intégré aux ressources électroniques, l’accès aux ressources alternatives, les publications en ligne des établissements et les archives ouvertes.

Le groupe de travail sur les archives ouvertes (GTAO) de Couperin, constitué en fin d’année 2006 au sein du département Etudes & Prospective du consortium Couperin, souhaitait mieux connaître la réalité des établissements (universités et grandes écoles) dans leur démarche d’archives ouvertes, chacun en étant à des phases très différentes de réflexion ou de mise en œuvre. Afin de mettre en commun le travail déjà accompli et de créer une base de connaissance autour des archives ouvertes, une enquête a été lancée.

Elle visait à dresser un panorama des réalisations et des projets d’archives ouvertes de la recherche. Il faut entendre par là, les réservoirs de documents numériques mis en place par les établissements pour stocker et diffuser la production scientifique institutionnelle, dans un esprit d’interopérabilité et de partage des informations avec d’autres applications internes ou externes.

Les documents regroupés dans des archives ouvertes (AO) peuvent être de natures différentes : des publications d’articles dans leurs versions successives (prépublications, articles, post-publications), en passant par les thèses, à tout autre type de documents produits par les établissements d’enseignement supérieur et de recherche. Si les premiers sont considérés comme ayant vocation naturelle à figurer dans des réservoirs d’archives ouvertes au sens « canonique » du terme, les projets des établissements, à mesure qu’ils construisent leur système d’information et leurs environnements numériques de travail, abordent la question en intégrant une grande variété de productions : documents pédagogiques, mémoires, rapports, littérature grise, etc.

L’enquête visait à faire un premier état des lieux des diverses initiatives prises dans les établissements de l’enseignement supérieur français. Elle ne pouvait qu’aborder l’ensemble des projets, quels que soient les types de documents (avec une orientation recherche), les modalités d’entrepôts, la localisation des réservoirs, leur articulation entre archives locales, inter établissements, thématiques ou nationales.

Les réponses de l’enquête nous confirment l’utilité de cette approche. En effet, dans bien des établissements les projets de communication directe entre chercheurs sont intégrés dans une démarche plus vaste, que ce soit relatif au type de documents déposés et aux modalités de dépôt, voire relatif au lieu de stockage lui même.


Modalités de réalisation et principes de dépouillement

L’enquête a été ouverte le 6 avril 2007 et s’est terminée le 3 mai. Elle était disponible en ligne, sous la forme d’un formulaire web à remplir. C’est le logiciel libre PHPSurveyor[1] qui a été utilisé pour la mise en ligne et la récupération des données. L’intégralité du formulaire est disponible en annexe des résultats de l’enquête publiés sur le Wiki du GTAO[2].

L’invitation à répondre à cette enquête a été envoyée aux services de documentation et aux services informatiques de tous les établissements de recherche français, via les listes Couperin, ADBU (Association des directeurs de bibliothèque universitaire) et gouv.fr. L’objectif était que chaque établissement réponde une seule fois par projet en sollicitant les différents services qui ont participé au projet d’archives ouvertes afin d’avoir une vision transversale de la démarche adoptée.

Les établissements ayant à l’étude ou en cours plusieurs projets d’archives ouvertes distincts en termes de types de documents concernés et de délais de mise en œuvre (un réservoir de thèses en ligne déjà opérationnel et un projet de mise en ligne de la production des chercheurs à l’étude, par exemple) ont été priés de remplir un questionnaire par projet.

Le questionnaire comportait des questions fermées et des questions ouvertes. Les questions fermées ont fait l’objet de croisement, selon trois critères :

  • Le domaine disciplinaire de l’établissement : Sciences et Médecine (SM), Sciences Humaines et Sociales et Droit (SHS/D) ou Pluridisciplinaire (à la fois SM et SHS/D).
  • Le degré d’avancement du projet : niveau 1 (phase de réflexion et projet en cours d’élaboration) ou niveau 2 (phase de mise en œuvre et archive ouverte en service).
  • Le type de projet : Thèses (pour thèses de doctorats et/ou thèses d’exercice et/ou HDR (habilitation à diriger des recherches) et/ou mémoires, associés ou pas aux autres types de documents à l’exclusion des publications) ; Publications (pré et post publications, associées ou pas aux autres types de documents à l’exclusion des thèses de doctorats, thèses d’exercice, HDR, mémoires) ; Mixte (Thèses et Publications) ; Autres (tous les types de documents à l’exclusion de ceux définis pour thèses et publications).

Quatre questions nécessitaient obligatoirement une réponse : le nom de l’établissement, son statut, son domaine disciplinaire et l’état d’avancement du projet.


Informations générales sur les établissements ayant répondu à l’enquête

Quatre vingt six questionnaires ont été remplis par 74 établissements. Il était possible de remplir plusieurs questionnaires, un par projet d’archives ouvertes : huit établissements ont répondu deux fois et deux établissements ont répondu trois fois. Un peu plus d’un tiers des établissements membres de Couperin a répondu. Quelques sondages très ponctuels ainsi qu’une certaine connaissance du terrain nous permettent de dire qu’a priori la grande majorité des établissements actifs dans le domaine des AO a répondu et que, par conséquent, parmi les établissements n’ayant pas répondu, on en trouvera peu ayant entrepris des initiatives dans ce domaine.

Avec un nombre encore faible d’établissements actifs ou en phase de l’être (voir chapitre « avancée des projets »), mais à peu près autant d’établissements avec des projets en phase préparatoire, le paysage des archives ouvertes dans les établissements français peut être caractérisé comme un secteur en émergence, promis à une expansion rapide.

Soixante deux pour cent des établissements ayant répondu à l’enquête sont des universités et 21 % des grandes écoles[3].

Figure 1 - Statut des établissements

Quarante quatre pour cent des établissements ayant répondu sont pluridisciplinaires, 36 % sont des établissements à disciplines scientifiques et/ou médicales et 20 % enseignent les SHS et/ou le droit.

Le panel obtenu semble donc être représentatif, tant du point de vue quantitatif que qualitatif. En effet, sur environ 200 membres que compte Couperin, plus d’un tiers a répondu à cette enquête et nous pouvons supposer que ces 75 établissements correspondent à la grande majorité des établissements actifs en termes de projet d’archives ouvertes.

De plus, cette représentativité se révèle également significative quant à la typologie des établissements, tant pour le statut de ces institutions que pour les disciplines qui y sont enseignées.

Il convient toutefois d’envisager la possibilité que l’absence de réponse de certains établissements reflète leur absence d’engagement dans le type de projet abordé dans cette étude. Aussi, nous ne pouvons nous permettre d’extrapoler les résultats obtenus de façon proportionnelle.

Cependant, compte tenu des éléments évoqués précédemment, nous pouvons supposer que les résultats présentés et analysés ici nous offrent une image relativement fidèle de la situation actuelle des archives ouvertes institutionnelles en France. Autrement dit, cette enquête d’envergure nationale semble tout à fait légitime en tant que matière première en vue d’une ébauche de bilan.

Un petit bémol néanmoins quant à l’analyse et l’interprétation des résultats : ce sont les SCD et centres de documentation qui ont majoritairement répondu au questionnaire (68 questionnaires ont été remplis par ces seuls services). Viennent ensuite les services informatiques (8) alors même que cette enquête suscitait initialement une réponse conjointe des services impliqués. Si la prépondérance des réponses en provenance des services de documentation nous permet d’envisager leur forte implication dans les divers projets de déploiement et de maintien d’archives ouvertes (tendance qui se confirmera au fil des résultats comme nous le verrons ultérieurement), nous pouvons nous demander si cette tendance n’est pas symptomatique d’un manque de communication entre les services. Enfin, nous nous devons d’en tenir compte pour l’interprétation de certaines réponses en nous interrogeant quant à l’objectivité des données qui nous ont été fournies.


Informations générales sur les projets d’archives ouvertes

Cinquante trois pour cent des établissements en sont encore à une phase de réflexion ou d’élaboration du projet (niveau 1), tandis que 47 % sont en phase de mise en œuvre ou disposent d’une archive ouverte en service (niveau 2). Comme nous l’avons signalé, une telle proportion de projets en cours d’élaboration caractérise les domaines en émergence. Actuellement, 29 % des établissements ayant répondu déclarent posséder une archive ouverte en service et 15 autres établissements devraient prochainement les rejoindre. Si le résultat de 47 % des établissements en Phase 2 peut se révéler encourageant et nous autoriser à un certain optimisme, il convient toutefois de préciser qu’il s’agit encore d’une démarche relativement récente »[4] qui se construit principalement sur la production scientifique courante. Ce caractère nouveau implique des changements dans les pratiques de travail des chercheurs et enseignants chercheurs, nous verrons ultérieurement où ils en sont quant à l’assimilation du dépôt dans leur quotidien.

Les établissements de SHS/Droit en sont plutôt à la phase 2, contrairement aux établissements pluridisciplinaires et de Sciences/Médecine.

Nombre d’établissements concernés Pourcentages
Etape 1 : Réflexion globale sur les archives ouvertes 21 25 % 53 %
Etape 2 : Projet en cours d'élaboration
(constitution de groupes de travail, enquêtes, prospective)
24 28 %
Etape 3 : Mise en œuvre de l'archive ouverte
(installation/ouverture des applications, phase de test)
15 18 % 47 %
Etape 4 : Archive ouverte en service 25 29 %
Tableau 1 – Etat d’avancement des projets
Figure 2 - Croisement entre le degré d'avancée du projet et la discipline de l'établissement

Cinquante quatre virgule cinq pour cent des répondants ont inscrit leur projet dans leur contrat d’établissement, 18,5 % ne l’ont pas fait et les 27 % restant sont sans réponse. Alors que dans la plupart des cas, les projets d’AO sont légers en termes de moyens financiers et informatiques, et donc démarrent sur des budgets de fonctionnement courant, plus de la moitié ont inscrit leur projet dans leur contrat d’établissement. Cela illustre probablement l’importance de la volonté et du pilotage politique pour voir ces initiatives aboutir.

Le paysage se caractérise aussi par la variété des configurations : projet d’établissement, articulé ou non avec un échelon national ou encore projet inter établissements, comme c’est le cas pour 16 des réponses reçues. Ces divers niveaux d’intervention apparaissent comme complémentaires et non contradictoires. Ainsi les initiatives locales enrichissent et nourrissent les initiatives nationales et inversement.

Le faible chiffre des projets inter établissements peut s’expliquer par le fait qu’une telle démarche n’est pas neutre du point de vue de la gestion de projet (plus de contraintes en termes techniques, politiques, économiques, chronologiques, etc.). Néanmoins, cet aspect « mutualisation » nous permet de pointer une problématique d’actualité qui peut soulever de nombreuses questions : quid de la notion d’inter établissements et d’identité dans le cadre des PRES (Pôles de recherche et d’enseignement supérieur) ?


Gestion de projet

Objectifs, difficultés et sensibilisation des publics

Parmi les objectifs ayant motivé la mise en œuvre d'un projet d'archives ouvertes, les établissements citent principalement la valorisation des travaux de recherche et de l’établissement (les chiffres du tableau correspondent aux nombres de citations) :

Objectif jugé
Très important Important Secondaire Sans Réponse
Valorisation des travaux de recherche 65 10 0 11
Valorisation de l'établissement 54 22 0 10
Enrichir/compléter le système d'information de votre établissement 45 22 4 15
Mise en évidence des travaux d'étudiants (thèses) 36 14 5 31
Création d'une archive patrimoniale 33 14 11 28
Mise en évidence des travaux d'étudiants
(mémoires, thèses d'exercice, rapport, etc.)
20 13 8 45
Communication directe entre chercheurs 19 24 14 29
Evaluation de l'établissement 17 21 13 35
Production d'indicateurs 16 27 9 34
Modèle économique alternatif de publication 14 18 18 36
Evaluation des publications 11 16 17 42
Evaluation par les pairs (peer review) 5 7 26 48
Tableau 2 – Objectifs pour la mise en œuvre du projet

Selon les types de projets, les objectifs divergent : les projets d’AO thèses/mémoires mettent l’accent sur la valorisation des travaux des étudiants et chercheurs, les projets d’AO de publication visent plutôt à enrichir le SI de l’établissement, et les projets mixtes souhaitent avant tout valoriser les travaux de recherche et leur établissement[5].

AO Thèses/ Mémoires AO Publications des chercheurs AO mixtes (thèses+publications) Autres projets
Valorisation des travaux de recherche 19,4 % 14,3 % 21,4 % 33,3 %
Valorisation de l'établissement 14,5 % 10,7 % 18,4 % 33,3 %
Enrichir/compléter le système d'information de votre établissement 10,5 % 17,9 % 12,2 % 33,3 %
Mise en évidence des travaux d'étudiants (thèses) 18,5 % 3,6 % 6,1 % 0
Création d'une archive patrimoniale 10,5 % 7,1 % 11,2 % 0
Mise en évidence des travaux d'étudiants
(mémoires, thèses d'exercice, rapport, etc.)
9,7 % 0 3,1 % 0
Communication directe entre chercheurs 4,8 % 10,7 % 6,1 % 0
Evaluation de l'établissement 2,4 % 3,6 % 6,1 % 0
Production d'indicateurs 3,2 % 3,6 % 6,1 % 0
Modèle économique alternatif de publication 4,0 % 14,3 % 4,1 % 0
Evaluation des publications 0,8 % 3,6 % 3,1 % 0
Evaluation par les pairs (peer review) 0 7,1 % 1,0 % 0
Autres objectifs 1,7 % 3,5 % 1,1 % 0
100 % 100 % 100 % 100 %
Tableau 3 – Répartition des objectifs pour la mise en œuvre du projet en fonction du type de projet

Les établissements ont précisé vouloir « favoriser la généralisation de l'accès ouvert parmi les enseignants chercheurs » et faire de l’AO un « outil de communication scientifique ». D’après leurs réponses, pour atteindre ce but, il fallait souvent commencer par des projets modestes (publication d’actes de colloques par exemple), afin d’initier le processus, tout en effectuant un gros travail de sensibilisation et de formation, souvent long et consommateur de temps. Autre objectif jugé important : l’interopérabilité.

Parmi les difficultés rapportées dans les réponses, les carences portent principalement sur la communication institutionnelle, l’implication des chercheurs, la volonté politique. Par contre, les compétences techniques et l’aspect budgétaire sont les points qui semblent poser le moins problème.

beaucoup un peu pas de difficulté
Communication institutionnelle insuffisante 18,4 % 18,9 % 7 %
Implication des chercheurs / auteurs insuffisante 19,4 % 18,9 % 7 %
Coordination entre services insuffisante 13,3 % 15,3 % 13,9 %
Compétences techniques / informatiques insuffisantes 7,1 % 11,7 % 23,5 %
Montage budgétaire difficile 6,1 % 7,2 % 24,3 %
Volonté politique insuffisante 16,3 % 13,5 % 15,7 %
Communication institutionnelle insuffisante 19,4 % 16,3 % 9,6 %
Tableau 4 – Difficultés rencontrées lors de la mise en œuvre du projet

Cette vision diffère légèrement selon les types de projets : pour les projets de thèse, la communication institutionnelle est beaucoup moins problématique que pour les projets de publications ou mixtes. Et pour les projets de publications, la coordination entre services est perçue comme nettement insuffisante, alors qu’elle ne pose majoritairement aucun problème aux projets de thèses.

Pour sensibiliser les chercheurs et les doctorants au dépôt dans l’archive, ce sont les actualités sur les sites web des établissements, ainsi que les réunions d’information qui sont principalement utilisées. Les projets mixtes ont également opté pour des rencontres sur site. La mise en place de formations (aux feuilles de style notamment) est aussi un bon moyen de sensibiliser les auteurs. D’autres utilisent messagerie, gazette et intranet de l’établissement pour transmettre l’information. Il a été aussi souligné plusieurs fois que des comptes rendus réguliers en Conseil Scientifique et lors de réunions de direction permettaient de faire circuler l’information. La manière la plus efficace reste néanmoins la relance individuelle, que le manque de moyens humains rend généralement difficile.

Les grandes étapes des projets d’archives ouvertes

Il s’agissait ici de savoir comment s’était déroulé le projet. Les réponses prises en compte sont celles des établissements ayant un projet abouti (niveau 2). Peuvent être distingués les établissements ayant adopté une démarche empirique « créant le mouvement en marchant » et ceux ayant adopté une démarche projet. Les deux démarches ne sont pas incompatibles, certains établissements démarrent avec un projet simple, adoptent une technologie parce qu’existante et disponible (par exemple HAL – Hyper article en ligne) et poursuivent par ailleurs une démarche projet s’inscrivant dans un temps plus long (intégration dans l’ENT – Environnement Numérique de Travail – de l’établissement, construction d’un système d’information...).

Démarches le plus systématiquement signalées 
sensibilisation/ présentation du projet en conseil scientifique
> étude d’opportunité
> étude des pratiques, des chercheurs, des doctorants et des écoles doctorales
> analyse et révision du workflow
> constitution de groupes de travail (technique, documentaire, communication et juridique).
Démarche projet 
inscription au contrat quadriennal, recherche de financement
> enquête besoins > rédaction cahier des charges
> scénarios d’utilisation
> développement
> description des métadonnées.
Adoption d’une solution préexistante 
étude technique
> phase expérimentale
> adaptation de l’outil (francisation des interfaces, personnalisation, etc.)

En ce qui concerne le calendrier adopté, la diversité et le caractère parfois lacunaire des réponses n’ont pas permis de dégager des lignes de force. Néanmoins une amorce de typologie peut être avancée en distinguant :

  • Les projets courts (minimum neuf mois) : les projets rapidement mis en œuvre reposent sur l’adoption d’une solution clé en mains, type HAL, pour laquelle une simple adaptation et personnalisation est nécessaire.
  • Les projets dépendant d’un calendrier externe (deux ans et plus) : les projets s’intégrant dans un ENT, ou intégrés à un système d’information, et dont les AO ne sont que l’une des composantes de l’ensemble adoptent le calendrier de réalisation de cet ensemble.
  • Les projets spécifiques : ils se caractérisent par une très grande variété de situations et sont plus difficilement catégorisables.

Les acteurs du projet et le workflow

Toutes phases confondues, les acteurs les plus actifs dans la gestion de projet d’AO sont les bibliothécaires/documentalistes. Viennent ensuite les informaticiens de SCD (Services communs de documentation) et les services informatiques de l’établissement. Les équipes présidentielles et conseils scientifiques sont surtout sollicités au moment de la réflexion globale sur le projet, dont ils sont souvent à l’origine.

Figure 3 - Pourcentage de participation de chaque acteur en fonction des phases du projet d'AO

Parmi les autres types d’acteurs sollicités, on trouve des cellules TICE (Technologies de l’information et de la communication pour l’éducation), des informaticiens et directeurs de laboratoire, des Presses universitaires, les services des études et de la scolarité ou encore les cellules communication et, ponctuellement, des stagiaires (juristes notamment).

Lorsqu’on analyse ces données par discipline de l’établissement, les résultats sont relativement similaires : des services documentaires et informatiques très impliqués, et des enseignants chercheurs souvent sollicités.

Lorsqu’on croise ces mêmes données avec le type de projet, il apparaît de façon logique une plus forte implication des écoles doctorales dans le cas de projet d’AO de thèses, et des secrétariats de laboratoires et composantes dans les projets d’AO de publications des chercheurs. Les services informatiques de l’établissement sont plus sollicités dans le cas de projets d’AO de publications que de thèses, de même que les enseignants chercheurs.

En ce qui concerne les workflow (ou procédures), 70 % des 40 établissements ayant répondu à la question ont défini un ou des workflow de saisie dans leur archive, en particulier pour les projets de mise en ligne mixte ou de publication.

Globalement, deux types de workflow sont utilisés :

  • Pour les thèses, le doctorant dépose, le contenu est validé par le tuteur/l’école doctorale, le service de documentation intègre les métadonnées et la thèse est mise en ligne. Parfois, le dépôt passe par STAR et le texte intégral et les métadonnées sont reversées directement dans l’application locale.
  • Pour les publications, l’auteur dépose et complète les principales métadonnées, en particulier auteur et discipline. Une validation est parfois appliquée par le laboratoire ou le directeur de recherche. Les services de documentation complètent les métadonnées et améliorent parfois le stylage du document avant sa mise en ligne.

Les acteurs du workflow sont principalement les services de documentation et les enseignants chercheurs et étudiants. Les services de documentation sont moins sollicités lorsqu’il s’agit de modération scientifique[6].

Figure 4 - Participation des services aux différentes phases de dépôt dans l'archive

D’autres acteurs ont également été cités :

Phases Autres acteurs impliqués dans les différentes phases du workflow
Dépôt du document
Service général des publications, cellule TICE, directeurs de laboratoire, service de la recherche et des études doctorales
Modération métadonnées
Jury, Presses Universitaires, CCSD[7], service juridique, service de la recherche et des études doctorales
Modération juridique
Jury de thèse, service des relations industrielles, CCSD, Presses Universitaires, service de la recherche et des études doctorales
Modération scientifique
Jury de thèse, directeurs de labo/département, comité de lecture, CCSD, Presses Universitaires, Présidence de l’établissement
Validateur final
Service des relations industrielles, CCSD, Presses Universitaires, CS/Comité Stratégique
Tableau 5 – Autres acteurs du workflow

On pourrait supposer qu’une fois les applications mises en place, ces champs seront réinvestis directement par les auteurs pour parvenir à une communication scientifique directe. Mais le tableau montre le contraire : en phase de fonctionnement, la part des bibliothèques est plus importante que dans les phases précédentes.

Toutes phases confondues, les proportions changent lorsqu’on trie les résultats par type de projet : les écoles doctorales et les services informatiques ne sont pas sollicités dans les projets publications, à l’inverse des secrétariats de laboratoires et des enseignants chercheurs. Les services de documentation sont globalement très sollicités, mais un peu moins dans le cas de projets liés aux publications :

Figure 5 - Sollicitation des services toutes phases confondues, en fonction du type de projet (en pourcentage)

Certains workflow connaissent une évolution entre leur conception théorique et leur mise en pratique. Un établissement précise ainsi pour son workflow publications qu’« au départ l'intervention des secrétaires de laboratoires comme déposants n'était pas prévue, ni souhaitée. C'est ce qui se pratique cependant, pour deux laboratoires au moins (biologie et sciences de la terre) ».

Dans le cas de dépôt dans HAL, on peut considérer deux niveaux de validation finale, selon que l'on se situe au niveau du document déposé ou de l'interface institutionnelle « document déposé dans l'archive HAL SHS : Validateur final : modérateur HAL SHS (modération au niveau national, au moment du dépôt) ; estampillage institutionnel : documentaliste recherche de l'établissement ».

Malgré des typologies de projet et des temporalités qui diffèrent, nous constatons donc la présence marquée d’un acteur central tout au long du projet dont la forte implication a déjà été évoquée précédemment : le bibliothécaire-documentaliste. Il s’agit généralement d’une même petite équipe à profil « informatique-documentaire » (parfois réduite à une ou deux personnes), qui est souvent sollicitée comme référent pour le déploiement et le maintien des différents projets d’archives ouvertes. Le bibliothécaire-documentaliste devient ainsi la personne ressource en la matière, et ce même lorsque l’archive est en service. En effet, les résultats nous montrent que les auteurs ne réinvestissent pas directement la place qui devrait être la leur en phase de fonctionnement. Au contraire, c’est alors que les bibliothécaires-documentalistes se déclarent le plus sollicités, entre autres dans la procédure de dépôt. Cependant il semble difficile de déterminer si c’est l’offre de service de la part de la bibliothèque ou la demande émanant des chercheurs qui crée cette situation.

Que cette forte implication des professionnels de la documentation soit vue de façon positive ou négative par les autres acteurs des archives ouvertes, celle-ci s’avère indéniable et dénote l’évolution incontournable des missions de ces professionnels vers l’informatique documentaire[8], appelant ainsi à de nouvelles compétences et une mise à niveau constante. Cette tendance semble être assimilée par les bibliothécaires-documentalistes. En effet, l’absence flagrante de difficultés liées aux compétences techniques/informatiques insuffisantes nous démontre que le professionnel de la documentation sait s’adapter à un environnement technologique de plus en plus intuitif et ergonomique. Il semble également savoir s’entourer de personnes ressources compétentes pour mener à bien de tels projets.


Contenu et fonctionnalités de l’archive

Comme précisé en introduction, les types de documents déposés dans l’archive ont été synthétisés en quatre grandes familles : les projets de dépôt de publication, de thèses, mixtes et d’autres types de documents que les publications et les thèses. Les projets d’archives de thèses sont les plus nombreux. Sur les 61 projets pour lesquels une réponse était indiquée, la répartition selon le type de documents déposés s’effectue ainsi :

Figure 6 - Répartition selon le type de projet

Les établissements pluridisciplinaires sont à l’origine de nombreux projets d’AO de thèses, en niveau 1 comme en niveau 2. Les établissements à dominante scientifique et médicale sont plutôt des projets mixtes et de thèse qui sont en niveaux 1 et 2.

En ce qui concerne les documents obligatoires et interdits :

  • 22 projets sur 86 (26 %) refusent certains types de document. Parmi eux, 20 % des projets sont de niveau 1 et 33 % de niveau 2.
  • 19 projets sur 86 (22 %) obligent le dépôt de certains documents. Parmi eux, 13 % sont de niveau 1 et 33 % de niveau 2.

En ce qui concerne la proportion de dépôt en texte intégral :

Figure 7 – Proportion de documents en texte intégral stockés dans l’archive par rapport aux notices

Plus particulièrement, au cours des 12 derniers mois, sur les 33 projets ayant précisé le nombre de dépôts de documents en texte intégral effectués (même s’ils sont frappés d’embargo[9]), la répartition s’effectuait ainsi :

Nombre de documents déposés Nombre de projets concernés
0 à 100 18
101 à 200 5
201 à 300 4
301 à 400 3
401 à 500 1
plus de 500 2
Tableau 6 - Dépôt des documents dans l'archive sur les 12 derniers mois

Plus de la moitié de ces projets ont eu un nombre de dépôts inférieur à 100 documents dans les douze derniers mois. Et parmi les projets dont le dépôt se situe entre 0 et 100 documents, cinq n’ont eu aucun dépôt dans les 12 derniers mois. De manière globale, la masse totale de documents en texte intégral (même s’ils sont frappés d’embargo) présents dans l’archive se répartit ainsi, pour les 39 projets qui ont répondu à cette question :

Nombre de documents présents Nombre de projets concernés
0 à 500
28
1000 à 1500
1
500 à 1000
6
plus de 1500
4
Tableau 7 - Documents présents dans l'archive

Les quatre projets de plus de 1 500 documents en texte intégral, ont respectivement 3 000, 5 600, 11 300 et 19 545 documents. Cinq projets n’ont aucun document en texte intégral (quatre sont de niveau 1). Si l’on compare avec la moindre base bibliographique et la plupart des produits commerciaux acquis par les établissements, les chiffres présentés apparaissent comme faibles et n’atteignant pas, a priori, la masse critique. Mais cet a priori se trouve contredit par des niveaux de consultation très significatifs eu égard à l’offre. Ces chiffres témoignent d’une demande potentielle très importante.

Neuf projets ont précisé la consultation mensuelle moyenne de l’archive depuis son ouverture. Ce sont tous des projets de niveau 2 qui concernent des dépôts de thèses ou mixte. La fréquentation indiquée se situe entre 200 et 130 000 consultations mensuelles moyennes. Même si le nombre de documents présents dans les archives n’est pas forcément très important, le nombre de consultations pour les projets qui ont fourni l’information est, lui, élevé. Un projet de niveau 2 a indiqué zéro visite.

Au vu de ces données, il semblerait que le dépôt ne soit pas encore assimilé comme une habitude de travail par les potentiels déposants. Outre le fait que très peu d’établissements obligent le dépôt dans des archives ouvertes (le caractère obligatoire touche essentiellement les projets d’archives de thèses), l’absence de pratique semblerait principalement liée à une méconnaissance du sujet et/ou à des réticences récurrentes pas toujours justifiées : le risque de plagiat, les questions de propriété intellectuelle et le dépôt en lui-même souvent envisagé difficile et/ou consommateur de temps par les auteurs. Il est donc nécessaire pour les établissements qui déploient de tels projets de consacrer des moyens conséquents à la communication, à la formation et à l’assistance afin que le dépôt dans les archives ouvertes devienne une habitude de travail. Toutefois, certaines archives ne peuvent se déployer plus vite, même avec un dépôt obligatoire, dans la mesure où elles ne se construisent que sur une production spécifique courante (par exemple les thèses).

Soulignons d’ailleurs que cette enquête ne s’est pas intéressée de façon précise à l’aspect rétrospectif des dépôts. Si cette pratique semble exister au niveau individuel, qu’en est-il au niveau institutionnel ? Il s’agit là d’une problématique qu’il conviendrait d’aborder plus en détail dans une éventuelle étude ultérieure.

Tout cela nous conduit à nous interroger sur l’évolution du concept même d’archives ouvertes : quid du principe premier de la communication scientifique directe à la base d’une archive ouverte, comme ArXiv par exemple, lorsque le dépôt est institutionnalisé, assisté voire rendu obligatoire ? Malgré cette interrogation, l’un des objectifs premiers des archives ouvertes semble être atteint : le fort taux de consultation démontre que les archives ouvertes appartiennent d’ores et déjà aux sources d’information, de recherche et de veille des communautés de chercheurs.


Dimension informatique et réseaux

On constate une très grande diversité illustrée par le nombre important d’applications n’apparaissant qu’une seule fois (Cadic, Castore, Cyberthèses, Documentum, Flora, Greenstone, Incipio(archimed), Loris, Mediaview, Moodle Claroline, PKP, Publishing, SIGB-Aleph). On distingue deux groupes principaux d’applications :

  • HAL et les projets qui en sont dérivés, en particulier pour les AO d’articles ou mixtes.
  • Les applications centrées sur les thèses (STAR, TEL…).
Nom de l’application Nombre de citations
HAL 8
CYBERDOC 6
E-PRINTS 6
ORI OAI 3
STAR 2
TEL 2
DSPACE 2
CMS LODEL 2
Autres divers[10] 13
Tableau 8 – Applications utilisées pour le projet

Ces applications utilisent pour la plupart des technologies open source, en particulier dans le cas de projets de thèses :

Articles ou mixte Thèses Total
Open source 9 12 21
Système propriétaire 5 3 8
Développement maison 2 1 3
Autre[11] 4 1 5
Sans réponse 2 1 3
22 18 40
Tableau 9 - Types de technologies utilisées pour le projet
Figure 8 – Croisement entre la technologie et le type projet

Les données s’échangent majoritairement via le protocole OAI PMH (71 %), viennent ensuite les Webservices (21 %) et l’Open URL (8 %). Certains établissements effectuent des exports manuels.

Douze pour cent des projets proposent d’exporter des données, 20% d’importer et d’exporter des données. Aucun projet ne propose d’importer uniquement des données.

Seize projets ont précisé le coût global « machine » estimé de l’installation de l’archive. Les prix donnés se situent entre 0 € et 95 000 €. Ce dernier chiffre correspondant à l’ensemble de l’application « Système d’information documentaire » d’un établissement, et non au projet AO proprement dit. On peut en conclure qu’un projet d’archive ouverte peut ne pas être contraignant d’un point de vue financier, sauf s’il est inclus dans un projet plus vaste, donc plus coûteux.

Pour les 45 projets ayant précisé le degré d’intégration de l’archive dans le système d’information global de leur établissement, la répartition s’effectue ainsi :

Figure 9 - Intégration des projets dans le système d'information

Pour les intégrations totales, le projet d’archives ouvertes s’intègre dans l’ENT de l’établissement ; pour les intégrations bonnes et moyennes, il est accessible au travers de l’ENT de l’établissement ; pour les projets peu ou pas intégrés, ils ne sont reliés qu’aux systèmes d’authentification ou sont indépendants. Mais au final, l’intégration de l’archive dans le SI des établissements est relativement faible ; cette tendance justifie d’autant plus la réflexion et le travail actuels sur des outils tels que ORI-OAI (Outil de Référencement et d’Indexation, réseau de portails OAI). Si la notion de démarche globale, de dépôt centralisé, de mutualisation au sein d’un établissement n’est pas encore une réalité, elle pourrait le devenir à moyen terme. Néanmoins, la forte utilisation de technologies comme l’OAI-PMH et les webservices montrent que les établissements semblent conscients de l’importance de la visibilité et de l’interopérabilité de leur archive.

Pour finir, sur 41 réponses, 34 ont indiqué avoir un système de sauvegarde et/ou d’archivage pérenne des données dans l’archive. Les différents systèmes cités sont : un archivage assuré par le CCSD (CNRS-CCSD), par le CINES, au travers du projet STAR, la conservation des supports CD, une ou des sauvegardes en local (par robot, par Time Navigator ; sur bande ou sur serveur).

Vingt huit pour cent des projets lient leur archive ouverte à d’autres plateformes ou d’autres applications externes à l’établissement ; tandis que 23 % indiquent qu’elle n’est liée à aucune autre plateforme ou application externe à l’établissement. Les plateformes et applications citées sont : HAL, STAR, ArXiv, archives.eprints.org, TEL, OAISTER, Persée, PUBMED, Sudoc, plateforme de diffusion du CINES, GRAAL, Revues.org, ainsi que des applications locales (Base de GED des Hospices Civils de Lyon, Ecole Centrale de Lille). Certains projets ne se prononçant pas sur la question « l’AO est-elle liée à d’autres plateformes ou d’autres applications externes à l’établissement (notamment HAL) ? » ont précisé néanmoins qu’ils souhaiteraient lier leur archive ouverte aux plateformes HAL ou STAR.


Conclusion

Le paysage des archives ouvertes dans les établissements membres de Couperin réunit de nombreuses caractéristiques typiques d’un nouveau domaine en forte croissance et disposant d’un fort potentiel de développement.

Quantitativement, un tiers des établissements est impliqué dans au moins un projet d’archives ouvertes. C’est à la fois un chiffre faible dans l’absolu, mais significatif compte tenu du caractère relativement récent des AO. Le nombre de projets en phase de démarrage (la moitié) laisse prévoir un accroissement rapide du secteur.

Le nombre de dépôts est encore faible, peu de projets sont d’ores et déjà opérationnels et l’on ne peut pas considérer que la masse critique ait été atteinte. Et pourtant la demande est présente, témoignant du fort potentiel de rayonnement des établissements à travers les diverses initiatives d’archives ouvertes des établissements (publications, thèses, documents pédagogiques,…).

Les initiatives démarrent généralement plus ou moins isolément et l’articulation avec les environnements numériques de travail demeure relativement faible. Mais il convient de relativiser cette marginalité. En effet, d’une part, certains établissements peuvent envisager d’intégrer a posteriori leur(s) AO dans leur ENT, d’autre part les projets intégrés nativement dans les ENT sont, par nature, plus longs à mettre en œuvre et dans bien des cas n’ont pas encore abouti.

L’un des fondements des AO repose sur la volonté de communication scientifique directe entre chercheurs. Le retour de diverses formes de médiation peut être perçu comme contrevenant à cette volonté. Le nombre de projets « mixtes » développés par les établissements tend à illustrer le fait que médiation et communication directe entre chercheurs ne sont pas contradictoires mais complémentaires. Cette médiation peut intervenir lors de la phase de dépôt ou postérieurement, selon des modalités qui peuvent varier, notamment en fonction du domaine et des pratiques disciplinaires, du type de documents déposés, des dispositifs mis en place.

La complexité du paysage de l’enseignement supérieur et de la recherche en France n’épargne pas le domaine des AO. Nous y trouvons des environnements à géométrie variable avec un enchevêtrement des niveaux d’intervention : local, inter-établissements, régional, thématique, ou encore liés à la tutelle des établissements. Bien que cette situation ne soit pas sans conséquences du point de vue de la gestion de projet, l’existence de protocoles d’interopérabilité qui fondent les AO permet de penser que les convergences peuvent s’effectuer progressivement. Ainsi des projets aux temporalités différentes pourront se rejoindre, ou si nécessaire, diverger.

Réalisée neuf mois après la signature du Protocole d’accord en vue d’une approche coordonnée, au niveau national, pour l’archivage de la production scientifique, cette enquête présente le mérite de faire un premier état des lieux pour les établissements d’enseignement supérieur et de recherche. Mais les chiffres bruts ne deviennent riches d’enseignement que si l’on peut les comparer. La mesure des évolutions sera aussi utile que les données brutes. Une reconduction de l’enquête, selon une périodicité à définir (probablement 18 mois à 24 mois) sera certainement très utile et permettra de mesurer les évolutions, confirmer ou contredire ce qui est perçu aujourd’hui comme une tendance forte. Sans exclure de la faire évoluer à la marge, il serait utile d’en maintenir au maximum la structure afin de disposer d’outils de comparaison. Parmi les compléments qui apparaissent d’ores et déjà utiles, on signalera la question du dépôt rétrospectif, le dépôt direct par les chercheurs ou via les institutions, ainsi que l’approfondissement de la question des projets inter établissement.


Bibliographie

  • [1] BRULEY Caroline, HUET Nolwen, KALFON Jérôme, THIRION Gaid. Résultats de l’enquête sur les projets d’archives ouvertes de la recherche dans les établissements du consortium Couperin [en ligne]. Disponible sur :
    < http://gtao.wikidot.com/resultats-enquete >. (Consulté le 16.07.07).

Notes

  1. < http://www.phpsurveyor.org/ >
  2. BRULEY Caroline, HUET Nolwen, KALFON Jérôme, THIRION Gaid. Résultats de l’enquête sur les projets d’archives ouvertes de la recherche dans les établissements du consortium Couperin [en ligne]. Disponible sur : http://gtao.wikidot.com/resultats-enquete (Consulté le 16.07.07)
  3. Pour rappel :
    • EPSCP = Etablissements Publics à caractère Scientifique, Culturel et Professionnel
    • EPA = Etablissement Public à caractère Administratif
    • EPST = Etablissements Publics à caractère Scientifique et Technologique (organisme de recherche)
    • EPIC = Etablissement Public à caractère Industriel et Commercial
  4. Pour se repérer chronologiquement au niveau national : HAL a été créé en 2001 et HAL-SHS fin 2004 – début 2005.
  5. La répartition des projets par type de documents déposés est détaillée dans la partie 6 #Contenu et fonctionnalités de l’archive.
  6. Lors de la diffusion de l’enquête, le terme « modération » n’a pas été explicité. On peut donc supposer que chaque établissement l’a interprété selon ses pratiques : contrôle des saisies de métadonnées effectuées, contrôle de la ressource, conformité de la ressource aux métadonnées saisies, ajout de métadonnées supplémentaires…
  7. Centre pour la communication scientifique directe
  8. Nous pouvons supposer que leur investissement dans des projets tels que l’informatisation de structure, la numérisation de fonds, la gestion électronique de documents ont permis aux professionnels de la documentation de se familiariser avec ce milieu et de se mettre à niveau plus régulièrement
  9. Certaines archives ouvertes proposent aux auteurs de déposer leurs articles en ne les rendant accessibles qu’au bout d’un certain délai, défini par l’auteur et/ou l’éditeur de la revue dans laquelle il a publié. Ces documents sont signalés mais le texte intégral ne sera diffusé qu’à la fin de la période d’embargo.
  10. Correspond aux applications citées dans le paragraphe précédent qui n’ont été citées qu’une seule fois.
  11. Les établissements qui ont répondu « Autre » à cette question ont indiqué soit utiliser des applications qui ne sont pas installées localement : HAL ou STAR ; soit qu’il s’agit de développements propriétaires effectués à partir de technologies en open source