Nuvola apps important.png Attention, suite à une faille de sécurité, quelques liens vers les serveurs d'exploration sont désactivés.

-

Pour une politique ambitieuse des données publiques (2011) chapitre 6

De Wicri France
Logo ponts paristech.png
Pour une politique ambitieuse des données publiques :
Les données publiques au service de l’innovation et de la transparence


Partie 3 - Comment favoriser la réutilisation des données publiques ?
Chapitre VI. Abaisser les barrières à la réutilisation
RapportDonnéesPubliques2011.png

Afin d’encourager la réutilisation des données publiques et de permettre la concrétisation des conséquences positives que l’on peut en attendre, il est nécessaire d’abaisser autant que possible les barrières à la réutilisation.

Nous détaillons dans ce chapitre les défis et les difficultés qui peuvent se poser, ainsi que des pistes de solutions. Il s’agit essentiellement de répondre aux contraintes techniques de l’ouverture des données, d’en gérer la complexité juridique, d’anticiper son impact éventuel sur les institutions publiques, et de mettre en place les modèles économiques les plus propices à encourager l’innovation.

 

Répondre aux contraintes techniques

(i) Modèles et formats de données peuvent rendre la donnée plus utile 
L’un des objectifs de l’ouverture des données est de stimuler les activités construites à partir sur ces données. Il est crucial de diffuser les données à l’état brut, dans des formats ouverts et réexploitables[1].
La finalité et l’importance des questions de format doivent donc être clairement expliquées, et les processus de collecte et de recensement doivent être établis et assimilés par l’ensemble des opérateurs, ce qui nécessite un effort pédagogique soutenu.
(ii) Ergonomie de l'accès aux données
Une autre contrainte technique tient au besoin d’ergonomie et de simplicité qu’expriment les utilisateurs des outils de diffusion de données.
Le volume de données aujourd’hui hébergé sur certains sites, comme celui de l’INSEE, est tel que de nouvelles problématiques de recherche interactive sont soulevées.
La simplicité est le maître mot en la matière. Ed Parsons[2] de Google, en fait une exigence centrale :
« Les gens veulent accéder à l’information à travers des outils faciles d’emploi. Il faut que ces outils parlent leur langage, ne les oblige pas à utiliser une manière de procéder qui leur soit étrangère, ils veulent juste accéder à l’information dont ils ont besoin. L’infrastructure support est pour l’essentiel invisible pour les utilisateurs, tout comme celle qui est derrière une prise électrique ou derrière un robinet : elle est invisible derrière la page d’accueil de Google. »
Rendre simple et efficace un service en ligne exige d’anticiper les difficultés éventuelles d’ergonomie et de design d’interaction dès la phase de conception, en soumettant le projet des utilisateurs test. Cela implique aussi de gérer la complexité durant les phases ultérieures, pendant le développement comme lorsque l’outil fonctionne en production.
(iii) La complexité des données géographiques au cœur des évolutions futures du secteur
Les technologies géomatiques[3] permettent de superposer sur des fonds de carte des données cartographiques diverses, d’ajouter des couches d’informations variées (physiques, économiques, environnementales), et surtout de visualiser ces phénomènes et leur évolution en représentation spatiale, sur lesquelles le cerveau humain est capable d’inférences rapides et complexes.
Globalement, l’information géographique numérique est devenu un outil puissant d’analyse de données. Elle constitue aussi une donnée structurante pour la réutilisation de nombreuses autres données publiques ou pour la production de nouveaux services.
Traditionnellement, les cartes et les informations sur ces cartes étaient rangées séparément dans des cartothèques. La même organisation conceptuelle est reproduite sur les données géographiques numériques avec des efforts importants sur la structuration des données et des métadonnées.
Inspire, le portail environnement, le Géoportail couplé au Géocatalogue, les normes AFNOR, CEN et ISO sur l’information géographique et sur les métadonnées en sont autant d’illustrations[4]. Construire une infrastructure capable de gérer la complexité de l’information géographique tout en préservant la simplicité de l’interface est crucial pour faciliter la réutilisation des données.
(iv) Les nouveaux outils du Web des données
Face à la croissance toujours plus rapide des capacités de calcul et de stockage des centres de calcul des grandes entreprises du Web, le monde fait aujourd’hui l’expérience d’un véritable « déluge des données[5] ».
On estime que l’humanité, qui aurait produit 150 Exaoctets (150 milliards de Gigaoctets, soit à peu près 40 milliards de DVD) en 2005, créera 1,200 Exaoctets de données numériques nouvelles en 2011. Cette échelle de quantité de données à stocker et analyser crée de nouveaux défis et de nouvelles opportunités technologiques.
L’apparition du cloud computing[6] et le développement d’outils de traitement algorithmique des données à très grande échelle (par exemple Map/Reduce, Hadoop, et les outils Big Data[7]) vont permettre le stockage, le traitement et l’analyse de pans de données numériques d’une taille inimaginable jusqu’alors[8]. « Tout ce que nous connaissions du Web va changer à nouveau », et ces outils permettront d’amener des réponses aux difficultés liées au volume des données.
(v) Web Séantique : L'avenir du Web ?
En représentant les données sous forme de graphe de relations entre entités plutôt que de tables structurées, les technologies du Web sémantique et des « données ouvertes liées » (Linked Open Data) permettent aux machines de donner un « sens » à l’information disponible en ligne[9]. On parle d’ontologie pour décrire la structure des différents types d’entités représentées et les concepts de relations qui les relient.
Malgré l’enthousiasme d’une partie de la communauté pour ces technologies sémantiques, elles soulèvent des questions techniques et financières difficiles à ignorer pour les administrations publiques.
Une première étape dans l’intégration des données issues du secteur public à un hypothétique Web des données consiste à mettre en ligne les données sous forme brute, et à permettre aux membres de la communauté qui souhaiteraient s’impliquer de réaliser eux-mêmes la sémantisation des jeux de données.
Au cours d’une présentation qu’il a effectuée à la conférence TED[10] en 2009, Tim Berners Lee a lancé un vibrant appel à la mise en ligne des données brutes au plus tôt de par le monde : « We want raw data now ! »
La mise en ligne de données brutes est une approche pragmatique qui permet d’accélérer l’ouverture des données publiques, et une première étape vers la construction d’un Web des données.

Gérer la complexité juridique

(i) Les producteurs de données ont développé plusieurs licences
Selon la loi de 1978, le principe général est celui de la réutilisation libre, gratuite et sans conditions des données publiques. Les licences ne sont obligatoires que dans les cas où l’administration souhaite imposer une réutilisation payante de ses données.
Néanmoins, de nombreux acteurs considèrent que ce régime ne garantit pas une réelle sécurité juridique, et attendent des pouvoirs publics qu’ils explicitent les usages autorisés sous forme de licences, y compris dans le cas d’une réutilisation gratuite.
Schématiquement il existe cinq possibilités sur les conditions d’accès aux données publiques :
  • Sur demande : l’accès peut être accordé dans certains cas et sous conditions.
  • Licence payante : l’accès aux données est assujetti à un paiement.
  • Accord exclusif d’accès avec une seule entreprise déléguée pour diffuser les données: en cas d’investissements importants réalisés par le privé mais pour une durée limitée seulement, peut être le cas dans le domaine culturel.
  • Licence ouverte sous conditions : l’accès est ouvert mais la diffusion est soumise à conditions.
  • Licence ouverte sans restriction : l’accès et la réutilisation sont libres, c’est le cas des données entrées dans le domaine public ou, par défaut, des données publiques ouvertes sans licence.
De nombreuses licences ont déjà été élaborées par des services publics, certaines pouvant être contractualisées par un simple clic.
L’Agence pour le Patrimoine Immatériel de l'État (APIE), une agence de conseil du ministère de la Réforme de l’État et des Comptes Publics en a développé deux pour livraison de données soumises à redevance (une pour téléchargement simple et l’autre pour livraisons régulières). La Direction de l’Information Légale et Administrative a mis en place des licences payantes pour la réutilisation de certaines de ses données par ailleurs accessibles gratuitement, comme les débats « questions-réponses » de l’Assemblée nationale, ou les téléchargements de masse depuis Légifrance (avec livraison au format XML sur un site dédié).
Dans le monde des contenus culturels, un certain nombre de licences standards ont émergé des travaux sur l’évolution du copyright face aux nouveaux usages de partage, de mashups ou de remix[11]. Les différentes licences Creative Commons, qui définissent des conditions différentes (avec ou sans usage commercial, avec ou sans partage à l’identique, attribution, etc.) sont par exemple très utilisées sur Internet, notamment par Wikipédia.
Les licences pour réutilisation de données comportent en général des clauses plus techniques liées à la nature d’une base de données, qui peut être différente d’un contenu média. Un certain nombre de licences « Open Data » standard pour réutilisation de données s’inspire cependant largement de Creative Commons. La licence ODbL[12] (Open Database License) reprend notamment des notions de partage à l’identique et d’attribution, et permet l’accès, l’utilisation, le téléchargement, la copie, le partage et la distribution des données publiques ouvertes.
Le ministère de la Justice a élaboré une licence « information publique librement réutilisable » appelée LIP[13]. Elle précise les droits d’adaptation des informations publiques en vue d’une activité commerciale ou non. L’adaptation et la modification sont autorisées à condition qu’il y ait enrichissement documentaire, technique ou éditorial et que le sens ne soit pas dénaturé. La rediffusion et la vente sont possibles si les données ont subi un nouveau traitement et qu’elles sont intégrées dans un produit ou un service nouveau auprès des tiers.
(ii) Une complexité liée à l'accumulation de licences
Toutes ces licences, bien qu’elles soient fondées sur les mêmes principes généraux, ne sont pas nécessairement compatibles les unes avec les autres. Or, les données n’ont de valeur pour les usagers finaux des services qui les réutilisent que si elles sont partagées, recoupées et réutilisées.
Certaines données sont disponibles à titre gratuit et d’autres à titre payant, certaines sont soumises à des droits, d’autres sont en libre accès au public, d’autres encore portent des clauses d’attribution parfois lourdes. Dans ce contexte parfois contradictoire, connaître précisément les conditions de réutilisation de données produites par recombinaisons successives peut être complexe.
L’accumulation de licences différentes pour des jeux de données distincts crée une complexité et un risque juridique potentiellement coûteux. Il apparaît important d’éviter la prolifération de différentes licences proposant des dispositions ne variant que de façon marginale, et de privilégier l’utilisation la plus large de licences standards, idéalement aux standards de l’Open Data.
(iii) Les différences de droit entre pays, source de confusion 
Le droit à la réutilisation, ses limites et son interaction avec les droits de propriété intellectuelle n’est pas uniforme entre les pays. Des différences marquées apparaissent entre pays de droit civil et pays de common law.
Ainsi, reprendre une œuvre française mise sous une licence creative commons donnée n’offre pas les mêmes avantages que si cette oeuvre était américaine. Le droit de réutilisation des données, et les droits couvrant les bases de données elles-mêmes sont d’autant plus complexes que les données proviennent de pays différents.
Ces confusions peuvent nuire à la facilité de réutilisation et créent un risque juridique. L’émergence de standards internationaux de licences compatibles doit devenir une priorité.
(iv) Des pictogrammes pour des conditions de réutilisation plus explicites
Il est primordial, pour assurer la clarté juridique des conditions de réutilisation, de permettre aux réutilisateurs d’en prendre connaissance simplement.
La Fondation Creative Commons a mis au point à cet effet un certain nombre de pictogrammes permettant d’identifier facilement les conditions spécifiques de réutilisation d’un contenu couvert par une telle licence.
C’est aussi dans cette perspective de lisibilité que Thomas Saint-Aubin, au sein du ministère de la Justice, a conçu le pictogramme « Infomation Publique », signalant un jeu de données disponible en licence LIP.
CC-BY-SA-NC.png
LicenceIP.png
(v) Des conditions de licences inspirées de Creative Commons et du « share alike »
Lorsque les données produites sont commercialisées, il peut arriver que leur mise à disposition à titre gratuit pour une réutilisation commerciale ne soit pas possible, notamment pour des raisons de distorsion de concurrence sur des marchés existants.
Il est par contre souvent possible de mettre à disposition les données pour réutilisation gratuite même dans un but commercial, mais avec une restriction de taille, qui est celle du « share alike » – le partage des données dans des conditions identiques.
Ce type de licences gratuites spécifiques permettent d’adapter, de modifier, de transformer et de construire d’autres données à partir de celles mises à disposition, à condition de reverser au profit de l’ensemble de la collectivité les données produites, dans des conditions identiques c'est-à-dire ouvertes (redistribution imposée sous la même licence).
Mettre en place une licence gratuite de type « share alike » n’exclut absolument pas de maintenir la tarification de la réutilisation des données hors de ce cadre. Les autres réutilisateurs peuvent toujours accéder à une licence payante non exclusive.
Certains interlocuteurs au sein de la communauté des réutilisateurs considèrent de telles clauses comme contraires à l’esprit de l’Open Data. D’autres y voient une approche pragmatique permettant de concilier des finalités différentes.

Anticiper l’impact organisationnel

(i) Les redondances locales révèlent le besoin d'une infrastructure nationale 
L’étude de cas présentée au chapitre V sur le partage de l’information géographique dans les régions montre que des recoupements au moins partiel des initiatives locales de partage des données géographiques publiques existent. L’État, qui donne l’impulsion d’une infrastructure nationale pour l’information géographique et se trouve au centre des initiatives ou au moins associé à celles-ci, pourrait rechercher plus systématiquement des synergies entre elles.
(ii) Privilégier la rapidité d'exécution 
Dans le développement de projets de systèmes d’information du secteur public, on constate souvent une recherche de qualité des données et d’exhaustivité du service offert. Cela se fait au détriment de la rapidité de mise en œuvre.
Même si l’intention est louable et compréhensible, elle aboutit en pratique à des délais souvent si longs que le service, dépassé par la courbe technologique, ne répond plus à la demande avant même sa sortie.
Il est largement préférable de privilégier la rapidité d’exécution et d’adopter une démarche de développement agile. La mise en ligne rapide d’une version bêta avec un petit nombre de jeux de données permet d’illustrer rapidement les enjeux et d’enclencher le cercle vertueux qui créera les conditions favorables à un développement rapide du projet.
(iii) Les freins classiques au changement restent à l'œuvre 
Le savoir étant souvent associé au pouvoir, des freins à l’ouverture des données apparaissent naturellement dans les organisations, et s’ajoutent aux résistances qu’un changement aussi profond que l’Open Data ne peut manquer de créer.
L’apparition de nouveaux processus au sein de l’administration du fait de la collecte et du recensement des données nécessite des compétences propres et des formations adéquates. C’est un point essentiel pour la réussite de la construction d’une nouvelle relation entre le producteur et les réutilisateurs éventuels des données.
L’animation conjointe de la communauté de producteurs et de réutilisateurs, que ce soit par l’organisation de concours de développement, d’ateliers de travail ou de Bar Camps, doit permettre de rapprocher ces communautés et de catalyser les efforts de mise en ligne et de réutilisation.
Cela soulève la question de la place de l’innovation au sein des organisations. Par exemple l’INSEE, considérant qu’il est trop tôt pour restructurer l’organisation dans son ensemble autour de la question du web sémantique[14], s’est investi dans le projet Data Lift[15] de l’INRIA pour adapter au web sémantique certaines de ses données.
(iv) Le coût de la mise à disposition est compensé par les bénéfices induits 
Un élément récurrent du débat sur l’ouverture des données publiques est celui du coût supposé démesuré qu’elle impliquerait pour la puissance publique.
Notre étude sur la mise en commun des données géographiques dans les régions permet de faire émerger quelques ordres de grandeur.
Les moyens en investissement des initiatives de mise en ligne de données correspondent essentiellement aux dépenses liées aux serveurs, soit pour les portails géomatiques des régions une moyenne de 200 000 euros par initiative. Les coûts de fonctionnement moyens sont de 50 000 euros par an et de 4 équivalents temps plein.
Pour le plus grand projet de mise à disposition de données géographiques en France, le Géoportail de l’IGN, qui répond aux obligations de la directive INSPIRE, 22 agents sont dédiés à son activité spécifique de service public à l’exclusion de toute activité commerciale. Les coûts en investissement s’élèvent à 6 millions d’euros, et le coût annuel de fonctionnement est de 2 millions d’euros.
Ces coûts nous semblent largement compensés par les avantages de l’ouverture des données. L’État a d’ailleurs montré qu’il était prêt à les couvrir, voire à compenser le manque à gagner commercial qu’un passage à la gratuité pouvait engendrer lorsque les bénéfices le justifiaient, comme ce fut le cas avec le passage du RGE de l’IGN à la gratuité pour le secteur public en 2010 – et ce d’autant plus que dans ce cas, le produit de la commercialisation provenait du secteur public lui-même.
La mutualisation des plateformes par les collectivités, voire la mise en ligne de leurs données sur data.gouv.fr, devrait permettre de dépasser ce débat.

Établir des modèles économiques propices à l’innovation

Cette section aborde et décrit les caractéristiques particulières de la donnée publique en tant qu’objet économique, les prescriptions normatives de la théorie, et les conséquences que l’on peut en tirer quant au modèle économique le plus à même d’encourager la réutilisation des données et de permettre de réaliser les bénéfices que la société peut en attendre.

Les données publiques comme objet économique

(i) Particularités 
Du fait de leur caractère immatériel, les données publiques présentent des particularités par rapport aux biens classiques, même informationnels. Leur non-rivalité revêt une importance technique, au sens où leur coût de reproduction est quasi nul. Leur coût de distribution est donc très faible lui aussi, car limité au coût de bande passante, très largement négligeable, et de stockage, qui reste très modeste des bienfaits issus de la réutilisation des données.
En sens inverse par contre, les coûts fixes liés à la production de données sont significatifs à chaque étape de la chaîne de valeur.
Si le coût marginal de production et de distribution est quasi nul, se pose en revanche la question de la couverture des coûts fixes. C’est là que repose toute la complexité de la question de la tarification.
Un autre caractère particulier de la donnée publique tient au fait qu’elle présente un très fort potentiel de réutilisation au sein de biens et services fortement hétérogènes. Par opposition à un bien physique, souvent destiné à un usage spécifique une fois produit, une donnée publique peut servir à un éventail virtuellement infini d’applications.
Cela pose un problème concret à l’analyse économique des évolutions du marché pour une donnée particulière, car rien ne permet de savoir si elle constitue un marché mature ou si son potentiel de réutilisation innovante est encore latent.
Surtout, les données publiques ont la caractéristique d’être avant tout des facteurs de production d’autres biens ou (majoritairement) services. Ce n’est que très rarement la donnée en tant que telle qui a une valeur directe pour le consommateur ou l’entreprise, mais l’information qu’elle contient, l’analyse qu’elle permet d’étayer, l’objet qu’elle permet de construire, l’application qu’elle permet de développer.
L’évolutivité des techniques rend impossible la prévision, même dans les grandes lignes, des usages tirés de l’ouverture des données qui rencontreront un succès commercial. Il ne faut donc pas restreindre les données susceptibles d’ouvertes en fonction d’une analyse a priori de leur intérêt pour les réutilisateurs.
Ne mesurer que la demande directe des données par les réutilisateurs, c’est ignorer l’effet multiplicateur de la demande de services exprimée ou latente chez les utilisateurs.
L’analyse du modèle économique des données doit prendre en compte les externalités positives découlant de la création de nouveaux services et de l’incitation à l’innovation portée par l’ouverture la plus large des données publiques.
(ii) Modèles économiques des données publiques
Les exercices de modélisation économique de la production et de la réutilisation des données publiques se limitent en général à trois types de coûts : les coûts de production de la donnée brute, les coûts de transformation (de données « upstream » ou « brute » en donnée « downstream » ou « à valeur ajoutée »), et les coûts de diffusions.
Dans la réalité, il faut aussi bien sûr tenir compte des coûts de transaction, qu’ils soient fixes (mise en place d’un moyen de paiement) ou variables (frais de transactions financières à chaque paiement de redevance, et temps de travail nécessaire à leur réalisation). L’expérience empirique sur la tarification des données montre que le coût de mise en œuvre d’une infrastructure de paiement est souvent à peine compensé par les revenus générés[16], ce qui doit pousser à restreindre le plus possible l’établissement de redevances pour réutilisation.
Le point crucial à rappeler est que la donnée, avant d’être un bien dont les consommateurs peuvent bénéficier directement ou indirectement, est l’outil de travail fondamental de l’administration. Il faut éviter la multiplication au sein des administrations d’un travail de raffinage des données à destination d’une activité de vente, pour deux raisons : d’abord cela crée des risques de distorsions majeures sur les marchés, comme noté par Joseph Stiglitz (prix Nobel d’économie) et Peter Orszag (ancien ministre du Budget américain d’Obama) dans le rapport de référence sur le rôle du gouvernement dans l’ère numérique[17] ; et si des données sont de qualité suffisante pour le travail de l’administration, il ne doit pas y avoir lieu de les transformer en profondeur pour les rendre utiles à des réutilisateurs.
Il faut donc bien définir les coûts dont la couverture nous amène à rechercher un modèle économique optimal : il ne s’agit non pas de l’ensemble des coûts de production, mais de ceux générés du fait et seulement du fait de la mise à disposition d’un ensemble de données.
(iii) Doctrine des ressources essentielles et droit à la concurrence
Un point important qui élargit l’enjeu de la tarification à celui de l’accès aux données est son incidence sur des problèmes de concurrence imparfaite. Les conflits concurrentiels qui peuvent apparaître dans un monde où l’administration a le monopole structurel de la production d’un certain nombre de données importantes ont été notés dès les prémices des réflexions sur l’accès aux données publiques dans les années 1990[18] [19].
L’importance du sujet a conduit le Premier ministre Lionel Jospin[20] à répéter alors, lors du discours d’Hourtin de 1997, la doctrine des ressources essentielles et son application aux données publiques.
Selon cette doctrine de droit de la concurrence, toute ressource dont la réutilisation est essentielle à l’établissement d’un marché efficace et concurrentiel, mais qui peut en empêcher la formation si elle n’est pas accessible, doit être régulée de manière à permettre l’émergence de ce marché et son bon fonctionnement.[21]
En particulier, il est important de noter que cette doctrine a vocation à s’appliquer aussi au secteur privé, et l’on peut imaginer qu’elle fasse un jour jurisprudence pour permettre l’accès à des données certes de droit privé, mais constituant une ressource essentielle pour des intérêts de service public.[22] [23]

Choix optimal de tarification et hypothèses économiques

(i) Trois types de tarification permettent de traiter le problème des coûts fixes
Les études économiques retiennent en général trois modèles de tarification pour couvrir les coûts fixes découlant de la mise à disposition de données publiques.
Le modèle monopolistique correspond à un modèle où l’objectif est la maximisation des revenus directs pour l’institution productrice. Il participe souvent de l’exercice d’une position dominante, car seule la puissance publique a ce ??? à et peut produire un certain nombre de données. Les distorsions et inefficacités que ce comportement de monopole peut créer sont bien connues et particulièrement fortes selon la théorie.
Le modèle de coût moyen suppose la possibilité pour un producteur d’observer la courbe de demande de ses réutilisateurs, et de fixer un prix qui équilibre exactement ses revenus directs issus des redevances avec ses coûts d’ouverture et de diffusion des données.
Enfin, le modèle de coût marginal, dans les faits celui de la gratuité, recherche l’optimum d’efficience économique, que la science économique détermine comme atteint lorsque le prix d’un bien (ici le montant de la redevance) est égal au coût marginal de fourniture du bien, c'est-à-dire d’une unité supplémentaire (ici très proche de zéro car la donnée est immatérielle). Il fait par contre porter les coûts fixes de production et diffusion des données sur le budget de l’institution productrice, c'est-à-dire indirectement sur le réutilisateur via l’impôt (avec les incidences en terme de redistribution que cela peut impliquer).
La littérature sur le sujet est encore réduite, mais trois études en particulier comparent systématiquement les trois modèles, leurs avantages et leurs inconvénients :
« Models of provision of Public Sector Information by trust funds » de l’Université de Cambridge[24] qui fait autorité auprès du gouvernement britannique (Newbery et al.), l’étude Bureau d’Économie Théorique et Appliquée de l’Université de Strasbourg sur la valorisation des informations du secteur public réalisée en collaboration avec l’Agence pour le Patrimoine Immatériel de l’État[25], et « Economics of Public Sector Information[26] », l’étude complémentaire à l’étude de Cambridge, menée fin 2008 par Rufus Pollock, mathématicien et économiste à l’Université de Cambridge et nommé par le Premier ministre David Cameron au Public Sector Transparency Board.
(ii) Une référence « Economics of Public Sector Information » de Rufus Pollock
L’étude de Rufus Pollock est la référence la plus largement citée et la plus reconnue. Elle aborde l’ensemble des problèmes théoriques liés à l’économie des données publiques, rassemble les résultats empiriques connus, et propose des solutions de financement alternatives tels que le paiement à l’enregistrement des données.
Le cœur de l’étude détaille quatre types de problèmes majeurs qui apparaissent avec les modèles de tarification cités précédemment[27] : les questions de crédibilité du producteur quand à la pérennité de sa tarification (le risque étant la capture de valeur injustifiée par la puissance publique une fois de nouveaux modèles commerciaux découverts), les incitations à la production et à la réutilisation, les distorsions de compétition, et les problèmes d’asymétrie d’information.
Le modèle de coût moyen pose des problèmes insolubles d’asymétrie d’information, car il est irréaliste de penser qu’un producteur puisse observer exactement le point sur une courbe de demande qui lui permette d’équilibrer son budget.
Au contraire, le modèle de coût marginal, ou la gratuité, qui aurait court sur un marché en concurrence pure et parfaite, s’abstrait de cette contrainte irréaliste.
Mais c’est sur le sujet des distorsions de concurrence que les modèles de coût moyen et monopolistique présentent des risques d’inefficacités extrêmes. Ces risques proviennent d’abord des positions dominantes par nature des acteurs publics dans la production de données publiques, mais aussi de la sous-optimalité de ces deux modèles qui mettent en place une structure distordue de signaux d’incitations.
Au contraire, le modèle de tarification marginale aligne exactement le prix de la licence de réutilisation des données sur le coût marginal d’ouverture et de diffusion. Selon le modèle de la Pareto-efficience, c’est donc la solution optimale pour la société.
Pour Pollock, le modèle de la gratuité s’impose donc et doit être généralisé. La seule question qui peut rester ouverte elle celle de savoir, soit dans quels cas théoriques le modèle de coûts moyens devrait prévaloir sur le modèle en coûts marginaux, soit dans quelles exceptions ces coûts marginaux deviennent non négligeables et imposent une tarification modeste autre que la gratuité.
(iii) L'«étude de Strasbourg » révèle les difficultés liées aux hypothèses économiques
L’étude récente menée par Julien Pénin et quatre coauteurs au Bureau d’Économie Théorique et Appliquée de l’Université de Strasbourg, en partenariat avec l’Agence pour le Patrimoine Immatériel de l’État (APIE), se propose d’aborder le sujet sous l’angle de la valorisation des informations du secteur public[28][W 1].
Ses conclusions s’approchent dans ses grandes lignes de celles de la littérature existante, à savoir que la tarification devrait être gratuite pour tous les usages personnels, que le modèle de tarification au coût marginal est optimal pour le plus grand nombre de réutilisations commerciales. Elle affirme cependant qu’il existe des cas dans les marchés matures avec forte contrainte budgétaire où la tarification au coût moyen peut aussi être optimale.
L’étude révèle par contre des difficultés liées à la compréhension des enjeux concrets de la réutilisation des données.
Les auteurs considèrent tout d’abord que le but d’une politique de réutilisation est la diffusion large d’informations et de savoirs (c'est-à-dire, selon leurs termes, « d’informations enrichies »).
Dans la mesure où c’est l’application des données plutôt que les données elles-mêmes qui ont une valeur pour les citoyens et les consommateurs, c’est au contraire à la diffusion la plus large des bénéfices issus des données qu’il faut viser. Le but d’une politique de réutilisation devrait donc de préférence porter sur la diffusion large auprès du public des réutilisateurs des données brutes, dont « l’état brut sans explications (…) ne permet (certes) pas la rediffusion au plus grand nombre » mais est en revanche exactement la qualité recherchée par les développeurs pour encourager à la réutilisation[29].
Cela indique que la demande usuellement supposée serait sous-estimée face à la demande actuelle du public, encore mal comblée, et sa demande latente pour des besoins que les entrepreneurs chercheront à découvrir. L’absence de prise en compte d’un multiplicateur sur les fonctions de demande pourrait remettre en cause les conclusions de l’étude sur l’intérêt du modèle de coût moyen.
L’autre mécompréhension manifeste est la question de savoir quels coûts sont engagés en plus, du fait et du seul fait de la mise en ligne de données à fins de réutilisations.
Si l’administration, dans le cadre de ses activités, éprouve le besoin pour elle-même de raffiner les données en leur ajoutant une structure ou de l’information et des métadonnées, c’est alors cette « information enrichie » qui constitue la donnée brute au sens de la réutilisation. Prendre en compte ce coût de mise en forme dans l’établissement d’une redevance revient à faire porter sur les réutilisateurs une partie des coûts de production des données nécessaires au fonctionnement normal de l’administration, alors qu’ils sont déjà financés par le budget de l’État. Cela serait injuste, inefficace, et distorsif sur le marché.
Enfin, l’étude n’aborde qu’en conclusion la question de la mise à disposition des données brutes nécessaires à l’élaboration des informations du secteur public tarifées. Si l’État propose une activité de type concurrentiel à partir des données publiques sans mettre à disposition du marché les données brutes qui sous-tendent son activité, il risque d’interdire l’accès d’entreprises à un marché concurrentiel, ce qui contredit directement la doctrine des biens essentiels. Il en résulterait une position de monopole injustifiée et inefficace.
En ce sens, il possible d’interpréter les résultats de cette étude comme un soutien à la généralisation la plus large de la gratuité de réutilisation des données publiques.
(iv) Un consensus sur la tarification optimale apparait en précisant les hypothèses
Les différentes études font émerger un consensus des sciences économiques sur les mécanismes à l’œuvre, si l’on précise bien les hypothèses sur lesquelles se basent les modèles mathématiques utilisés.
Le choix d’une hypothèse de données de type brut (upstream) ou à valeur ajoutée (downstream) est important. Pour la communauté technique, ce sont ces presque exclusivement ces données upstream sous formats bruts qui intéressent les créateurs de services numériques, et ce sont celles-là qu’il convient de rendre gratuites.
La prise en compte ou non de la contrainte budgétaire dans les modèles mathématiques peut aussi faire pencher vers un modèle de coûts moyens dans certaines exceptions. C’est une vraie contrainte qui peut se manifester concrètement. On peut cependant remettre en cause, comme le font Tirole et Laffont[30], la crédibilité de l’hypothèse d’un régulateur qui se justifierait par des contraintes créées de son propre fait pour ne pas appliquer le modèle économique le plus efficace pour tous.
Enfin, les modèles doivent faire l’hypothèse de coûts de transactions élevés, vérifiée empiriquement, qui rend irrationnelle une tarification pour la grande majorité des ensembles de données. Pour la grande majorité des jeux de données, toute tarification serait rendue non rentable par les coûts de transaction. La gratuité s’impose alors.
Dans la pratique, les évolutions rapides du contexte technologique et les incertitudes inhérentes à l’innovation poussent à généraliser le plus possible la gratuité afin d’encourager la création de nouvelles activités à partir des données publiques.
Plusieurs des acteurs à qui nous avons pu parler estiment que la majorité des données doit être réutilisable gratuitement même à titre commercial.
Il s’agit alors de délimiter clairement les cas dans lesquels il est légitime d’adopter une tarification. L’exercice d’analyse économique permet de dessiner les contours d’une politique efficace de tarification de la réutilisation des données publiques.

Un modèle légitime de tarification efficace

(i) La réutilisation des données doit être gratuite par défaut
Par défaut, la réutilisation d’une donnée publique ne doit pas être tarifée, ni lorsque la réutilisation se fait à titre personnel, ni lorsqu’elle se fait à titre commercial.
C’est particulièrement crucial pour les marchés les moins matures où l’innovation liée aux données publiques est émergente. Le choix de la gratuité est raisonnable dans ce cas, et notamment du point de vue du développement des entreprises innovantes.
Pour produire les effets les plus positifs sur les acteurs et la dynamique économique, la politique de réutilisation des données publiques privilégiera la gratuité par défaut.
(ii) Des ca légitimes de redevance existent
Pour des données dont le coût marginal d’ouverture et de distribution est très important (très forte taille de fichiers par exemple), pour des données dont la diffusion implique de très forts coûts fixes par rapport à une demande faible des réutilisateurs, ou des données à forte valeur ajoutée dans des marchés matures et établis, il peut être légitime d’adopter une tarification, qui selon le droit et la jurisprudence ne saurait être excessive en regard de ces coûts.
Nous préconiserons donc de limiter strictement les redevances pour réutilisation à ces cas bien identifiés, au risque sinon de brider l’innovation émergente dans le secteur des données publiques, et les bénéfices que la société tout entière peut en attendre.
(iii) Donner accès aux données brutes sous-jacentes
Le rôle de l’État dans l’ère numérique est de mettre en place les structures qui permettent le fonctionnement efficace et juste des marchés, mais en aucun cas de préjuger des préférences des acteurs de ce marché.
Pour éviter que les réutilisateurs soient contraints d’utiliser les données à valeur ajoutée tarifées même lorsqu’ils ne sont intéressés que par la donnée brute sous-jacente, il faut assurer la possibilité d’accéder, gratuitement, à ces données brutes à chaque fois qu’une redevance est établie pour réutilisation de données à valeur ajoutée.
L’application de ce principe, outre la création de valeur qu’il permet sur le marché, ne peut qu’inciter l’acteur public concerné à améliorer le service et la valeur ajoutée qu’il apporte dans ses données downstream. Une telle émulation provoquée par la concurrence sera positive à la condition impérative que l’acteur public joue pleinement le jeu de l’ouverture des données upstream. À défaut, l’intervention d’un régulateur s’imposerait.

L'accès aux données publiques encourage le création de jeunes entreprises

(i) L'entrepreneuriat comme processus d'exploration
Les développements récents menés par Éric Ries, entrepreneur, auteur et intervenant à la Harvard Business School et la Stanford Graduate School of Business, ont amené à repenser l’entreprenariat comme une activité d’exploration[31].
En particulier, une jeune pousse, plutôt qu’une version de petite taille d’une grande entreprise, est définie comme une organisation temporaire chargée de développer la solution commerciale et technologique qui réponde le mieux à un problème supposé, mais qu’il faut découvrir, comprendre et confirmer, ou infirmer et explorer à nouveau. C’est presque littéralement d’une expérience scientifique qu’il s’agit, et le développement des startups technologiques dépend de la réussite d’un processus d’exploration.
Dans ce contexte, tarifer l’accès à un grand nombre de données publiques pour des réutilisations commerciales risquerait de réduire fortement l’opportunité de développer un nouveau tissu de jeunes entreprises innovantes autour de ce domaine.
(ii) Les coûts liés à la tarification freinent l'expérimentation
La nécessité d’entrer dans des négociations légales et la perspective de devoir s’acquitter de droits d’exploitations conséquents avant d’avoir expérimenté la viabilité commerciale d’un produit est une barrière dirimante pour nombre de jeunes sociétés.
Elle peut être insurmontable pour un développeur indépendant ou employé par ailleurs et qui songerait à lancer une activité nouvelle sans disposer de capitaux importants.
(iii) Il est souhaitable de permettre l'expérimentation rapide
Le milieu des nouvelles technologies progresse à une vitesse impressionnante. Si la France ne facilite pas l’émergence à très courte échéance (1 an à 2 ans) de nouvelles créations d’entreprises à partir de la réutilisation de données publiques, le risque est grand de voir le marché français des services Open Data capturé par d’autres firmes dominantes, ou les startups que d’autres économies auront su aider à émerger et se développer.
Il faut donc faciliter le plus possible l’accès aux ensembles de données intéressants par les entrepreneurs, en particulier à travers une tarification qui laisse la place à l’expérimentation.
Les entreprises à succès devront légitimement participer au financement d’une infrastructure de qualité, mais les innovateurs doivent pouvoir explorer de nouveaux modèles d’affaires dans les premières années de leur projet, ce que des redevances élevées et discriminatoires ne permettraient pas[32].
(iv) Une organisation dédiée pour arbitrer les conflits d'intérêts
Les deux études que nous venons d’étudier mettent en valeur des risques de conflits d’intérêt clairs entre d’une part les activités de service de type concurrentiel d’un vendeur de données à valeur ajoutée et d’autre part ses activités de service public.
On garde à l’esprit l’exemple de l’Institut Météorologique Finlandais, reconnu coupable de détériorer volontairement la qualité de ses images radars destinées au service public, pour avantager ses opérations concurrentielles. Il a finalement été obligé de se scinder en deux sous la pression de l’autorité de la concurrence.
Les théories de l’organisation indiquent qu’en matière de coordination, la présence d’un coordinateur mandaté (et doté des leviers légaux nécessaires) est souhaitable pour faire respecter la cohérence d’une politique de tarification à laquelle les institutions n’ont qu’un intérêt commun et pas individuel.
Son rôle serait de veiller en permanence pour éviter qu’un acteur se place ans une posture du type « tragédie des communs » décrite par Hardin.
L’annonce faite par la Grande Bretagne le 12 janvier 2011 de la création d’une entité en charge des données publiques (se reporter au 1.2.) est à ce titre importante, car elle reconnaît de fait les risques forts de conflits d’intérêts, et propose une solution pragmatique, qui aura de plus la capacité à faciliter l’accès à tous types de données et le mandat d’investir dans la production de données afin de pérenniser leur qualité.

Conclusion du chapitre

En conclusion,[W 2] des solutions techniques, juridiques, organisationnelles et financières existent pour encourager l’ouverture et la réutilisation des données publiques et permettre d’en tirer toutes les conséquences positives que la société et l’économie peuvent en attendre.

Sans remettre en cause les exceptions pour lesquelles une tarification à coût marginal est nécessaire, il est crucial d’abaisser autant que possible les barrières à la réutilisation par la généralisation du modèle économique de la gratuité de réutilisation.



Notes originales

  1. Description formelle de la représentation des données dans la base de données.
    Voir < http://www.acgrenoble.fr/ecogest/pedago/administration/prodpeda/mcd.h tm. >
  2. Ed Parsons - Geospatial Technologist for Europe, Middle East and Africa chez Google, au séminaire « Innovations et développement du secteur de l’information géographique » organisé le 5 octobre 2009 à la Grande Arche de la Défense par le Conseil National de l’Information Géographique (CNIG), l’AFIGÉO et l’Institut des Sciences et des Techniques de l’Équipement pour le Développement (ISTED)
  3. Voir la plaquette « L’information géographique : l’expérience française » publiée le 21 mai 2008 par le Ministère de l’écologie, de l’énergie, du développement durable et de l’aménagement du territoire.
  4. Le premier portail de Yahoo recensait les sites les plus populaires, organisés selon leurs contenus. Il procédait ainsi à une séparation analogue entre donnée et métadonnée.
  5. The Economist. 25 février 2010. « The Data Deluge : Businesses, Governments and Society are Only Starting to Tap Its Vast Potential »
  6. http://fr.wikipedia.org/wiki/Cloud_computing
  7. ReadWriteWeb. 2010. The Age of Exabytes : Tools & Approaches for Managing Big Data.
    < http://www.readwriteweb.com/reports/big-data/ >
  8. Henri Verdier. 14 décembre 2010. « Big Data : Making sense at scale. »
    < http://www.henriverdier.com/2010/12/big-data-makingsense-at-scale.html >
  9. Segaran, T. 2009. Programming the Semantic Web. O’Reilly éditions.
  10. TED (Technology Entertainment and Design) est un ensemble de conférences lancées en 1984 par le secteur privé à but non lucratif américain pour diffuser des "idées qui méritent d’être répandues ».
  11. Lessig, 2009. Idib.
  12. Open Database License
    <http://www.opendatacommons.org/licenses/odbl/>
  13. Licence Information Publique
    < http://www.rip.justice.fr/information_publique_librement_reutilisable >
  14. Entretien du 26 novembre 2010, ibid.
  15. Projet de recherche sur l’interconnection des jeux de données sémantiques. http://datalift.org/
  16. Table ronde avec des collectivités locales à l’Open Government Data Camp à Londres le 18 novembre 2010.
  17. Joseph Stiglitz et Peter Orszag. Octobre 2000. The Role of Government in a Digital Age.
    <http://archive.epinet.org/real_media/010111/materials/stiglitz.pdf >
  18. Entretien avec Maurice Ronai.
  19. Maurice Ronai. 1996. Données publiques : accès, diffusion, commercialisation. Revue Problèmes Politiques et Sociaux : Dossiers d’Actualité Mondiale. Nos 773-774, 1er novembre 1996. La Documentation Française.
  20. Lionel Jospin. Discours à Hourtin le 25 aout 1997.Préparer la France pour la Société de l’Information.
    < http://www.admiroutes.asso.fr/action/theme/politic/lionel.htm >
  21. Entretien avec Pierre-Jean Benghozi le 12 octobre 2010.
  22. Entretien avec Maurice Ronai, auteur du rapport à la documentation française de 1996 sur le sujet.
  23. Entretien le 12 novembre 2010 avec Guillaume Crouigneau, directeur de CanalTP, filiale de la SNCF.
  24. David Newbery, Lionel Bently, Rufus Pollock. 26 février 2008. « Models of Public Sector Information Provision via Trading Funds. » Cambridge University.
    < http://www.berr.gov.uk/files/file45136.pdf >
  25. APIE. 12 janvier 2011. « Etude économique ».
    https://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/etudeeconomique/view >
  26. Rufus Pollock. 2 décembre 2008. « The Economics of Public Sector Information ». University of Cambridge.
    <http://www.rufuspollock.org/economics/papers/economics _of_psi.pdf >
  27. Tableau page 16 dans Pollock, 2008.
  28. Julien Pénin et al. 12 janvier 2011. « Rapport Final : La valorisation des informations du secteur public (ISP) : un modèle économique de tarification optimale ». Université de Strasbourg.
    < https://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/etude-economique/downloadFile/attachedFile/Rapport_final_BETA_APIE_VF2.pdf?nocache=1297953297.93 >
  29. Table ronde entre collectivités et développeurs à la conférence ePSI de Rennes, 29 novembre 2010.
  30. Laffont, J. et Tirole, J. 1993. « A Theory of Incentives in Procurement ». MIT Press.
  31. Concept de jeune pousse maigre ou « Lean Startup ».
    < http://www.startuplessonslearned.com/ >
  32. Henri Verdier. 8 juillet 2009. « Quelques Remarques sur les Données Publiques (#opendata). »
    <http://www.henriverdier.com/2010/07/quelquesremarques-sur-les-donnees.html>

Notes de l'édition Wicri

  1. Le lien initial n'étant plus accessible, la note originale a été modifiée
  2. Le titre du paragraphe (Conclusion du chapitre) a été explicitement rajouté
Ce chapitre dans le réseau Wicri.