Nuvola apps important.png Attention, suite à une faille de sécurité, quelques liens vers les serveurs d'exploration sont désactivés.

-

Pour une politique ambitieuse des données publiques (2011) chapitre 6 : Différence entre versions

De Wicri France
imported>Jacques Ducloy
(Choix optimal de tarification et hypothèses économiques)
imported>Jacques Ducloy
(Choix optimal de tarification et hypothèses économiques)
Ligne 526 : Ligne 526 :
 
:« ''Models of provision of Public Sector Information by trust funds'' » de l’Université de Cambridge<ref>David Newbery, Lionel Bently, Rufus Pollock. 26 février 2008. « Models of Public Sector Information Provision via Trading Funds. » Cambridge University.<br/>< http://www.berr.gov.uk/files/file45136.pdf ></ref> qui fait autorité auprès du gouvernement britannique (Newbery et al.), l’étude Bureau d’Économie Théorique et Appliquée de l’Université de Strasbourg sur la valorisation des informations du secteur public réalisée en collaboration avec l’Agence pour le Patrimoine Immatériel de l’État<ref>APIE. 12 janvier 2011. « Etude économique ». <br/>https://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/etudeeconomique/view ></ref>, et « ''Economics of Public Sector Information''<ref>Rufus Pollock. 2 décembre 2008. « The Economics of Public Sector Information ». University of Cambridge. <br/><http://www.rufuspollock.org/economics/papers/economics
 
:« ''Models of provision of Public Sector Information by trust funds'' » de l’Université de Cambridge<ref>David Newbery, Lionel Bently, Rufus Pollock. 26 février 2008. « Models of Public Sector Information Provision via Trading Funds. » Cambridge University.<br/>< http://www.berr.gov.uk/files/file45136.pdf ></ref> qui fait autorité auprès du gouvernement britannique (Newbery et al.), l’étude Bureau d’Économie Théorique et Appliquée de l’Université de Strasbourg sur la valorisation des informations du secteur public réalisée en collaboration avec l’Agence pour le Patrimoine Immatériel de l’État<ref>APIE. 12 janvier 2011. « Etude économique ». <br/>https://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/etudeeconomique/view ></ref>, et « ''Economics of Public Sector Information''<ref>Rufus Pollock. 2 décembre 2008. « The Economics of Public Sector Information ». University of Cambridge. <br/><http://www.rufuspollock.org/economics/papers/economics
 
_of_psi.pdf ></ref> », l’étude complémentaire à l’étude de Cambridge, menée fin 2008 par Rufus Pollock, mathématicien et économiste à l’Université de Cambridge et nommé par le Premier ministre David Cameron au Public Sector Transparency Board.
 
_of_psi.pdf ></ref> », l’étude complémentaire à l’étude de Cambridge, menée fin 2008 par Rufus Pollock, mathématicien et économiste à l’Université de Cambridge et nommé par le Premier ministre David Cameron au Public Sector Transparency Board.
 +
:''(ii) Une référence « Economics of Public Sector Information » de Rufus Pollock''
 +
L’étude de Rufus Pollock est la référence la plus largement citée et la plus reconnue. Elle aborde l’ensemble des problèmes théoriques liés à l’économie des données publiques, rassemble les résultats empiriques connus, et propose des solutions de financement alternatives tels que le paiement à l’enregistrement des données.
 +
:Le cœur de l’étude détaille quatre types de problèmes majeurs qui apparaissent avec les modèles de tarification cités précédemment<ref>Tableau page 16 dans Pollock, 2008.</ref> : les questions de crédibilité du producteur quand à la pérennité de sa tarification (le risque étant la capture de valeur injustifiée par la puissance publique une fois de nouveaux modèles commerciaux découverts), les incitations à la production et à la réutilisation, les distorsions de compétition, et les problèmes d’asymétrie d’information.
 +
:Le modèle de coût moyen pose des problèmes insolubles d’asymétrie d’information, car il est irréaliste de penser qu’un producteur puisse observer exactement le point sur une courbe de demande qui lui permette d’équilibrer son budget.
 +
:Au contraire, le modèle de coût marginal, ou la gratuité, qui aurait court sur un marché en concurrence pure et parfaite, s’abstrait de cette contrainte irréaliste.
 +
:Mais c’est sur le sujet des distorsions de concurrence que les modèles de coût moyen et
 +
monopolistique présentent des risques d’inefficacités extrêmes. Ces risques proviennent d’abord des positions dominantes par nature des acteurs publics dans la production de données publiques, mais aussi de la sous-optimalité de ces deux modèles qui mettent en place une structure distordue de signaux d’incitations.
 +
:Au contraire, le modèle de tarification marginale aligne exactement le prix de la licence de réutilisation des données sur le coût marginal d’ouverture et de diffusion. Selon le modèle de la Pareto-efficience, c’est donc la solution optimale pour la société.
 +
:Pour Pollock, le modèle de la gratuité s’impose donc et doit être généralisé. La seule question qui peut rester ouverte elle celle de savoir, soit dans quels cas théoriques le modèle de coûts moyens devrait prévaloir sur le modèle en coûts marginaux, soit dans quelles exceptions ces coûts marginaux deviennent
 +
non négligeables et imposent une tarification modeste autre que la gratuité.
 +
;''(iii) L'«étude de Strasbourg » révèle les difficultés liées aux hypothèses économiques''
 +
:L’étude récente menée par Julien Pénin et quatre coauteurs au Bureau d’Économie
 +
Théorique et Appliquée de l’Université de Strasbourg, en partenariat avec l’Agence pour le Patrimoine Immatériel de l’État (APIE), se propose d’aborder le sujet sous l’angle de la valorisation des informations du secteur public<ref>Julien Pénin et al. 12 janvier 2011. « Rapport Final : La valorisation des informations du secteur public (ISP) : un modèle économique de tarification optimale ». Université de Strasbourg.<br/>< https://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/etudeeconomique/downloadFile/attachedFile/Rapport_final_BETA.pdf?nocache=1294846257.31 ></ref>.
 +
:Ses conclusions s’approchent dans ses grandes lignes de celles de la littérature existante, à savoir que la tarification devrait être gratuite pour tous les usages personnels, que le modèle de tarification au coût marginal est optimal pour le plus grand nombre de réutilisations commerciales. Elle affirme cependant qu’il existe des cas dans les marchés matures avec forte contrainte budgétaire où la tarification au coût moyen peut aussi être optimale.
 
{{Wicri travaux|texte=importation en cours à partir de ce point}}
 
{{Wicri travaux|texte=importation en cours à partir de ce point}}
  
 
==Notes==
 
==Notes==
 
<references/>
 
<references/>

Version du 28 août 2011 à 08:34

Logo ponts paristech.png
Pour une politique ambitieuse des données publiques :
Les données publiques au service de l’innovation et de la transparence


Partie 3 - Comment favoriser la réutilisation des données publiques ?
Chapitre VI. Abaisser les barrières à la réutilisation
RapportDonnéesPubliques2011.png
logo travaux page en cours d'importation

Afin d’encourager la réutilisation des données publiques et de permettre la concrétisation des conséquences positives que l’on peut en attendre, il est nécessaire d’abaisser autant que possible les barrières à la réutilisation.

Nous détaillons dans ce chapitre les défis et les difficultés qui peuvent se poser, ainsi que des pistes de solutions. Il s’agit essentiellement de répondre aux contraintes techniques de l’ouverture des données, d’en gérer la complexité juridique, d’anticiper son impact éventuel sur les institutions publiques, et de mettre en place les modèles économiques les plus propices à encourager l’innovation.

 

Répondre aux contraintes techniques

Modèles et formats de données peuvent rendre la donnée plus utile

L’un des objectifs de l’ouverture des données est de stimuler les activités construites à partir sur ces données. Il est crucial de diffuser les données à l’état brut, dans des formats ouverts et réexploitables[1].

La finalité et l’importance des questions de format doivent donc être clairement expliquées, et les processus de collecte et de recensement doivent être établis et assimilés par l’ensemble des opérateurs, ce qui nécessite un effort pédagogique soutenu.

Ergonomie de l'accès aux données

Une autre contrainte technique tient au besoin d’ergonomie et de simplicité qu’expriment les utilisateurs des outils de diffusion de données.

Le volume de données aujourd’hui hébergé sur certains sites, comme celui de l’INSEE, est tel que de nouvelles problématiques de recherche interactive sont soulevées.

La simplicité est le maître mot en la matière. Ed Parsons[2] de Google, en fait une exigence centrale :

« Les gens veulent accéder à l’information à travers des outils faciles d’emploi. Il faut que ces outils parlent leur langage, ne les oblige pas à utiliser une manière de procéder qui leur soit étrangère, ils veulent juste accéder à l’information dont ils ont besoin. L’infrastructure support est pour l’essentiel invisible pour les utilisateurs, tout comme celle qui est derrière une prise électrique ou derrière un robinet : elle est invisible derrière la page d’accueil de Google. »

Rendre simple et efficace un service en ligne exige d’anticiper les difficultés éventuelles d’ergonomie et de design d’interaction dès la phase de conception, en soumettant le projet des utilisateurs test. Cela implique aussi de gérer la complexité durant les phases ultérieures, pendant le développement comme lorsque l’outil fonctionne en production.

La complexité des données géographiques au cœur des évolutions futures du secteur

Les technologies géomatiques[3] permettent de superposer sur des fonds de carte des données cartographiques diverses, d’ajouter des couches d’informations variées (physiques, économiques, environnementales), et surtout de visualiser ces phénomènes et leur évolution en représentation spatiale, sur lesquelles le cerveau humain est capable d’inférences rapides et complexes.

Globalement, l’information géographique numérique est devenu un outil puissant d’analyse de données. Elle constitue aussi une donnée structurante pour la réutilisation de nombreuses autres données publiques ou pour la production de nouveaux services.

Traditionnellement, les cartes et les informations sur ces cartes étaient rangées séparément dans des cartothèques. La même organisation conceptuelle est reproduite sur les données géographiques numériques avec des efforts importants sur la structuration des données et des métadonnées.

Inspire, le portail environnement, le Géoportail couplé au Géocatalogue, les normes AFNOR, CEN et ISO sur l’information géographique et sur les métadonnées en sont autant d’illustrations[4]. Construire une infrastructure capable de gérer la complexité de l’information géographique tout en préservant la simplicité de l’interface est crucial pour faciliter la réutilisation des données.

Les nouveaux outils du Web des données

Face à la croissance toujours plus rapide des capacités de calcul et de stockage des centres de calcul des grandes entreprises du Web, le monde fait aujourd’hui l’expérience d’un véritable « déluge des données[5] ».

On estime que l’humanité, qui aurait produit 150 Exaoctets (150 milliards de Gigaoctets, soit à peu près 40 milliards de DVD) en 2005, créera 1,200 Exaoctets de données numériques nouvelles en 2011. Cette échelle de quantité de données à stocker et analyser crée de nouveaux défis et de nouvelles opportunités technologiques.

L’apparition du cloud computing[6] et le développement d’outils de traitement algorithmique des données à très grande échelle (par exemple Map/Reduce, Hadoop, et les outils Big Data[7]) vont permettre le stockage, le traitement et l’analyse de pans de données numériques d’une taille inimaginable jusqu’alors[8]. « Tout ce que nous connaissions du Web va changer à nouveau », et ces outils permettront d’amener des réponses

Web Séantique : L'avenir du Web ?

En représentant les données sous forme de graphe de relations entre entités plutôt que de tables structurées, les technologies du Web sémantique et des « données ouvertes liées » (Linked Open Data) permettent aux machines de donner un « sens » à l’information disponible en ligne[9]. On parle d’ontologie pour décrire la structure des différents types d’entités représentées et les concepts de relations qui les relient.

Malgré l’enthousiasme d’une partie de la communauté pour ces technologies sémantiques, elles soulèvent des questions techniques et financières difficiles à ignorer pour les administrations publiques.

Une première étape dans l’intégration des données issues du secteur public à un hypothétique Web des données consiste à mettre en ligne les données sous forme brute, et à permettre aux membres de la communauté qui souhaiteraient s’impliquer de réaliser eux-mêmes la sémantisation des jeux de données.

Au cours d’une présentation qu’il a effectuée à la conférence TED[10] en 2009, Tim Berners Lee a lancé un vibrant appel à la mise en ligne des données brutes au plus tôt de par le monde : « We want raw data now ! » La mise en ligne de données brutes est une approche pragmatique qui permet d’accélérer l’ouverture des données publiques, et une première étape vers la construction d’un Web des données.

Gérer la complexité juridique

Les producteurs de données ont développé plusieurs licences

Selon la loi de 1978, le principe général est celui de la réutilisation libre, gratuite et sans conditions des données publiques. Les licences ne sont obligatoires que dans les cas où l’administration souhaite imposer une réutilisation payante de ses données.

Néanmoins, de nombreux acteurs considèrent que ce régime ne garantit pas une réelle sécurité juridique, et attendent des pouvoirs publics qu’ils explicitent les usages autorisés sous forme de licences, y compris dans le cas d’une réutilisation gratuite.

Schématiquement il existe cinq possibilités sur les conditions d’accès aux données publiques :

  • Sur demande : l’accès peut être accordé dans certains cas et sous conditions.
  • Licence payante : l’accès aux données est assujetti à un paiement.
  • Accord exclusif d’accès avec une seule entreprise déléguée pour diffuser les données: en cas d’investissements importants réalisés par le privé mais pour une durée limitée seulement, peut être le cas dans le domaine culturel.
  • Licence ouverte sous conditions : l’accès est ouvert mais la diffusion est soumise à conditions.
  • Licence ouverte sans restriction : l’accès et la réutilisation sont libres, c’est le cas des données entrées dans le domaine public ou, par défaut, des données publiques ouvertes sans licence.

De nombreuses licences ont déjà été élaborées par des services publics, certaines pouvant être contractualisées par un simple clic.

L’Agence pour le Patrimoine Immatériel de l’État (APIE), une agence de conseil du ministère de la Réforme de l’État et des Comptes Publics en a développé deux pour livraison de données soumises à redevance (une pour téléchargement simple et l’autre pour livraisons régulières). La Direction de l’Information Légale et Administrative a mis en place des licences payantes pour la réutilisation de certaines de ses données par ailleurs accessibles gratuitement, comme les débats « questions-réponses » de l’Assemblée nationale, ou les téléchargements de masse depuis Légifrance (avec livraison au format XML sur un site dédié).

Dans le monde des contenus culturels, un certain nombre de licences standards ont émergé des travaux sur l’évolution du copyright face aux nouveaux usages de partage, de mashups ou de remix[11]. Les différentes licences Creative Commons, qui définissent des conditions différentes (avec ou sans usage commercial, avec ou sans partage à l’identique, attribution, etc.) sont par exemple très utilisées sur Internet, notamment par Wikipedia.

Les licences pour réutilisation de données comportent en général des clauses plus techniques liées à la nature d’une base de données, qui peut être différente d’un contenu média. Un certain nombre de licences « Open Data » standard pour réutilisation de données s’inspire cependant largement de Creative Commons. La licence ODbL[12] (Open Database License) reprend notamment des notions de partage à l’identique et d’attribution, et permet l’accès, l’utilisation, le téléchargement, la copie, le partage et la distribution des données publiques ouvertes.

Le ministère de la Justice a élaboré une licence « information publique librement réutilisable » appelée LIP[13]. Elle précise les droits d’adaptation des informations publiques en vue d’une activité commerciale ou non. L’adaptation et la modification sont autorisées à condition qu’il y ait enrichissement documentaire, technique ou éditorial et que le sens ne soit pas dénaturé. La rediffusion et la vente sont possibles si les données ont subi un nouveau traitement et qu’elles sont intégrées dans un produit ou un service nouveau auprès des tiers.

Une complexité liée à l'accumulation de licences

Toutes ces licences, bien qu’elles soient fondées sur les mêmes principes généraux, ne sont pas nécessairement compatibles les unes avec les autres. Or, les données n’ont de valeur pour les usagers finaux des services qui les réutilisent que si elles sont partagées, recoupées et réutilisées.

Certaines données sont disponibles à titre gratuit et d’autres à titre payant, certaines sont soumises à des droits, d’autres sont en libre accès au public, d’autres encore portent des clauses d’attribution parfois lourdes. Dans ce contexte parfois contradictoire, connaître précisément les conditions de réutilisation de données produites par recombinaisons successives peut être complexe.

L’accumulation de licences différentes pour des jeux de données distincts crée une complexité et un risque juridique potentiellement coûteux. Il apparaît important d’éviter la prolifération de différentes licences proposant des dispositions ne variant que de façon marginale, et de privilégier l’utilisation la plus large de licences standards, idéalement aux standards de l’Open Data.

Les différences de droit entre pays, source de confusion

Le droit à la réutilisation, ses limites et son interaction avec les droits de propriété intellectuelle n’est pas uniforme entre les pays. Des différences marquées apparaissent entre pays de droit civil et pays de common law.

Ainsi, reprendre une oeuvre française mise sous une licence creative commons donnée n’offre pas les mêmes avantages que si cette oeuvre était américaine. Le droit de réutilisation des données, et les droits couvrant les bases de données elles-mêmes sont d’autant plus complexes que les données proviennent de pays différents.

Ces confusions peuvent nuire à la facilité de réutilisation et créent un risque juridique. L’émergence de standards internationaux de licences compatibles doit devenir une priorité.

Des pictogrammes pour des conditions de réutilisation plus explicites

Il est primordial, pour assurer la clarté juridique des conditions de réutilisation, de permettre aux réutilisateurs d’en prendre connaissance simplement.

La Fondation Creative Commons a mis au point à cet effet un certain nombre de pictogrammes permettant d’identifier facilement les conditions spécifiques de réutilisation d’un contenu couvert par une telle licence.

C’est aussi dans cette perspective de lisibilité que Thomas Saint-Aubin, au sein du ministère de la Justice, a conçu le pictogramme « Infomation Publique », signalant un jeu de données disponible en licence LIP.

CC-BY-SA-NC.png
LicenceIP.png

Des conditions de licences inspirées de Creative Commons et du « share alike »

Lorsque les données produites sont commercialisées, il peut arriver que leur mise à disposition à titre gratuit pour une réutilisation commerciale ne soit pas possible, notamment pour des raisons de distorsion de concurrence sur des marchés existants.

Il est par contre souvent possible de mettre à disposition les données pour réutilisation gratuite même dans un but commercial, mais avec une restriction de taille, qui est celle du « share alike » – le partage des données dans des conditions identiques.

Ce type de licences gratuites spécifiques permettent d’adapter, de modifier, de transformer et de construire d’autres données à partir de celles mises à disposition, à condition de reverser au profit de l’ensemble de la collectivité les données produites, dans des conditions identiques c'est-à-dire ouvertes (redistribution imposée sous la même licence).

Mettre en place une licence gratuite de type « share alike » n’exclut absolument pas de maintenir la tarification de la réutilisation des données hors de ce cadre. Les autres réutilisateurs peuvent toujours accéder à une licence payante non exclusive.

Certains interlocuteurs au sein de la communauté des réutilisateurs considèrent de telles clauses comme contraires à l’esprit de l’Open Data. D’autres y voient une approche pragmatique permettant de concilier des finalités différentes.

Anticiper l’impact organisationnel

Les redondances locales révèlent le besoin d'une infrastructure nationale

L’étude de cas présentée au chapitre V sur le partage de l’information géographique dans les régions montre que des recoupements au moins partiel des initiatives locales de partage des données géographiques publiques existent. L’État, qui donne l’impulsion d’une infrastructure nationale pour l’information géographique et se trouve au centre des initiatives ou au moins associé à celles-ci, pourrait rechercher plus systématiquement des synergies entre elles.

Privilégier la rapidité d'exécution

Dans le développement de projets de systèmes d’information du secteur public, on constate souvent une recherche de qualité des données et d’exhaustivité du service offert. Cela se fait au détriment de la rapidité de mise en œuvre.

Même si l’intention est louable et compréhensible, elle aboutit en pratique à des délais souvent si longs que le service, dépassé par la courbe technologique, ne répond plus à la demande avant même sa sortie.

Il est largement préférable de privilégier la rapidité d’exécution et d’adopter une démarche de développement agile. La mise en ligne rapide d’une version bêta avec un petit nombre de jeux de données permet d’illustrer rapidement les enjeux et d’enclencher le cercle vertueux qui créera les conditions favorables à un développement rapide du projet.

Les freins classiques au changement restent à l'œuvre

Le savoir étant souvent associé au pouvoir, des freins à l’ouverture des données apparaissent naturellement dans les organisations, et s’ajoutent aux résistances qu’un changement aussi profond que l’Open Data ne peut manquer de créer.

L’apparition de nouveaux processus au sein de l’administration du fait de la collecte et du recensement des données nécessite des compétences propres et des formations adéquates. C’est un point essentiel pour la réussite de la construction d’une nouvelle relation entre le producteur et les réutilisateurs éventuels des données.

L’animation conjointe de la communauté de producteurs et de réutilisateurs, que ce soit par l’organisation de concours de développement, d’ateliers de travail ou de Bar Camps, doit permettre de rapprocher ces communautés et de catalyser les efforts de mise en ligne et de réutilisation.

Cela soulève la question de la place de l’innovation au sein des organisations. Par exemple l’INSEE, considérant qu’il est trop tôt pour restructurer l’organisation dans son ensemble autour de la question du web sémantique[14], s’est investi dans le projet Data Lift[15] de l’INRIA pour adapter au web sémantique certaines de ses données.

Le coût de la mise à disposition est compensé par les bénéfices induits

Un élément récurrent du débat sur l’ouverture des données publiques est celui du coût supposé démesuré qu’elle impliquerait pour la puissance publique.

Notre étude sur la mise en commun des données géographiques dans les régions permet de faire émerger quelques ordres de grandeur.

Les moyens en investissement des initiatives de mise en ligne de données correspondent essentiellement aux dépenses liées aux serveurs, soit pour les portails géomatiques des régions une moyenne de 200 000 euros par initiative. Les coûts de fonctionnement moyens sont de 50 000 euros par an et de 4 équivalents temps plein.

Pour le plus grand projet de mise à disposition de données géographiques en France, le Géoportail de l’IGN, qui répond aux obligations de la directive INSPIRE, 22 agents sont dédiés à son activité spécifique de service public à l’exclusion de toute activité commerciale. Les coûts en investissement s’élèvent à 6 millions d’euros, et le coût annuel de fonctionnement est de 2 millions d’euros. Ces coûts nous semblent largement

compensés par les avantages de l’ouverture des données. L’État a d’ailleurs montré qu’il était prêt à les couvrir, voire à compenser le manque à gagner commercial qu’un passage à la gratuité pouvait engendrer lorsque les bénéfices le justifiaient, comme ce fut le cas avec le passage du RGE de l’IGN à la gratuité pour le secteur public en 2010 – et ce d’autant plus que dans ce cas, le produit de la commercialisation provenait du secteur public lui-même.

La mutualisation des plateformes par les collectivités, voire la mise en ligne de leurs données sur data.gouv.fr, devrait permettre de dépasser ce débat.

Établir des modèles économiques propices à l’innovation

Cette section aborde et décrit les caractéristiques particulières de la donnée publique en tant qu’objet économique, les prescriptions normatives de la théorie, et les conséquences que l’on peut en tirer quant au modèle économique le plus à même d’encourager la réutilisation des données et de permettre de réaliser les bénéfices que la société peut en attendre.

Les données publiques comme objet économique

(i) Particularités
Du fait de leur caractère immatériel, les données publiques présentent des particularités par rapport aux biens classiques, même informationnels. Leur non-rivalité revêt une importance technique, au sens où leur coût de reproduction est quasi nul. Leur coût de distribution est donc très faible lui aussi, car limité au coût de bande passante, très largement négligeable, et de stockage, qui reste très modeste des bienfaits issus de la réutilisation des données.
En sens inverse par contre, les coûts fixes liés à la production de données sont significatifs à chaque étape de la chaîne de valeur.
Si le coût marginal de production et de distribution est quasi nul, se pose en revanche la question de la couverture des coûts fixes. C’est là que repose toute la complexité de la question de la tarification.
Un autre caractère particulier de la donnée publique tient au fait qu’elle présente un très fort potentiel de réutilisation au sein de biens et services fortement hétérogènes. Par opposition à un bien physique, souvent destiné à un usage spécifique une fois produit, une donnée publique peut servir à un éventail virtuellement infini d’applications.
Cela pose un problème concret à l’analyse économique des évolutions du marché pour une donnée particulière, car rien ne permet de savoir si elle constitue un marché mature ou si son potentiel de réutilisation innovante est encore latent.
Surtout, les données publiques ont la caractéristique d’être avant tout des facteurs de production d’autres biens ou (majoritairement) services. Ce n’est que très rarement la donnée en tant que telle qui a une valeur directe pour le consommateur ou l’entreprise, mais l’information qu’elle contient, l’analyse qu’elle permet d’étayer, l’objet qu’elle permet de construire, l’application qu’elle permet de développer.
L’évolutivité des techniques rend impossible la prévision, même dans les grandes lignes, des usages tirés de l’ouverture des données qui rencontreront un succès commercial. Il ne faut donc pas restreindre les données susceptibles d’ouvertes en fonction d’une analyse a priori de leur intérêt pour les réutilisateurs.
Ne mesurer que la demande directe des données par les réutilisateurs, c’est ignorer l’effet multiplicateur de la demande de services exprimée ou latente chez les utilisateurs.
L’analyse du modèle économique des données doit prendre en compte les externalités positives découlant de la création de nouveaux services et de l’incitation à l’innovation portée par l’ouverture la plus large des données publiques.
(ii) Modèles économiques des données publiques
Les exercices de modélisation économique de la production et de la réutilisation des données publiques se limitent en général à trois types de coûts : les coûts de production de la donnée brute, les coûts de transformation (de données « upstream » ou « brute » en donnée « downstream » ou « à valeur ajoutée »), et les coûts de diffusions.
Dans la réalité, il faut aussi bien sûr tenir compte des coûts de transaction, qu’ils soient fixes (mise en place d’un moyen de paiement) ou variables (frais de transactions financières à chaque paiement de redevance, et temps de travail nécessaire à leur réalisation). L’expérience empirique sur la tarification des données montre que le coût de mise en œuvre d’une infrastructure de paiement est souvent à peine compensé par les revenus générés[16], ce qui doit pousser à restreindre le plus possible l’établissement de redevances pour réutilisation.
Le point crucial à rappeler est que la donnée, avant d’être un bien dont les consommateurs peuvent bénéficier directement ou indirectement, est l’outil de travail fondamental de l’administration. Il faut éviter la multiplication au sein des administrations d’un travail de raffinage des données à destination d’une activité de vente, pour deux raisons : d’abord cela crée des risques de distorsions majeures sur les marchés, comme noté par Joseph Stiglitz (prix Nobel d’économie) et Peter Orszag (ancien ministre du Budget américain d’Obama) dans le rapport de référence sur le rôle du gouvernement dans l’ère numérique[17] ; et si des données sont de qualité suffisante pour le travail de l’administration, il ne doit pas y avoir lieu de les transformer en profondeur pour les rendre utiles à des réutilisateurs.
Il faut donc bien définir les coûts dont la couverture nous amène à rechercher un modèle économique optimal : il ne s’agit non pas de l’ensemble des coûts de production, mais de ceux générés du fait et seulement du fait de la mise à disposition d’un ensemble de données.
(iii) Doctrine des ressources essentielles et droit à la concurrence
Un point important qui élargit l’enjeu de la tarification à celui de l’accès aux données est son incidence sur des problèmes de concurrence imparfaite. Les conflits concurrentiels qui peuvent apparaître dans un monde où l’administration a le monopole structurel de la production d’un certain nombre de données importantes ont été notés dès les prémices des réflexions sur l’accès aux données publiques dans les années 1990[18] [19].
L’importance du sujet a conduit le Premier ministre Lionel Jospin[20] à répéter alors, lors du discours d’Hourtin de 1997, la doctrine des ressources essentielles et son application aux données publiques.
Selon cette doctrine de droit de la concurrence, toute ressource dont la réutilisation est essentielle à l’établissement d’un marché efficace et concurrentiel, mais qui peut en empêcher la formation si elle n’est pas accessible, doit être régulée de manière à permettre l’émergence de ce marché et son bon fonctionnement.[21]
En particulier, il est important de noter que cette doctrine a vocation à s’appliquer aussi au secteur privé, et l’on peut imaginer qu’elle fasse un jour jurisprudence pour permettre l’accès à des données certes de droit privé, mais constituant une ressource essentielle pour des intérêts de service public.[22] [23]

Choix optimal de tarification et hypothèses économiques

(i)Trois types de tarification permettent de traiter le problème des coûts fixes
Les études économiques retiennent en général trois modèles de tarification pour couvrir les coûts fixes découlant de la mise à disposition de données publiques.
Le modèle monopolistique correspond à un modèle où l’objectif est la maximisation des revenus directs pour l’institution productrice. Il participe souvent de l’exercice d’une position dominante, car seule la puissance publique a ce ??? à et peut produire un certain nombre de données. Les distorsions et inefficacités que ce comportement de monopole peut créer sont bien connues et particulièrement fortes selon la théorie.
Le modèle de coût moyen suppose la possibilité pour un producteur d’observer la courbe de demande de ses réutilisateurs, et de fixer un prix qui équilibre exactement ses revenus directs issus des redevances avec ses coûts d’ouverture et de diffusion des données.
Enfin, le modèle de coût marginal, dans les faits celui de la gratuité, recherche l’optimum d’efficience économique, que la science économique détermine comme atteint lorsque le prix d’un bien (ici le montant de la redevance) est égal au coût marginal de fourniture du bien, c'est-à-dire d’une unité supplémentaire (ici très proche de zéro car la donnée est immatérielle). Il fait par contre porter les coûts fixes de production et diffusion des données sur le budget de l’institution productrice, c'est-à-dire indirectement sur le réutilisateur via l’impôt (avec les incidences en terme de redistribution que cela peut impliquer).
La littérature sur le sujet est encore réduite, mais trois études en particulier comparent systématiquement les trois modèles, leurs avantages et leurs inconvénients :
« Models of provision of Public Sector Information by trust funds » de l’Université de Cambridge[24] qui fait autorité auprès du gouvernement britannique (Newbery et al.), l’étude Bureau d’Économie Théorique et Appliquée de l’Université de Strasbourg sur la valorisation des informations du secteur public réalisée en collaboration avec l’Agence pour le Patrimoine Immatériel de l’État[25], et « Economics of Public Sector Information[26] », l’étude complémentaire à l’étude de Cambridge, menée fin 2008 par Rufus Pollock, mathématicien et économiste à l’Université de Cambridge et nommé par le Premier ministre David Cameron au Public Sector Transparency Board.
(ii) Une référence « Economics of Public Sector Information » de Rufus Pollock

L’étude de Rufus Pollock est la référence la plus largement citée et la plus reconnue. Elle aborde l’ensemble des problèmes théoriques liés à l’économie des données publiques, rassemble les résultats empiriques connus, et propose des solutions de financement alternatives tels que le paiement à l’enregistrement des données.

Le cœur de l’étude détaille quatre types de problèmes majeurs qui apparaissent avec les modèles de tarification cités précédemment[27] : les questions de crédibilité du producteur quand à la pérennité de sa tarification (le risque étant la capture de valeur injustifiée par la puissance publique une fois de nouveaux modèles commerciaux découverts), les incitations à la production et à la réutilisation, les distorsions de compétition, et les problèmes d’asymétrie d’information.
Le modèle de coût moyen pose des problèmes insolubles d’asymétrie d’information, car il est irréaliste de penser qu’un producteur puisse observer exactement le point sur une courbe de demande qui lui permette d’équilibrer son budget.
Au contraire, le modèle de coût marginal, ou la gratuité, qui aurait court sur un marché en concurrence pure et parfaite, s’abstrait de cette contrainte irréaliste.
Mais c’est sur le sujet des distorsions de concurrence que les modèles de coût moyen et

monopolistique présentent des risques d’inefficacités extrêmes. Ces risques proviennent d’abord des positions dominantes par nature des acteurs publics dans la production de données publiques, mais aussi de la sous-optimalité de ces deux modèles qui mettent en place une structure distordue de signaux d’incitations.

Au contraire, le modèle de tarification marginale aligne exactement le prix de la licence de réutilisation des données sur le coût marginal d’ouverture et de diffusion. Selon le modèle de la Pareto-efficience, c’est donc la solution optimale pour la société.
Pour Pollock, le modèle de la gratuité s’impose donc et doit être généralisé. La seule question qui peut rester ouverte elle celle de savoir, soit dans quels cas théoriques le modèle de coûts moyens devrait prévaloir sur le modèle en coûts marginaux, soit dans quelles exceptions ces coûts marginaux deviennent

non négligeables et imposent une tarification modeste autre que la gratuité.

(iii) L'«étude de Strasbourg » révèle les difficultés liées aux hypothèses économiques
L’étude récente menée par Julien Pénin et quatre coauteurs au Bureau d’Économie

Théorique et Appliquée de l’Université de Strasbourg, en partenariat avec l’Agence pour le Patrimoine Immatériel de l’État (APIE), se propose d’aborder le sujet sous l’angle de la valorisation des informations du secteur public[28].

Ses conclusions s’approchent dans ses grandes lignes de celles de la littérature existante, à savoir que la tarification devrait être gratuite pour tous les usages personnels, que le modèle de tarification au coût marginal est optimal pour le plus grand nombre de réutilisations commerciales. Elle affirme cependant qu’il existe des cas dans les marchés matures avec forte contrainte budgétaire où la tarification au coût moyen peut aussi être optimale.
logo travaux importation en cours à partir de ce point

Notes

  1. Description formelle de la représentation des données dans la base de données.
    Voir < http://www.acgrenoble.fr/ecogest/pedago/administration/prodpeda/mcd.h tm. >
  2. Ed Parsons - Geospatial Technologist for Europe, Middle East and Africa chez Google, au séminaire « Innovations et développement du secteur de l’information géographique » organisé le 5 octobre 2009 à la Grande Arche de la Défense par le Conseil National de l’Information Géographique (CNIG), l’AFIGÉO et l’Institut des Sciences et des Techniques de l’Équipement pour le Développement (ISTED)
  3. Voir la plaquette « L’information géographique : l’expérience française » publiée le 21 mai 2008 par le Ministère de l’écologie, de l’énergie, du développement durable et de l’aménagement du territoire.
  4. Le premier portail de Yahoo recensait les sites les plus populaires, organisés selon leurs contenus. Il procédait ainsi à une séparation analogue entre donnée et métadonnée.
  5. The Economist. 25 février 2010. « The Data Deluge : Businesses, Governments and Society are Only Starting to Tap Its Vast Potential »
  6. http://fr.wikipedia.org/wiki/Cloud_computing
  7. ReadWriteWeb. 2010. The Age of Exabytes : Tools & Approaches for Managing Big Data.
    < http://www.readwriteweb.com/reports/big-data/ >
  8. Henri Verdier. 14 décembre 2010. « Big Data : Making sense at scale. »
    < http://www.henriverdier.com/2010/12/big-data-makingsense-at-scale.html >
  9. Segaran, T. 2009. Programming the Semantic Web. O’Reilly éditions.
  10. TED (Technology Entertainment and Design) est un ensemble de conférences lancées en 1984 par le secteur privé à but non lucratif américain pour diffuser des "idées qui méritent d’être répandues ».
  11. Lessig, 2009. Idib.
  12. Open Database License
    <http://www.opendatacommons.org/licenses/odbl/>
  13. Licence Information Publique
    < http://www.rip.justice.fr/information_publique_librement_reutilisable >
  14. Entretien du 26 novembre 2010, ibid.
  15. Projet de recherche sur l’interconnection des jeux de données sémantiques. http://datalift.org/
  16. Table ronde avec des collectivités locales à l’Open Government Data Camp à Londres le 18 novembre 2010.
  17. Joseph Stiglitz et Peter Orszag. Octobre 2000. The Role of Government in a Digital Age.
    <http://archive.epinet.org/real_media/010111/materials/stiglitz.pdf >
  18. Entretien avec Maurice Ronai.
  19. Maurice Ronai. 1996. Données publiques : accès, diffusion, commercialisation. Revue Problèmes Politiques et Sociaux : Dossiers d’Actualité Mondiale. Nos 773-774, 1er novembre 1996. La Documentation Française.
  20. Lionel Jospin. Discours à Hourtin le 25 aout 1997.Préparer la France pour la Société de l’Information.
    < http://www.admiroutes.asso.fr/action/theme/politic/lionel.htm >
  21. Entretien avec Pierre-Jean Benghozi le 12 octobre 2010.
  22. Entretien avec Maurice Ronai, auteur du rapport à la documentation française de 1996 sur le sujet.
  23. Entretien le 12 novembre 2010 avec Guillaume Crouigneau, directeur de CanalTP, filiale de la SNCF.
  24. David Newbery, Lionel Bently, Rufus Pollock. 26 février 2008. « Models of Public Sector Information Provision via Trading Funds. » Cambridge University.
    < http://www.berr.gov.uk/files/file45136.pdf >
  25. APIE. 12 janvier 2011. « Etude économique ».
    https://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/etudeeconomique/view >
  26. Rufus Pollock. 2 décembre 2008. « The Economics of Public Sector Information ». University of Cambridge.
    <http://www.rufuspollock.org/economics/papers/economics _of_psi.pdf >
  27. Tableau page 16 dans Pollock, 2008.
  28. Julien Pénin et al. 12 janvier 2011. « Rapport Final : La valorisation des informations du secteur public (ISP) : un modèle économique de tarification optimale ». Université de Strasbourg.
    < https://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/etudeeconomique/downloadFile/attachedFile/Rapport_final_BETA.pdf?nocache=1294846257.31 >