Nuvola apps important.png Attention, suite à une faille de sécurité, quelques liens vers les serveurs d'exploration sont désactivés.

-

Pour une politique ambitieuse des données publiques (2011) chapitre 6 : Différence entre versions

De Wicri France
imported>Jacques Ducloy
(Une complexité liée à l'accumulation de licences)
imported>Jacques Ducloy
(Les différences de droit entre pays, source de confusion)
Ligne 304 : Ligne 304 :
 
plus complexes que les données proviennent de
 
plus complexes que les données proviennent de
 
pays différents.
 
pays différents.
 +
 +
Ces confusions peuvent nuire à la facilité
 +
de réutilisation et créent un risque juridique.
 +
L’émergence de standards internationaux de
 +
licences compatibles doit devenir une priorité.
 +
 +
===Des pictogrammes pour des conditions de réutilisation plus explicites===
 +
Il est primordial, pour assurer la clarté
 +
juridique des conditions de réutilisation, de
 +
permettre aux réutilisateurs d’en prendre
 +
connaissance simplement.
 +
 +
La Fondation ''Creative Commons'' a mis au
 +
point à cet effet un certain nombre de
 +
pictogrammes permettant d’identifier
 +
facilement les conditions spécifiques de
 +
réutilisation d’un contenu couvert par une telle
 +
licence.
 +
 +
C’est aussi dans cette perspective de
 +
lisibilité que Thomas Saint-Aubin, au sein du
 +
ministère de la Justice, a conçu le pictogramme
 +
« Infomation Publique », signalant un jeu de
 +
données disponible en licence LIP.
 +
 +
[[File:CC-BY-SA-NC.png|300px|left]]
 +
[[File:LicenceIP.png|300px|right]]
 +
{{clr}}
 +
===Des conditions de licences inspirées de Creative Commons et du « share alike » ===
 +
Lorsque les données produites sont
 +
commercialisées, il peut arriver que leur mise à
 +
disposition à titre gratuit pour une réutilisation
 +
commerciale ne soit pas possible, notamment
 +
pour des raisons de distorsion de concurrence
 +
sur des marchés existants.
 +
 +
Il est par contre souvent possible de mettre
 +
à disposition les données pour réutilisation
 +
gratuite même dans un but commercial, mais
 +
avec une restriction de taille, qui est celle du
 +
« share alike » – le partage des données dans
 +
des conditions identiques.
 +
 +
Ce type de licences gratuites spécifiques
 +
permettent d’adapter, de modifier, de
 +
transformer et de construire d’autres données à
 +
partir de celles mises à disposition, à condition
 +
de reverser au profit de l’ensemble de la
 +
collectivité les données produites, dans des
 +
conditions identiques c'est-à-dire ouvertes
 +
(redistribution imposée sous la même licence).
 
{{Wicri travaux|texte=importation en cours à partir de ce point}}
 
{{Wicri travaux|texte=importation en cours à partir de ce point}}
[[File:CC-BY-SA-NC.png|400px]]
 
[[File:LicenceIP.png|400px]]
 
  
 
==Anticiper l’impact organisationnel==
 
==Anticiper l’impact organisationnel==

Version du 27 août 2011 à 20:02

Logo ponts paristech.png
Pour une politique ambitieuse des données publiques :
Les données publiques au service de l’innovation et de la transparence


Partie 3 - Comment favoriser la réutilisation des données publiques ?
Chapitre VI. Abaisser les barrières à la réutilisation
RapportDonnéesPubliques2011.png
logo travaux page en cours d'importation

Afin d’encourager la réutilisation des données publiques et de permettre la concrétisation des conséquences positives que l’on peut en attendre, il est nécessaire d’abaisser autant que possible les barrières à la réutilisation.

Nous détaillons dans ce chapitre les défis et les difficultés qui peuvent se poser, ainsi que des pistes de solutions. Il s’agit essentiellement de répondre aux contraintes techniques de l’ouverture des données, d’en gérer la complexité juridique, d’anticiper son impact éventuel sur les institutions publiques, et de mettre en place les modèles économiques les plus propices à encourager l’innovation.

 

Répondre aux contraintes techniques

Modèles et formats de données peuvent rendre la donnée plus utile

L’un des objectifs de l’ouverture des données est de stimuler les activités construites à partir sur ces données. Il est crucial de diffuser les données à l’état brut, dans des formats ouverts et réexploitables[1].

La finalité et l’importance des questions de format doivent donc être clairement expliquées, et les processus de collecte et de recensement doivent être établis et assimilés par l’ensemble des opérateurs, ce qui nécessite un effort pédagogique soutenu.

Ergonomie de l'accès aux données

Une autre contrainte technique tient au besoin d’ergonomie et de simplicité qu’expriment les utilisateurs des outils de diffusion de données.

Le volume de données aujourd’hui hébergé sur certains sites, comme celui de l’INSEE, est tel que de nouvelles problématiques de recherche interactive sont soulevées.

La simplicité est le maître mot en la matière. Ed Parsons[2] de Google, en fait une exigence centrale :

« Les gens veulent accéder à l’information à travers des outils faciles d’emploi. Il faut que ces outils parlent leur langage, ne les oblige pas à utiliser une manière de procéder qui leur soit étrangère, ils veulent juste accéder à l’information dont ils ont besoin. L’infrastructure support est pour l’essentiel invisible pour les utilisateurs, tout comme celle qui est derrière une prise électrique ou derrière un robinet : elle est invisible derrière la page d’accueil de Google. »

Rendre simple et efficace un service en ligne exige d’anticiper les difficultés éventuelles d’ergonomie et de design d’interaction dès la phase de conception, en soumettant le projet des utilisateurs test. Cela implique aussi de gérer la complexité durant les phases ultérieures, pendant le développement comme lorsque l’outil fonctionne en production.

La complexité des données géographiques au cœur des évolutions futures du secteur

Les technologies géomatiques[3] permettent de superposer sur des fonds de carte des données cartographiques diverses, d’ajouter des couches d’informations variées (physiques, économiques, environnementales), et surtout de visualiser ces phénomènes et leur évolution en représentation spatiale, sur lesquelles le cerveau humain est capable d’inférences rapides et complexes.

Globalement, l’information géographique numérique est devenu un outil puissant d’analyse de données. Elle constitue aussi une donnée structurante pour la réutilisation de nombreuses autres données publiques ou pour la production de nouveaux services.

Traditionnellement, les cartes et les informations sur ces cartes étaient rangées séparément dans des cartothèques. La même organisation conceptuelle est reproduite sur les données géographiques numériques avec des efforts importants sur la structuration des données et des métadonnées.

Inspire, le portail environnement, le Géoportail couplé au Géocatalogue, les normes AFNOR, CEN et ISO sur l’information géographique et sur les métadonnées en sont autant d’illustrations[4]. Construire une infrastructure capable de gérer la complexité de l’information géographique tout en préservant la simplicité de l’interface est crucial pour faciliter la réutilisation des données.

Les nouveaux outils du Web des données

Face à la croissance toujours plus rapide des capacités de calcul et de stockage des centres de calcul des grandes entreprises du Web, le monde fait aujourd’hui l’expérience d’un véritable « déluge des données[5] ».

On estime que l’humanité, qui aurait produit 150 Exaoctets (150 milliards de Gigaoctets, soit à peu près 40 milliards de DVD) en 2005, créera 1,200 Exaoctets de données numériques nouvelles en 2011. Cette échelle de quantité de données à stocker et analyser crée de nouveaux défis et de nouvelles opportunités technologiques.

L’apparition du cloud computing[6] et le développement d’outils de traitement algorithmique des données à très grande échelle (par exemple Map/Reduce, Hadoop, et les outils Big Data[7]) vont permettre le stockage, le traitement et l’analyse de pans de données numériques d’une taille inimaginable jusqu’alors[8]. « Tout ce que nous connaissions du Web va changer à nouveau », et ces outils permettront d’amener des réponses

Web Séantique : L'avenir du Web ?

En représentant les données sous forme de graphe de relations entre entités plutôt que de tables structurées, les technologies du Web sémantique et des « données ouvertes liées » (Linked Open Data) permettent aux machines de donner un « sens » à l’information disponible en ligne[9]. On parle d’ontologie pour décrire la structure des différents types d’entités représentées et les concepts de relations qui les relient.

Malgré l’enthousiasme d’une partie de la communauté pour ces technologies sémantiques, elles soulèvent des questions techniques et financières difficiles à ignorer pour les administrations publiques.

Une première étape dans l’intégration des données issues du secteur public à un hypothétique Web des données consiste à mettre en ligne les données sous forme brute, et à permettre aux membres de la communauté qui souhaiteraient s’impliquer de réaliser eux-mêmes la sémantisation des jeux de données.

Au cours d’une présentation qu’il a effectuée à la conférence TED[10] en 2009, Tim Berners Lee a lancé un vibrant appel à la mise en ligne des données brutes au plus tôt de par le monde : « We want raw data now ! » La mise en ligne de données brutes est une approche pragmatique qui permet d’accélérer l’ouverture des données publiques, et une première étape vers la construction d’un Web des données.

Gérer la complexité juridique

Les producteurs de données ont développé plusieurs licences

Selon la loi de 1978, le principe général est celui de la réutilisation libre, gratuite et sans conditions des données publiques. Les licences ne sont obligatoires que dans les cas où l’administration souhaite imposer une réutilisation payante de ses données.

Néanmoins, de nombreux acteurs considèrent que ce régime ne garantit pas une réelle sécurité juridique, et attendent des pouvoirs publics qu’ils explicitent les usages autorisés sous forme de licences, y compris dans le cas d’une réutilisation gratuite.

Schématiquement il existe cinq possibilités sur les conditions d’accès aux données publiques :

  • Sur demande : l’accès peut être accordé dans certains cas et sous conditions.
  • Licence payante : l’accès aux données est assujetti à un paiement.
  • Accord exclusif d’accès avec une seule entreprise déléguée pour diffuser les données: en cas d’investissements importants réalisés par le privé mais pour une durée limitée seulement, peut être le cas dans le domaine culturel.
  • Licence ouverte sous conditions : l’accès est ouvert mais la diffusion est soumise à conditions.
  • Licence ouverte sans restriction : l’accès et la réutilisation sont libres, c’est le cas des données entrées dans le domaine public ou, par défaut, des données publiques ouvertes sans licence.

De nombreuses licences ont déjà été élaborées par des services publics, certaines pouvant être contractualisées par un simple clic.

L’Agence pour le Patrimoine Immatériel de l’État (APIE), une agence de conseil du ministère de la Réforme de l’État et des Comptes Publics en a développé deux pour livraison de données soumises à redevance (une pour téléchargement simple et l’autre pour livraisons régulières). La Direction de l’Information Légale et Administrative a mis en place des licences payantes pour la réutilisation de certaines de ses données par ailleurs accessibles gratuitement, comme les débats « questions-réponses » de l’Assemblée nationale, ou les téléchargements de masse depuis Légifrance (avec livraison au format XML sur un site dédié).

Dans le monde des contenus culturels, un certain nombre de licences standards ont émergé des travaux sur l’évolution du copyright face aux nouveaux usages de partage, de mashups ou de remix[11]. Les différentes licences Creative Commons, qui définissent des conditions différentes (avec ou sans usage commercial, avec ou sans partage à l’identique, attribution, etc.) sont par exemple très utilisées sur Internet, notamment par Wikipedia.

Les licences pour réutilisation de données comportent en général des clauses plus techniques liées à la nature d’une base de données, qui peut être différente d’un contenu média. Un certain nombre de licences « Open Data » standard pour réutilisation de données s’inspire cependant largement de Creative Commons. La licence ODbL[12] (Open Database License) reprend notamment des notions de partage à l’identique et d’attribution, et permet l’accès, l’utilisation, le téléchargement, la copie, le partage et la distribution des données publiques ouvertes.

Le ministère de la Justice a élaboré une licence « information publique librement réutilisable » appelée LIP[13]. Elle précise les droits d’adaptation des informations publiques en vue d’une activité commerciale ou non. L’adaptation et la modification sont autorisées à condition qu’il y ait enrichissement documentaire, technique ou éditorial et que le sens ne soit pas dénaturé. La rediffusion et la vente sont possibles si les données ont subi un nouveau traitement et qu’elles sont intégrées dans un produit ou un service nouveau auprès des tiers.

Une complexité liée à l'accumulation de licences

Toutes ces licences, bien qu’elles soient fondées sur les mêmes principes généraux, ne sont pas nécessairement compatibles les unes avec les autres. Or, les données n’ont de valeur pour les usagers finaux des services qui les réutilisent que si elles sont partagées, recoupées et réutilisées.

Certaines données sont disponibles à titre gratuit et d’autres à titre payant, certaines sont soumises à des droits, d’autres sont en libre accès au public, d’autres encore portent des clauses d’attribution parfois lourdes. Dans ce contexte parfois contradictoire, connaître précisément les conditions de réutilisation de données produites par recombinaisons successives peut être complexe.

L’accumulation de licences différentes pour des jeux de données distincts crée une complexité et un risque juridique potentiellement coûteux. Il apparaît important d’éviter la prolifération de différentes licences proposant des dispositions ne variant que de façon marginale, et de privilégier l’utilisation la plus large de licences standards, idéalement aux standards de l’Open Data.

Les différences de droit entre pays, source de confusion

Le droit à la réutilisation, ses limites et son interaction avec les droits de propriété intellectuelle n’est pas uniforme entre les pays. Des différences marquées apparaissent entre pays de droit civil et pays de common law.

Ainsi, reprendre une oeuvre française mise sous une licence creative commons donnée n’offre pas les mêmes avantages que si cette oeuvre était américaine. Le droit de réutilisation des données, et les droits couvrant les bases de données elles-mêmes sont d’autant plus complexes que les données proviennent de pays différents.

Ces confusions peuvent nuire à la facilité de réutilisation et créent un risque juridique. L’émergence de standards internationaux de licences compatibles doit devenir une priorité.

Des pictogrammes pour des conditions de réutilisation plus explicites

Il est primordial, pour assurer la clarté juridique des conditions de réutilisation, de permettre aux réutilisateurs d’en prendre connaissance simplement.

La Fondation Creative Commons a mis au point à cet effet un certain nombre de pictogrammes permettant d’identifier facilement les conditions spécifiques de réutilisation d’un contenu couvert par une telle licence.

C’est aussi dans cette perspective de lisibilité que Thomas Saint-Aubin, au sein du ministère de la Justice, a conçu le pictogramme « Infomation Publique », signalant un jeu de données disponible en licence LIP.

CC-BY-SA-NC.png
LicenceIP.png

Des conditions de licences inspirées de Creative Commons et du « share alike »

Lorsque les données produites sont commercialisées, il peut arriver que leur mise à disposition à titre gratuit pour une réutilisation commerciale ne soit pas possible, notamment pour des raisons de distorsion de concurrence sur des marchés existants.

Il est par contre souvent possible de mettre à disposition les données pour réutilisation gratuite même dans un but commercial, mais avec une restriction de taille, qui est celle du « share alike » – le partage des données dans des conditions identiques.

Ce type de licences gratuites spécifiques permettent d’adapter, de modifier, de transformer et de construire d’autres données à partir de celles mises à disposition, à condition de reverser au profit de l’ensemble de la collectivité les données produites, dans des conditions identiques c'est-à-dire ouvertes (redistribution imposée sous la même licence).

logo travaux importation en cours à partir de ce point

Anticiper l’impact organisationnel

Établir des modèles économiques propices à l’innovation

Notes

  1. Description formelle de la représentation des données dans la base de données.
    Voir < http://www.acgrenoble.fr/ecogest/pedago/administration/prodpeda/mcd.h tm. >
  2. Ed Parsons - Geospatial Technologist for Europe, Middle East and Africa chez Google, au séminaire « Innovations et développement du secteur de l’information géographique » organisé le 5 octobre 2009 à la Grande Arche de la Défense par le Conseil National de l’Information Géographique (CNIG), l’AFIGÉO et l’Institut des Sciences et des Techniques de l’Équipement pour le Développement (ISTED)
  3. Voir la plaquette « L’information géographique : l’expérience française » publiée le 21 mai 2008 par le Ministère de l’écologie, de l’énergie, du développement durable et de l’aménagement du territoire.
  4. Le premier portail de Yahoo recensait les sites les plus populaires, organisés selon leurs contenus. Il procédait ainsi à une séparation analogue entre donnée et métadonnée.
  5. The Economist. 25 février 2010. « The Data Deluge : Businesses, Governments and Society are Only Starting to Tap Its Vast Potential »
  6. http://fr.wikipedia.org/wiki/Cloud_computing
  7. ReadWriteWeb. 2010. The Age of Exabytes : Tools & Approaches for Managing Big Data.
    < http://www.readwriteweb.com/reports/big-data/ >
  8. Henri Verdier. 14 décembre 2010. « Big Data : Making sense at scale. »
    < http://www.henriverdier.com/2010/12/big-data-makingsense-at-scale.html >
  9. Segaran, T. 2009. Programming the Semantic Web. O’Reilly éditions.
  10. TED (Technology Entertainment and Design) est un ensemble de conférences lancées en 1984 par le secteur privé à but non lucratif américain pour diffuser des "idées qui méritent d’être répandues ».
  11. Lessig, 2009. Idib.
  12. Open Database License
    <http://www.opendatacommons.org/licenses/odbl/>
  13. Licence Information Publique
    < http://www.rip.justice.fr/information_publique_librement_reutilisable >