Coopération et partage autour des pratiques collaboratives

Création d’un statut de données d’intérêt général : la position de SavoirsCom1

Le 18 juin dernier, la « Stratégie numérique du gouvernement » a été publiée, en marge de la remise du rapport Ambition numérique du Conseil National du Numérique. Ce document comporte 14 propositions destinées à être concrétisées par la loi numérique préparée en ce moment par Axelle Lemaire. Parmi ces pistes, figure la création d’un statut de « données d’intérêt général », dont l’idée avait déjà été avancée dans le rapport Jutand sur l’ouverture des données de transport remis au gouvernement en mars dernier.

L’idée générale consiste à promouvoir à travers ce statut l’ouverture de données privées ou para-publiques, présentant un intérêt capital pour le grand public, en allant au-delà du périmètre strict des informations publiques telles que définies dans la loi du 17 juillet 1978.

intérêt

Dans son rapport (p. 153), le Conseil National du Numérique s’est prononcé en défaveur de la création d’un nouveau statut de données d’intérêt général. Il estime que cette notion « par définition trop large et floue » risquerait de s’avérer « trop complexe pour être mobilisable simplement » et qu’elle pourrait « créer une insécurité juridique chez les acteurs privés, fragilisant la construction de services et de modèles d’affaires intégrant la donnée« .

SavoirsCom1 a été consulté dans le cadre d’une mission de réflexion lancée par le Ministère de l’Economie à propos de ce nouveau statut de données d’intérêt général.

Voici la position que nous avons exprimée, en lien avec les enjeux de promotion des communs de la connaissance que défend notre collectif

 1) Étendre l’ouverture des données aux SPIC (approche organique)

Le processus actuel d’ouverture des informations publiques se heurte à une limite forte, dans la mesure où les données détenues ou collectées par des SPIC (Service Public à caractère Industriel et Commercial) ne sont pas considérées comme des informations publiques aux termes de l’article 10 de la loi du 17 juillet 1978.

Les administrations relevant de ce statut restent entièrement libres de décider de s’engager dans des politiques d’ouverture. Ces SPIC peuvent néanmoins détenir des données particulièrement stratégiques, comme c’est le cas pour l’IGN, l’INSEE, la SNCF ou la RATP. Dans le champ culturel, la RMN relève aussi de ce statut et occupe une place importante.

Le rapport Jutand avait le premier suggéré d’étendre la démarche d’ouverture en utilisant la notion de données d’intérêt général afin d’englober des structures poursuivant une mission de service public à caractère économique et commercial.

Pour SavoirsCom1, il paraît en effet important que cette sphère des SPIC soit bien comprise dans la politique d’Open Data de l’administration française. Si la prochaine loi numérique instaurait, comme cela l’a plusieurs fois été annoncé, un principe de réutilisation libre et gratuite des informations publiques par défaut, il paraîtrait essentiel que les administrations ne puissent pas se réfugier derrière la qualification de SPIC pour s’y soustraire.

Néanmoins, nous ne sommes pas convaincus que l’introduction d’une nouvelle notion de « données d’intérêt général » soit particulièrement utile pour arriver à ce résultat.

La loi de 1978 pourrait en effet être modifiée pour assimiler simplement les données produites par des SPIC à des informations publiques. En ce sens, le rapport Trojette remis en 2014 au gouvernement recommandait d’appliquer à des établissements comme l’IGN ou l’INSEE les mêmes principes qu’aux autres administrations. Ces structures seraient soumises à un principe général de gratuité, avec une possibilité exceptionnelle de maintenir des redevances à condition que ce soit justifié pour certains jeux de données seulement. Le rapport Trojette envisageait aussi une période transitoire pour permettre à ces établissements d’adapter progressivement leur modèle économique à l’ouverture.

La notion d’information publique semble donc ici suffisante et la création d’un nouveau statut de données d’intérêt général pourrait même s’avérer dangereuse, en servant d’alibi au maintien de redevances. C’est d’ailleurs un des travers du rapport Jutand qui envisage que les données de trafic en temps réel de la SNCF puissent par exemple rester payantes, tout en étant des données « d’intérêt général ».

On risque donc avec les données d’intérêt général de voir se dessiner une sorte d’Open Data « de seconde zone »., remettant en cause le principe de gratuité.

SavoirsCom1 a rappelé lors de l’audition son attachement au principe de gratuité dans la réutilisation des données publiques, qui seul est compatible avec une démarche réelle d’Open Data. SavoirsCom1 manifeste en particulier la plus grande méfiance vis-à-vis des modèles de « Freemium », qui sont envisagés par exemple par des opérateurs de transport comme la RATP ou la SNCF.

Ces modèles de tarification prétendent maintenir la libre réutilisation pour les petits acteurs innovants (start-up) et soumettre à paiement les usages massifs des données pour mettre à contribution les gros acteurs, type Google. Mais ces grosses sociétés ont largement les moyens de payer des redevances pour accéder aux données qui les intéressent, tandis que le Freemium va surtout pénaliser les acteurs moyens. Au final, de tels systèmes tendent à conforter les positions dominantes plus qu’ils ne les combattent et empêchent les acteurs type start-up de passer à l’échelle, ce qui reste aujourd’hui un des gros problèmes en France (beaucoup d’innovations, mais peu d’acteurs capables de percer et de se maintenir dans la durée en se développant).

 2) Étendre l’ouverture à des secteurs d’activités (approche matérielle)

Une autre approche des données d’intérêt général raisonne moins en termes de personnes (approche organique) que par rapport à des thématiques ou des champs d’activités, présentant une importance particulière (approche matérielle).

C’est la manière dont la notion est présentée dans la Stratégique numérique du gouvernement, qui parle de « promouvoir une économie de la donnée en créant la notion de données d’intérêt général dans certains secteurs clés comme les transports, la santé, l’énergie ou le tourisme« .

On assiste en ce moment à une première concrétisation de cette vision des données d’intérêt général à l’occasion du vote de la loi Macron, dans laquelle des dispositions ont été introduites par les députés et les sénateurs pour soumettre, contre l’avis du gouvernement, les opérateurs de transports à des obligations d’ouverture de leurs données. Mais le processus s’avère chaotique et un certain nombre de données pourraient visiblement rester soumises à des redevances.

La question est donc de savoir si un statut formalisé de « données d’intérêt général » pourrait aider à ce type d’ouverture sectorielle, impliquant le cas échéant des acteurs privés ou para-publics.

SavoirsCom1 rejoint ici les inquiétudes du CNNum quant au caractère nécessairement flou de la notion d’intérêt général. Il paraît délicat de déléguer à une autorité administrative le soin de déterminer que tel ou tel domaine relève de « l’intérêt général ». Le parlement reste de ce point de vue le mieux placé pour légitimement imposer à des obligations d’ouverture à des acteurs sectoriels. Mais dans ce cas, il n’est pas besoin d’introduire une notion spécifique de données d’intérêt général : l’ouverture sectorielle se fera au fil des lois, en prenant en compte la spécificité de chaque secteur.

Une manière plus intéressante d’envisager la question pourrait consister à imposer des obligations d’ouverture aux structures privées qui reçoivent des subventions de la part de l’Etat ou des collectivités territoriales. De telles subventions ne peuvent – théoriquement – être attribuées qu’à des activités considérées comme relevant de l’intérêt général. Les structures qui touchent ces subventions sont normalement déjà soumises à des obligations de transparence et au fait de rendre des comptes. La publication des données qu’elles produisent en Open Data constituerait donc une évolution logique et naturelle de leur rapport à l’administration et à la société civile.

Mais dans ce cas, introduire un nouveau statut notion de « données d’intérêt général » n’est pas non plus nécessairement utile. La loi du 17 juillet 1978 pourrait simplement être modifiée pour qualifier d’informations publiques les données produites par des structures subventionnées (à charge peut-être de définir un seuil de montants).

 3) Liens entre les données d’intérêt général et la notion de « données pivot »

Dans certains pays, comme le Danemark ou les Pays-Bas, la politique d’Open Data n’est pas passée comme en France par l’imposition d’un principe général d’ouverture, mais plutôt par l’identification d’un certain nombre de jeux de données jugés particulièrement importants. Au Danemark, ont été considérés comme des « données de base » (ou de référence), le registre des personnes, le registre des entreprises, le cadastre, les cartes topographiques et la base des adresses. Il s’agit de données « pivot », notamment au sens où elles sont des briques de base indispensables pour construire des services autour des données. Dans ces pays, l’ambition a été d’ouvrir ces jeux de données, mais aussi de les publier avec un fort niveau de qualité en les liants entre elles (démarche du « Linked Open Data » pour mettre ces informations dans le Web de données).

On voit un recoupement possible avec la réflexion française autour des données d’intérêt général, car pour rependre l’exemple du Danemark, les cartes topographiques en France sont détenues par l’IGN et la base des adresses est longtemps restée morcelée entre l’IGN et La Poste. Or ces structures constituent des SPIC qui restent légalement dans l’angle mort des politiques d’ouverture.

SavoirsCom1 estime qu’il y aurait en effet un intérêt à procéder à l’identification des données-pivot au sein de celles qui ont été publiées sur data.gouv.fr, ainsi que de repérer celles qui manquent encore. Cette démarche aurait principalement du sens, si comme au Danemark, elle s’accompagne d’une volonté d’en améliorer la qualité pour lier ces données entre elles (Linked Open Data). Cet enrichissement sémantique des données peut d’ailleurs se conduire en partenariat avec le secteur privé et des organisations de la société civile.

Mais ici encore, le statut pertinent est moins celui de « données d’intérêt général » – trop flou – que celui de « données de base », « données-pivot » ou « données de référence ». Et il s’agirait alors moins de créer un statut juridique différent pour ces notions que de lancer une politique volontariste d’amélioration de la qualité de certains jeux.

Un exemple d’une telle démarche commence à émerger en France dans le cadre du projet Open Law autour des données juridiques récemment ouvertes en Open Data (lois et réglements, jurisprudence, bulletins officiels, etc). L’ambition de ce projet porté par la DILA est bien d’inscrire ces données dans le web sémantique, par la production, en partenariat avec un écosystème d’acteurs privés (éditeurs juridiques, nouvelles start-up, etc.) d’une « ontologie ouverte du droit ». Les promoteurs du projet Open law parlent d’ailleurs de la création d’un « réseau de données liées » ou de « réseaux de données d’intérêt général » (voir leur contribution à la consultation du CNNum).

4) Données d’intérêt général, biens communs et partage à l’identique

La réticence à ouvrir les données dans certains secteurs stratégiques, comme les transports, est souvent liée à la crainte qu’elles ne soient ensuite accaparées par de gros acteurs en position dominante (Google par exemple). La tendance dans ces situations est de chercher à mettre en place des redevances ou des systèmes de Freemium pour imposer des barrières tarifaires à la réutilisation et espérer soumettre ces gros acteurs à des paiements. La SNCF a fait part de telles intentions dans le débat sur la gratuité des données de transports à l’occasion du vote de la loi Macron. SavoirsCom1 est plus que réservé sur cette approche, pour les raisons déjà exposées plus haut.

Pour éviter la reconstitution d’enclosures sur les données ouvertes, qui peuvent survenir dans des champs où des acteurs ont acquis des positions dominantes, SavoirsCom1 préconise d’appliquer les mêmes principes que ceux qui ont cours dans le champ du logiciel libre. Les données doivent être ouvertes en choisissant des licences comportant une clause de partage à l’identique (share alike) garantissant que toute base de données dérivée réalisés à partir de ces informations devra être publiée sous la même licence. On évite ainsi les phénomènes de réappropriation et les données publiques ainsi libérées sont instituées en un bien commun protégé des enclosures.

Un exemple récent a montré que cette démarche est possible : c’est celui de l’ouverture de la Base Adresses Nationale (BAN) dans le cadre d’un partenariat entre La Poste, l’IGN et Open Street Map. SavoirsCom1 a pu déplorer que la Poste et l’IGN n’aient pas joué le jeu en choisissant de produire une nouvelle licence (Licence Gratuite de Repartage) qui ne satisfait pas aux critères de l’Open Data. Mais la version de la BAN publiée par Open Street Map a bien été placée sous ODbL (Open Database Licence), comportant une clause de partage à l’identique.

C’est cette approche qui nous paraîtrait la plus féconde en lien avec la notion de données d’intérêt général. Si l’enjeu est de réussir à inciter progressivement le secteur privé à ouvrir ses données, la meilleure manière d’y arriver consiste sans doute à placer des jeux de données publiques stratégiques sous ODbL, ce qui obligerait les acteurs privés les réutilisant à reverser leurs enrichissements sous la même licence. On obtiendrait ainsi le même cercle vertueux en matière de données que celui qui s’est développé autour des logiciels libres, sans exclure les acteurs économiques, mais en évitant les enclosures.

SavoirsCom1 estime par contre qu’un tel objectif ne peut pas être atteint avec les systèmes de double licence, comme celui mis en place par la ville de Paris pour ses données en ODbL, où l’on offre la possibilité aux réutilisateurs de payer pour lever la contrainte de partage à l’identique. Les doubles licences reviennent en réalité à des systèmes de Freemium, où un acteur gagnera en payant le droit de poser une enclosure. Le partage à l’identique a pour but de protéger les utilisateurs finaux et on en devrait pas permettre de le suspendre si l’on veut que les données publiques restent véritablement des biens communs.

Une telle démarche de publication de jeux de données sous ODbL aurait particulièrement du sens dans les secteurs où peuvent agir des acteurs en position dominante (transports) ou lorsque les données sont produites par l’activité des citoyens (transports, énergie, santé, etc.).

***

Au final, SavoirsCom1 est assez réservé sur la pertinence de la notion de données d’intérêt général.

Le collectif recommande plutôt d’étendre le périmètre des informations publiques en révisant la loi de 1978 pour y inclure les données produites par des SPIC ou des organismes recevant des subventions publiques.

En revanche, une approche par les données de base ou données-pivot paraît beaucoup plus intéressante, surtout si ces jeux de données identifiés comme essentiels sont ensuite placés sous une licence comportant une clause de partage à l’identique.

De tels jeux de données constitueraient des leviers pour inciter les acteurs privés à partager leurs données ; ils limiteraient les risques de renforcer des positions dominantes et favoriseraient l’émergence d’écosystèmes associant administrations, entreprises et société civile autour de données constituées en biens communs.