Coopération et partage autour des pratiques collaboratives

Réutilisation des informations du secteur public : quand l’Union Européenne oublie la recherche…

La France devrait prochainement intégrer les dispositions de la nouvelle directive européenne sur la réutilisation des informations du secteur public (ou ISP), qui complètent une précédente directive de 2003. Il y a encore un an, cette évolution aurait pu être considérée comme une avancée notable : la directive en question élargit le périmètre de la réutilisation aux institutions culturelles, telles que les bibliothèques, les musées ou les centres d’archives. Seulement, entre temps, la France a amplement rattrapé son retard en la matière.

Le rapport Trojette remet ainsi radicalement en cause la politique des redevances. la revente des données à des organisations privées apportait un petit complément non négligeable au budget souvent serré de plusieurs institutions publiques. Or, cette activité est d’emblée condamnée par la démultiplication des informations accessibles en ligne. Par exemple, OpenStreetMap a progressivement recréé le corpus de données cartographiques de l’IGN. Au cours des années 2010 et 2011, le produit des redevances a baissé d’un tiers. Selon toute vraisemblance, cette tendance de fond s’est poursuivie depuis.

Le Guide Data Culture rédigé par Camille Domange appelle, pour sa part, à normaliser les données culturelles. Elles ne doivent pas être considérées comme un ensemble à part au nom d’une supposée exception : « il est important que le secteur culturel, quelles que soient ses spécificités qui doivent être reconnues, ne s’inscrive pas en marge d’un mouvement qui est en marche. » (p. 3)

La directive européenne ISP n’apporte pas grand chose de neuf. Elle se situe même en retrait. Les redevances sont maintenues sur le principe (même si celles-ci ne doivent désormais pas dépasser les coûts marginaux ce qui limite grandement leur intérêt). Plusieurs dérogations limitent de fait l’ouverture des données culturelles.

Et la recherche dans tout cela ?

La directive ISP réussit un véritable exploit : ne pas parler une seule fois des implications scientifiques et intellectuelles de l’ouverture des données publiques. Le secteur entrepreneurial mobilise toute l’attention. Ainsi, en ce qui concerne les données culturelles :

L’élargissement des possibilités de réutilisation du matériel culturel public devrait entre autres permettre aux entreprises de l’Union d’exploiter le potentiel de ce matériel et contribuer à la croissance économique et à la création d’emplois.

Cette focalisation est, en soi, regrettable. La directive passe à côté d’un des aspects les plus intéressants et le plus tangible de l’open data : l’accélération du temps de la recherche et l’élargissement de l’écosystème des connaissances (qui implique désormais, de plus en plus, des projets collaboratifs para-universitaires).

Combinée aux techniques d’extraction automatisées, l’accessibilité renforcée des données permet de déléguer une partie essentiel du travail de la recherche à des algorithmes. La recherche d’information peut être en grande partie automatisée, ce qui libère du temps pour réaliser des tâches de plus haut niveau (conceptualisation de l’ensemble du projet…). Cette délégation permet également d’envisager des projets d’une ampleur inédite, à l’image de l’initiative text2genome, qui a pu cartographier le génome humaine en compilant 3 millions d’articles de recherche.

Inversement, les perspectives économiques de la directive (au sens restreint que lui donne la théorie néo-classique) restent floues. On peut très bien argumenter que l’ouverture des données publiques va se solder par une dévaluation globale de la valeur de la donnée, au détriment des entreprises qui en faisait le commerce. Le pétrole du XXIe siècle pourrait devenir de l’air : un bien commun indispensable à la bonne respiration de la société mais qui ne saurait fonder de modèles économiques viables.

Cette omission étonnante a une implication directe sur les recommandations finales. Les universités ne sont pas concernées : elles sont classées parmi les « établissements culturels autres que les bibliothèques, les archives ou les musées ». Le statut des données de recherche n’est pas logiquement précisé. En France, la loi de 1978, va forcément prévaloir. Or, les données de recherche sont explicitement exclus de son champ d’application. Elle ne porte que sur des documents administratifs et non sur l’ensemble des documents exclusivement financés par l’argent public :

Sont considérés comme documents administratifs, au sens des chapitres Ier, III et IV du présent titre, quels que soient leur date, leur lieu de conservation, leur forme et leur support, les documents produits ou reçus, dans le cadre de leur mission de service public, par l’Etat, les collectivités territoriales ainsi que par les autres personnes de droit public ou les personnes de droit privé chargées d’une telle mission. Constituent de tels documents notamment les dossiers, rapports, études, comptes rendus, procès-verbaux, statistiques, directives, instructions, circulaires, notes et réponses ministérielles, correspondances, avis, prévisions et décisions.

Quelle licence pour les données publiques ?

La directive préconise clairement un nombre minimal de contraintes légales pour la diffusion des données publiques, sans que cette préconisation ne soit une obligation. Elle recommande de se limiter à la simple attribution des auteurs.

Le nombre de restrictions à la réutilisation imposées par les licences éventuellement octroyées pour la réutilisation d’informations du secteur public devrait en tout état de cause être le plus bas possible, en limitant, par exemple, ces restrictions à l’indication de la source.

Le partage à l’identique paraît ainsi exclu de cette recommandation. Les données publiques européennes pourraient ainsi être redistribuées sous des licences plus strictes, voir sous le régime traditionnel du droit d’auteur. L’absence de toute licence virale (c’est-à-dire d’un dispositif qui établit que le statut légal originel de la publication va contaminer la republication) autorise le rétablissement des enclosures.

Ce raisonnement pose plusieurs problèmes. Il n’est tout d’abord compatible avec aucune des licences les plus souvent envisagées pour les bases de données. L’excellente licence de l’Open Knowledge Foundation, l’ODBL, prescrit explicitement un partage à l’identique. Quant aux licences Creative Commons (élargies depuis peu aux bases de données) elles incluent toutes un mécanisme viral (eh oui, même la licence CC-BY). Enfin, le domaine public ne semble pas davantage compatible avec cette conception : le copyfraud est, de plus en plus, jugé répréhensible et, du moins en France, plusieurs projets législatifs visent à endiguer cette pratique.

Le rétablissement des enclosures est une conséquence directe du soubassement discursif de la directive : considérer que l’ouverture des données publiques doit avant tout bénéficier au secteur privé. Dans ce cadre, la privatisation est inévitable. La donnée ne vaut rien tant qu’elle n’a pas été enclose et artificiellement raréfiée.

En lieu et place, je recommanderai plutôt le cadre légal suivant :

  • Formalisation d’un domaine public de l’information afin de définir le statut légal de la donnée indépendante. Ce domaine public n’inclut pas de droit moral (encore que, même si elle est difficile à mettre en œuvre, l’attribution des données individuelles est de plus en plus souvent envisagée : Wikidata est ainsi bardé de notes de bas de données). En revanche, l’interdiction du copyfraud est beaucoup mieux établie : comme le code de la propriété intellectuelle ne porte que sur des œuvres de l’esprit, la protection d’une information publiquement accessible est d’emblée impossible.
  • Préconiser une publication de la structure originale de la base sous une licence ODBL. Les licences Creative Commons CC-BY et CC-BY-SA prévoient à peu près la même chose, mais elles restent beaucoup plus flous et n’apportent pas une réelle sécurité juridique au réutilisateur. Il serait presque envisageable d’élargir le domaine public de l’information aux bases de données dans leur ensemble. Ses dispositions sont pleines de bon sens : pas d’attribution obligatoire, mais un mécanisme anti-copyfraud.

Quid des données culturelles ?

Les institutions culturelles sont clairement les plus rétives à une politique audacieuse d’ouverture des données publiques. Elles disposent généralement d’un budget assez serré : les redevances constituent des compléments non négligeables.

Le rapport Trojette avait déjà éludé la question. Le gouvernement se garde bien de trancher. Le collectif Savoirscom1 met ainsi en évidence une succession de discours et d’engagements contradictoires. Le ministère de la culture ne tient pas à passer à côté du mouvement open data. Et en même temps il traîne autant que possible :

Avec Data Culture, le ministère de la Culture a cependant accompli ces derniers mois un travail louable, confirmé par la feuille de route Open Data du ministère et les orientations prises à la suite de « L’Automne numérique ». Mais les recommandations d’ouverture du ministère ne sont pour l’instant qu’incitatives : à la différence des décisions du CIMAP, elles ne sont pas contraignantes. Les libérations de données effectuées à l’occasion de l’Automne numérique reposent, elles aussi, sur le bon vouloir des établissements.

La directive ISP ne fait pas beaucoup mieux. Bien que dans son principe, elle les intègre dans le périmètre des données publiques à ouvrir, elle inclut de nombreuses dérogations. Le GFII va jusqu’à évoquer d’une directive dans la directive. Les redevances ne sont ainsi pas plafonnées aux coûts marginaux pour les données culturelles :

Les bibliothèques, les musées et les archives devraient également pouvoir prélever des redevances supérieures aux coûts marginaux pour ne pas entraver leur bon fonctionnement.

Les données culturelles constituent ainsi, en quelque sorte, le chat de Schrödinger des politiques d’open data. Elles sont officiellement ouvertes, mais tout est fait pour qu’elles restent fermées.

Cette incertitude est fortement dommageable. Le champ des études culturelles est en pleine effervescence. L’élargissement considérable des corpus accessible et la possibilité de déléguer une partie du travail à des algorithmes offrent des perspectives inédites.

Certaines sont assez triviales. Pendant la rédaction d’un mémoire sur l’apparition de la critique musicale dans la presse quotidienne française, j’avais cherché en vain une compilation des œuvres créées et représentées à l’Opéra de Paris de 1820 à 1850 (les excellentes métadonnées de la BNF fournissent depuis peu une liste non exhaustive). Le data-journalisme est également friand de ce genre de compilations, qui permettent de créer des visualisations instructives et attrayantes (l’article du Monde sur les prix littéraires constitue un très bon exemple du genre).

D’autres sont proprement inimaginables. La connectivité croissante de données touchant à tous les aspects de la vie humaine pourrait permettre de saisir des phénomènes dont nous n’avons pas la moindre idée. Les projets Wikimédia (désormais épaulés par Wikidata) passent à la vitesse supérieure. Les données culturelles sont tout particulièrement concernées : un partenariat est en cours d’élaboration avec le JocondeLab afin de compiler les informations sur 300 000 œuvres des musées français.

Le mouvement des humanités numériques commence tout juste à évaluer l’incidence de ces avancées. Nous ne sommes qu’au tout début d’une révolution des usages scientifiques qui nous réserve bien des surprises… IL convient de la contraindre aussi peu que possible.