Accueil > Techniques de la documentation juridique > Théories > Documents libres, open source, open access. > Legifrance et le SPDDI respectent-ils les "huit Principes pour des données publi

Legifrance et le SPDDI respectent-ils les "huit Principes pour des données publiques ouvertes" ?

dimanche 30 décembre 2007, par Stephane Cottin

Relévé notamment par Hubert Guillaud sur internetActu, début décembre 2007 une trentaine d’"avocats (des données) gouvernementales ouvertes" (open government advocates), se sont réunis à l’occasion d’une rencontre organisée par Carl Malamud [1] et Tim O’Reilly [2] à Sebastopol (Californie) à quelques kilomètres au nord de San Francisco.

Ils en ont tiré un set of fundamental principles for open government data qu’Hubert Guillaud traduit par "huit principes pour des données publiques ouvertes" : c’est un raccourci élégant, mais la notion même en anglais de "government data" fait l’objet d’âpres débats entre les experts eux-mêmes (voir une des discussions ouvertes sur le sujet sur le google-groupe créé à ce propos). Tout ceci me fait penser aux débats qui avaient précédés la traduction en français de ce qui allait devenir la directive "réutilisation des informations du secteur public" [3].

Si on dépasse cette querelle de traduction, il semble évident que parmi les données / informations concernées par ces "principes", devraient figurer, pour la France, le contenu du SPDDI (service public de diffusion du droit par Internet).

Les huit principes dégagés par le colloque sont les suivants (je me permets de reprendre la traduction d’Hubert Guillaud, sauf pour les points 1 et 3) :

1. Complete All public data is made available. Public data is data that is not subject to valid privacy, security or privilege limitations. 1. Exhaustives [4]. Toutes les données sont mises à disposition. Les données publiques sont des données qui ne sont pas sujettes à des limitations valables concernant la vie privée, la sécurité ou des privilèges d’accès.
2. Primary Data is as collected at the source, with the highest possible level of granularity, not in aggregate or modified forms. 2. Primaires. Les données sont telles que collectées à la source, avec la plus grande granularité possible, et ne se présentent pas sous des formes agrégées ou modifiées.
3. Timely Data is made available as quickly as necessary to preserve the value of the data. 3. Fraîches [5]. Elles sont mises à disposition aussi rapidement que nécessaire pour préserver leur valeur.
4. Accessible Data is available to the widest range of users for the widest range of purposes. 4. Accessibles. Les données sont accessibles au plus grand éventail d’utilisateurs possible et pour des usages aussi divers que possible.
5. Machine processable Data is reasonably structured to allow automated processing 5. Lisibles par des machines. Les données sont structurées pour permettre le traitement automatisé.
6. Non-discriminatory Data is available to anyone, with no requirement of registration. 6. Non discriminatoires. Les données sont accessibles à quiconque, sans aucune obligation préalable ni inscription.
7. Non-proprietary Data is available in a format over which no entity has exclusive control. 7. Non propriétaires. Les données sont accessibles dans un format sur lequel aucune entité ne dispose d’un contrôle exclusif
8. License-free Data is not subject to any copyright, patent, trademark or trade secret regulation. Reasonable privacy, security and privilege restrictions may be allowed. 8. Sans permis. Elles ne sont pas soumises au droit d’auteur, à brevet, au droit des marques ou au secret commercial. Des règles raisonnables de confidentialité, de sécurité et de priorité d’accès peuvent être admises.”

Le principe 4 (accessible) fait évidemment penser à l’objectif de valeur constitutionnelle d’accessibilité de la Loi dégagé par la jurisprudence tant du Conseil constitutionnel que du Conseil d’Etat. Manque donc évidemment le pendant de cet objectif, l’intelligibilité de la Loi que je ne vois pas directement dans un des autres principes, mais dilué dans les principes 2 et 5. Il semble que les principes définis ici ne soit qu’extrinsèques aux données, et pas intrinséques. C’est dommage, mais ça se tient.

J’apprécie que le principe 8 ait été traduit par "sans permis" et non par le faux ami "sans licence" : il est évident ici qu’il ne s’agit pas de traiter de ces données sans passer par des règles définies par une "licence" par exemple, et il n’est pas question ici de vouloir échapper au(x) principe(s), droits et devoirs décrits par la "licence" legifrance.

D’autant plus que les auteurs de ces huit principes sont finalement assez ouverts et conscients de certaines réalités et on est loin des débats houleux pro- et anti- anonymisation (par exemple) du début des années 2000. J’en veux pour preuve la réponse de Carl Malamud lui même à une question d’Hubert Guillaud sur la liste de discussion précitée

>Do public data must be anonymise before publication ?

The answer is yes ... the principles state that public data is that
which has passed privacy or security thresholds.

On pourrait gloser des heures sur les principes et leur respect relatif par Legifrance, mais je pense que tous sauf un sont à peu près satisfaits par le SPDDI. Reste néanmoins qu’un des principes décrits ne semble pas respecté par Legifrance, c’est celui numéroté 6 sur la non discrimination à l’accès aux données.

En effet, le SPDDI prévoit des tarifs d’accès aux données, passés un certain seuil de récupération des informations fournies par le site Legifrance décrits précisément sur la notice explicative relative à la réutilisation des données disponibles sur Légifrance

Je pense indispensable et tout à fait normal d’une part l’existence d’un tel seuil et d’autre part l’obligation de se soumettre aux devoirs décrits par la licence. Le coût de mise à disposition est sans commune mesure avec les frais qu’occasionneraient la mise à niveau de la bande passante si le fournisseur d’accès aux données se voyait contraint de laisser passer tous les aspirateurs des apprentis sorciers qui veulent s’approprier sans contrôle les données publiques. Et surtout, il en va du principe de sécurité juridique, et d’une certaine mesure, de la responsabilité de l’Etat, que de fournir une information fiable et à jour : une fois diffusée, qui va dire si l’info est à jour, sinon le licencié qui a l’obligation de le contrôler, alors que celui qui n’a pas promis de le faire peut sans contrôle, diffuser une information non labélisée et non fiable !

On peut remettre en cause le niveau des tarifs, la position du seuil, mais certainement pas son principe, sauf à trouver d’autres façons de diffuser les données publiques de façon fiable.

Quant à la position du seuil, je rappelle que c’est soit la diffusion d’une base complète, et ça, on n’y peut rien, c’est l’application du droit sui generis des bases de données, auquel on ne peut déroger, ou soit les niveaux suivants, pour douze mois :

  • pour l’ensemble des bases de jurisprudence (Constit, Jade, Cass, Inca, Juridice) : 3000 arrêts
  • pour la base Jorf : 2500 documents (textes)
  • pour la base Legi : 4000 documents (articles)
  • pour la base Lex : 1500 documents (articles ou groupes d’articles)
  • pour la base Kali : 1000 documents (articles)

Quel particulier, étudiant, professeur... a besoin d’autant de données annuellement ? à moins de vouloir cela professionnellement ou pour une collectivité. A ce moment-là, il passe naturellement à un autre niveau, celui de l’usage collectif et peut se payer une licence (dont il financera les frais... collectivement).

Quant au niveau des tarifs, pour avoir été producteur d’une base pendant 15 ans, et acheteur des autres avant l’arrivée du SPDDI et du temps des fonds de concours, je peux vous certifier que ce n’est pas cher pour le service rendu.

Notes

[1initiateur de l’ambitieux projet public.resource.org dont j’ai parlé en août 2007 ici : Mise en ligne massive de documents publics : à propos de l’expérience de public.ressource.org

[2qui n’est autre qu’un des créateurs du concept de Web 2.0 ou du moins celui qui apopularisé le terme : http://fr.wikipedia.org/wiki/Tim_O&... ou http://en.wikipedia.org/wiki/Tim_O%...

[4Guillaud dit "Complètes"

[5Guillaud dit "Opportunes", c’est effectivement plus joli, mais les documentalistes utilisent la notion de "fraîcheur" qui me semblent ici plus... opportune)

4 Messages

  • Merci. Je suis assez d’accord avec vos critiques et réserves, notamment sur le concept un peu flou, vu de ce côté de l’Atlantique, de "government data" qui est plus riche et plus complexe que la traduction que j’en propose (la différence concrète entre les système joue également son rôle), qui avait l’avantage de n’en pas dénaturer complètement la nature et d’être facilement compréhensible. Entièrement d’accord également avec les différences de traduction que vous apportez.

    Loin de moi de vouloir apporter une traduction définitive d’ailleurs, mais bien plutôt d’apporter des idées à un débat.

    Si j’en crois votre billet d’ailleurs, mon contrat est rempli ;-).

  • Pour avoir participé (ou plutôt assisté de loin en comptant les points) à la tentative de transposition de la directive "données publiques", je peux vous assurer ... qu’il n’y a pas de traduction satisfaisante du concept anglophone de "government data" (un peu comme "open access") : tout le monde voit midi à sa porte, les éditeurs, les producteurs, les utilisateurs (etc.) de ces données.

    J’hésite encore à participer directement à la discussion sur le wiki d’opengovdata, et même sur le forum d’internetactu, car mon avis est évidemment biaisé par ma position de producteur de données publiques. J’ai de toute façon un devoir de réserve qui m’empêche de m’exprimer. J’essaye moi aussi juste d’apporter des faits objectifs aux débats.

    Très bonne question sur l’anonymisation que celle que vous avez posée à Malamud sur le google-group ! et surtout étonnante et intelligente réponse de Malamud, que je ne reconnais plus. On a l’impression de lire l’avis de la CNIL = pour lui, c’est évident de tout anonymiser. Pourtant, ce n’est pas ce qu’il fait... mais dans son esprit, c’est logique, il diffuse ce que les pouvoirs publics ont... "publié". Donc, s’ils ont publié avec le nom, il diffuse avec le nom. C’est donc à l’Etat d’anonymiser. Logique. Imparable.

  • En effet, la question de l’anonymisation des données nécessiterait un vrai travail en soit car les réponses à y apporter sont loin d’être aussi simples.

  • En matière de documents juridiques, le débat a fait rage en France autour de la Délibération n° 01-057 du 29 novembre 2001 portant recommandation sur la diffusion de données personnelles sur internet par les banques de données de jurisprudence

    En simplifiant les positions des uns et des autres, on rappellera que les éditeurs juridiques avaient obtenu gain de cause en faisant dire à la CNIL dans sa délibération, que les bases payantes pouvaient mettre les noms (mais pas les adresses), mais pas les bases librement accessibles. Quant aux bases des juridictions, elles peuvent être non anonymisées, à condition qu’elles soient à usage strictement internes (donc pas ouvertes)

    (la CNIL)
    RAPPELLE

    • que les bases de données enregistrant sous forme numérique les décisions prononcées par les juridictions constituent, si elles comportent le nom des parties, des traitements automatisés de données nominatives ; elles doivent, à ce titre, être déclarées à la CNIL et respecter les dispositions de la loi du 6 janvier 1978 ; - qu’aucune disposition de la loi du 6 janvier 1978 ne prohibe la constitution, sous une forme nominative, de telles bases de données par les juridictions ayant prononcé les décisions dès lors que l’accès à ces bases, quel qu’en soit le support (intranet, postes dédiés, etc.), est exclusivement à usage interne et réservé aux membres et fonctionnaires des juridictions concernées ;

    ESTIME QU’IL SERAIT SOUHAITABLE

    que les éditeurs de bases de données de décisions de justice librement accessibles sur des sites Internet s’abstiennent, dans le souci du respect de la vie privée des personnes physiques concernées et de l’indispensable "droit à l’oubli", d’y faire figurer le nom et l’adresse des parties au procès ou des témoins ; que les éditeurs de bases de données de décisions de justice accessibles par Internet, moyennant paiement par abonnement ou à l’acte ou par CD-ROM, s’abstiennent, à l’avenir, dans le souci du respect de la vie privée des personnes concernées, d’y faire figurer l’adresse des parties au procès ou des témoins ;

    Ceux qui étaient présents le 5 novembre 2004 lors de l’allocution de Christophe Pallez, Secrétaire général de la Commission Nationale Informatique et Libertés, sur Les recommandations de la CNIL sur l’anonymisation des bases publiques de jurisprudence se souviennent de la couleur pivoine et des cris d’horreur du leader australien de l’open access, Graham Greenleaf présent dans la salle.

    Mais, dans le fond, en dehors de toute polémique, la CNIL avait raison de rappeler l’évidence : on a une loi, finalement pas si mal faite, qui prévoit l’anonymisation. Les codes (procédure civile, procédure pénale, organisation judiciaire) prévoient aussi des règles strictes sur le même thème : autant les appliquer et se donner les moyens de les appliquer, sans plus.

    Donc la solution suggérée par Malamud à la question posée par Hubert Guillaud est à mon avis parfaite : il faut anonymiser quand il le faut (c’est tautologique, mais imparable), c’est à l’Etat producteur de le faire en amont, et, s’il ne l’a pas fait, on pourrait diffuser dans le respect des règles de droit. Or, comme la règle impose généralement d’anonymiser, alors il faut anonymiser. Simpliste, mais logique.

    Pour mémoire :
    - recherche google sur le sujet de l’anonymisation des décisions de justice
    - voir sur ce blog mot clef "Anonymisation" ; rubrique "Communicabilité des décisions de justice" et notamment cet article Anonymisation des décisions de justice : le retour

SPIP | | Plan du site | Suivre la vie du site RSS 2.0