À procura de textos e pretextos, e dos seus contextos.

16/08/2010

Opération « Numérisons les lobbyistes » accomplie en moins de 2 semaines !

Nous nous apprêtions à vivre un véritable marathon. Numériser 16 860 noms à partir de 1 100 rapports était un défi qui allait prendre du temps : les moins optimistes d’entre nous tablaient sur 3 mois. Nous avions donc décidé pour rythmer cette campagne de procéder en deux temps. L’équipe de Transparence International France étant en congés, Regards Citoyens lançait l’initiative le 4 août, puis l’équipe de TI devait, à son retour en fin d’été, la relancer auprès de ses réseaux. Votre enthousiasme pour cette opération en a décidé autrement ! Hier soir, alors que nos partenaires sont encore en vacances, la barre des 100 % a été atteinte : tous les noms sont numérisés.

À peine 24h après le lancement de l’application, 10% des personnes auditionnées avaient été numérisées et l’engouement s’est confirmé les jours suivants avec un relai de plus en plus intense sur twitter et identi.ca ainsi que sur de nombreux blogs. Nous tenons donc à remercier très chaleureusement pour leur aide les 3 214 internautes (et notamment les plus motivés d’entre eux) qui sont venus numériser avec nous au moins un nom !

numerisation heure par heure
Participation des internautes à l’opération de numérisation heure par heure
CC-by-sa – Regards Citoyens

Qui sont donc ces citoyens volontaires qui ont offert quelques minutes de leur temps à ce projet ? Difficile de le dire, mais nous avons tout de même quelques pistes. Au vu de la baisse de participation durant le week-end, il s’agirait plutôt d’une majorité d’actifs que de vacanciers. La #PauseCafé, comme l’a baptisée ls01, a probablement joué un rôle crucial ! En observant la participation moyenne sur une journée, on peut remarquer trois pics de participations : à 10h, 15h et 22h.


Participation moyenne au cours d’une journée type
CC-by-sa – Regards Citoyens

Le fonctionnement de l’application a d’ailleurs soulevé de nombreuses questions parmi ses utilisateurs. Notamment comment s’assurer que les milliers de participants contribuaient réellement et ne remplissaient pas aléatoirement nos formulaires ? Pour le garantir, chaque nom a été traité par 3 à 7 internautes différents. Si deux d’entre eux indiquaient les mêmes informations pour chacun des champs saisis, nous considérions l’information valable. Sur les près de 17 000 noms à traiter en tout, nous n’avons été obligés de faire intervenir au moins un 4ème internaute que pour 2 500 d’entre eux. Cela n’était pas le fait de « vandalisme » : il s’agissait simplement de cas complexes pour lesquels une vérification accrue s’est montrée nécessaire et fructueuse.

Autre question fréquente : comment avions-nous pu repérer ces milliers de noms au sein des rapports ? Ce travail s’est déroulé en deux étapes. Il a fallu dans un premier temps identifier au travers de plusieurs dizaines de milliers de pages de rapports, les seules sections dédiées aux listes de personnes auditionnées. Ceci fait, nous nous sommes attelés à en retirer la seule information que nous pouvions identifier de manière automatique sans trop d’erreur : les noms des auditionnés. Nous avons procédé pour cela en deux temps : un premier programme identifiait les noms et prénoms en se basant sur une pratique commune à l’Assemblée de préfixer les noms par un « M. » ou « Mme » et quelques variantes. À partir de ces premiers résultats, un second logiciel est venu compléter la liste en utilisant les prénoms déjà identifiés pour s’assurer qu’aucune personne n’avait été oubliée. C’est ainsi que France étant également un prénom, certains d’entre vous se sont retrouvés confrontés à devoir signaler des lobbyistes qui n’en étaient pas, comme France Télévisions ou France Télécom.


Représentation graphique du repérage des personnes auditionnées dans deux rapports
CC-by-sa – Regards Citoyens

C’est à partir de cette première base de résultats que nous avons pu proposer une interface web d’utilisation la plus simple possible pour qualifier chacun des noms. Comme à notre habitude, tous les logiciels que nous avons réalisés pour ce projet sont diffusés librement (téléchargeable sous licence Affero-GPL). Développés en quelques jours, ces programmes sont perfectibles. Nous envisageons de les rendre plus génériques afin qu’ils puissent mieux profiter à la communauté.

Maintenant que cette première partie a été réalisée grâce à votre aide, il reste encore du travail : il faut désormais analyser les données et réfléchir avec TI à ce qu’il nous sera possible d’en tirer. Comme toujours, nous rediffuserons l’ensemble des données résultantes librement, mais d’ici quelques semaines seulement, le temps de voir avec la CNIL dans quelle mesure ces informations pourrons être partagées : contenant des données personnelles, même issues de documents publics, leur diffusion est moins évidente au regard de la législation que pour des données non nominatives.

Pour être tenu informé de l’évolution de ce travail, n’hésitez pas à vous inscrire à notre lettre d’information.

Sem comentários:

Related Posts with Thumbnails