Les préparatifs d’un hackathon recherche : au coeur de la fabrique des données

Gruson-Daniel, Celya; de Quatrebarbes, Constance

doi:https://doi.org/10.7202/1054279ar

En sciences humaines et sociales, le terme de recherche numérique est employé pour des projets qui se basent sur le traitement informatisé de données numériques ou numérisées (Plantin et Monnoyer-Smith, 2013). On regroupe, sous ce vocable de méthodes numériques, les techniques et logiciels permettant par exemple la collecte automatique et la fouille de données (scraping et data mining), les analyses textuelles et les analyses de réseaux, mais aussi les représentations cartographiques qui y sont associées. Un autre terme employé aujourd’hui, plus générique encore, est celui de data science ou science des données, dont l’enjeu est de maîtriser mais également d’interpréter un nombre croissant de données issues des technologies numériques. L’emploi de ces méthodes de recherche s’est accompagné de l’organisation de nouveaux formats de travail à l’image des hackathons. Initialement conçu dans l’univers informatique, ce type d’événement s’est peu à peu étendu à d’autres domaines pour se concentrer plus spécifiquement sur le traitement de jeux de données numériques ou numérisées sur une thématique précise.

Le hackathon recherche République numérique, #HackRepNum, qui constitue le cas d’étude principal de cet article, est une expérimentation de ce nouveau format de travail. Durant une journée, des acteurs aux profils variés[1] — chercheurs, développeurs, juristes, membres d’associations, journalistes, designers — se sont regroupés pour analyser les données issues du site de la consultation du projet de loi République numérique organisé en septembre-octobre 2015[2]. Plus de 30 participants se sont réunis en six équipes pour analyser les dynamiques de contributions, mais aussi explorer les différents avis émis sur le contenu de chacun des articles du projet de loi. Ce travail s’est conclu par la présentation des résultats de l’analyse de ces data à un grand public en fin de journée. En sociologie, le terme data sprints est souvent employé pour désigner des variantes de ces hackathons, centrées spécifiquement sur l’exploration, l’analyse et la visualisation de données. La Digital Methods Initiative (DMI), regroupant des chercheurs adeptes et curieux de ces méthodes numériques, a ainsi lancé à partir de 2012 son premier Data sprint lors de sa cinquième école d’hiver (22-25 janvier 2013). Le programme de cette formation faisait la part belle au travail en groupe, sous la forme d’une course de trois jours (sprint) sur ces data. À l’inverse, les sessions plus classiques et individuelles de keynotes et mini-conférences étaient réduites à une seule journée. L’objectif assumé par les organisateurs du programme, intitulé « Data Sprint : The New Logistics of Short-form Method » (Digital Methods Initiative, 2013), était d’expérimenter cette méthode pour format court (short-form method)[3]. L’essai semble avoir été apprécié, puisque ce format a depuis été reconduit lors de chaque école d’hiver. Cette expérience a fait des émules en sociologie. On peut citer par exemple les data sprints du programme de recherche en sociologie des controverses EMAPS (Electronic Maps to Assist Public Science) (Venturini, Munk et Meunier, 2016). Le point commun de ces formats, intégrés aujourd’hui dans le champ des recherches numériques, est d’offrir un temps très limité (entre un jour et une semaine) pour analyser les données. Les termes propres au régime sportif (sprint et marathon) mettent également l’accent sur d’autres caractéristiques, comme le challenge et le travail d’équipe. Les participants proposent en début d’événement des thématiques sous forme de présentation orale (pitch[4]), puis se regroupent en tâchant de rassembler des acteurs aux profils et compétences variés dans chaque équipe. La métaphore sportive est en regard de l’émulation créée par l’objectif à atteindre : obtenir un prix ou une récompense, ou, à défaut, dans tous les cas, présenter son projet aux autres équipes. Pour atteindre ces objectifs, l’organisation est libre et souvent sans programme précis défini, et s’appuie sur des infrastructures numériques pour collaborer en ligne.

On peut se questionner sur cet essor des formats courts[5] et de leurs usages comme approche de recherche dans le champ des sciences sociales. Que peuvent apporter à la recherche ces méthodes où les pitchs sont mis au coeur de la production de savoirs scientifiques ? Ne serait-ce qu’une mise en scène au détriment de la production de connaissances de qualité ? Mais surtout, que peut-on produire dans des temps si courts ? Les sociologues qui participent à ces événements ne plongent-ils pas tête baissée dans cette utopie technicienne revisitée à l’ère numérique (Proulx, 1984), en surévaluant l’importance des données et de leur maîtrise ? Malgré les doutes et critiques qui peuvent être soulevés, on remarque cependant que ces data sprints et hackathons perdurent dans ces nouvelles branches de recherche numérique. Cet article vise à interroger l’intégration de ces modalités de travail en sciences sociales, en évitant le double écueil de faire l’éloge de ces nouveaux modes de recherche et d’extrapoler sur l’extinction de toute réflexion sociologique. Nous souhaitons plutôt étudier ce qu’induisent en pratique ces formats courts, en soulignant certains enjeux d’ordre politique qu’ils peuvent soulever[6]. C’est plus particulièrement le temps limité de ces formats que nous souhaitons questionner, en étudiant le travail produit par de tels hackathons ou data sprints sur les données numériques.

Pour répondre à ces questions, nous nous appuyons sur des travaux théoriques issus des études sur les sciences et les technologies (STS), qui de longue date ont montré l’important travail de construction des données et des faits scientifiques (Gitelman, 2013 ; Star et Griesemer, 1989). Plus récemment, avec l’usage croissant de ces technologies numériques, des travaux se sont plus spécifiquement concentrés sur les problématiques de stockage, de collecte et d’analyse dues à la multiplication de ces données numériques dans des secteurs de plus en plus nombreux. Plusieurs travaux ont porté sur les processus sociotechniques accompagnant cette « fabrique des données »[7] et leur mise à disposition dans le domaine des sciences mais aussi de l’administration publique et des entreprises (Jérôme Denis et Goëta, 2017 ; Mabi et Plantin, 2017 ; Menger et Paye, 2017). Ces études soulignent souvent l’invisibilisation même de ces étapes au cours desquelles les données sont façonnées et mettent en lumière les tensions et négociations à l’oeuvre, qu’impliquent leur maîtrise et leur diffusion (Dagiral et Parasie, 2017 ; Jérôme Denis et Goëta, 2017). Ces études soulignent aussi quelques spécificités propres au « numérique », en montrant comment les dispositifs numériques sont eux-mêmes représentatifs de nouvelles thématiques politiques associées à la défense de la libre circulation de l’information mais aussi à de nouvelles formes d’actions politiques et de mobilisations qui s’ancrent dans des choix techniques (Briatte et Goëta, 2014 ; Coleman, 2011 ; Granjon, 2015 ; Mabi et Plantin, 2017).

À l’appui de l’étude de cas sur le hackathon recherche République numérique, nous souhaitons mettre à jour une série d’opérations sociotechniques propres à la préparation des données numériques et à leur mise à disposition aux participants dans le cadre des formats courts. À la différence d’études antérieures qui portaient sur les caractéristiques de ces événements et l’intérêt de ces formats pour analyser ces données numériques de façon collective[8], nous faisons un pas de côté en nous concentrant plus particulièrement sur les étapes situées en amont de ces événements, souvent invisibilisées au profit de regards concentrés sur le déroulement de l’événement lui-même. En tant que coordinatrices de cette journée, nous avons pris part aux préparatifs de l’événement aux côtés d’un ensemble d’acteurs et de partenaires. Notre analyse repose sur ce cas d’étude qui fait ressortir divers enjeux sociopolitiques encapsulés dans les choix techniques qu’effectuent les acteurs en présence. Quoique ces hackathons soient d’un format court, nous avançons qu’ils sont à considérer dans un temps plus long. Par la mise à disposition de jeux de données préalablement collectées, ces événements participent à l’invisibilisation de la « fabrique des données ».

Dans la suite de cet article, nous allons tout d’abord revenir sur quelques éléments théoriques issus des STS sur la fabrique des données. Nous les croiserons avec un ensemble d’études plus récentes associées aux spécificités de la maîtrise des données numériques et des nouvelles problématiques qu’elles suscitent. Nous reviendrons ensuite sur les origines de ces hackathons et leur adaptation dans d’autres domaines, notamment sous la forme de data sprint qui tend à reléguer en amont des événements la préparation de ces jeux de données. Ces étapes préliminaires, en amont du hackathon recherche République numérique, constitueront l’objet principal de notre analyse. Après avoir précisé le contexte général de cet événement, de son organisation et les raisons de l’intérêt qu’il a suscité, nous détaillerons le sens pris par la « mise en données » en montrant qu’il s’agit à la fois d’un travail d’extraction mais aussi de mise à disposition et d’ouverture de ces jeux de données dans un format impliquant des « mises en vue » particulières. Seront ainsi dévoilés un ensemble de choix techniques effectués par les acteurs, qui incorporent/contiennent des formes d’actions politiques d’un nouveau genre.

La « fabrique des données » et son invisibilisation

Les études en STS ont apporté un éclairage sur le rôle des infrastructures et de la « matérialité » des artefacts dans le champ scientifique et dans la production des connaissances (Bowker et Star, 2000 ; Star et Griesemer, 1989). Par des démarches souvent ethnographiques au sein des milieux scientifiques, ces études ont détaillé le travail nécessaire à la constitution des données et y ont analysé l’organisation des équipes de recherche (Flichy, 2013 ; Heaton et Millerand, 2013 ; Millerand, 2011). Que ce soit dans le champ de la médecine, de l’écologie, de la botanique, ces travaux ont montré comment la constitution même des bases de données consistait en une série successive d’opérations de façonnage, d’étiquetage, de réduction, de standardisation pour passer d’un objet complexe — un ensemble de faits observables ou collectés par des instruments scientifiques — à la notion même de données manipulables et calculables (Dagiral et Parasie, 2017 ; Dagiral et Peerbaye, 2012 ; Heaton et Millerand, 2013). Ces études ont aussi mis en lumière le rôle de travailleurs « invisibles » sur les modalités de représentation de ces données, et plus globalement de production de savoirs (Mauz et Granjou, 2011). Le domaine biomédical et celui des sciences du vivant ont souvent été le terrain d’étude privilégié de ces travaux empiriques. Ces dernières décennies, ces domaines ont connu des modifications de leurs modes de travail et d’organisation, à la suite du développement de nouvelles infrastructures et d’une masse d’informations de plus en plus importante à analyser (Dagiral et Peerbaye, 2012). Le champ des administrations, avec le développement des grandes enquêtes et l’utilisation des statistiques publiques (Desrosières, 2008), a aussi été l’objet d’étude de cette fabrique des données et des enjeux de gouvernance qui lui sont associés. Ces travaux rappellent qu’il n’a pas fallu attendre le « numérique » pour que l’on porte attention au façonnage des données dans un réseau sociotechnique.

On note cependant une multiplication de ces problématiques et une amplification de ces enjeux avec le développement des technologies numériques dans de plus en plus de secteurs. Aujourd’hui, par data, on entend la plupart du temps des données nativement numériques (sans passer par une étape de numérisation). Ces données sont produites par la mise en place de dispositifs numériques (site web, applications mobiles, etc.) et de l’usage que l’on en fait aussi bien dans le cadre professionnel, personnel et dans bon nombre de nos démarches quotidiennes (santé, administration, etc.). Nos activités politiques peuvent également se voir « transformées en données », à l’image de la consultation République numérique. La participation à cette consultation en ligne est répertoriée par un site ou une plateforme et stockée dans leur base de données. Face à la production croissante de ces données (Boullier, 2016), bon nombre de secteurs déploient des méthodes de traitement informatisé et automatisé de l’information afin de maîtriser ces données et d’en tirer un sens. Ces data constituent ainsi un horizon d’attentes fort (Loveluck, 2015 ; Turner, 2012), mais aussi de nouvelles formes de revendications. Les qualificatifs associés à ces data aujourd’hui en révèlent quelques éléments clés. D’un point de vue technique mais aussi économique, l’emploi du terme « Big Data » met en exergue les enjeux du traitement de données hétérogènes, produites en permanence par Internet, nécessitant des méthodes de stockage, mais aussi de requêtage, filtrage et d’analyse spécifiques. Le terme data science, traduit en français par « science des données » est employé depuis les années 2000 pour désigner le travail effectué sur ces data, nécessitant des compétences en statistiques et en informatique ainsi que la maîtrise des logiciels associés (Dagiral et Parasie, 2017). Le qualificatif open, quant à lui, souligne l’apparition de nouveaux enjeux démocratiques autour de la mise à disposition à tous des données publiques. Cet open data devient le fer de lance de revendications politiques concernant la transparence des pouvoirs publics et un moyen d’empowerment des citoyens.

Des études à la croisée des STS, des sciences de l’information et de la communication (SIC) et sociologie portent aujourd’hui leur attention sur cette fabrique des données numériques, en considérant la « matérialité » même des dispositifs numériques (Bigot et Mabi, 2017 ; Mabi, 2013). Des études se sont ainsi attachées à examiner « ce que les data font faire aux SHS (et vice versa) » (Jaton et Vinck, 2016). Elles ont notamment porté sur le cadre sociotechnique qui entoure la production, la diffusion et la valorisation de ces données. Ces travaux montrent d’une part que la manipulation de data en SHS mène à une collectivisation des sciences sociales, c’est-à-dire un travail de plus en plus collectif entre des acteurs aux profils différents, et d’autre part que ces rencontres ne se réalisent pas sans tensions, réticences et parfois incompréhensions (Jaton et Vinck, 2016). Le terme datafication, ou « mise en données », est employé aujourd’hui pour désigner cette « fabrication des matériaux à partir desquels des traitements statistiques et des analyses se déploient » (Jaton et Vinck, 2016 : 499). Cette fabrication consiste notamment à rendre « brutes » ces données (Gitelman, 2013). L’étude de la constitution de ces « sources brutes » dans le cas de l’ouverture des données publiques (open data) (Denis et Goëta, 2014 ; Jérôme Denis et Goeta, 2013) a mis en avant le travail effectué par un ensemble d’acteurs des administrations pour « ouvrir » ces données. Ces mêmes administrations sont aussi sujettes à des réorganisations institutionnelles mais aussi à une modification de leurs infrastructures avec le développement de services et de portails open data pour soutenir l’idée d’un gouvernement ouvert (open gov) (Schrock, 2016). Ces activités sont ainsi un écho intéressant à l’important travail de petites mains en sciences biomédicales (Mauz et Granjou, 2011), qui rend souvent invisibles les enjeux techniques et sociopolitiques entourant la construction — mais aussi la mise à disposition — des jeux de données[9].

Ces travaux soulignent également certaines spécificités propres au numérique, notamment dans les formes et objets de revendications politiques. Internet et les dispositifs numériques sont en effet aujourd’hui des objets de mobilisation en tant que tels (Coleman, 2011, 2012). Ces revendications ont débuté tout d’abord dans le domaine informatique autour des logiciels libres (free software) dans les années 1990, pour défendre un libre accès mais aussi une libre réutilisation du code source informatique face au développement de logiciels prioritaires (Broca, 2013). Avec le déploiement de ces technologies numériques, ces revendications se sont étendues à d’autres domaines autour d’un dénominateur commun, celui de l’information et de sa libre circulation. Cette information peut consister aussi bien en un code informatique (logiciels libres), un article scientifique (open access), mais aussi, comme nous l’avons vu, des données publiques ou d’intérêt général (open data). Aujourd’hui, la notion de « communs informationnels » fédère divers acteurs qui défendent le développement de modèles de gouvernance communautaire autour de ces ressources numériques (Broca, 2013 ; Peugeot, 2014). À ces objets politiques, se sont aussi ajoutées des formes spécifiques de mobilisation et d’actions politiques. (Granjon, 2017 ; Gruson-Daniel et Mabi, 2017). Qualifiées parfois de techno-pragmatiques, celles-ci s’ancrent dans des répertoires d’actions aux fortes composantes techniques et juridiques (Cardon et Granjon, 2013 ; Granjon, 2015). Elles puisent notamment dans une éthique du hack qui met en avant l’expérimentation mais aussi la créativité dans l’optique de contourner des problèmes existants[10] (Broca, 2013 ; Coleman, 2014 ; Granjon, 2017 ; Loveluck, 2015). Les revendications portées par les acteurs qui défendent l’idée d’un open data concernent notamment les formats des jeux de données. Des formats ouverts tels que le.csv au lieu d’un .xls représentent ainsi des enjeux pour assurer l’accessibilité mais aussi l’interopérabilité de ces informations et pour en faciliter la réutilisation et la circulation sans dépendre de logiciels propriétaires (Denis et Goëta, 2017 ; Goëta, 2016).

La mise en évidence des enjeux — notamment politiques — qui entourent la fabrique des données et leur partage nous conduit à questionner le développement des hackathons mais aussi des data sprints dans le cadre de ces recherches numériques en sciences sociales. Nous allons donc revenir brièvement sur l’origine de ces formats issus du milieu informatique, et sur leur adoption dans de nombreux domaines. Une adoption accompagnée d’une adaptation, à l’image des data sprints qui, en amont des événements, ont bien souvent invisibilisé le travail de préparation des données.

Les termes hackathon et sprint émergent dans le milieu informatique nord-américain fin des années 1990-début des années 2000[11]. L’emploi du terme hackathon s’est ensuite généralisé, dès la fin des années 2000, aussi bien du côté des hackers que des entreprises « logicielles » désireuses d’innover. La notion de sprint, avant de se rapporter à un type d’événement, comme dans le cas du data sprint, renvoyait à un élément central des méthodologies agiles issues du développement informatique. Développées dans les années 2000, elles reposent sur une approche résolument empirique, consistant en une série de cycles de développement de courte durée désignés par le terme sprints (Sutherland et Schwaber, 2013). Elles ont été déployées dans le milieu des entreprises comme le mode d’organisation (collaboration distribuée) le mieux adapté pour développer des outils informatiques non propriétaires désignés sous les termes logiciels libres et open source (Broca, 2013). Au fur et à mesure du déploiement des technologies numériques dans d’autres domaines, ces événements se sont étendus à d’autres secteurs, tout en se diversifiant. À partir de 2010, ils se sont éloignés des objectifs technologiques initiaux (améliorer un logiciel, développer une nouvelle application, etc.), pour valoriser une thématique (la résolution d’une problématique sociale, du marketing) ou pour cibler une population particulière de participants (les femmes par exemple) (Briscoe et Mulligan, 2014). Certains de ces « formats courts » se sont notamment concentrés sur l’analyse de jeux de données mis à disposition de participants, comme dans le Hacking Health dans le domaine de la santé (HackEbola with Data, 2015). Notons aussi, dans le domaine de la culture, un premier hackathon organisé par la Bibliothèque nationale de France en novembre 2016, pour permettre « 24 h d’émulation et d’échanges » et « imaginer ensemble la bibliothèque du futur »[12] avec la réutilisation de données publiques. Les data sprints organisés en sociologie se situent dans la même veine.

Dans ces événements, l’étape de préparation des données, que l’on nomme aussi « mise en données » ou datafication[13], n’est souvent pas visible. Il s’agit, pour les participants, de se concentrer sur la phase d’exploration, de traitement, d’analyse et de visualisation des jeux de données déjà disponibles[14]. En sciences des données, ces étapes de collecte et de préparation des données sont connues pour être un long processus, chronophage et fastidieux, qui nécessite de collecter, nettoyer les data et les standardiser pour produire des jeux de données analysables par la suite par différentes méthodes statistiques et algorithmiques[15]. Or, on peut se questionner sur ces étapes préliminaires effectuées en amont de la tenue de ces événements : Quelles données sont mises à disposition des participants ? D’où proviennent-elles ? À quels traitements ont-elles été soumises ? — Et par qui l’ont-elles été ? — pour les rendre disponibles aux participants ? Ces formats courts ne participent-ils pas à invisibiliser ce long travail autour des données ? Ce sont ces différentes questions que nous avons explorées à partir du hackathon recherche République numérique, qui constitue le terrain empirique de cette étude.

Les préparatifs d’un hackathon : retour d’expérience

Le hackathon recherche République numérique s’est déroulé le 12 décembre 2015 à Paris[16] et a été consacré à l’analyse des données de la consultation en ligne du projet de loi République numérique (septembre-octobre 2015). Cette loi, initiée par la secrétaire d’État Axelle Lemaire et son cabinet, a été pensée autour des trois éléments de la devise de la République française : liberté accrue pour la circulation des données et du savoir, égalité de droits pour les usagers du net et fraternité pour une société numérique ouverte à tous. Plusieurs thématiques étaient abordées par le projet de loi, comme celle de la protection de la vie privée, de l’ouverture des données[17] d’intérêt général (comprenant les données publiques) ou bien encore du libre accès (open access) aux résultats scientifiques issus de la recherche publique. La consultation en ligne s’est déroulée en amont des étapes habituelles d’adoption d’une loi car l’objectif était de recueillir l’avis des contributeurs et d’enrichir le projet de loi avant même sa présentation devant le Conseil d’État. Pendant deux semaines, cette consultation a provoqué une mobilisation forte (environ 21 000 contributeurs y ont participé[18]). Dans le cadre d’un projet de recherche doctoral mené par une des coauteures sur l’une des thématiques abordées dans le projet de loi — le libre accès aux publications scientifiques[19] —, ce moment particulier d’échanges constituait un terrain d’étude privilégié permettant d’accéder aux revendications de différentes parties prenantes et mieux comprendre les dynamiques de participation politique en ligne associée à cette phase consultative. Au vu des nombreuses contributions (plus de 8500 arguments[20] proposés sur le site), la consultation était aussi l’occasion de développer des méthodes numériques, pour pouvoir extraire, analyser et visualiser les actions des contributeurs sur le site (votes, commentaires, etc.). Dans cette optique, nous avons constitué un binôme (ingénieure de recherche/doctorante) afin de mettre en oeuvre ces méthodes numériques nécessitant des compétences spécifiques en informatique. Mais au lieu de mener cette étude sur un des articles en particulier du projet de loi, nous avons proposé d’organiser cet événement dans une démarche de recherche ouverte et contributive en travaillant sur l’ensemble des articles de la consultation. Cette proposition a rapidement suscité un intérêt de la part de plusieurs acteurs[21] qui se sont impliqués par la suite en tant que partenaires à l’organisation de cet événement et notamment à ces étapes préliminaires de constitution des jeux de données. En tant qu’instigatrices de ce hackathon, nous avons pris part à ses préparatifs et en proposons ici un retour d’expérience. Nous avons été frappées par la richesse des échanges et des questionnements qui se sont déployés au fil de l’organisation de cette journée ; ce hackathon s’est révélé être un cas d’étude propice pour poser un regard réflexif sur les pratiques de recherche et les processus méthodologiques mis en oeuvre autour de ce type d’événements. Cette réflexivité s’est construite tout au long de l’organisation de l’événement jusqu’à la fin de la rédaction de cet article. Nos profils complémentaires (chercheure en SHS et ingénieure de recherche) ont enrichi ce dialogue et ont permis de croiser une compréhension technique fine de cette fabrique des données.

Revenons d’abord sur les origines de cette journée, afin de présenter les acteurs principaux qui se sont investis par la suite dans la préparation des données. Etalab, service ministériel dont la mission est de faciliter l’ouverture de données publiques, avait organisé un open data camp[22] sur la vie quotidienne des données le 17 octobre 2015, soit deux mois avant l’événement analysé ici. Un groupe de participants avait alors proposé d’explorer les données issues de la consultation République numérique. Notre présence à ce camp nous a permis d’entrer en contact avec Etalab pour lui proposer d’organiser le hackathon recherche République numérique (#hackRepNum) au début de novembre 2015. Notre rôle a tout d’abord consisté à trouver des partenaires pour réserver un espace de travail et financer quelques dépenses (repas et pause offerts aux participants). Nous avons donc soumis une proposition par mails à différents acteurs mobilisés autour de la consultation République numérique, qui se sont vite montrés intéressés par un tel événement, et cela pour diverses raisons.

Des acteurs institutionnels (Etalab, le cabinet d’Axelle Lemaire à l’initiative de ce projet de loi mais aussi le Conseil national du numérique) s’y sont montrés intéressés du fait de leur important investissement dans ces nouvelles logiques contributives, ouvertes et démocratiques. Cette consultation a ainsi fait l’objet d’une promotion importante fondée sur la mise en avant de l’originalité d’une telle initiative dans la fabrique de la loi et du développement d’une plateforme pour faciliter la participation citoyenne. Avant la consultation, le Conseil national du numérique s’était attelé à la proposition d’un préprojet de loi (Rapport Ambition numérique), rédigé lui-même après une phase de six mois de consultation citoyenne et d’ateliers participatifs. La plateforme de la consultation République numérique en elle-même a fait l’objet d’un appel à projet auprès des acteurs impliqués dans les civic tech. Ces technologies civiques regroupent aujourd’hui un ensemble d’initiatives en lien avec le développement de plateformes numériques dont l’objectif est d’améliorer les processus démocratiques et la participation des citoyens (Kreiss, 2015). L’entreprise Cap Collectif, l’une de ces « start-up civiques », spécialisée dans le développement de plateformes de consultation en ligne, a été ainsi choisie aux côtés d’autres acteurs pour développer la plateforme (Democracy OS). L’un de ses responsables, présent le matin du hackathon aux côtés d’autres acteurs des civic tech, voyait ainsi cette journée comme un moyen de recueillir des retours pour améliorer ces plateformes contributives[23]. Cet événement représentait aussi un intérêt pour les collectifs impliqués dans les revendications autour des « communs » et de la libre circulation de l’information (mouvements du logiciel libre, de l’open, etc.). Lors de la consultation, ces thématiques étaient au coeur des débats (utilisation de logiciels libres dans l’administration publique, reconnaissances des communs comme droit positif mais aussi conditions d’ouverture des données publiques[24]). Pour des chercheurs en SHS, cette consultation constituait un terrain d’étude pertinent pour comprendre les formes de mobilisation en ligne, les éléments saillants des débats ou bien encore les stratégies communicationnelles déployées par chaque participant pour faire valoir son point de vue.

Après avoir reçu les premières réponses positives, le début de décembre 2015 a été choisi. S’en est suivi un mois intense de préparation. Ces préparatifs ont d’abord porté sur l’organisation de la communication et des interventions des différents partenaires en début et fin de soirée (responsable de la consultation République numérique, cofondateur de la start-up Cap Collectif, responsable du Conseil national du numérique et d’Etalab, fondateur d’un collectif ou d’une association, etc.). Mais cette préparation a aussi consisté à prendre part aux nombreux échanges pour offrir des jeux de données analysables pour les participants au hackathon. Même si nous n’avions pas employé le terme data sprint, l’objectif, étant donné le temps très court qui nous était imparti, était en effet de faire en sorte que les participants se concentrent sur l’analyse de données préalablement collectées. Quelques heures seulement se sont écoulées entre le choix des projets, la constitution des équipes en début de journée et la diffusion des premiers résultats en soirée, devant les divers partenaires et acteurs institutionnels.

Ces préparatifs engagent en fait une temporalité bien plus longue. Durant un mois, il s’est agi à la fois d’extraire les informations du site, de constituer des jeux de données et d’en assurer l’ouverture. Un travail important de « mise en données » qui révèle un ensemble d’enjeux sociopolitiques, inclus dans les choix mêmes — et notamment les choix techniques — opérés par les acteurs impliqués.

Le travail de mise en données : des choix techniques révélateurs de choix politiques

Le terme datafication est employé aujourd’hui pour désigner « la fabrication des matériaux à partir desquels sont produits statistiques et jugements de faits » (Bastin et Francony, 2016 : 507)[25]. Le hackathon nous a permis d’observer ce processus mais aussi d’en préciser quelques étapes. Dans le cadre de ces événements, en plus des étapes de sélection et d’extraction d’informations du site web pour en constituer des jeux de données, une autre étape essentielle consiste en leur mise à disposition et leur ouverture éventuelle dans un format approprié. Chacune de ces étapes s’accompagne de différents choix techniques, révélateurs d’un ensemble d’enjeux sociopolitiques associés à ces data et à leur réutilisation.

Acquisition des données : négociations, techniques d’extraction et hack

Différentes méthodes de collecte des données

La première étape de l’étude d’un site web ou d’autres dispositifs numériques commence par la collecte des informations jugées nécessaires à l’analyse. Dans le cas du site de la consultation, ces informations pouvaient par exemple correspondre aux différentes activités possibles à réaliser sur la plateforme (vote, commentaires pour un article de loi et leurs contenus textuels) ou aux renseignements sur les participants, disponibles en ligne sur la page profil des inscrits. Cette collecte implique une acquisition de données en vue de les organiser en jeux de données exploitables. Les méthodes employées pour le hackathon résument bien les différentes possibilités offertes aujourd’hui par ces techniques que l’on regroupe souvent par le terme de « text & data mining », ou plus spécifiquement de « web mining » dans le cas de données exposées sur un site web.

La première consiste à demander aux concepteurs d’un site de fournir ces informations[26]. Dans le cas de la consultation République numérique, ces informations ont été demandées par le cabinet ministériel avec l’aide d’Etalab à Cap Collectif en tant que prestataire de services. Mais d’autres moyens existent pour accéder à ces informations en fonction des compétences techniques des personnes mobilisées, ainsi que des outils mis à disposition. La deuxième méthode d’acquisition consiste à employer une API (application programming interface). Cette interface de programmation, développée par le détenteur du site ou offerte par la plateforme elle-même comme mécanisme d’exposition des données, permet d’accéder aisément à certains éléments de la base de données internes du site. Concernant la consultation, Cap Collectif n’avait pas développé d’API spécifique à destination des développeurs. Les personnes désireuses d’extraire ces données se sont alors appuyées sur une troisième technique, plus « artisanale », qui consiste à scraper [moissonner] les données provenant d’un site web. Cette méthode est souvent qualifiée de « sauvage », étant effectuée par un développeur sans passer par une API. Dans le cas de la consultation, des ingénieurs et informaticiens avaient déjà entrepris cette collecte, en particulier lors de l’open data camp, mentionné précédemment. Le choix de l’une ou l’autre de ces méthodes conditionne les possibilités d’accès puis de constitution des données. Arrêtons-nous sur la dernière, dite de « scraping sauvage », car elle est associée à des formes d’action politique qui puisent dans la culture du hack et dont cette journée en a révélé l’importance.

Scraping sauvage : des choix techniques et politiques puisant dans la culture du hack

Cette méthode de scraping est qualifiée de « sauvage » en ce qu’elle est la plupart du temps, d’un point de vue juridique, considérée comme illégale : il s’agit d’exploiter des « oeuvres » (sites web, applications, etc.) dont les données exposées sont protégées par le droit d’auteur ou par les droits des bases de données. L’emploi même de ces techniques implique également de répéter fréquemment des requêtes d’accès au serveur informatique, pouvant être assimilées à des attaques ou des intrusions dans le système informatique[27]. Cette méthode de scraping nécessite des compétences en informatique : elle consiste à développer un script d’extraction, autrement dit un algorithme, qui prend la forme d’une succession d’instructions à la « machine », écrit dans un langage de programmation spécifique (par exemple R, Python, etc.). Le développeur va s’appuyer sur le code html des pages pour découper les éléments qu’il souhaite obtenir (d’où le terme scraping) et d’en automatiser l’extraction. Dans le cas de la consultation, cela pouvait être le nom d’un contributeur, l’identifiant d’un l’article de loi, la date de contribution, le nombre de votes pour un article, etc. Ces informations sont extraites en simulant le parcours d’un utilisateur, c’est-à-dire en créant un script qui mime les « clics et actions » d’un contributeur. On parle alors de « bot » (robot). Le développeur décide ainsi ce qu’il souhaite récupérer, mais aussi le point d’entrée qu’il juge le plus pertinent. Dans le cas de la plateforme de la consultation République numérique, plusieurs points d’entrée ont été exploités : les pages utilisateurs, les pages des articles ou les pages historiques. Cette méthode offre une plus grande liberté que l’emploi d’une API ; cette dernière, développée par un concepteur, exposant certaines informations plutôt que d’autres, et souvent avec un autre objectif que celui de les mettre à disposition. L’objectif principal est souvent d’obtenir des analytics sur l’utilisation du site (parcours de navigation sur le site, nombres de pages consultées, etc.). Ces API opèrent ce que nous appelons une première « mise en vue » des données par le propriétaire du site, orientant la collecte d’informations en mettant en valeur certaines informations (filtre de lecture), au détriment d’autres jugées comme moins importantes.

En proposant de sortir du « programme d’action » établi par ces API, la méthode de scraping peut ainsi jouer le rôle d’une réappropriation des informations et d’une plus grande flexibilité d’extraction. Jean-Christophe Plantin (Plantin, 2014) qualifie cette méthode de « polémologie poétique » (du grec polemos, « guerre », et logos, « discours »), qui rejoint cette culture du hack associée à la revendication d’une liberté de l’information. Dans cette logique, le hack porte à la fois une dimension politique, la « libération » des données étant un moyen d’offrir une solution de rechange à la lecture officielle. Une visée sociale et éthique y est également souvent associée, l’objectif étant de rendre ces data disponibles au plus grand nombre, à commencer par les personnes concernées par ces données (les contributeurs). Elle s’accompagne également, dans une visée de transparence, du partage de l’ensemble des informations permettant d’obtenir ces données.

Dans le cas du hackathon République numérique, plusieurs personnes se sont attelées à cette tâche et se sont inscrites dans différentes dimensions du hack et de ses modalités d’actions. Nous avons nous-mêmes travaillé à un script d’extraction de ces données en utilisant une partie du travail réalisé par des membres d’un collectif associatif, Regards Citoyens. Ce collectif se donne pour mission de proposer un accès simplifié au fonctionnement des institutions démocratiques à partir des informations publiques. Cette association mène ainsi un ensemble d’actions afin de rendre ces informations disponibles, mais également d’en faciliter la lecture par le biais de représentations graphiques ou d’interfaces. Regards Citoyens s’est également mobilisé lors de la consultation, au côté d’autres collectifs de liberté de l’information et des communs[28]. Certains membres du collectif ont travaillé avant même le hackathon sur l’extraction des données de la consultation, et ont mis à disposition les scripts sources, les données sources utilisées mais également les données retraitées[29]. Ce partage des scripts d’extraction, mais aussi des « données brutes » et retraitées, s’inscrit dans un mode d’organisation propre au développement informatique en tant qu’il permet d’améliorer le code, de faire gagner du temps à d’autres développeurs et d’en favoriser la reprise et la réutilisation. On y retrouve la dimension sprint des méthodologies agiles de développement logiciel abordé en début d’article. Mais ce partage se place également dans cette éthique du hack suivant laquelle la circulation de l’information se doit d’être traçable et reproductible.

Ces méthodes d’extraction dévoilent ainsi, derrière un ensemble de subtilités techniques, une dimension politique forte. La méthode de scraping sauvage illustre un ensemble de pratiques de collaboration, de traçabilité de l’information et d’accès aux sources (scripts, documentation du code, données) dans une visée politique qui puise dans une culture du hack. Mais pour le concepteur d’une plateforme, le choix de mettre à disposition une API et d’en présenter certaines informations consiste également en une maîtrise possible — consciente ou inconsciente — de la diffusion des informations et de leurs exploitations futures. L’utilisation de ces méthodes de text & data mining reste cependant légalement très peu encadrée. La loi pour une République numérique entendait statuer sur leurs contours en définissant les conditions d’utilisation de telles collectes, notamment dans le milieu de la recherche. Le manque de cadrage aidant, ces pratiques de collecte sont communément tolérées et souvent admises de facto dans les hackathons organisés par les institutions, elles-mêmes portées par l’injonction de faciliter l’ouverture, l’utilisation et la circulation de ces données. C’est aussi autour de cette mise à disposition des données et de leur « ouverture » que d’autres leviers politiques apparaissent.

Plus qu’une mise en données : les enjeux de la mise à disposition et de l’ouverture

La mise en ligne des données sous différents formats, grâce au développement de l’open data, fait l’objet de nouveaux enjeux concernant la fabrique des « données brutes » (Denis et Goëta, 2017). Leur mise à disposition, notamment sur un portail open data, nécessite que les données soient mises en forme, c’est-à-dire présentées de façon organisée dans un format de fichier qui pourra être ouvert par un logiciel approprié. On parle alors de « jeux de données » car ces données apparaissent sous un format standardisé et facilement consultable. Deux façons d’organiser les données sont souvent proposées suivant des standards informatiques : une vue tabulaire ou une vue en arborescence, dans le cas de données du web. Ces mises en forme, si anodines qu’elles paraissent, portent en elles-mêmes des types de « mises en vue » qui peuvent influencer l’interprétation des données. Mais ce processus peut également être influencé par l’anticipation des usages qu’il sera fait de ces données.

Le cas du jeu de données officiel mis en ligne quelques heures avant le début du hackathon, sous une forme anonymisée, est particulièrement représentatif du processus même de fabrique de ces données ouvertes. Dans le cadre de la loi République numérique, Etalab a été chargée d’opérer la mise à disposition du jeu de données de la consultation sur le portail open data data.gouv.fr. Cette volonté du cabinet ministériel, client de la plateforme, de rendre publiques les données de la consultation s’inscrit dans un discours sur l’ouverture et la transparence du gouvernement, dont le dispositif de consultation lui-même devait être l’un des reflets. L’organisation du hackathon a révélé l’intérêt de différentes communautés pour ces données, et a joué un rôle important dans leur mise à disposition en open data, peu de temps après cette consultation. Comme souligné précédemment, la constitution d’un jeu de données nécessite un ensemble d’étapes longues et chronophages. Ce processus peut être encore plus long dans ce contexte institutionnel et officiel, en raison des différents intermédiaires qui y participent. Ici, les échanges impliquaient le cabinet ministériel, qui voyait un avantage à bénéficier d’une visibilité supplémentaire en termes de communication sur la consultation, Etalab, responsable de cette mission open data, et enfin le prestataire de service Cap Collectif. Etalab a été chargée de la négociation, mais aussi de la fabrication et de la mise en conformité des données. Après avoir demandé l’accès aux données du site, plus de temps a été nécessaire pour les mettre en forme ainsi que pour les désidentifier afin de respecter l’anonymat des participants. Ces opérations constituent également des mises en vue spécifiques de ces données, influençant l’interprétation possible qui en sera faite. Les données se présentaient dans un format tabulaire proche de la base de données proposée par le détenteur du site. Or, cette base de données laisse d’ores et déjà supposer une organisation des informations afin d’obtenir un ensemble de mesures sur l’usage du site web par des internautes le consultant[30]. Cette orientation de lecture se retrouve ensuite dans la forme tabulaire du jeu de données mis à disposition.

L’anonymisation des données constitue un autre traitement effectué sur ces informations, qui consiste à supprimer des données personnelles — indicateurs sociodémographiques, de géolocalisation — permettant d’identifier une personne à partir de ces jeux de données. Elle représentait une nécessité juridique et éthique pour le gouvernement, mais aussi un enjeu politique pour d’autres acteurs. Si l’on se penche sur les autres données mises en ligne lors du hackathon, on constate en effet que les données fournies par Regards Citoyens n’étaient pas anonymisées, ce qui s’apparente à un choix politique assumé. Celui-ci a été expliqué par les membres du collectif lors de la présentation de leurs résultats à la fin du hackathon. Pour eux, ces informations étant publiques[31] lors de la consultation, il convenait de les laisser disponibles dans les jeux de données. Les cartographies réalisées à partir de ce jeu de données non anonymisé donnaient ainsi un accès facilité aux noms des auteurs autodéclarés (selon leur profil sur la plateforme), mais offraient aussi une catégorisation par communautés, construite par Regards Citoyens. Ces cartographies suivaient entre autres l’objectif de mettre en lumière l’action de lobby d’acteurs spécifiques lors de la consultation. Cet exemple illustre l’influence même de l’utilisation d’un jeu de données plutôt qu’un autre sur l’analyse et l’interprétation qu’il pourra être fait des data.

Conclusion

En nous centrant sur l’étude du hackathon République numérique, notre propos était de souligner des choix politiques militants ou institutionnels associés à la fabrique des données, qui opèrent en amont de ces événements. Ce type d’événement consiste le plus souvent à exploiter (analyser, visualiser, etc.) des jeux de données préalablement constituées, soit proposées par les organisateurs, soit directement accessibles en ligne sur des portails publics de type open data. En revenant sur la mise en oeuvre d’un tel événement et de sa préparation, c’est tout un pan de la fabrique de ces données, d’ordinaire invisibilisée ou normalisée, que nous avons tâché de révéler. De la collecte à la mise à disposition et à l’ouverture éventuelle de jeux de données, un ensemble de choix a été décrit, mettant en avant les dimensions politiques encapsulées dans ces pratiques informatiques, qui, pour certaines, puisent dans des formes de mobilisation et d’activisme politiques ancrées dans la culture du hack.

Certes, la nature hautement politique des informations contenues sur le site de la consultation République numérique a probablement braqué le projecteur sur la dimension politique de cette fabrique des données. Si celle-ci peut être moins présente lors d’autres événements, nous défendons l’idée que toutes les données numériques analysées lors de ces formats courts portent une dimension politique, ne serait-ce que par leurs origines et par les conditions de leur mise à disposition par divers acteurs publics ou privés (données Facebook, Twitter, données open data).

Cet article invite donc les chercheurs qui organisent ou participent à de tels événements à porter un regard réflexif sur les étapes constitutives de la fabrication de ces jeux de données. Quelles sont les implications de l’utilisation d’une méthode ou d’une autre d’extraction des données ? Quelles influences a la présence d’une API ou d’un portail open data pour collecter ces données ? Quel cadre juridique faut-il construire pour ces recherches ? Et quelle position le chercheur doit-il tenir, pour l’utilisation de ces données, par rapport aux acteurs publics et privés ? Ces questions éclairent les enjeux sociaux, politiques et techniques dont le chercheur doit se saisir. Elles peuvent être associées à cette forme nécessaire d’« ouverture critique » que Serge Proulx nous amenait déjà à considérer, en 1984, dans son introduction à un numéro de Sociologie et sociétés consacré à l’informatisation. Une attitude qui « se veut lucide et critique en questionnant fondamentalement l’articulation entre d’une part, le développement de nouveaux usages sociaux des objets techniques et d’autre part, les nécessités et les besoins vitaux de nos pratiques sociales » (Proulx, 1984 : 11). Suivant le développement de ces formats courts dont nous avons ici étudié une variante, adopter une telle posture nous semble plus que jamais d’actualité.

Les préparatifs d’un hackathon recherche : au coeur de la fabrique des donnéesHackathons and data sprints in sociology : the invisibilization of data shaping

Résumé

Abstract

Resumen

La « fabrique des données » et son invisibilisation

Les préparatifs d’un hackathon : retour d’expérience

Le travail de mise en données : des choix techniques révélateurs de choix politiques

Acquisition des données : négociations, techniques d’extraction et hack

Différentes méthodes de collecte des données

Scraping sauvage : des choix techniques et politiques puisant dans la culture du hack

Plus qu’une mise en données : les enjeux de la mise à disposition et de l’ouverture

Conclusion

Notes

Bibliographie

List of figures

Abstracts

Résumé

Abstract

Resumen

Article body

La « fabrique des données » et son invisibilisation

Les préparatifs d’un hackathon : retour d’expérience

Le travail de mise en données : des choix techniques révélateurs de choix politiques

Acquisition des données : négociations, techniques d’extraction et hack

Différentes méthodes de collecte des données

Scraping sauvage : des choix techniques et politiques puisant dans la culture du hack

Plus qu’une mise en données : les enjeux de la mise à disposition et de l’ouverture

Conclusion

Appendices

Notes

Bibliographie

List of figures

Citation Tools

Cite this article

Export the record for this article