Le livre “Raw data is an oxymoron” édité par Lisa Gitelman et publié aux MIT press en 2013 vise à tordre le coup à un non-sens trop présent à l’heure des big data et open data : il existerait des données « brutes » qui n’attendraient que l’action du chercheur, de l’informaticien ou du designer graphique pour livrer tout leur sens. Au contraire, les auteurs de cet ouvrage s’appuient sur des recherches issues de l’histoire des sciences ou des STS (sciences, technologie et société) pour démontrer que la donnée n’est jamais — malgré son étymologie — « donnée » : elle résulte au contraire d’une construction qui doit être mise en lumière au travers des contextes d’émission, des acteurs intervenant dans ce processus et des usages prescrits aux données. L’intérêt principal de cet ouvrage provient du décentrement qu’il offre par rapport aux enjeux actuels concernant les données numériques, à travers l’histoire de la production, de l’utilisation et de la circulation des données au sein de plusieurs secteurs allant de la science à la citoyenneté : mathématiques, économie, astronomie, science citoyenne ou encore tactical media.
Daniel Rosenberg nous apprend ainsi que l’usage du terme « donnée » ne date pas des révolutions statistiques et bureaucratiques du 19ème siècle, ni de l’informatique du 20ème siècle : il est présent dès le 18ème siècle, notamment à travers les travaux de Joseph Priestley. Le codage des occurrences du terme dans les corpus de livres de Google Books et d’ECCO (Eighteenth-Century Collections Online) met également en avant le tournant qu’a pris le terme durant ce siècle : alors qu’il désignait auparavant un paramètre axiomatique de l’expérience scientifique, il désigne au fur et à mesure le résultat d’une expérience ou d’une collection. Rosenberg nous affirme ainsi que le terme de donnée est intrinsèquement rhétorique : il sert de base à l’argumentation et doit être relié au contexte et aux différentes stratégies argumentatives auxquels il sert de base.
Quel meilleur moyen de combattre le mythe de la donnée brute que de mettre en avant les multiples étapes de sa création ? Si les informaticiens actuels se plaignent souvent du douloureux travail de « nettoyage » des données au cours duquel celles-ci sont structurées et rendues prompts aux réutilisations, il n’a rien de nouveau : Kevin R. Brine et Mary Poovey nous décrivent l’étude d’Irving Fisher à la fin du 19ème siècle sur l’usage du terme « capital » dans les livres d’économie de son époque, qui lui a demandé d’« enlever les éléments incorrects ou inopportuns des données disponibles, de combler les données manquantes, et de les formater de manière à ce qu’elles s’ajustent avec les autres données » (p. 70). De même, Ellen Gruber Garvey nous présente une autre aventure de « data mining » en version Steampunk des années 1830 au cours de laquelle les militants abolitionnistes américains Angelina Grimké Weld, Theodore Weld et Sarah Grimké ont trié, catégorisé et annoté des publicités d’esclavagiste provenant de vingt-mille journaux, afin d’en faire un outil de combat contre l’esclavage.
Les différentes contributions au livre de Lisa Gitelman soulignent également les difficultés autour du traitement temporel des données, entre passé et futur. Dans le cadre des recherches sur l’« accélération séculaire », Matthew Stanley décrit les difficultés pour reconstituer le positionnement de la lune lors d’éclipses passées à partir de la consultation d’archives : les astronomes n’utilisaient guère le terme « éclipse » pour rendre compte de cet événement, mais davantage des descriptions vagues telles que « le jour s’est transformé en nuit » (p. 85). Ces multiples approximations appellent alors tout un travail de reconstruction a posteriori des données. À l’inverse, David Ribes et Steven J. Jackson se demandent comment garantir la comparabilité à long terme des données. À partir de l’analyse ethnographique d’une initiative de sciences citoyennes qui dure depuis seize ans, les auteurs décrivent les différents « trucs » utilisés pour palier aux constants changements dans les conditions de collecte des données, aussi bien au niveau des personnes les réalisant, de l’environnement mesuré que des infrastructures pour stocker ces données.
Au terme de la lecture de cet ouvrage, on peut se demander si le terme de « donnée » mérite encore d’être utilisé, ou s’il n’apporte pas davantage de confusion. Dans un autre cadre, Johanna Drucker a proposé de remplacer le terme de « data » par celui de « capta », justement pour souligner l’effort de captation et la construction inhérente à la donnée. On pourra toutefois retenir la remarque de Daniel Rosenberg sur l’utilité du terme : alors que les notions de fait, de vérité et d’évidence ont déjà été amplement déconstruites — la récente traduction en français de l’ouvrage de Lorraine Daston et Peter Gallison devrait accentuer les remises en question du terme d’objectivité — il peut s’avérer toutefois nécessaire de conserver « un ou deux irréductibles » (p. 18) : la « donnée » constitue alors le « terme frontière » minimal pour transcender les disciplines et les secteurs d’utilisation.
Si le terme est à conserver, il reste toutefois nécessaire de faire ressortir ses étapes de construction lors de son utilisation, afin d’éviter toute naturalisation. Le débat se pose actuellement de manière vive à travers les multiples infographies et visualisations d’information qui se multiplient en ligne, par exemple dans les secteurs du journalisme de données ou de la recherche en SHS, comme l’a montré la journée d’étude PRATIC du 25 février 2013, « De la “data science” à l’infovisualisation ». Accompagner une visualisation des données utilisées est une première étape nécessaire, mais insuffisante ; elle peut en outre accompagner une rhétorique de la transparence. On citera sur ces deux points le Data blog du Guardian, où les journalistes publient systématiquement les données utilisées, ce qui n’apporte toutefois pas les informations nécessaires pour comprendre toutes les étapes de transformations entre la donnée et sa mise en forme, en plus de soutenir une rhétorique de l’empowerment par les données.
Devant ce projet de mise en avant des conditions de création des données, une difficulté demeure. Si les articles regroupés par Lisa Gitelman possèdent une telle finesse dans l’analyse des données, c’est en partie parce qu’ils bénéficient du temps long de la recherche et de la place allouée pour développer une pensée. Comment faire tenir ensemble l’utilisation des données et la présentation de ses étapes de construction dans des secteurs régis par une temporalité moins généreuse, tels que le journalisme ou le design ? L’exercice peut s’avérer périlleux, notamment du fait que l’exploitation visuelle des données se base sur les propriétés synoptiques des formes choisies, où les informations seraient accessibles immédiatement, ce qui laisse peu de place aux développements paratextuels et autres notes de bas de page. Sans revenir à l’index de soixante-douze pages qui a accompagné un des premiers usages des diagrammes — A chart of biography de Joseph Priestley (1756) — il est nécessaire d’imaginer de nouvelles pratiques de publication ne se contentant pas de mettre en ligne les données utilisées, mais explicitant également la manière dont celles-ci ont été construites. S’ils ne portent pas directement sur ces enjeux et questions, les différents cas d’étude réunis par Lisa Gitelman permettent toutefois de fournir des outils pour y réfléchir.
« Raw data » is an oxymoron, Lisa Gitelman (dir.), MIT Press, Infrastructures (coll.), 2013, 182p.
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 United States License.
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 United States License.