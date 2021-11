Le 23 novembre 2021 a eu lieu aux Archives Nationales une première historique : le dépôt d'une archive numérique de documents publics encodés sur de l'ADN. La Déclaration des droits de l'Homme et du citoyen de 1789 ainsi que la Déclaration des droits de la Femme et de la citoyenne rédigée par Olympe de Gouges en 1791 ont été stockées sur des fragments d'ADN synthétisés.



Le processus se base sur la technologie DNA Drive, développée et brevetée en 2019 par Stéphane Lemaire et Pierre Crozet, respectivement directeur de recherche au laboratoire de biologie computationnelle et quantitative du CNRS et maître de conférence à la Sorbonne. Tous deux ont cofondé en 2021 avec Erfane Arwani (cofondateur de Nanocloud, SharePlace et Osaka) la société Biomemory pour commercialiser cette technologie, et la grande première du 23 novembre leur tient lieu de preuve de concept. On a vu pire comme carte de visite.



100 milliards de copies dans une petite capsule

Chacun des textes a été stocké à plus de 100 milliards d'exemplaires dans une petite capsule métallique inoxydable de 18 mm sur 5 mm conçue par Imagene – une société française réunissant une équipe multidisciplinaire de l’Université de Bordeaux et du CNRS - pour durer au moins 50 000 ans, en espérant qu'il y ait encore des représentants de l'espèce humaine pour les lire. L'ADN a été synthétisé par l'entreprise américaine Twist Bioscience.



Les capsules ont été déposées dans "l'Armoire de Fer" du musée des Archives à Paris, le Saint des saints de l'Hôtel de Soubise, où reposent par exemple le testament de Napoléon 1er, la dernière lettre de Marie-Antoinette et la Constitution de la Ve République.





L'Armoire de Fer

La technologie DNA Drive utilise des fragments d'ADN de synthèse, "compatibles avec le vivant", explique Stéphane Lemaire. Concrètement, il s'agit de plasmides ou de chromosomes, encodés par synthèse biologique, biosécurisés (ils ne portent pas d'information génétique dangereuse pour l'être humain) et lisibles par des séquenceurs de poche (de la taille d'une clé USB). L'avantage de cette biocompatibilité est de permettre la reproduction des "fichiers" rapidement en utilisant par exemple des bactéries. Il faut savoir, en revanche, que la lecture d'un fragment est destructive : une fois lu, après avoir réhydraté la molécule, le "fichier" devient inutilisable.



La technique d'encodage consiste à convertir du code binaire (0 ou 1) en données quaternaires, correspondant aux 4 nucléotides qui composent une molécule d'ADN (A, T, C, G). Pour la lecture, l'algorithme DNA Drive permet de reconvertir les données en informations binaires, que l'on peut ensuite décompresser pour retrouver les fichiers d'origine.





La capsule métallique stocke les molécules d'ADN sous forme lyophilisée et sous atmosphère inerte

Pour le moment, l'encodage coûte cher (1000 dollars par mégaoctet) et prend du temps, à la fois à écrire (il a fallu plusieurs jours pour encoder la Déclaration des droits de l'Homme) et à lire (il faut 1 heure pour la décoder). Mais le chercheur espère que cette technologie de stockage sera "viable économiquement d'ici quelques années". Il envisage d'implanter le stockage sur ADN d'ici 2030 dans les datacenters. D'ici là, il cible le marché des clés pour les cryptomonnaies et de l'authentification des données.



Pourquoi stocker des données numériques sur le l'adn ?

Les recherches relatives au stockage de données sur ADN découlent du constat que les capacités de stockage ne pourront bientôt plus satisfaire les besoins. "Garantir la transmission du patrimoine aux générations futures est un vrai défi pour le papyrus, le parchemin, le papier, mais encore plus pour le numérique", a déclaré Bruno Ricard, directeur général des Archives nationales. Au Musée des Archives Nationales sont par exemple entreposés actuellement plus de 70 To de données numérisées, qui devraient dépasser 200 To dans quelques années. Des kilomètres d'archives conservées "à chaud" sur des serveurs ou "à froid" sur des bandes magnétiques.



"En 2025, la datasphère représentera 175 zettaoctets (un zettaoctet = 1 milliard de teraoctets), dont 60% d'archives. Le problème des datacenters est qu'ils sont fragiles, car la durée de vie des supports est de 5 à 7 ans ; ils prennent de la place ; ils sont énergivores, consommant chaque année 2% de la production d'électricité mondiale, et leurs besoins énergétiques sont proportionnels à la quantité de données stockées. De plus, depuis 2010, la demande en capacités de stockage est supérieure à l'offre", a exposé Stéphane Lemaire.



L'ADN, en comparaison, promet un stockage durable, économique et à température ambiante. Un être humain, par exemple, stocke 2,7 Zo dans son ADN. On peut entreposer 0,45 Zo dans un gramme d'ADN. L'intégralité des données mondiales pourrait ainsi tenir dans 100 g d'ADN, affirment les chercheurs. Evidemment, le fait que cette méthode de stockage soit à usage unique limite quelque peu ses potentielles applications (et explique le besoin de créer des fichiers redondants dans les capsules).



50 millions d'euros dans le pia 4

Imaginé dès 1959 par le prix Nobel de physique Richard Feynman, et démontré pour la première fois en 2012 par un scientifique de Harvard, Georges Church, le stockage sur ADN se fait généralement par synthèse chimique (et non biologique) sur des petits fragments d'ADN (oligonucléotides) non biocompatibles, ce qui selon les chercheurs français est une technique plus chère et engendrant un taux d'erreur à la lecture supérieur.



Le stockage de données sur ADN fait partie des quatre "programmes et équipements prioritaires de recherche" (PEPR) exploratoires retenus par le ministère de la Recherche dans le cadre du 4e Programme d'investissements d'avenir (PIA 4) français. À ce titre, 50 millions d'euros serviront à financer le projet MoleculArXiv, piloté par le CNRS et impliquant l'INRIA, l'Université de Strasbourg, l'Université Paris Sciences et Lettres, et l'Université Côte d’Azur. Ce programme vise à "positionner l’écosystème de recherche académique et industriel français comme un acteur incontournable du stockage sur polymère (ADN et non-ADN) à l’échelle internationale". Son objectif à 5 ans est de rendre le cycle de lecture/écriture 100 fois plus rapide, pour atteindre 10 Go en 24h.