dimanche, décembre 22, 2024

L’ADN sera-t-il l’avenir du stockage de données ?

0 commentaire

À l’heure où nous produisons de plus en plus de données et où se pose la question de leur stockage, les biologistes s’intéressant à ce problème se sont tournés vers l’un des « disques durs » les plus compacts qui soient : l’ADN.

En effet, cette macromolécule présente dans toutes les cellules contient toute l’information nécessaire au bon fonctionnement et à la reproduction de celles-ci, encodées dans ses quatre bases A, C, G et T. Sur ce principe, ne pourrait-il pas contenir des données créées par l’être humain, encodées dans les bases de l’ADN comme elles le sont sous forme de 0 et de 1 dans un ordinateur ?

Depuis quelques années, de nombreuses recherches se penchent sur la possibilité de stocker des données dans l’ADN, que celui-ci soit conservé in vivo (au sein de cellules) ou in vitro. Cette solution technologique serait, selon ses promoteurs, une piste pour répondre aux difficultés de stockage de données qui se poseront dans quelques années.

La quantité mondiale de données numériques était estimée en 2018 à 33 zettaoctets (mille milliards de milliards d’octets), et elle double tous les deux à trois ans. Le stockage de données sur des disques durs ou des bandes magnétiques nécessite ainsi de plus en plus de place. Il requiert ainsi des ressources toujours plus importantes en infrastructures et en énergie. Enfin, le stockage classique est peu durable, de sorte que des données archivées sur CD ou bandes magnétiques doivent être transférées tous les 10 ans environ.

La première démonstration de stockage de données dans l’ADN date des années 1980 avec l’œuvre de Joe Davis, qui avait alors encodé la représentation d’une rune germanique dans le génome d’une bactérie. Mais les développements de techniques autour de cette idée n’ont connu leur essor que depuis le début des années 2010.

Vos données dans des tubes à essai

Le stockage de données dans l’ADN in vitro fonctionne le plus souvent de la manière suivante : les données à conserver – textes, images – sont converties en séquence de 0 et de 1, elles-mêmes transposées en séquences de nucléotides A, C, G et T. La molécule d’ADN est ensuite synthétisée par des appareils dédiés, qui ajoutent les nucléotides souhaités les uns à à la suite des autres pour former des brins d’ADN, le plus souvent longs de quelques dizaines à deux cents paires de bases – à titre de comparaison, les bactéries ont généralement un génome de quelques millions de paires de base, et les humains 3,2 milliards de bases par cellule. Une information assez volumineuse sera ainsi répartie sur plusieurs brins d’ADN, mais elle sera reconstituée à la lecture. Les molécules peuvent ensuite être stockées, souvent dans une solution aqueuse. L’accès à l’information se fait par séquençage et interprétation des séquences obtenues.

L’information génétique est stockée dans l’ADN grâce à des bases chimiques notées A, C, G et T. Le stockage de données dans l’ADN in vitro propose notamment d’utiliser ces bases comme unités de stockage de l’information, à la manière des 0 et des 1 en informatique. ktsdesign/Shutterstock

Le coût est l’une des limites principales du stockage in vitro : la synthèse de l’ADN, donc l’écriture des données, est chère. Pour contourner les coûts liés à cette synthèse, des méthodes alternatives sont explorées. Par exemple, il est envisagé d’utiliser un encodage fondé sur des structures physiques de l’ADN : ici, le repliement ou non de l’ADN correspond alors à un 0 ou à un 1. Autre option, l’encodage via des modifications épigénétiques : dans ce cas, les bits sont encodés grâce à la présence ou l’absence de modifications chimiques le long de la molécule l’ADN, et non via les bases.

Autre limitation à l’heure actuelle, l’étape de synthèse peut être longue et générer des erreurs, tout comme l’étape de séquençage nécessaire à la lecture des données. Pour pallier aux éventuelles erreurs, l’encodage des données doit inclure une redondance de l’information, et des codes correcteurs sont utilisés : ce sont des séquences ajoutées à la suite des données d’intérêt, permettant de reconstituer l’information en cas d’erreur ou d’effacement lors de l’écriture ou de la lecture. Ces codes de correction d’erreurs sont issus des travaux sur le codage de l’information. Des informations redondantes, c’est-à-dire déjà présentes dans le message, sont ajoutées autour de l’information à transmettre. Cela permet au système qui la décode de détecter et de remanier les erreurs. Un des codes de correction d’erreurs les plus utilisés, le code de Reed-Solomon, est d’ailleurs présent dans les CD et les QR codes pour y éviter les pertes d’informations.

Vos données dans des bactéries

Il est également possible de stocker des données in vivo, dans le génome d’organismes vivants. En 2017, un gif animé fut encodé dans le génome d’une bactérie, les bases constituant le code étant intégrées dans un endroit précis du génome. Un triplet de nucléotides codait alors pour une couleur de pixel, permettant une reconstitution en 21 niveaux de gris.

Séquenced’animation montrant un cheval de course au galop. Photos prises par Eadweard Muybridge (mort en 1904), publiées en 1887 à Philadelphia sous le titre d’« Animal Locomotion ». Ce petit film fut encodé dans le génome d’_E. coli_ en 2017. Source : Wikimedia

Plus récemment, en 2021, des chercheurs de l’université de Columbia ont mis en place un système permettant de transférer les données directement d’un format numérique à un stockage biologique.

Dans ce nouveau système, dit « enregistrement moléculaire électrobiologique », le format numérique, composé de 0 et de 1, est exprimé en signal électrique. Ainsi, pour coder un 0, il n’y a pas de signal électrique et une séquence issue du génome originel de la bactérie est intégrée dans le génome. En revanche, pour coder un 1, donc en présence d’un signal électrique, une séquence exogène – étrangère au génome de la bactérie – est intégrée dans le génome. Les chercheurs ont ainsi encodé le message « hello world » dans le génome de la bactérie. Si la quantité de données encodées est encore faible, c’est la première démonstration d’une écriture de données directement de l’ordinateur vers un organisme vivant – une sorte de magnétoscope cellulaire, capable d’enregistrer les données sur l’équivalent biologique de la bande magnétique : l’ADN.

Colonies de bactéries E. coli dans une boîte de Pétri. Nathan Reading/FlickrCC BY-NC-ND

Il est plus difficile de manipuler l’ADN in vivo qu’in vitro, et, pour les méthodes d’« enregistrement moléculaire », la densité d’espace de stockage (ici, la quantité d’information par nucléotide) y est plus faible, l’encodage d’un 0 ou d’un 1 nécessitant pour l’instant environ 50 nucléotides. Cependant, les données enregistrées in vivo ont pour avantage d’être faciles à copier, grâce à la division cellulaire, contrairement aux données stockées in vitro qui doivent être répliquées par des PCR, Polymerase Chain Reaction – une technique qui permet de dupliquer en grand nombre l’ADN ou l’ARN à partir de faibles quantités de matériau génétique et d’amorces spécifiques), désormais fameuse grâce à son rôle dans le dépistage du SARS-Cov-2, mais plus coûteuse que les cultures pendant lesquelles les cellules se divisent.

La réplication de l’ADN est souvent mentionnée comme problème du stockage in vivo, car elle est susceptible de générer des mutations qui pourraient endommager les données en introduisant des erreurs de codage ; néanmoins les erreurs de réplication de l’ADN sont plus rares in vivo que pendant une PCR.

Un stockage « froid », mais pas que

Le stockage de données dans l’ADN semble plutôt être indiqué pour l’archivage de données dites « froides », c’est-à-dire des données auxquelles l’accès est peu fréquent. Mais d’autres applications sont envisagées.

Ce type de stockage pourrait également être utilisé en stéganographie, c’est-à-dire pour dissimuler un message dans un autre message. Par exemple, les cellules stockant l’ADN porteur d’informations pourraient être mélangées à des bactéries issues d’un environnement naturel pour aider à la dissimulation d’une information.

L’authentification d’objets grâce à des codes-barres nucléotidiques est également examinée, par exemple dans cette étude, qui propose d’utiliser de l’ADN encapsulé dans de la silice et mélangé à des huiles d’olive pour qu’il soit possible de vérifier leur authenticité.

Image de bactéries en microscopie confocale (Bacillus subtilis). Fernan Federici, FlickrCC BY-NC-SA

Même si le stockage de données dans l’ADN n’appartient plus tout à fait à la science-fiction, il lui reste un long chemin à faire avant de devenir grand public. L’ADN se conserve bien et est très compact, des millions de nucléotides n’occupant que quelques micromètres – il aurait ainsi une densité de stockage un million de fois plus importante que celle des disques durs. Ce sont ses avantages par rapport aux méthodes de stockage classiques, comme le stockage magnétique (utilisé dans les disques durs) ou optique (les CDs et DVDs).

Néanmoins les différents coûts impliqués, notamment pour écrire les données, sont encore de plusieurs ordres de grandeur plus élevés que ceux du stockage classique. La vitesse de lecture des données – souvent, la vitesse de séquençage de l’ADN – est également un obstacle à lever, même si des progrès considérables ont été réalisés dans ce domaine ces dernières années, et que de nouvelles améliorations restent à venir, comme des méthodes de séquençage ne nécessitant qu’une seule molécule d’ADN, là où les méthodes classiques en exigent plusieurs.

Même s’il n’est pas impossible d’imaginer, d’ici quelques décennies, un rayon des archives remplies de tubes à essai contenant des livres sous forme d’ADN, il est néanmoins peu probable que vous puissiez bientôt regarder votre film préféré en glissant un échantillon dans un lecteur DVD génétique.

Irène Tanneur, Doctorante, Biologie de synthèse et computationnelle, Institut National de recherche pour l’agriculture, l’alimentation et l’environnement, Inrae

Dans Theconversation