di Francesco Musolino

 

Sapevate che negli ultimi due anni è stata creata una quantità di dati maggiore rispetto a quella dell’intera storia dell’umanità? Un vero e proprio torrente di informazioni relative ad ogni campo dello scibile, ma ciò significa che dobbiamo affrontare il problema legato allo storage di questa enorme mole di dati. E in un futuro assai prossimo non sarà più sufficiente la capacità fisica degli hard disk , perciò i ricercatori stanno accorrendo in nostro aiuto, offrendoci la possibilità di codificare i dati digitali nel DNA e creando uno schema di archiviazione su una densità mai vista prima. Saremo presto in grado di immagazzinare ben 215 petabyte – ovvero 215 milioni di gigabyte – in un singolo grammo di DNA. In tal modo questo sistema potrebbe, in linea di principio, immagazzinare ogni bit di dati mai registrati dagli esseri umani e allocarli in un contenitore delle dimensioni e del peso di un paio di piccoli pickup.

Ma è ancora presto per festeggiare, poiché questa avveniristica tecnologia è altamente costosa e decisamente complessa.

I vantaggi di ricorrere al DNA per l'archiviazione dei dati digitali sono molteplici. Si tratta di una tecnologia ultracompatta e può durare centinaia di migliaia di anni se custodita al fresco, in un ambiente privo di umidità. Inoltre, finché le società umane leggono e scrivono DNA, saranno in grado di decodificarlo. Ma non solo, “il DNA – afferma Yaniv Erlich, scienziato informatico della Columbia University – non si degraderà nel tempo come avvenuto per le audiocassette e i cd e non diventerà mai obsoleto”. E a differenza di altri approcci ad alta densità, le nuove tecnologie possono scrivere e leggere grandi quantità di DNA alla volta, consentendone il ridimensionamento e la successiva riallocazione.

Ma non si tratta di pura teoria. Difatti gli scienziati hanno già iniziato ad archiviare dati digitali nel DNA dal 2012. Ciò avvenne quando i genetisti dell'Università di Harvard, George Church e Sri Kosuri, codificarono un libro di 52.000 parole in migliaia di frammenti di DNA per codificare gli 0 e gli 1 e poter digitalizzare il file. Il loro particolare schema di codifica era relativamente inefficiente, tuttavia, e poteva contenere solo 1,28 petabyte per grammo di DNA;  successivamente, altri approcci sono stati più efficaci. Eppure, finora nessuno è stato in grado di immagazzinare neanche la metà di ciò che i ricercatori pensano possa essere effettivamente gestito dal DNA, ovvero circa 1,8 bit di dati per nucleotide. Erlich e Dina Zielinski, due scienziati del New York Genome Center, hanno esaminato gli algoritmi utilizzati per codificare e decodificare i dati, iniziando a convertire i file in stringhe binarie di 1 e 0, per comprimerli in un unico file master e poi suddividerli in stringhe di codice binario. Hanno così ideato un algoritmo chiamato “DNA fountain”, che impacchettava le stringhe in modo casuale nelle cosiddette gocce, a cui aggiungevano tag extra per consentire di rimontarli nell'ordine corretto in seguito.

In tutto, i ricercatori hanno generato una lista digitale di 72.000 filamenti di DNA, ciascuno lungo 200 basi. Una volta generati, li hanno inviati nel formato di file di testo a Twist Bioscience, una startup di San Francisco in California, che ha poi provveduto a sintetizzare i filamenti di DNA. Due settimane dopo, Erlich e Zielinski hanno ricevuto per posta una fiala con un granello di DNA che codificava i loro file. Per decodificarli, la coppia ha utilizzato la moderna tecnologia di sequenziamento del DNA, successivamente inserita in un computer, il quale ha tradotto il codice genetico in binario e ha utilizzato i tag per riassemblare i sei file originali. L'approccio – come riporta il magazine Science – ha funzionato così bene che i nuovi file non contenevano nessun errore. Non solo, erano anche in grado di realizzare un numero virtualmente illimitato di copie dei loro file, prive di errori attraverso la reazione a catena della polimerasi, una tecnica standard di copiatura del DNA.

Ma questo metodo non è ancora pronto per l'uso su vasta scala: servono 7000 dollari per sintetizzare i 2 megabyte di dati nei file e altri 2000 dollari per leggerli. Il costo è destinato a scendere nel tempo, ma rispetto ad altre forme di archiviazione dei dati, la scrittura e la lettura di DNA è un procedimento lento. Chi può dire cosa accadrà? Magari tutti i datacenter di Facebook finiranno presto su una sequenza di DNA replicabile all’infinito, delle dimensioni di un pickup.