Denník N

Budúcnosť ukladania dát je ukrytá v DNA

Vedci maximalizovali kapacitu ukladania dát na DNA. Všetky doteraz vytvorené dáta ľudstva by sa vďaka tomu mohli zmestiť do dvoch malých dodávok. Problémom ostáva už len cena.

Ľudstvo čelí problému s ukladaním dát.

Každý rok vyprodukujeme až 2,5 triliardy bajtov dát a až 90 percent dnes dostupných dát sme vytvorili iba za posledné dva roky.

Nejde len o produkciu hudby, videí a filmov, ale aj o dáta zo sociálnych sietí, z meteosenzorov, počítačových simulácií, bankových prevodov a mnoho ďalších.

Keďže technológie napredujú čoraz vyšším tempom, produkcia dát sa bude exponenciálne zvyšovať. To znamená, že problém s ukladaním všetkých týchto informácií bude čoraz naliehavejší.

Namiesto toho, aby sme sa snažili vyrobiť väčšie alebo efektívnejšie disky a servery na ich ukladanie, je lepšie poobzerať sa po iných možnostiach. Jednou z alternatív je hľadať v rámci odboru biológie, na rozmedzí počítačových technológií a genetiky, a zamerať sa na DNA.

DNA ako úložisko informácií

DNA, deoxyribonukleová kyselina, sa nachádza v bunkách vo forme dvojzávitnice a nesie genetické informácie bunky. Vedci sa ju už niekoľko rokov pokúšajú použiť na kódovanie aj iných ako genetických informácií bunky, no počas experimentov čelili viacerým úskaliam.

Jedným z nich bola samotná stabilita takéhoto systému, no tento problém sa podarilo prekonať. Pred dvomi rokmi švajčiarski vedci uspeli a uložili textové dáta na mikroplatničku s DNA. Pri skladovaní pri -18 stupňov Celzia by sa dali informácie uchovať počas viac ako 2 miliónov rokov.

Otáznym ostávalo množstvo dát, ktoré by sa do DNA dali zakódovať. Aj napriek veľkému úsiliu sa doposiaľ nedarilo uložiť do DNA viac ako polovicu z možného objemu informácií. Maximálna méta predstavuje 1,8 bitu na každý nukleotid DNA (nukleotid je spojenie DNA bázy, cukru a fosfátu).

85 percent teoretického maxima

Dvojica amerických vedcov Yaniv Erlich a Dina Zielinski sa priblížila k uvedenému maximu a do DNA molekúl zakódovali až 1,6 bajtu na nukleotid, čo je viac ako 85 percent z teoretického maxima.

Svoje výsledky a opis metódy, ktorú nazvali poeticky ako „DNA fontána“, uverejnili v prestížnom časopise Science.

Prepočítané na gramy, nový systém dokáže uložiť 215 miliónov gigabajtov na gram použitej DNA. Ak by sa takto uložili všetky dáta vytvorené do dnešného dňa, zmestili by sa do jedinej miestnosti, respektíve dvoch malých dodávok.

Ako sa vyjadril hlavný autor štúdie Yaniv Erlich pre portál Phys.org, „DNA časom nedegraduje ako kazety alebo CD nosiče a nestane sa zastaranou“.

Preto si ju vybrali pre svoj výskum a počas experimentov na ňu uložili spolu šesť rôznych súborov: celý počítačový operačný systém, francúzsky film z roku 1895 Príchod vlaku do stanice La Ciotat (L’arrivée d’un train à La Ciotat), darčekovú kartu od Amazonu, počítačový vírus, vedeckú štúdiu vedca Claude Shannona a kópiu zlatej plakety misie Pioneer. Spolu mali veľkosť 2,14 × 106 bajtov.

Jednotky a nuly

Ako prebiehalo kódovanie dát? Pred samotným zápisom do DNA vedci informácie skomprimovali do jedného súboru. Ten rozdelili na kratšie úseky binárneho kódu tvoreného jednotkami a nulami.

Keďže sa dáta ukladajú na DNA, jednotky a nuly sa v nej zapisujú prostredníctvom sekvencie jednotlivých DNA báz, teda cytozínu (C), tymínu (T), guanínu (G) a adenínu (A). Kombináciou týchto štyroch báz, ktoré je možné vnímať aj ako 4 písmená DNA abecedy, je možné nakombinovať rôzne zápisy kódu.

Ilustračné foto – Martina Ribar Hestericová

Pomocou metódy „DNA fontána“ vedci tieto informácie prepísali do formy poriadia nukleotidov, inými slovami do sekvencie DNA. Spolu takto nadizajnovali 72-tisíc úsekov DNA, každý z nich s dĺžkou 200 bázových párov.

Metóda bola vedcami navrhnutá tak, aby sa vyhli problémom spojeným so samotnou prípravou molekúl DNA. Ak by sme napríklad chceli zapísať sekvenciu počítačového kódu 000000 iba pomocou jedného písmena (napríklad pomocou adenínu s označením A), prepis do DNA sekvencie by vyzeral takto: AAAAAA.

Príprava takejto DNA sekvencie je však v laboratóriu veľmi zložitá (jednoduchšie sa pripravujú také sekvencie, kde sa DNA bázy striedajú).

Preto sa vedci rozhodli pre metódu, ktorá dokáže zakódovať jednu informáciu rôznymi typmi zápisov. Počas kódovania je tak možné vybrať takú sekvenciu DNA báz, ktoré nebude problém laboratórne pripraviť.

Limitované využitie

Návrhy 72-tisíc molekúl DNA vedci poslali do firmy, ktorá ich do dvoch týždňov pripravila. Aby otestovali, ako sa dáta budú dať čítať, bádatelia využili metódu sekvenovania DNA (zisťovanie poradia báz v DNA). Na svoje prekvapenie zistili, že metóda fungovala na 100 percent, teda bez akýchkoľvek chýb.

Takto uložené dáta sa dajú v biologickom laboratóriu pomerne rýchlo a jednoducho kopírovať pomocou techniky zvanej PCR (polymerázová reťazová reakcia).

Problémom tejto metódy ostáva potrebný čas (dva týždne na doručenie vzoriek, niekoľko hodín na vytvorenie kópií, čas potrebný na spracovanie výsledkov sekvenovania) a cena.

Autori vypočítali, že na zápis dvoch megabajtov dát potrebujú približne 6500 eur a na dekódovanie ďalších 1800. Ide o vysoké sumy, ktoré sa však rýchlym pokrokom vedy určite znížia. Preto sa pravdepodobne už čoskoro dočkáme inovatívnych „diskov“, ktoré budú pracovať na báze DNA a zaberať pritom omnoho menej miesta.

Dostupné z doi: 10.1126/science.aaj2038

Máte pripomienku alebo ste našli chybu? Prosíme, napíšte na [email protected].

Technológie

Veda

Teraz najčítanejšie