Мы ненасытные потребители цифровой информации. Наше поколение за последние несколько лет потребило больше информации, чем вся человеческая история вместе взятая. Но с большими объёмами данных возникает большая проблема с хранением. Жесткий диск IBM 1956 года был размером с грузовик, и все, что он мог хранить, было равно размеру этой статьи! Сегодня мы уже делаем жестки диски на терабайты. Что будет дальше?
Когда инженеры сталкиваются с проблемой, они ищут вдохновение в природе. У природы есть элегантное решение для хранения данных, которое до сих пор не имеет себе равных - ДНК.
ДНК - это молекула, которая служит инструкцией по созданию таких организмов, как мы, с нуля. Это наследственный материал всех живых организмов, который передается из поколения в поколение.
Подобно тому, как компьютеры используют двоичную систему нулей и единиц для хранения данных, ДНК кодирует данные в четвертичной системе из условных букв: A, T, G и C. Человеческая ДНК имеет 3,1467 миллиарда этих букв, которые образуют гигабайты информации, хранящийся в ядрах наших клеток. ДНК довольно неприхотлива. Это прочная молекула, которая не подвержена разложению в окружающей среде.
Все данные всего мира, которые у нас есть сегодня, если бы хранились в виде ДНК, то поместились бы в корпусе вашей машины. Кроме того, для хранения в ДНК требуется гораздо меньше энергии и затрат, что так же позитивно для окружающей среды.
Все это прекрасно, но как же использовать ДНК для хранения данных?
Кодирование данных в ДНК
Кодирование цифровых (двоичных) данных на четвертичном языке ДНК связано со своими уникальными проблемами. Во-первых, синтез длинных фрагментов ДНК труден и требует много времени, не говоря уже о непомерно высоких затратах. Такие компании, как CodexDNA, сейчас активно разрабатывают эти технологи.
В технологиях секвенирования проблемой является гомополимерные участки, когда одно и то же основание повторяется несколько раз. Например, в последовательности TAGAAAAAAT несколько A подряд трудно точно упорядочить. Кроме того, любая форма повторов, такая как блок TTAC в последовательности GTTACGTTACGTTACGTTAC, создаст проблему для программного обеспечения сборки. Программное обеспечение сборки - это программное обеспечение, которое принимает необработанные данные от секвенсора и выдает непрерывную последовательность на выходе. Секвенирование и сборка позволяют нам извлекать данные, хранящиеся в ДНК.
Исследователь Европейского института биоинформатики Николас Голдман придумал идею решения проблемы повторов. Двоичные данные {0,1} сначала были преобразованы в систему с основанием 3 {0, 1, 2}, в которой биты становятся пустыми. Первому номеру была присвоена буква C если «0», G если «1», и T если «2». Следующее число было закодировано в соответствии с показанной таблицей.
Возможно, пример поможет прояснить этот процесс. Возьмем букву «а». Его двоичное код - «01100001».
Двоичный - 01100001
Троичный - 010121
Кодирование оснований ДНК:
Первая цифра: цифра 0, поэтому C
Вторая цифра: предыдущая - C, следующая - 1, поэтому T
Третья цифра: предыдущая - T, следующая - 0, поэтому A
Четвертая цифра: предыдущая - A, следующая - 1, поэтому G
Пятая цифра: предыдущая - G, следующая - 2, поэтому C
Шестая цифра: предыдущая - C, следующая - 1, поэтому T
Таким образом, последовательность кодируется как CTAGCT
Так группа Гольдмана закодировала знаменитую речь Мартина Лютера Кинга, сонет Шекспира и фотографию своего института на свой жесткий диск с ДНК.
Статья Голдмана вышла в 2013 году. С тех пор мы видим, как эта технология растет не по дням, а по часам. Относительно недавняя работа Дины Зелински в 2017 году показывает прогресс в области хранения ДНК.
ДНК - это технология хранения данных будущего. Будущие жесткие диски могут выглядеть как фломастеры с культурами клеток и встроенным мини-секвенатором-синтезатором ДНК! Все цифровые данные, которые вы когда-либо будете потреблять в своей жизни, могут храниться в этом ДНК-накопителе. Недалек тот день, когда мы будем загружать наши файлы в «клетку» вместо «облака».
Читайте также:
Как перестать болеть и побороть стресс? 2 простых шага
5 фактов о мозге, которых вы не знали
#Наука #исследования #информация #будущее #ДНК