GATCGGenerator: новый генератор для создания квазислучайных нуклеотидных последовательностей

Автор: Кирьянова О.Ю., Гарафутдинов Р.Р., Губайдуллин И.М., Чемерис А.В.

Журнал: Вестник Донского государственного технического университета @vestnik-donstu

Рубрика: Информатика, вычислительная техника и управление

Статья в выпуске: 3 т.23, 2023 года.

Бесплатный доступ

Введение. В последние десятилетия знания о ДНК все шире применяются для решения небиологических задач (вычисления с помощью ДНК, долговременное хранение информации). В первую очередь речь идет о случаях, когда необходимо подобрать искусственные нуклеотидные последовательности. Для их создания используются специальные программы. Однако существующие генераторы не учитывают физико-химические свойства ДНК и не позволяют получать последовательности с явно выраженной «небиологической» структурой. Фактически они генерируют последовательности, распределяя нуклеотиды случайным образом. Целью данной работы является создание генератора квазислучайных последовательностей с особой нуклеотидной структурой. Он должен учитывать некоторые физико-химические особенности нуклеотидных структур и будет задействован при хранении небиологической информации в ДНК.Материалы и методы. Описано новое программное обеспечение GATCGGenerator для генерации квазислучайных последовательностей нуклеотидов. Оно предоставляется как SaaS (от англ. software as a service - программное обеспечение как услуга), что обеспечивает его доступность с разных устройств и платформ. Программа генерирует последовательности определенной структуры с учетом гуанинцитозинового (GC) состава и содержания динуклеотидов. Представлена работа алгоритма новой программы. Требования к сгенерированным нуклеотидным последовательностям заданы с помощью чата в «Телеграм» (Telegram), наглядно показано взаимодействие с пользователем. Определены и обобщены различия входных параметров и получаемых в результате работы программы конкретных нуклеотидных структур. Также в сопоставлении даны временные затраты генерации последовательностей при различных входных данных. Изучены короткие последовательности, различающиеся по типу, длине, GC-составу и содержанию динуклеотидов. В табличном виде показано, как в этом случае соотносятся входные и выходные параметры.Результаты исследования. Созданное программное обеспечение сравнили с существующими генераторами нуклеотидных последовательностей. Установлено, что генерируемые последовательности отличаются по структуре от известных ДНК-последовательностей живых организмов, а значит, могут быть использованы в качестве вспомогательных или маскирующих олигонуклеотидов, пригодных для молекулярно-биологических манипуляций (например - реакции амплификации), а также для хранения в молекулах ДНК небиологической информации (изображений, текстов и т. д.). Предложенное решение дает возможность формировать специфические последовательности длиной от 20 до 5 000 нуклеотидов с заданным числом динуклеотидов и без гомополимерных участков. Более жесткие условия генерации снимают известные ограничения и позволяют создавать квазислучайные последовательности нуклеотидов по заданным входным параметрам. Кроме количества и длины последовательностей можно заранее определить GC-состав, содержание динуклеотидов и природу нуклеиновой кислоты (ДНК или РНК).Приводятся примеры коротких последовательностей, различающихся по длине, GC-составу и содержанию динуклеотидов.Полученные 30-нуклеотидные последовательности прошли проверку. Установлено отсутствие 100-процентной гомологии с известными ДНК-последовательностями живых организмов. Максимальное совпадение наблюдалось для сгенерированных последовательностей длиной 25 нуклеотидов (сходство около 80 %). Таким образом доказано, что GATCGGenerator может с высокой эффективностью генерировать небиологические нуклеотидные последовательности.Обсуждение и заключение. Новый генератор позволяет создавать нуклеотидные последовательности in silico с заданным GC-составом. Решение дает возможность исключить гомополимерные фрагменты, что качественно улучшает физико-химическую стабильность последовательностей.

Еще

Gatcggenerator, генератор нуклеотидных последовательностей, синтетические нуклеиновые кислоты, случайные последовательности, хранение данных в днк, стеганография, nyrn-олигонуклеотиды, вычисления с помощью днк, криптография, днк-метчики в гидрологии

Еще

Короткий адрес: https://sciup.org/142238873

IDR: 142238873   |   DOI: 10.23947/2687-1653-2023-23-3-296-306

Список литературы GATCGGenerator: новый генератор для создания квазислучайных нуклеотидных последовательностей

  • Малинецкий Г.Г., Митин Н.А., Науменко С.А. Нанобиология и синергетика. Проблемы и идеи. Препринты Института прикладной математики им. М.В. Келдыша РАН. 2005;29:1–26. URL: http://mi.mathnet.ru/ipmp722 (дата обращения: 01.06.2023).
  • Katz E. (ed) DNA- and RNA-Based Computing Systems, 1st ed. Weinheim: Wiley-VCH; 2021. 408 p.
  • Ceze L., Nivala J., Strauss K. Molecular Digital Data Storage Using DNA. Nature Reviews Genetics. 2019;20:456–466. https://doi.org/10.1038/s41576-019-0125-3
  • Kaundal A.K., Verma A.K. DNA Based Cryptography: A Review. International Journal of Information and Computation Technology. 2014;4(7):693–698.
  • Aquilanti L., Clementi F., Landolfo S., Nanni T., Palpacelli S., Tazioli A. A DNA Tracer Used in Column Tests for Hydrogeology Applications. Environmental Earth Sciences. 2013;70:3143–3154. https://doi.org/10.1007/s12665-013-2379-y
  • Zhirnov V., Zadegan R.M., Sandhu G.S., Church G.M., Hughes W. Nucleic Acid Memory. Nature Materials. 2016;15:366–370. https://doi.org/10.1038/nmat4594
  • Yetisen A.K., Davis J., Coskun A.F., Church G.M., Seok Hyun Yun. Bioart. Trends in Biotechnology. 2015;33(12):724–734. https://doi.org/10.1016/j.tibtech.2015.09.011
  • Dokyun Na. DNA Steganography: Hiding Undetectable Secret Messages within the Single Nucleotide Polymorphisms of a Genome and Detecting Mutation-Induced Errors. Microbial Cell Factories. 2020;19(128):1–9. https://doi.org/10.1186/s12934-020-01387-0
  • Shuhong Jiao, Goutte R. Code for Encryption Hiding Data into Genomic DNA of Living Organisms. In: Proc. 9th International Conference on Signal Processing. Beijing: IEEE; 2008. P. 2166−2169. https://doi.org/10.1109/ICOSP.2008.4697576
  • Masanori Arita. Writing Information into DNA. In book: N. Jonoska, G. Păun, G. Rozenberg (eds). Aspects of Molecular Computing. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer; 2004. P. 23–35. https://doi.org/10.1007/978-3-540-24635-0_2
  • Church G.M., Yuan Gao, Sriram Kosuri. Next-Generation Digital Information Storage in DNA. Science. 2012;337(6102):1628. https://doi.org/10.1126/science.1226355
  • K.A. Schouhamer Immink, Kui Cai. Design of Capacity-Approaching Constrained Codes for DNA Based Storage Systems. IEEE Communications Letters. 2018;22(2):224–227. https://doi.org/10.1109/LCOMM.2017.2775608
  • Nozomu Yachie, Kazuhide Sekiyama, Junichi Sugahara, Yoshiaki Ohashi, Masaru Tomita. Alignment-Based Approach for Durable Data Storage into Living Organisms. Biotechnology Progress. 2007;23(2):501–505. https://doi.org/10.1021/bp060261y
  • Garafutdinov R.R., Sakhabutdinova A.R., Slominsky P.A. Aminev F.G., Chemeris A.V. A New Digital Approach to SNP Encoding for DNA Identification. Forensic Science International. 2020;317:110520. https://doi.org/10.1016/j.forsciint.2020.110520
  • Ailenberg M., Rotstein O.D. An Improved Huffman Coding Method for Archiving Text, Images, and Music Characters in DNA. BioTechniques. 2009;47(3):747–754. https://doi.org/10.2144/000113218
  • Doricchi A., Platnich C.M., Gimpel A., Horn F., Earle M., Lanzavecchia G., et al. Emerging Approaches to DNA Data Storage: Challenges and Prospects. ACS Nano. 2022;16(11):17552–17571. https://doi.org/10.1021/acsnano.2c06748
  • Sakhabutdinova A.R., Mikhailenko K.I., Garafutdinov R.R., Kiryanova O.Yu., Sagitova M.A., Sagitov A.M., et al. Non-Biological Application of DNA Molecules. Biomics. 2019;11(3):344–377. https://doi.org/10.31301/2221-6197.bmcs.2019-28
  • Garafutdinov R.R., Chemeris D.A., Sakhabutdinova A.R. Chemeris A.V., Kiryanova O.Yu., Mikhaylenko C.I. Encoding of Non-Biological Information for its Long-Term Storage in DNA. Biosystems. 2022;(215–216):104664. https://doi.org/10.1016/j.biosystems.2022.104664.9
  • Кирьянова О.Ю., Кирьянов И.И., Гарафутдинов Р.Р., Чемерис А.В., Губайдуллин И.М. GATCGGenerator. Свидетельство о регистрации программы для ЭВМ № RU 2021667097. 2021.
  • Borzov E.A., Marakhonov A.V., Ivanov M.V., Drozdova P.B., Baranova A.V., Skoblov M.Yu. RANDTRAN: Random Transcriptome Sequence Generator that Accounts for Partition Specific Features in Eukaryotic mRNA Datasets. Molecular Biology. 2014;48:749–756. https://doi.org/10.1134/S0026893314050021
  • Harris C.R., Millman K.J., van der Walt S.J., Gommers R., Virtanen P., Cournapeau D., et al. Array Programming with NumPy. Nature. 2020;585:357–362. https://doi.org/10.1038/s41586-020-2649-2
Еще
Статья научная