Применение методов машинного обучения в задаче секвенирования генома
Автор: Смагин Василий Денисович, Русакович Артем Николаевич
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 1, 2021 года.
Бесплатный доступ
Статья посвящена методам машинного обучения, применяемым для улучшения анализа результатов секвенирования. Предметом данного исследования является анализ существующих подходов к обработке молекулярно-биологических (МБ) данных, полученных с помощью различных методик секвенирования, с использованием машинного обучения (МО). Цель работы - обобщение актуальных способов получения «полезной» информации из «сырых» МБ данных. Секвенирование применяется для установления последовательности нуклеотидов в ДНК и является одной из наиболее важных процедур в рамках геномных исследований. В процессе проведения NGS (Next-Generation Sequencing) требуется обрабатывать колоссальные объемы данных, зачастую имеющих дефекты разного рода. В связи с существованием различных вариаций методов секвенирования и наличием в них трех и более этапов, спектр проблем решаемых с помощью МО в этой области также чрезвычайно широк. В работе представлен краткий обзор некоторых решений, основанных на машинном обучении, применяемых для повышения качества анализа и преобразования результатов отдельных этапов секвенирования. Описаны ключевые группы биоинформатических задач в рамках секвенирования, приведены примеры реализованных алгоритмов с использованием МО. Кроме того, разработаны различные подходы к решению одной и той же задачи, при этом имеющие свои преимущества и недостатки.
Секвенирование, машинное обучения, сборка генома
Короткий адрес: https://sciup.org/14123330
IDR: 14123330 | УДК: 004.8
Machine learning methods applications for genome sequencing
The article is dedicated to the machine learning methods used to improve the analysis of sequenc-ing results. The subject of this study is the analysis of the existing approaches to the processing of molecular-biological (MB) data obtained with the help of various sequencing techniques, using ma-chine learning (ML). The purpose of the work is to generalize the current methods of obtaining "use-ful" information from " raw " MB data. Sequencing is used to establish the sequence of nucleotides in DNA and is one of the most important procedures within the framework of genomic research. In the process of conducting NGS (Next-Generation Sequencing), it is necessary to process huge amounts of data, often with various kinds of defects. Due to the existence of different variations of sequencing methods and the presence of three or more stages there, the range of the problems solved with the help of ML in this area is also extremely wide. The article provides a brief overview of some solutions based on machine learning and used to improve the quality of analysis and transform the results of individual stages of sequencing. The key groups of bioinformatics tasks in the framework of sequenc-ing are described, and the examples of the implemented algorithms using ML are given. In addition, the different approaches to solving the same problem have been developed and at the same time they have their own advantages and disadvantages.
Список литературы Применение методов машинного обучения в задаче секвенирования генома
- Pereira R., Oliveira J., Sousa M. Bioinformatics and Computational Tools for Next-Generation Se-quencing Analysis in Clinical Genetics // Journal of Clinical Medicine. 2020. Vol. 9. N. 1. Article number: 132. URL : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7019349/.
- Гуревич А. А. Вычислительные методы для анализа подверженных ошибкам метабологеномных данных : дис. канд. физ.-мат. наук : 03.01.09. Санкт-Петербург, 2018. 224 с. URL : https://disser.spbu.ru/files/2018/disser_gyrevich_aa.pdf.
- Padovani de Souza K., Setubal J. C., Ponce de Leon F de Carvalho A. C. , Oliveira G., Chateau A., Alves R.Machine learning meets genome assembly // Briefings in Bioinformatics. 2019. Vol. 20. N. 6. P. 2116–2129. UR L: https://pubmed.ncbi.nlm.nih.gov/30137230/.
- Krachunov M., Nisheva M., Vassilev D. Machine learning models in error and variant detection in high-variation high-throughput sequencing datasets. // Procedia Computer Science. 2017. Vol. 108. P. 1145–1154.
- Choi J.-H., Kim S., Tang H., et al. A machine-learning approach to combined evidence validation of genome assemblies. // Bioinformatics. 2008. Vol. 4. N. 6. P. 744–750.
- Kuhring M., Dabrowski P. W., Piro V. C., et al. SuRankCo: supervised ranking of contigs in de novo assemblies. // BMC Bioinformatics. 2015. Vol. 16. N. 1. P. 240. URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-015-0644-7.
- Palmer L. E., Dejori M., Bolanos R., et al. Improving de novo sequence assembly using machine learn-ing and comparative genomics for overlap correction. // BMC Bioinformatics. 2010. Vol. 11. N. 1. P. 33. URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-11-33.
- Ji P., Zhang Y., Wang J., et al. MetaSort untangles metagenome assembly by reducing microbial com-munity complexity. // Nature Communications. 2017. Vol. 8. P. 14306. URL : https://www.nature.com/articles/ncomms14306.
- DePristo M. Poplin R.; Google Brain Team. DeepVariant : Highly Accurate Genomes With Deep Neu-ral Networks // Google AI Blog. 2017 December 4. URL : https://ai.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html.
- Chin J. Simple Convolutional Neural Network for Genomic Variant Calling with TensorFlow // Medi-um: an online publishing platform / Medium Corporation. 2017 Jul 17. URL : https://towardsdatascience.com/simple-convolution-neural-network-for-genomic-variant-calling-with-tensorflow-c085dbc2026f.
- Dias R., Torkamani A. Artificial intelligence in clinical and genomic diagnostics // Genome Medicine. 2019. Vol. 11. |Article number: 70. 12 p. URL : https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-019-0689-8.
- Jaganathan K., Kyriazopoulou Panagiotopoulou S., McRae J. F., et al. Predicting Splicing from Primary Sequence with Deep Learning // Cell. 2019. Vol. 176. N. 3. P. 535–548. URL : https://pubmed.ncbi.nlm.nih.gov/30661751/.
- Quang D., Chen Y., Xie X. DANN : a deep learning approach for annotating the pathogenicity of genet-ic variants // Bioinformatics. 2015. Vol. 31. N. 5. P. 761–763. URL : https://pubmed.ncbi.nlm.nih.gov/25338716/.