Применение методов машинного обучения в задаче секвенирования генома
Автор: Смагин Василий Денисович, Русакович Артем Николаевич
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 1, 2021 года.
Бесплатный доступ
Статья посвящена методам машинного обучения, применяемым для улучшения анализа результатов секвенирования. Предметом данного исследования является анализ существующих подходов к обработке молекулярно-биологических (МБ) данных, полученных с помощью различных методик секвенирования, с использованием машинного обучения (МО). Цель работы - обобщение актуальных способов получения «полезной» информации из «сырых» МБ данных. Секвенирование применяется для установления последовательности нуклеотидов в ДНК и является одной из наиболее важных процедур в рамках геномных исследований. В процессе проведения NGS (Next-Generation Sequencing) требуется обрабатывать колоссальные объемы данных, зачастую имеющих дефекты разного рода. В связи с существованием различных вариаций методов секвенирования и наличием в них трех и более этапов, спектр проблем решаемых с помощью МО в этой области также чрезвычайно широк. В работе представлен краткий обзор некоторых решений, основанных на машинном обучении, применяемых для повышения качества анализа и преобразования результатов отдельных этапов секвенирования. Описаны ключевые группы биоинформатических задач в рамках секвенирования, приведены примеры реализованных алгоритмов с использованием МО. Кроме того, разработаны различные подходы к решению одной и той же задачи, при этом имеющие свои преимущества и недостатки.
Секвенирование, машинное обучения, сборка генома
Короткий адрес: https://sciup.org/14123330
IDR: 14123330
Список литературы Применение методов машинного обучения в задаче секвенирования генома
- Pereira R., Oliveira J., Sousa M. Bioinformatics and Computational Tools for Next-Generation Se-quencing Analysis in Clinical Genetics // Journal of Clinical Medicine. 2020. Vol. 9. N. 1. Article number: 132. URL : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7019349/.
- Гуревич А. А. Вычислительные методы для анализа подверженных ошибкам метабологеномных данных : дис. канд. физ.-мат. наук : 03.01.09. Санкт-Петербург, 2018. 224 с. URL : https://disser.spbu.ru/files/2018/disser_gyrevich_aa.pdf.
- Padovani de Souza K., Setubal J. C., Ponce de Leon F de Carvalho A. C. , Oliveira G., Chateau A., Alves R.Machine learning meets genome assembly // Briefings in Bioinformatics. 2019. Vol. 20. N. 6. P. 2116–2129. UR L: https://pubmed.ncbi.nlm.nih.gov/30137230/.
- Krachunov M., Nisheva M., Vassilev D. Machine learning models in error and variant detection in high-variation high-throughput sequencing datasets. // Procedia Computer Science. 2017. Vol. 108. P. 1145–1154.
- Choi J.-H., Kim S., Tang H., et al. A machine-learning approach to combined evidence validation of genome assemblies. // Bioinformatics. 2008. Vol. 4. N. 6. P. 744–750.
- Kuhring M., Dabrowski P. W., Piro V. C., et al. SuRankCo: supervised ranking of contigs in de novo assemblies. // BMC Bioinformatics. 2015. Vol. 16. N. 1. P. 240. URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-015-0644-7.
- Palmer L. E., Dejori M., Bolanos R., et al. Improving de novo sequence assembly using machine learn-ing and comparative genomics for overlap correction. // BMC Bioinformatics. 2010. Vol. 11. N. 1. P. 33. URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-11-33.
- Ji P., Zhang Y., Wang J., et al. MetaSort untangles metagenome assembly by reducing microbial com-munity complexity. // Nature Communications. 2017. Vol. 8. P. 14306. URL : https://www.nature.com/articles/ncomms14306.
- DePristo M. Poplin R.; Google Brain Team. DeepVariant : Highly Accurate Genomes With Deep Neu-ral Networks // Google AI Blog. 2017 December 4. URL : https://ai.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html.
- Chin J. Simple Convolutional Neural Network for Genomic Variant Calling with TensorFlow // Medi-um: an online publishing platform / Medium Corporation. 2017 Jul 17. URL : https://towardsdatascience.com/simple-convolution-neural-network-for-genomic-variant-calling-with-tensorflow-c085dbc2026f.
- Dias R., Torkamani A. Artificial intelligence in clinical and genomic diagnostics // Genome Medicine. 2019. Vol. 11. |Article number: 70. 12 p. URL : https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-019-0689-8.
- Jaganathan K., Kyriazopoulou Panagiotopoulou S., McRae J. F., et al. Predicting Splicing from Primary Sequence with Deep Learning // Cell. 2019. Vol. 176. N. 3. P. 535–548. URL : https://pubmed.ncbi.nlm.nih.gov/30661751/.
- Quang D., Chen Y., Xie X. DANN : a deep learning approach for annotating the pathogenicity of genet-ic variants // Bioinformatics. 2015. Vol. 31. N. 5. P. 761–763. URL : https://pubmed.ncbi.nlm.nih.gov/25338716/.