Метод предсказания количества белка в клетках дрожжей на основе их геномных последовательностей

Автор: Вензель А.С., Клименко А.И., Иванисенко Т.В., Деменков П.С., Лашин С.А., Иванисенко В.А.

Журнал: Проблемы информатики @problem-info

Рубрика: Прикладные информационные технологии. Биоинформатика

Статья в выпуске: 4 (65), 2024 года.

Бесплатный доступ

В работе представлен новый метод предсказания количества белка в клетках пекарских дрожжей Saccharomyces cerevisiae, основанный на анализе их биологических последовательностей с использованием предобученных языковых моделей. Для обработки последовательностей были применены модели семейства ESM2 для аминокислотных последовательностей и модель GENA-LM для нуклеотидных последовательностей генов, что позволило получить информативные векторные представления входных данных. В работе оценивается влияние различных архитектур и размеров предобученных языковых моделей на точность предсказания. Предложенный метод имеет потенциал для применения в биотехнологии, оптимизации процессов биосинтеза и компьютерном дизайне штаммов-продуцентов с повышенной экспрессией генов целевых белков. Результаты исследования могут способствовать более глубокому пониманию механизмов регуляции генетической экспрессии и открывают перспективы для предсказания количества белков в других микроорганизмах.

Еще

Количество белка, дрожжи, трансформер esm2, машинное обучение

Короткий адрес: https://sciup.org/143184143

IDR: 143184143   |   DOI: 10.24412/2073-0667-2024-4-17-26

Список литературы Метод предсказания количества белка в клетках дрожжей на основе их геномных последовательностей

  • Vogel С., Marcotte Е. М. Insights into the regulation of protein abundance from proteomic and transcriptomic analyses // Nat Rev Genet. 2012. T. 13. № 4. C. 227-232.
  • Schwanhausser В. и др. Global quantification of mammalian gene expression control // Nature. 2011. T. 473. № 7347. C. 337-342.
  • Rives А. и др. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences // Proceedings of the National Academy of Sciences. 2021. T. 118. № 15. C. e2016239118.
  • Ji Y. и др. DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome // Bioinformatics. 2021. T. 37. № 15. C. 2112-2120. EDN: PSGRHV
  • Ferreira M. и др. Protein Abundance Prediction Through Machine Learning Methods // Journal of Molecular Biology. 2021. T. 433. № 22. C. 167267. EDN: ZTBQBX
  • Lin Z. и др. Evolutionary-scale prediction of atomic-level protein structure with a language model // Science. 2023. T. 379. № 6637. C. 1123-1130. EDN: VYCIWB
  • Fishman V. и др. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences // 2023.
  • Cherry J. M. и др. SGD: Saccharomyces Genome Database // Nucleic Acids Research. 1998. T. 26. № 1. C. 73-79. EDN: HXTBRJ
  • Huang Q. и др. PaxDb 5.0: Curated Protein Quantification Data Suggests Adaptive Proteome Changes in Yeasts // Molecular & Cellular Proteomics. 2023. T. 22. № 10. EDN: BRBHVW
  • Schmirler R., Heinzinger M., Rost B. Fine-tuning protein language models boosts predictions across diverse tasks // Nat Commun. 2024. T. 15. № 1. C. 7407. EDN: UUFQLD
Еще
Статья научная