Метод предсказания количества белка в клетках дрожжей на основе их геномных последовательностей
Автор: Вензель А.С., Клименко А.И., Иванисенко Т.В., Деменков П.С., Лашин С.А., Иванисенко В.А.
Журнал: Проблемы информатики @problem-info
Рубрика: Прикладные информационные технологии. Биоинформатика
Статья в выпуске: 4 (65), 2024 года.
Бесплатный доступ
В работе представлен новый метод предсказания количества белка в клетках пекарских дрожжей Saccharomyces cerevisiae, основанный на анализе их биологических последовательностей с использованием предобученных языковых моделей. Для обработки последовательностей были применены модели семейства ESM2 для аминокислотных последовательностей и модель GENA-LM для нуклеотидных последовательностей генов, что позволило получить информативные векторные представления входных данных. В работе оценивается влияние различных архитектур и размеров предобученных языковых моделей на точность предсказания. Предложенный метод имеет потенциал для применения в биотехнологии, оптимизации процессов биосинтеза и компьютерном дизайне штаммов-продуцентов с повышенной экспрессией генов целевых белков. Результаты исследования могут способствовать более глубокому пониманию механизмов регуляции генетической экспрессии и открывают перспективы для предсказания количества белков в других микроорганизмах.
Количество белка, дрожжи, трансформер esm2, машинное обучение
Короткий адрес: https://sciup.org/143184143
IDR: 143184143 | УДК: 575.112 | DOI: 10.24412/2073-0667-2024-4-17-26
An Approach for Predicting Protein Abundance in Yeast Cells Based on Their Genomical Sequences
In this work presented a new method for predicting protein abundance in Saccharomyces cerevisiae baker’s yeast cells, based on the analysis of their biological sequences using pre-trained language models. For sequence processing, ESM2 family models were applied to amino acid protein sequences, and the GENA-LM model was used for nucleotide gene sequences, which allowed for obtaining informative embedding of input data. The study evaluates the impact of various architectures and sizes of pretrained language models on prediction accuracy. The proposed method has potential applications in biotechnology, optimization of biosynthesis processes, and computer-aided design of producer strains with enhanced gene expression of target proteins. The results of the study may contribute to a deeper understanding of genetic expression regulation mechanisms and open up prospects for predicting protein abundance in other microorganisms.
Список литературы Метод предсказания количества белка в клетках дрожжей на основе их геномных последовательностей
- Vogel С., Marcotte Е. М. Insights into the regulation of protein abundance from proteomic and transcriptomic analyses // Nat Rev Genet. 2012. T. 13. № 4. C. 227-232.
- Schwanhausser В. и др. Global quantification of mammalian gene expression control // Nature. 2011. T. 473. № 7347. C. 337-342.
- Rives А. и др. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences // Proceedings of the National Academy of Sciences. 2021. T. 118. № 15. C. e2016239118.
- Ji Y. и др. DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome // Bioinformatics. 2021. T. 37. № 15. C. 2112-2120. EDN: PSGRHV
- Ferreira M. и др. Protein Abundance Prediction Through Machine Learning Methods // Journal of Molecular Biology. 2021. T. 433. № 22. C. 167267. EDN: ZTBQBX
- Lin Z. и др. Evolutionary-scale prediction of atomic-level protein structure with a language model // Science. 2023. T. 379. № 6637. C. 1123-1130. EDN: VYCIWB
- Fishman V. и др. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences // 2023.
- Cherry J. M. и др. SGD: Saccharomyces Genome Database // Nucleic Acids Research. 1998. T. 26. № 1. C. 73-79. EDN: HXTBRJ
- Huang Q. и др. PaxDb 5.0: Curated Protein Quantification Data Suggests Adaptive Proteome Changes in Yeasts // Molecular & Cellular Proteomics. 2023. T. 22. № 10. EDN: BRBHVW
- Schmirler R., Heinzinger M., Rost B. Fine-tuning protein language models boosts predictions across diverse tasks // Nat Commun. 2024. T. 15. № 1. C. 7407. EDN: UUFQLD