ZUL-Gene: Модель генерации текстовых описаний наборов генов

Автор: Бузанов Г.С., Воронов А.Д., Макеев В.Ю.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика и управление

Статья в выпуске: 3 (67) т.17, 2025 года.

Бесплатный доступ

Задача автоматического формирования содержательных текстовых описаний наборов генов является актуальной проблемой современной биоинформатики: она возникает при анализе омиксных данных и остаётся трудоёмкой при ручном выполнении. На сегодняшний день не существует специализированной языковой нейросетевой модели, способной решать данную задачу. Мы адаптировали модель BioGPT, ориентировав её на создание текстовых описаний наборов генов. Для дообучения был сформирован корпус, включающий текстовые сведения о сигнальных путях и функциях отдельных генов из BioCarta и UniProt, что позволило повысить точность и содержательность получаемых текстов. В процессе обучения были использованы текстовые данные о генах и их группах, дополненные синтетическими перестановками и отрицательными примерами, что повысило способность модели различать релевантные и нерелевантные описания. Сравнительный анализ с GPT-4 проводился в формате экспертной оценки, выполненной специалистами в области биоинформатики и молекулярной биологии. Результаты анализа показали превосходство дообученной версии BioGPT по критериям точности, полезности, ясности и полноты генерируемых текстов.

Еще

BioGPT, генеративная модель, генерация текста, наборы генов

Короткий адрес: https://sciup.org/142245835

IDR: 142245835   |   УДК: 004.912

ZUL-Gene: Model for generating text descriptions of gene sets

The task of automatically generating informative textual descriptions of gene sets is a relevant challenge in modern bioinformatics: it arises during the analysis of omics data and remains labor-intensive when performed manually. Currently, no specialized neural language model exists that can solve this task. We adapted the BioGPT model to focus on generating textual descriptions of gene sets. For fine-tuning, we constructed a corpus including textual information on signaling pathways and functions of individual genes from BioCarta and UniProt, which improved the accuracy and informativeness of the generated texts. The training process used data on genes and their sets, augmented with synthetic permutations and negative examples, enhancing the model’s ability to distinguish relevant from irrelevant descriptions. A comparative evaluation against GPT-4 was conducted through expert review by specialists in bioinformatics and molecular biology. The results showed that the fine-tuned BioGPT outperforms GPT-4 in terms of accuracy, usefulness, clarity, and completeness of the generated descriptions.

Еще