ZUL-Gene: Модель генерации текстовых описаний наборов генов
Автор: Бузанов Г.С., Воронов А.Д., Макеев В.Ю.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Информатика и управление
Статья в выпуске: 3 (67) т.17, 2025 года.
Бесплатный доступ
Задача автоматического формирования содержательных текстовых описаний наборов генов является актуальной проблемой современной биоинформатики: она возникает при анализе омиксных данных и остаётся трудоёмкой при ручном выполнении. На сегодняшний день не существует специализированной языковой нейросетевой модели, способной решать данную задачу. Мы адаптировали модель BioGPT, ориентировав её на создание текстовых описаний наборов генов. Для дообучения был сформирован корпус, включающий текстовые сведения о сигнальных путях и функциях отдельных генов из BioCarta и UniProt, что позволило повысить точность и содержательность получаемых текстов. В процессе обучения были использованы текстовые данные о генах и их группах, дополненные синтетическими перестановками и отрицательными примерами, что повысило способность модели различать релевантные и нерелевантные описания. Сравнительный анализ с GPT-4 проводился в формате экспертной оценки, выполненной специалистами в области биоинформатики и молекулярной биологии. Результаты анализа показали превосходство дообученной версии BioGPT по критериям точности, полезности, ясности и полноты генерируемых текстов.
BioGPT, генеративная модель, генерация текста, наборы генов
Короткий адрес: https://sciup.org/142245835
IDR: 142245835 | УДК: 004.912