Вычислительный конвейер по распознаванию сайтов связывания транскрипционных факторов в бактериальных геномах de novo
Автор: Мухин А.М., Ощепков Д.Ю., Лашин С.А.
Журнал: Проблемы информатики @problem-info
Рубрика: Прикладные информационные технологии. Биоинформатика
Статья в выпуске: 4 (65), 2024 года.
Бесплатный доступ
Задача поиска сайтов связывания транскрипционных факторов (ССТФ) в бактериальных геномах является одним из важнейших этапов их изучения и последующего использования в задачах биотехнологии и микробиологии. Характерная длина ССТФ - 5-20 пар нуклеотидов, и каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по последовательности. Поэтому поиск таких коротких последовательностей, имеющих достаточное, т. е. не случайное, сходство - т. и. мотивов - лежит в основе аннотации бактериальных геномов сайтами связывания. В статье описаны набор вычислительных конвейеров по поиску мотивов, которые принимают на вход данные бактериального генома и его первичной аннотации. Предлагаемые конвейеры, использующие два разных подхода (полногеномный поиск и филогенетический футпринтинг) к поиску мотивов, предоставляют исследователю исчерпывающий набор настроек для получения на выходе максимально полной аннотации сайтами как всего генома, так и более детально - регуляторного района выбранного гена. Представленные конвейеры реализованы как с использованием современной платформы Nextflow, так и скриптами на языке программирования Python. Разработанная нами индексируемая база метаданных для известных бактериальных геномов с использованием встраиваемой СУБД SQLite позволяет существенно ускорить извлечение данных для дальнейших расчетов.
Конвейеры, мотивы, сстф, геномика, биоинформатика, филогенетический футпринтинг
Короткий адрес: https://sciup.org/143184149
IDR: 143184149 | DOI: 10.24412/2073-0667-2024-4-69-83