Вычислительный конвейер по распознаванию сайтов связывания транскрипционных факторов в бактериальных геномах de novo

Автор: Мухин А.М., Ощепков Д.Ю., Лашин С.А.

Журнал: Проблемы информатики @problem-info

Рубрика: Прикладные информационные технологии. Биоинформатика

Статья в выпуске: 4 (65), 2024 года.

Бесплатный доступ

Задача поиска сайтов связывания транскрипционных факторов (ССТФ) в бактериальных геномах является одним из важнейших этапов их изучения и последующего использования в задачах биотехнологии и микробиологии. Характерная длина ССТФ - 5-20 пар нуклеотидов, и каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по последовательности. Поэтому поиск таких коротких последовательностей, имеющих достаточное, т. е. не случайное, сходство - т. и. мотивов - лежит в основе аннотации бактериальных геномов сайтами связывания. В статье описаны набор вычислительных конвейеров по поиску мотивов, которые принимают на вход данные бактериального генома и его первичной аннотации. Предлагаемые конвейеры, использующие два разных подхода (полногеномный поиск и филогенетический футпринтинг) к поиску мотивов, предоставляют исследователю исчерпывающий набор настроек для получения на выходе максимально полной аннотации сайтами как всего генома, так и более детально - регуляторного района выбранного гена. Представленные конвейеры реализованы как с использованием современной платформы Nextflow, так и скриптами на языке программирования Python. Разработанная нами индексируемая база метаданных для известных бактериальных геномов с использованием встраиваемой СУБД SQLite позволяет существенно ускорить извлечение данных для дальнейших расчетов.

Еще

Конвейеры, мотивы, сстф, геномика, биоинформатика, филогенетический футпринтинг

Короткий адрес: https://sciup.org/143184149

IDR: 143184149   |   DOI: 10.24412/2073-0667-2024-4-69-83

Статья научная