Мультитаргетная сверточная нейронная сеть глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга: новый метод машинного обучения для поиска биологически активных веществ

Автор: Васильев П.М., Перфильев М.А., Голубева А.В., Кочетков А.Н.

Журнал: Волгоградский научно-медицинский журнал @bulletin-volgmed

Статья в выпуске: 4 т.22, 2025 года.

Бесплатный доступ

Методы машинного обучения сегодня широко используются в поиске биологически активных веществ. При этом химико-биологические данные имеют весьма специфическую структуру, а практически все лекарственные вещества действуют одновременно на несколько биомишеней. С учетом этого, разработка новых методов построения сверточных нейронных сетей глубокого обучения для анализа зависимостей между мультитаргетной биологической активностью и структурой химических соединений является актуальной и научно востребованной задачей. Цель работы. Создать методологию построения мультитаргетных сверточных нейронных сетей глубокого обучения на основе корреляционной свертки энергий множественного докинга в релевантные биомишени. Материалы и методы. Ансамблевый множественный докинг 537 соединений с анксиолитической активностью и 234 соединений с антимикробной S.aureus активностью в 22 и 10 релевантных биомишеней соответственно, а затем формирование спектров энергий их множественного докинга были выполнены с помощью оригинальной программы MSite и программы AutoDock Vina. С помощью оригинальной программы FCCorNet проведена корреляционная свертка спектров энергий множественного докинга и для указанных соединений вычислены энергии полносвязных сверточных нейронных сетей. Оригинальная компьютерная программа построения нейронных сетей глубокого обучения DeepNets была разработана на языке Python с использованием библиотеки PyTorch. На двух наборах данных, включающих уровни анксиолитической активности и антимикробной S. aureus активности известных соединений и значения энергий полносвязных сверточных корреляционных нейросетей, было проведено обучение мультитаргетных сверточных нейронных сетей глубокого обучения и оценена их точность. Результаты и обсуждение. Точность построенной нейросетевой модели для анксиолитической активности составила Acc = 68,3 %, при статистической достоверности p = 1,1 × 10-9. Точность построенной нейросетевой модели для антимикробной S. aureus активности составила Acc = 90,5 %, при статистической достоверности p < 1 × 10-15. Точность прогноза антимикробной S. aureus активности превышает точность прогноза анксиолитической активности, что, возможно, связано с более сложным системным мультитаргетным механизмом реализации психотропных эффектов, в сравнении с антибактериальным действием химических соединений. Полученные результаты доказывают высокую валидность применения новой архитектуры сверточной нейронной сети глубокого обучения для поиска in silico биологически активных веществ. Заключение. Разработана новая архитектура мультитаргетной сверточной нейронной сети глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга в совокупность релевантных биомишеней. Созданная методология может быть использована для поиска in silico новых высокоактивных соединений с различными видами мультитаргетной фармакологческой активности.

Еще

Сверточные нейронные сети глубокого обучения, полносвязная сверточная нейронная сеть, биологически активные соединения, множественный докинг, спектр энергий множественного докинга, корреляционная свертка

Короткий адрес: https://sciup.org/142246948

IDR: 142246948   |   УДК: 615.015.11:544.165:575.112:[004.032.26+004.852+544.187.2]   |   DOI: 10.19163/2658-4514-2025-22-4-50-57

Текст научной статьи Мультитаргетная сверточная нейронная сеть глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга: новый метод машинного обучения для поиска биологически активных веществ

doi:

ORIGINAL ARTICLE doi:

Funding. The work was performed within the framework of the state task of the Ministry of Health of the Russian Federation No. 23022400009-9 "Development of a methodology for computer search for multi-target pharmacologically active compounds based on multiple docking and convolutional neural network technology of various architectures".

Разнообразные методы машинного обучения, в настоящее время называемые методами искусственного интеллекта, широко используются в поиске биологически активных веществ [1].

Сегодня под искусственным интеллектом, как правило, подразумевается применение для решения поставленных человеком задач искус- ственных нейронных сетей различной архитектуры [2].

В нейросетевом моделировании особая роль отводится нейронным сетям глубокого обучения, которые являются обязательным компонентом всех современных систем искусственного интеллекта [3]. Фундаментальной основой всех используемых в настоящее время архитектур нейронных сетей является теорема Колмогорова [4], которая определяет, что любая непрерывная функция может быть представлена в виде суперпозиции непрерывных функций одного или двух аргументов. Это означает, что любую самую сложную зависимость можно аппроксимировать с использованием двухслойной нейронной сети прямого распространения, если адекватно подобрать две функции активации и правильно рассчитать веса синапсов. Однако эта теорема допускает возможность использования и большего числа функций активации (например, трех), что при правильном их выборе может привести к повышению точности такой многослойной нейросети.

При распознавании изображений и текстов необходимо обрабатывать очень большое число входных нейронов (пикселов, токенов).

С целью сокращения размерности анализируемого пространства и выявления имеющихся в нем скрытых содержательных образов были разработаны различные операции свертки, преимущественно на основе использования матричных методов [5].

Химико-биологические данные, характеризующие лекарственные соединения, имеют очень специфическую структуру, что существенно отличает эти данные от данных, описывающих объекты другой природы. Кроме того, хорошо известно, что подавляющее большинство лекарственных веществ действуют одновременно на несколько биомишеней.

Таким образом, разработка новых методов построения сверточных нейронных сетей глубокого обучения, ориентированных на анализ зависимостей между биологической активностью и структурой химических соединений, учитывающих особый характер химико-биологической информации и взаимодействие веществ с несколькими биомишенями, является актуальной и научно востребованной задачей.

Разработанный нами метод множественного докинга [6] позволяет формировать высоко достоверное векторное описание аффинности химических соединений к релевантным биомишеням в виде спектров энергий докинга в 27 пространств, сформированных по всему объему каждого белка-мишени.

Полученный вектор энергий множественного докинга отражает интегральную аффинность лиганда к данной биомишени. Однако объеди- нение в один массив спектров энергий множественного докинга, вычисленных для нескольких биомишеней, существенно увеличивает размерность предметной области.

Полносвязные нейронные сети отличаются от большинства других нейронных сетей тем, что наличие отдельного выходного слоя нейронов не является обязательным. Эта архитектура применяется для создания ассоциативной памяти [7] и позволяет формировать устойчивые эталоны объектов путем минимизации некоторого фунционала, называемого энергией сети.

Мы использовали архитектуру полносвязной нейронной сети в качестве нематричного метода свертки, для чего разработали процедуру корреляционной свертки спектров энергий множественного докинга [8].

ЦЕЛЬ РАБОТЫ

Разработка нового метода машинного обучения для поиска in silico биологически активных соединений - мультитаргетной сверточной нейронной сети глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга в релевантные биомишени.

МЕТОДИКА ИССЛЕДОВАНИЯ

Для достижения цели исследования необходимо было решить следующие задачи: 1) выполнение ансамблевого множественного докинга известных соединений с модельными биологическими активностями в релевантные биомишени и формирование спектров энергий их множественного докинга; 2) проведение корреляционной свертки спектров энергий множественного докинга и вычисление для указанных соединений энергий полносвязных сверточных корреляционных нейронных сетей; 3) разработка компьютерной программы построения нейронных сетей глубокого обучения; 4) формирование входных наборов данных по уровням активности известных соединений с модельными биологическими активностями и значениям энергий полносвязных сверточных корреляционных нейросетей; 5) обучение для модельных видов биологической активности мультитаргетных сверточных нейронных сетей глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга и оценка точности полученных нейросетей.

В проведенном исследовании в качестве модельных биологических активностей были вы- браны анксиолитическая активность и антимикробная активность в отношении Staphylococcus aureus. В качестве материалов выступали: значения энергий множественного докинга в 22 релевантных белка-мишени 537 известных химических соединений, экспериментально изученных на анксиолитическую активность; значения энергий множественного докинга в 10 релевантных белков-мишеней 284 известных химических соединений, экспериментально изученных на антимикробную в отношении S.aureus активность и структурно сходных со скаффол-дом хиназолинона.

Для последовательной обработки и анализа данных в настоящем исследовании использовались следующие компьютерные программы: 1) корреляционная свертка спектров энергий множественного докинга и вычисление энергий полносвязной сверточной корреляционной нейросети – оригинальная программа FCCorNet; 2) написание программы построения нейронных сетей глубокого обучения – библиотека PyTorch [9]; 3) построение нейронных сетей глубокого обучения – оригинальная программа DeepNets. Расчеты выполняли с использованием суперкомпьютерной техники общей производительностью ~37 Тфлопс.

Множественный докинг соединений в релевантные биомишени и формирование спектров энергий множественного докинга

По методике, описанной в работах [6, 10], для каждой модельной биологической активности в каждой из M релевантных биомишеней с помощью оригинальной программы MSite были построены по 27 пространств для множественного докинга (пример приведен на рис. 1), с помощью программы AutoDock Vina [11] в каждое такое пространство был выполнен ансамблевый докинг N изучаемых соединений и для каждого соединения сформирован спектр из 5 × 27 = 135 значений энергий множественного докинга ΔE для каждой релевантной биомишени. В результате для каждого соединения был получен спектр из 135 × M значений ΔE , характеризующий интегральный мультитаргет-ный аффинитет этого соединения в отношении M релевантных биомишеней.

Корреляционная свертка спектров энергий множественного докинга и вычисление энергий полносвязных сверточных корреляционных нейросетей

Согласно методики, описанной в работе [8], в случае множественного докинга в одну био- мишень рассчитанные энергии ΔE можно рассматривать как нейроны полносвязной нейронной сети с симметричной матрицей связей. Значения их весов могут быть вычислены как коэффициенты парных корреляций между значениями сигналов двух связанных нейронов. Таким образом, для соединения l и биомишени m энергия полносвязной сверточной корреляционной нейронной сети может быть представ- лена в виде

W= m

·

1    27

∑ Rmij · ΔElmi · ΔElmj i,j=1                                , i≠j где Rmij – коэффициент корреляции Пирсона между показателями энергий ΔElmi и ΔElmj, i ≠ j; ΔElmi – значение энергии для пространства i в биомишени m для соединения l, l = 1...N, m = 1...M; ΔElmj – значение энергии для пространства j в биомишени m для соединения l, l = 1...N, m = 1...M; N – число соединений; M – число биомишеней.

Формула (1) задает алгоритм корреляционной свертки спектров энергий множественного докинга для M биомишеней, который был реализован в виде оригинальной программы FCCorNet; архитектура соответствующей полносвязной нейронной сети приведена на рис. 1.

Разработка компьютерной программы построения нейронных сетей глубокого обучения

Предварительно была сформирована архитектура моделируемых нейросетей, которая включала два скрытых слоя с автоматическим перебором числа нейронов по принципу «узкого горла», когда число нейронов в скрытых слоях всегда меньше числа входных нейронов. Для скрытых слоев были определены функции активации Identity, Logistic, Tanh, Exponential, ReLU, LeakyReLu, перебор которых осуществлялся программой при обучении конкретного варианта сети. Для выходного слоя функцией активации всегда служила Softmax. В качестве функции потерь использовалась CrossEntropyLoss. Было предусмотрено применение двух оптимизаторов, Adam (обратное распространение ошибки) и BFGS (градиентный спуск), с возможностью настройки в ручном режиме скорости обучения и числа эпох.

В процессе обучения производилось автоматическое случайное разделение входного набора данных на обучающую, тестовую и валидационную подвыборки, объем которых задавался пользователем. В рамках этой архитектуры на языке Python с использованием специализированной библиотеки глубокого обучения

PyTorch [9] была написана оригинальная программа DeepNets. Программа поддерживает выполнение расчетов как на CPU, так и на GPU, автоматически определяя доступные устройства.

а

б

Рис. 1. Корреляционная свертка спектров энергий множественного докинга: а – построение пространств для множественного докинга на 3D-модели 6D6T ГАМК A -рецептора; б – архитектура полносвязной сверточной корреляционной нейронной сети для 27 энергий докинга

Формирование входных наборов данных, обучение мультитаргетных корреляционных сверточных нейронных сетей глубокого обучения и оценка их точности

Структура входных наборов данных как для анксиолитической активности, так и для антимикробной S. aureus активности была одинаковой и включала для каждого из N соединений в качестве целевой переменной метки нали-чия/отсутствия выраженного уровня активности (hm/nhm), а в качестве входных переменных – вычисленные по формуле (1) значения корреляционных сверток спектров энергий множественного докинга W (энергий полносвязных корреляционных сетей) для M релевантных биомишеней.

В ходе обучения конкретного варианта сети входной набор данных случайным образом разделялся на три подвыборки: обучающую TrainSet, тестовую TestSet и валидационную ValidationSet, в соотношении 70, 15, 15 % соответственно. Пользователь в ручном режиме задавал для скрытых слоев числа нейронов и функции активации, выбирал вид оптимизатора и устанавливал скорость обучения и число эпох. Выбор лучшей модели осуществлялся на основе минимального значения функции потерь на ValidationSet.

Для лучшей отобранной модели на полном входном наборе данных рассчитаны общая точность классификации Acc , чувствительность Sens (точность прогноза активных соединений), специфичность Spec (точность прогноза неактивных соединений), выполнен ROC-анализ и рассчитана площадь под кривой AUC . Для всех полученных показателей точности была определена их статистическая достоверность p .

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯИ ИХ ОБСУЖДЕНИЕ

В случае анксиолитической активности рассматривались 22 релевантных биомишени, для 537 соединений было получено 135 × 22 × 537 = 1 594 890 первичных значений энергий ΔE и по формуле (1) рассчитано 22 × 537 = 11 814 значений корреляционных сверток W (энергий сети).

В случае антимикробной S. aureus активности рассматривались 10 релевантных биомишеней, для 284 соединений было получено 135 × 10 × 284 = 383 890 первичных значений ΔE и по формуле (1) рассчитано 10 × 284 = 2 840 значений корреляционных сверток W (энергий сети).

В результате обучения в программе DeepNets для выраженной анксиолитической активности химических соединений найдена лучшая мультитаргетная сверточная нейронная сеть глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга в релевантные биомишени, с архитектурой MLP 22-3-4-2 (LeakyReLU, LeakyReLU, Softmax), имеющая общую точность прогноза Acc = 68,3 % при статистической достоверности p = 1,1 × 10-9.

В результате обучения в программе DeepNets для выраженной антимикробной S. aureus активности химических соединений найдена лучшая мультитаргетная сверточная нейронная сеть глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга в релевантные биомишени, с архитектурой MLP 10-49-2 (ReLU, ReLU, Softmax), имеющая общую точность прогноза Acc = 90,5 % при статистической достоверности p < 1 × 10-16.

Архитектуры найденных лучших нейросетей приведены на рис. 2, а более детальные результаты оценки их точности иллюстрирует таблице.

а

б

Рис. 2. Архитектуры мультитаргетных сверточных нейронных сетей глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга химических соединений в релевантные биомишени: а – анксиолитической активности; б – антимикробной S. aureus активности

Показатели точности моделей с архитектурой мультитаргетной сверточной нейронной сети на основе корреляционной свертки спектров энергий множественного докинга

Параметр

Анксиолитическая активность

Антимикробная S. aureus активность

Архитектура1

MLP 22-3-4-2 (LReLU, LReLU)

MLP 10-4-9-2 (ReLU, ReLU)

Acc , %2

68,3

90,5

Sens , %3

68,5

96,5

Spec , %4

68,2

64,2

AUC ROC , %5

68,3

86,6

p 6

1,1 × 10-9

<1 × 10-15

Примечание. 1 MLP – многослойный перцептрон, указано число входных, скрытых и выходных нейронов, в скобках указаны функции активации для скрытых слоев нейронов, для выходных слоев нейронов функция активации Softmax; 2 Acc – общая точность прогноза; 3 Sens – чувствительность: точность прогноза активных соединений; 4 Spec – специфичность: точность прогноза неактивных соединений; 5 AUC ROC – площадь под кривой в ROC-анализе; 6 p – минимальная значимость нейросетевой модели по биномиальному критерию.

Полученные данные доказывают высокую статистическую достоверность применения новой архитектуры сверточной нейронной сети глубокого обучения для поиска in silico биологически активных веществ.

Следует отметить, что точность и достоверность прогноза антимикробной S. aureus активности превышает точность и достоверность прогноза анксиолитической активности. Вероятно, это связано с более сложным системным мультитаргетным механизмом реализации психотропных эффектов, в сравнении с антибактериальным действием химических соединений.

В случае анксиолитической активности точность прогноза активных и неактивных соединений примерно одинакова, в то время как в случае антимикробной S. aureus активности точность прогноза активных соединений существенно выше точности прогноза неактивных соединений. Следовательно, вторую модель более целесообразно использовать для поиска in silico именно активных соединений. Таким образом, на примере двух видов активности, анксиолитической и S. aureus антимикробной, показано, что предлагаемая мультитаргетная сверточная нейронная сеть глубокого обучения на основе корреля- ционной свертки спектров энергий множественного докинга в релевантные биомишени является высокоточным методом машинного обучения, который может быть рекомендован как новый метод искусственного интеллекта для поиска in silico биологически активных веществ.

ЗАКЛЮЧЕНИЕ

  • 1.    Разработана новая архитектура мульти-таргетной сверточной нейронной сети глубокого обучения на основе корреляционной свертки спектров энергий множественного докинга в совокупность релевантных биомишеней.

  • 2.    На примере анксиолитической и антимикробной S. aureus активностей доказана высокая статистическая достоверность применения нового оригинального подхода для прогноза in silico биологической активности химических соединений.

  • 3.    Новый метод искусственного интеллекта может быть рекомендован для создания моделей зависимостей различных видов мульти-таргетной биологической активности от показателей интегральной аффинности химических соединений к совокупности релевантных биомишеней и поиска с применением этих моделей новых соединений с высокой активностью.