Матричная свертка спектра энергий множественного докинга для нейросетевого моделирования мультитаргетной фармакологической активности химических соединений

Автор: Васильев П.М., Голубева А.В., Перфильев М.А., Кочетков А.Н.

Журнал: Волгоградский научно-медицинский журнал @bulletin-volgmed

Рубрика: Статьи

Статья в выпуске: 4 т.21, 2024 года.

Бесплатный доступ

Изложен алгоритм матричной свертки спектра энергий множественного докинга лигандов в релевантные белки-мишени. На примере анксиолитической активности выполнена матричная свертка спектра энергий мультитаргетного множественного докинга в 22 сверточных переменных. Методами однофакторного дисперсионного анализа, дискриминантного анализа и нейросетевого анализа показана высокая статистическая достоверность использования полученных сверточных переменных для оценки интегральной мультитаргетной аффинности лигандов к совокупности релевантных биомишеней. Как итог, разработан новый метод построения сверточных нейронных сетей для поиска in silico фармакологически активных веществ на основе матричной свертки спектров энергий мультитаргетного множественного докинга.

Еще

Фармакологическая активность, релевантные биомишени, мультитаргетный множественный докинг, спектры энергий докинга, матричная свертка, дискриминантный анализ, искусственные нейронные сети

Короткий адрес: https://sciup.org/142243439

IDR: 142243439   |   DOI: 10.19163/2658-4514-2024-21-4-54-59

Текст научной статьи Матричная свертка спектра энергий множественного докинга для нейросетевого моделирования мультитаргетной фармакологической активности химических соединений

doi:

ORIGINAL ARTICLE doi:

Методы машинного обучения и искусственных нейронных сетей широко применяются мировым научным сообществом в поиске фармакологически активных веществ [1]. При этом обычно используются общепринятые архитектуры нейронных сетей, в частности, сверточные нейронные сети, разработанные для распознавания зрительных образов [2].

Однако при нейросетевом моделировании фармакологических соединений физический смысл и внутренняя структура химико-биологических данных значительно отличаются от таковых для изображений. В связи с этим создание новых методов построения нейросетевых моделей, описывающих зависимости между фармакологической активностью и структурой химических соединений, является актуальной и научно востребованной задачей.

В наших работах [3–5] было показано, что использование метода множественного докинга для построения нейросетевых моделей зависимостей между системными видами фармакологической активности и спектром энергий множественного докинга химических соединений в релевантные биомишени позволяет создавать высокоточные и статистически очень достоверные прогнозные модели.

Следует отметить, что обработка спектров энергий мультитаргетного множественного докинга, вычисленных для совокупности нескольких биомишеней, значительно увеличивает размерность признакового пространства, и поэтому для использования подобных данных в нейросетевом моделировании необходимо разработать валидные методы свертки.

ЦЕЛЬ РАБОТЫ

Доказательство методами многомерной статистики и нейросетевого моделирования валидности использования матричной свертки спектров энергий мультитаргетного множественного докинга как статистически высоко достоверной метрики аффинности химических соединений к совокупности фармакологически релевантных биомишеней.

МЕТОДИКА ИССЛЕДОВАНИЯ

Основная гипотеза. Совокупность значений энергии докинга, рассчитанная для множества пространств нескольких релевантных биомишеней и обработанная с помощью предлагаемой процедуры матричной свертки, поз- воляет адекватно моделировать воздействие множества молекул лиганда на совокупность нескольких белков-мишеней в целом и с высокой статистической достоверностью отражает системную мультитаргетную фармакологическую активность химических соединений, что позволяет с высокой точностью прогнозировать уровень этой активности.

Задачи исследования. Для достижения поставленной цели необходимо было решить следующие задачи:

  • 1.    Разработать алгоритм матричной свертки спектра энергий мультитаргетного множественного докинга.

  • 2.    Сформировать верифицированную обучающую выборку по уровню активности и спектрам энергий мультитаргетного множественного докинга известных соединений, испытанных на модельную фармакологическую активность.

  • 3.    Провести матричную свертку спектров энергий мультитаргетного множественного докинга.

  • 4.    Выполнить однофакторный дисперсионный анализ, устанавливающий статистическую значимость уровня модельной активности известных соединений от параметров матричной свертки спектров энергий мультитаргетного множественного докинга.

  • 5.    Провести с помощью дискриминантного анализа оценку точности прогноза активности известных соединений с использованием в качестве независимых переменных параметров матричной свертки спектров энергий мульти-таргетного множественного докинга.

  • 6.    Выполнить обучение нейронных сетей на указанных сверточных переменных и для лучшей построенной нейросети произвести оценку точности прогноза модельной фармакологической активности.

Алгоритм матричной свертки муль-титаргетного спектра энергий множественного докинга

Алгоритм матричной свертки основан на построении матрицы попарных расстояний между значениями переменных и последующем вычислении определителя полученной матрицы. Достоинством алгоритма является отсутствие ограничений на число сворачиваемых переменных, так как он основан на геометрическом подходе. Для одной биомишени и одного соединения k-спектр рассчитанных в результате множественного докинга 135 значений ΔE можно рассматривать как ко- ординаты точки в многомерном пространстве. В соответствии с этим, матрица расстояний Хэм- минга между парами значений переменных i и j может быть определена следующим образом:

Dk = {Dkij} = {'^Eik - ^Ejk^’ i,j = 1- М, i ^ j, k = 1- N ,               (1)

где D kij – расстояние Хэмминга между энергиями ΔE i и ΔE j , i≠j ;

ΔE ik – значение энергии i для соединения k , k=1...N ;

ΔE jk – значение энергии j для соединения k , k=1...N ;

M – число сворачиваемых значений энергии, равно 135;

N – число соединений.

Для соединения k значение свертки 135    биомишени вычисляется как определитель энергий множественного докинга для одной     матрицы Dk.

W, = det D, , k = 1 ...N . k        k ,

В результате матричной свертки мульти-таргетный множественный аффинитет каждого соединения в отношении L -релевантных биомишеней будет представлен L- сверточными переменными.

По смыслу, определитель матрицы равен ориентированному объему многомерного параллелепипеда, заданного векторами в виде столбцов матрицы. В соответствии с формулой (1), элементы матрицы расстояний D k характеризуют вариативность значений множественного докинга ΔE . Таким образом, если соединение k связывается со всеми пространствами данного белка-мишени с примерно одинаковой интенсивностью, показатель матричной свертки W k будет близок к нулю. Если же соединение k связывается c пространствами данного белка-мишени с разной интенсивностью, показатель матричной свертки W k будет принимать тем бóльшие значения, чем больше различия в значениях ΔE . Фактически это означает, что в этом белке имеются «особые» области связывания, с которыми рассматриваемое соединение взаимодействует с гораздо бóльшей интенсивностью, чем с остальными.

Описанный алгоритм был реализован на языке Borland Delphi в виде программы MatrConv v06.11.24.

Формирование обучающей выборки

В качестве модельной фармакологической активности была выбрана анксиолитическая активность, системный характер которой определяется мультитаргетным воздействием соединений на достаточно большое число биомишеней. Исходная верифицированная обучающая

(2) выборка по анксиолитической активности и спектрам энергий мультитаргетного множественного докинга 537 известных соединений в 22 релевантных белка-мишени была сформирована ранее в работе [5] и включала 457 активных и 80 неактивных соединений. Каждое соединение характеризовалось 135·22 = 2 970 значениями ΔE.

Матричной свертке было подвергнуто 135·22·537 = 1 594 890 значений ΔE , в результате чего была получена матрица сверточных параметров спектров энергий мультитаргетного множественного докинга размером 22 переменных на 537 наблюдений.

Однофакторный дисперсионный анализ

Для показателя наличия/отсутствия анксиолитической активности с помощью программы Statistica 7 [6] был выполнен однофакторный дисперсионный анализ (ANOVA) [7] зависимости указанного фактора от многомерной матрицы значений сверточных переменных спектров энергий мультитаргетного множественного докинга, полученных в результате матричной свертки. Рассчитаны величины критерия лямбда Уилкса Λ , соответствующего ему критерия Фишера F, и определена статистическая достоверность p используемых сверточных переменных.

Дискриминантный анализ

С целью оценки точности прогноза нали-чия/отсутствия анксиолитической активности с помощью программы Statistica 7 [6] был выполнен дискриминантный анализ [8], в котором независимыми переменными также служили показатели, полученные в результате матричной свертки спектров энергий мультитаргетного множественного докинга. По результатам прогноза на объединенной обучающей выборке были рассчитаны общая точность прогноза Acc и, по данным ROC-анализа, площадь под кривой AUCROC. С помощью биномиального критерия z [9] оценена статистическая достоверность p точности прогноза.

Нейросетевое моделирование

Выполняли с помощью программы Statis-tica 7 [6]. В качестве архитектуры нейронной сети был выбран двухслойный перцептрон MLP k-m-2 с узким горлом. Здесь k – число входных нейронов, в данном случае 22; m – число скрытых нейронов, устанавливается программой от 3 до 21, поскольку 2 <  m k . При обучении нейросетей для скрытого слоя использовались активационные функции Identity, Logictic, Tanh, Exponential, выбор которых производился программой.

Для выходных нейронов использовалась активационная функция Softmax, которая является наиболее эффективной при обучении классификационных нейронных сетей [10]. При формировании обучающих и тестовых подвыборок использовался метод Монте-Карло.

С целью достижения наилучшего результата обучения, число моделируемых сетей было установлено в 4 000, из которых программой автоматически отбирались 400. После окончания обучения из 400 лучших отобранных программой нейросетей по совокупности характеристик точности вручную отбирали одну наилучшую. Как и в случае дискриминантного анализа, для лучшей построенной нейросети по результатам прогноза на объединенной обучающей выборке были рассчитаны общая точность прогноза Acc и по данным ROC-анализа – площадь под кривой AUCROC. С помощью биномиального критерия z [9] оценена статистическая достоверность p точности прогноза.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯИ ИХ ОБСУЖДЕНИЕ

Результаты однофакторного дисперсионного анализа анксиолитической активности показывают, что совокупность параметров матричной свертки спектров энергий мульти-таргетного множественного докинга является статистически высоко достоверной интегральной метрикой аффинности химических соединений к релевантным белкам-мишеням.

Вычисленные критерий лямбда Уилкса Λ = 0,914, соответствующий ему критерий Фишера F (22,514) = 2,202 и статистическая достоверность используемых сверточных переменных p = 1,38·10-3 доказывают, что предлагаемый сверточный метод можно применять в поиске in silico фармакологически активных соединений.

В таблице приведено сравнение результатов прогноза анксиолитической активности методом дискриминантного анализа и с помощью сверточной нейросетевой модели.

Точность прогноза анксиолитической активности с помощью дискриминантного анализа и с использованием сверточной нейросетевой модели

Показательточности прогноза

Значение для метода прогноза

Дискриминантный анализ

Нейронная сеть 1

Acc , % 2

84,0

87,9

AUC ROC , % 3

62,9

65,8

z 4

4,21

5,16

p 5

1,26·10-5

1,22·10-7

Примечание.

1 Архитектура лучшей нейронной сети MLP 22-6-2 (Exponential, Softmax).

2 Общая точность прогноза на объединенной обучающей выборке.

3 Площадь под кривой по данным ROC-анализа.

4 Биномиальный критерий [9].

5 Статистическая достоверность точности прогноза по биномиальному критерию [9].

Показательно, что по результатам как дискриминантного, так и нейросетевого анализа совокупность параметров матричной свертки спектров энергий мультитаргетного множественного докинга является статистически высоко достоверным способом представления интегральной аффинности химических соединений к релевантным белкам-мишеням при прогнозе фармакологической активности. В дискриминантном анализе статистическая достоверность точности прогноза составила p = 1,26·10-5, а при нейросетевом моделировании статистическая достоверность точности прогноза составила p = 1,22·10-7.

Приведенные в таблице результаты дискриминантного и нейросетевого анализов полностью согласуются с результатами дисперсионного анализа и подтверждают вывод о том, что предлагаемый метод матричной свертки спектров энергий мультитаргетного множественного докинга химических соединений к релевантным белкам-мишеням можно эффективно применять в поиске in silico фармакологически активных веществ. Таким образом, на примере анксиолитической активности, с использованием двух методов многомерной статистики – однофакторного дисперсионного анализа и дискриминантного анализа, и технологии искусственных нейронных сетей, доказано, что матричная свертка спектров энергий мультитаргетного множественного докинга является статистически высоко достоверным валидным методом оценки интегральной аффинности химических соединений к совокупности фармакологически релевантных биомишеней.

ЗАКЛЮЧЕНИЕ

  • 1.    Разработан алгоритм матричной свертки спектра энергий множественного докинга лигандов в релевантные белки-мишени.

  • 2.    Методами многомерной статистики и нейросетевого моделирования доказана валидность использования матричной свертки спектров энергий мультитаргетного множественного докинга как статистически высоко достоверной метрики аффинности химических соединений к совокупности фармакологически релевантных биомишеней.

  • 3.    Как итог создан новый метод построения сверточных нейронных сетей для поиска in silico фармакологически активных веществ на основе матричной свертки спектров энергий мультитаргетного множественного докинга.

Работа выполнена в рамках государственного задания Министерства здравоохранения Российской Федерации № 23022400009-9 «Разработка методологии компьютерного поиска мультитаргетных фармакологически активных соединений на основе множественного докинга и технологии сверточных нейронных сетей различной архитектуры».

Список литературы Матричная свертка спектра энергий множественного докинга для нейросетевого моделирования мультитаргетной фармакологической активности химических соединений

  • Sarkar C., Das B., Rawat V. S. et al. Artificial Intelligence and Machine Learning Technology Driven Modern Drug Discovery and Development. International Journal Molecular Sciences. 2023;24(3):2026. EDN: DSPOGU
  • Leijnen S., Van Veen F. The Neural Network Zoo. Proceedings. 2020;47(4):9.
  • Васильев П. М., Кочетков А. Н., Спасов А. А., Перфильев М. А. Спектр энергий множественного докинга как многомерная метрика аффинности химических соединений к фармакологически релевантным биомишеням. Волгоградский научно-медицинский журнал. 2021;3:57-61.
  • Васильев П. М., Перфильев М. А., Кочетков А. Н. Нейросетевое моделирование зависимости RAGE-ингибирующей активности химических соединений от спектра энергий множественного докинга. Вестник Волгоградского государственного медицинского университета. 2023;20(4): 157-161. EDN: LIGPJH
  • Vassiliev P. M., Perfilev М. A., Golubeva A. V. et al. Multi-target neural network model of anxiolytic activity of chemical compounds based on correlation convolution of energy spectra of multiple docking. XXX symposium "Bioinformatics and computer-aided drug discovery": Proceedings book. Moscow: Institute of Biomedical Chemistry. 2024. 46 р. EDN: NRGYJL
  • Hilbe J. M. Statistica 7: an overview. The American Statistician. 2007;61(1):91-94.
  • Аренс Х., Лёйтер Ю. Многомерный дисперсионный анализ. Mосква: Финансы и статистика, 1985. 230 c.
  • Ким Дж.-О., Мьюллер Ч. У., Клекка У. Р. и др. Факторный, дискриминантный и кластерный анализ. Москва: Финансы и статистика, 1989. 215 с.
  • Глотов Н. В., Животовский Л. А., Хованов Н. В., Хромов-Борисов Н. Н. Биометрия. Ленинград: Изд-во Ленингр. ун-та, 1982. 264 с.
  • Dubin U. Cross-Entropy Method: Theory with Applications. Chisinau (Moldova): LAMBERT Academic Publishing, 2013. 148 p.
Еще
Статья научная