Алгоритм Ipex-2D для извлечения информации о компонентах пробы из массивов данных (ВЭЖХ-МС)-экспериментов протеомики

Бесплатный доступ

Описан алгоритм обработки хромато-масс-спектрометрических данных с целью извлечения информации о молекулярных массах, времени хроматографического элюирования и интенсивности сигналов компонентов пробы. Алгоритм адаптирован для обработки масс-спектров многокомпонентных смесей пептидов, характерных для экспериментов протеомики. Описан исследовательский комплекс программ, в котором реализован данный алгоритм. Приводятся результаты тестирования алгоритма на масс-спектрометрических данных, полученных в модельном эксперименте по идентификации белка.

Короткий адрес: https://sciup.org/14264442

IDR: 14264442   |   УДК: 621.384.668.8:

Текст научной статьи Алгоритм Ipex-2D для извлечения информации о компонентах пробы из массивов данных (ВЭЖХ-МС)-экспериментов протеомики

T t                    ' c 'n c e [ i ]

I е + I e [ i ]

t

' e [ i ]

где индекс n обозначает обновленные значения параметров кластера.

В случае, если условие (1) не выполняется ни для одного из существующих кластеров, результат C [ i ] выделяется в отдельный кластер.

По завершении обработки кластеры тестируют-

. I ..

-      _   _ -Л.  _ * _ е [ j ] е [ j ]

■ *

. X   '.[j]

e [ j ] e e [ i ]

У t. I.

.           e [ j ] e [ j ]

_ e [ J ] e e [ i ]

. X  - ex,]

e [ j ] e e [ i ]

.

,

Суммарная интенсивность сигнала ионов компонента пробы определяется по элементу кластера с максимальной интенсивностью:

C[z]     .max ( 1 с'г.т) •

[ ] e [ , ] e e [ i ]     e I J ]

РЕАЛИЗАЦИЯ АЛГОРИТМА

Для реализации и тестирования алгоритма IPEX-2D и других алгоритмов обработки масс-спектрометрических данных был разработан исследовательский комплекс программ "Масс-процессор". Создание данного комплекса программ позволило унифицировать форматы хранения и процедуры доступа к хромато-масс-спектрометрическим данным, а также реализовать инструменты их визуализации.

В состав комплекса (рис. 2) входят следующие функциональные блоки.

  • 1.    Реляционная база данных формата Microsoft SQL Server для хранения хромато-масс-спектрометрических данных и результатов их обработки.

  • 2.    Программа "Масс-процессор", в которой реализован графический интерфейс пользователя, средства доступа к данным, инструменты обработки данных, отображения и сохранения результатов.

  • 3.    Библиотеки методов обработки хромато-

  • масс-спектрометрических данных.
  • 4.    Набор вспомогательных модулей для импортирования данных, полученных на оборудовании различных производителей.

Модульная структура графического интерфейса позволяет напрямую связать алгоритмы обработки данных с инструментами визуализации, обеспечить гибкость и расширяемость комплекса программ. Графический интерфейс программы "Масс-процессор" представлен на рис. 3. Доступ к базе экспериментальных данных организован в окне 1 в виде структуры. Визуализация масс-спектра осуществляется на одномерной диаграмме 2, в окне которой реализован стандартный набор инструментов масштабирования и выбора отображаемого диапазона шкалы. Для визуализации массива хромато-масс-спектрометрических данных разработан инструмент двумерной растровой диаграммы 3, которая строится в осях "Отношение массы иона к заряду—Время хроматографического элюирования", где логарифм интенсивности сигнала кодируется оттенками серого цвета различной плотности.

Рис. 3. Графический интерфейс программы "Масс-процессор". Пояснение в тексте

Рис. 4. Фрагменты массива хромато-масс-спектрометрических данных, представленного на рис. 3, и соответствующие суммарные масс-спектры

В графическом интерфейсе программы "Масс-процессор" на рис. 3 представлен массив хроматомасс-спектрометрических данных гидролизата модельной смеси белков (bovine serum albumin, bovin thyroglobulin, chicken ovalbumin, horse ferritin, fructose-bisphosfate aldolase, l-lactate dehydrogenase). На рис. 4 приведены результаты обработки данных алгоритмом IPEX-2D, иллюстрирующие способность алгоритма к выделению информации о компонентах пробы, сигналы которых претерпевают наложения в силу близких значений времени хроматографического элюирования и отношения массы к заряду. При визуальном анализе масс-спектров правильное выделение компонентов с молекулярными массами 1474.678, 1475.681, 1832.844, 1221.545 а.е.м. представляет значительные трудности по причине наложения спектральных пиков. При использовании алгоритма IPEX-2D данные компоненты были успешно выделены. Для каждого из перечисленных компонентов были обнаружены изотопные мультиплеты ионов нескольких зарядовых состояний, что свидетельствует о высокой достоверности выделения.

ИСПОЛЬЗОВАНИЕ АЛГОРИТМА IPEX-2D В ЭКСПЕРИМЕНТЕ ПО ИДЕНТИФИКАЦИИ БЕЛКА

Для тестирования алгоритма IPEX-2D был поставлен модельный эксперимент по идентификации белка методом пептидного массового картирования. В качестве модельного белка был выбран бычий сывороточный альбумин (БСА), широко используемый для тестирования аналитических характеристик масс-спектрометрических приборов.

Препарат БСА (Sigma, США) был гидролизо-ван трипсином, затем полученная смесь пептидов анализировалась методом ВЭЖХ-МС. Масс-спектрометрический анализ проводился на времяпро-летном масс-спектрометре МХ-5303 с источником ионов "электроспрей" (разработка Института аналитического приборостроения РАН). Предварительное разделение пробы производилось на жидкостном хроматографе "Милихром А-02" (производства ЗАО Институт хроматографии "Эконова", г. Новосибирск), работающем в режиме прямой стыковки с источником ионов.

В результате масс-спектрометрического эксперимента был получен массив из 569 масс-спектров, регистрация которых производилась в течение 21 мин с периодом около 2 с.

Массив экспериментальных данных был обработан алгоритмом IPEX-2D. Список из 367 компонентов пробы, полученный в результате обработки, был направлен в программу Mascot, доступную в сети Интернет по адресу для интерпретации по методу пептидного массового картирования. Проба была верно интерпретирована как гидролизат БСА. Данный вариант интерпретации оценен наивысшим значением рейтинга, в то время как оценки прочих гипотез лежат ниже порога достоверности, вычисляемого программой Mascot.

Пептиды, обнаруженные в пробе, в совокупности покрывают 71 % аминокислотной последова- тельности белка, что является высоким показателем для метода пептидного массового картирования. Высокая достоверность идентификации белка свидетельствует о качественном решении задачи извлечения аналитически значимой информации из масс-спектрометрических данных.

ЗАКЛЮЧЕНИЕ

Представленный алгоритм позволяет автоматизировать обработку хромато-масс-спектрометрических данных экспериментов протеомики. Высокая производительность алгоритма позволяет использовать его в программном обеспечении масс-спектрометрических приборов, разрабатываемых в настоящее время. Способность алгоритма к выделению информации о компонентах пробы, сигналы которых претерпевают наложения, позволяет успешно анализировать смеси с большим количеством компонентов, что особенно актуально для задач протеомики.