Компенсация различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК при генетических анализах
Автор: Белов Дмитрий Анатольевич, Белов Ю.В.
Журнал: Научное приборостроение @nauchnoe-priborostroenie
Рубрика: Приборостроение физико-химической биологии
Статья в выпуске: 2 т.26, 2016 года.
Бесплатный доступ
В статье предложен способ компенсации различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК при определении нуклеотидной последовательности. Определены неравномерности исходной последовательности пиков. Выполнена оптимизация компенсирующих параметров для каждого цветового канала. Оценены результаты компенсации различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК, при этом показано, что погрешности определения временнόго положения пиков значительно уменьшаются и имеют случайный характер. На конкретном примере выполнена оптимизация параметров временнόго сдвига пиков для каждого цветового канала и построены уточненные графики в диапазоне до 300 нуклеотидов. С целью расширения диапазона применимости предложенного способа можно использовать калибровку и линеаризацию горизонтальной оси. Предложенный способ обеспечивает надежное определение пропущенных и "лишних" пиков.
Днк, генетический анализатор, флуоресцентная детекция
Короткий адрес: https://sciup.org/14265016
IDR: 14265016
Текст научной статьи Компенсация различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК при генетических анализах
Определение нуклеотидной последовательности (секвенирование ДНК) в генетическом анализаторе выполняется путем разделения фрагментов ДНК в капилляре под действием электрического поля. Четыре последовательности пиков, соответствующие нуклеотидам A, C, G и T, регистрируются на выходе одноименных цветовых каналов флуоресцентного детектора. На экспериментальных "сырых" графиках наблюдается неравномерное распределение соседних пиков. Причина этого явления — различие электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК [1–5.] Для определения нуклеотидной последовательности эти графики объединяются с использованием общего временнόго масштаба. При частичном перекрывании соседних пиков и значительных случайных ошибках вычисления времен-нόго положения пиков возможны ошибки при определении истинной нуклеотидной последовательности.
В статье [6] приведен способ вычисления аппроксимирующей функции, представляющей монотонную аналитическую зависимость базового временнόго интервала Т б от номера пика в виде полинома 3-го порядка. С помощью базовой последовательности пиков с интервалом Т б можно оценить неравномерность распределения соседних пиков.
В настоящей статье с целью значительного уменьшения погрешности определения временнό-го положения пиков предложен способ компенсации различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК.
ПОСЛЕДОВАТЕЛЬНОСТЬ ВЫЧИСЛЕНИЙ
Для компенсации различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК предлагается следующая последовательность вычислений в среде Excel:
-
1) получение экспериментальных данных разделения фрагментов секвенсной смеси и определение времен выхода пиков;
-
2) оценка неравномерности последовательности пиков путем построения аппроксимирующей функции, представляющей зависимость базового временнόго интервала Т б от времени (номера пика) и позволяющей выразить неравномерность интервалов между пиками в базовых относительных единицах (б.о.е.);
-
3) введение и оптимизация параметров временнόго сдвига пиков для каждого цветового канала;
-
4) получение обработанных данных и построение уточненных графиков;
-
5) оценка результатов компенсации различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК.
Рис. 1. Вид участка пиков, отражающих результаты разделения фрагментов сек-венсной смеси.
а — экспериментальные данные; б — результаты компенсации различия электрофоретической подвижности
По горизонтали — приращение времени в секундах, по вертикали — значение интенсивности флуоресценции в относительных единицах (о.е.) в четырех цветовых каналах: пики 1, 3, 4, 5, 8, 10, 12, 17, 18 — канал 1; пики 2, 9, 11, 13, 19 — канал 2; пики 6, 7 — канал 3; пики 14, 15, 16 — канал 4
РАЗДЕЛЕНИЕ ФРАГМЕНТОВ СЕКВЕНСНОЙ СМЕСИ
В качестве примера использованы экспериментальные данные разделения фрагментов секвенс-ной смеси плазмидной ДНК, приведенные в статье [6]. При определении времен выхода пиков в четырех цветовых каналах флуоресцентного детектора использован программный модуль анализатора ДНК АЛ [7–9].
На рис. 1, а, показан небольшой участок экспериментальных данных, отражающих результаты разделения 19 фрагментов секвенсной смеси.
На графиках рис. 1, а, видно, что некоторые со- седние пики (1 и 2, 8 и 9, 10 и 11, 12 и 13, 18 и 19), соответствующие фрагментам ДНК, окрашенным разными красителями, в значительной степени взаимно перекрываются.
ОЦЕНКА НЕРАВНОМЕРНОСТИ ПОСЛЕДОВАТЕЛЬНОСТИ ПИКОВ
В табл. 1 приведены результаты вычисления аппроксимирующей функции, приведенные ранее в более полном составе в статье [6]. В таблице воспроизведен образ электронной таблицы Exсel, использованной для вычислений.
Табл. 1. Вычисление отличий временных интервалов между соседними пиками от базового временнόго интервала
A |
B |
C |
E |
F |
M |
J |
1906 |
1 |
G |
1900.80 |
5.85 |
0.62 |
0.28 |
1915.5 |
2 |
C |
1906.65 |
5.85 |
0.20 |
|
1922.5 |
3 |
T |
1912.50 |
5.86 |
–0.23 |
|
1927 |
4 |
C |
1918.36 |
5.86 |
–0.66 |
|
1929 |
5 |
G |
1924.21 |
5.86 |
0.11 |
|
1935.5 |
6 |
G |
1930.07 |
5.86 |
0.88 |
|
1946.5 |
7 |
T |
1935.93 |
5.86 |
–0.06 |
|
1952 |
8 |
A |
1941.79 |
5.86 |
–0.40 |
В столбце А табл. 1 приведены положения центров пиков (время выхода в секундах), в столбцах В и С присвоены номера пиков и буквенные обозначения A, C, G и T, соответствующие каждому конечному нуклеотиду фрагмента и присоединенному к нему красителю.
В столбце F вычислены базовые временные интервалы Т б между соседними пиками (в секундах) на основе аппроксимирующей функции в столбце Е.
В столбце M приведены величины DN — отличия временных интервалов между соседними пиками от базового временнόго интервала в базовых относительных единицах (б.о.е.). Величины DN могут служить мерой неравномерности последовательности пиков, их можно рассматривать как сумму систематической и случайной составляю- щих погрешности измерения взаимного положения пиков.
В ячейке J вычислено стандартное отклонение (значение, приблизительно равное СКО). Использовался оператор
J=СТАНДОТКЛОН(M51:M350) = 0.28 (б.о.е.).
Результаты вычислений величин D N (столбец M) на участке 300 нуклеотидов в графическом виде представлены на рис. 2, а. На основе анализа результатов вычислений величин D N можно предположить, что систематическая составляющая погрешности преобладает и ее можно компенсировать введением в дальнейший расчет соответствующих параметров.


Рис 2. Отличия временных интервалов между соседними пиками от базовых временных интервалов ( D N).
а — экспериментальные данные; б — компенсированные результаты. Вертикальная ось — величины D N (б.о.е.). Горизонтальная ось — номера пиков. Для наглядности точки графика соединены прямыми линиями
ЗАДАНИЕ И ОПТИМИЗАЦИЯ КОМПЕНСИРУЮЩИХ ПАРАМЕТРОВ ДЛЯ КАЖДОГО ЦВЕТОВОГО КАНАЛА
В качестве компенсирующих параметров (поправок) предлагается использовать индивидуальный временной сдвиг пиков в каждом световом канале.
Результаты дальнейших вычислений приведены в табл. 2. Столбцы А , В и С табл. 2 заимствованы из табл. 1, столбец F табл. 1, который также будет использоваться, в табл. 2 не показан.
Поправки для каждого цветового канала в табл. 2 задаются в столбце L : L1 — для красителя А; L2 — для красителя C; L3 — для красителя G; L4 — для красителя Т. В начале расчета эти поправки принимаются, равными нулю.
В столбцах M , N , O и P поправки прибавляются к временам выхода пиков в столбце А соответствующих цветовых каналов А, С, G и Т. В столбце Q получается компенсированная последовательность пиков: Q = M + N + O + P .
В столбце R вычислены компенсированные временные интервалы между соседними пиками (в секундах): R n = Q n +1 – Q n .
В столбце S вычислены погрешности — отличия компенсированных временных интервалов между соседними пиками R от базовых временных интервалов F из табл. 1 (в секундах):
S = R – F.
В ячейке T1 — сумма квадратов погрешностей
Т1 = CyMM(S51 Л 2:S350 Л 2).
Величины в столбце L уточняются с помощью метода наименьших квадратов (минимум величины Т1 ) и метода последовательного приближения в меню " Данные\Анализ\Поиск решения" , изменяя величины поправок для каждого цветового канала в столбце L .
В столбце U вычислены величины относительных погрешностей взаимного положения компенсированных соседних пиков D N. Значение ячейки U1 вычислено по формуле:
U1= S1/F1, где F1 — базовый временной интервал в первой строке табл. 1.
В ячейке T2 вычислено стандартное отклонение:
T2=СТАНДОТКЛОН(U51:U350) = 0.08 (б.о.е.).
Результаты компенсации различия электрофоретической подвижности (величины D N в столбце U) приведены на рис. 2, б.
ОЦЕНКА РЕЗУЛЬТАТОВ КОМПЕНСАЦИИ РАЗЛИЧИЯ ЭЛЕКТРОФОРЕТИЧЕСКОЙ ПОДВИЖНОСТИ ФЛУОРЕСЦЕНТНО-МЕЧЕНЫХ ФРАГМЕНТОВ ДНК
В результате компенсации различия электрофоретической подвижности стали визуально значительно более равномерными расстояния между пиками на рис. 1, б, по сравнению с экспериментальными данными, приведенными на рис. 1, а.
Табл. 2. Вычисление погрешности взаимного положения соседних пиков при компенсации влияния различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК
A |
B |
C |
L |
M |
N |
O |
P |
Q |
R |
S |
T |
U |
1906 |
1 |
G |
–0.79 |
0 |
0.00 |
1907.88 |
0.00 |
1907.88 |
7.16 |
1.31 |
61.8 |
0.22 |
1915.5 |
2 |
C |
–0.46 |
0 |
1915.04 |
0.00 |
0.00 |
1915.04 |
6.81 |
0.95 |
0.08 |
0.16 |
1922.5 |
3 |
T |
1.88 |
0 |
0.00 |
0.00 |
1921.84 |
1921.84 |
4.69 |
–1.16 |
– |
–0.20 |
1927 |
4 |
C |
–0.66 |
0 |
1926.54 |
0.00 |
0.00 |
1926.54 |
4.34 |
–1.52 |
– |
–0.26 |
1929 |
5 |
G |
— |
0 |
0.00 |
1930.88 |
0.00 |
1930.88 |
6.50 |
0.64 |
— |
0.11 |
1935.5 |
6 |
G |
– |
0.00 |
0.00 |
1937.38 |
0.00 |
1937.38 |
8.47 |
2.61 |
– |
0.45 |
1946.5 |
7 |
T |
— |
0.00 |
0.00 |
0.00 |
1945.84 |
1945.84 |
5.36 |
–0.50 |
— |
–0.08 |
1952 |
8 |
A |
– |
1951.21 |
0.00 |
0.00 |
0.00 |
1951.21 |
3.83 |
–2.03 |
– |
–0.35 |
Можно сравнить величины D N в столбце М табл. 1 и в столбце U табл. 2, а также соответствующие этим величинам графики на рис. 2, а, и рис. 2, б. По результатам сравнения можно сделать следующий вывод: после компенсации различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК значительно уменьшаются максимальные погрешности и стандартное отклонение (примерно в 3–3.5 раза).
После компенсации погрешности измерения взаимного положения пиков D N , приведенные на рис. 2, б, имеют случайный характер.
Уточненные графики на рис. 2 построены в диапазоне до 300 нуклеотидов. В этом диапазоне величина базового временнόго интервала Т б изменяется незначительно. С целью расширения диапазона применимости предложенного способа можно использовать калибровку и линеаризацию горизонтальной оси с помощью известного размерного стандарта 1200 LIZ [10].
В случае, если относительные погрешности взаимного положения компенсированных соседних пиков превосходят по абсолютной величине значение 0.3 б.о.е., можно утверждать, что это признак пропущенного или "лишнего" пиков.
ЗАКЛЮЧЕНИЕ
-
1. Предложен способ компенсации различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК при определении нуклеотидной последовательности.
-
2. На конкретном примере выполнена оптимизация параметров временнόго сдвига пиков для каждого цветового канала и построены уточненные графики в диапазоне до 300 нуклеотидов. В этом диапазоне величина базового временнόго интервала Т б изменяется незначительно. С целью расширения диапазона применимости предложенного способа можно использовать калибровку и линеаризацию горизонтальной оси.
-
3. Предложенный способ обеспечивает надежное определение пропущенных и "лишних" пиков. Для этого используются в качестве критерия отличия компенсированных временных интервалов между соседними пиками от базовых временных интервалов.
-
4. Оценены результаты компенсации различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК: погрешности определения временнόго положения пиков значительно уменьшаются и имеют случайный характер.
Список литературы Компенсация различия электрофоретической подвижности флуоресцентно-меченых фрагментов ДНК при генетических анализах
- Будилов А. Методы расшифровки нуклеотидной последовательности фрагментов ДНК. URL: http://molbiol.ru/protocol/13_03.html.
- Tu O., Mnott T., Marsh M. et al. The influence of fluorescent dye structure on the electrophoretic mobility of end-labeled DNA//Nucleic Acids Research. 1998. Vol. 26, no. 11. P. 2797-2802.
- Ju J., Glazer1 A.N.,. Mathies R.A. Cassette labeling for facile construction of energy transfer fluorescent primers//Nucleic Acids Research. 1996, Vol. 24, no. 6. P. 1144-1148.
- Лунина Н.Л. Система обработки нуклеотидных последовательностей HEID. URL: http://www.impb.ru/pdf/NL_1984_1r.pdf.
- Флуоресцентные красители. ЗАО "Синтол". URL: http://www.syntol.ru/infoflu.htm.
- Алексеев Я.И., Белов Д.А., Белов Ю.В., Курочкин В.Е. Исследование погрешностей оцифровки пиков генетического анализатора//Научное приборостроение. 2014. Т. 24, № 2. С. 79-85. URL: http://213.170.69.26/mag/2014/full2/Art10.pdf.
- Леонтьев И.А. Обработка данных в задачах электрофореза//Научное приборостроение. 2003. Т. 13, № 2. С. 96-99.
- Леонтьев И.А. Обсчет пиков в задачах электрофореза//Научное приборостроение. 2004. Т. 14, № 1. С. 94-96.
- Алексеев Я.И., Белов Ю.В., Малюченко О.П. и др. Генетический анализатор для фрагментного анализа ДНК//Научное приборостроение. 2012. Т. 22, № 4. С. 86-92. URL: http://213.170.69.26/mag/2012/full4/Art12.pdf.
- URL: http://www6.appliedbiosystems.com/support/software/genescan_sizestandards/GS1200LIZ_Size_Standard_ Definition_import_instructions.pdf.