АЛГОРИТМ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ ДЛЯ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ ПОСТРОЕНИЯ ПОСЛЕДОВАТЕЛЬНОСТИ НУКЛЕОТИДОВ В СЕКВЕНАТОРЕ "НАНОФОР СПС"
Автор: В. В. Манойлов, А. Г. Бородинов, А. И. Петров, И. В. Заруцкий, В. Е. Курочкин
Журнал: Научное приборостроение @nauchnoe-priborostroenie
Рубрика: Математические методы и моделирование в приборостроении
Статья в выпуске: 2, 2023 года.
Бесплатный доступ
Развитие информационных технологий и математических методов по обработке данных играет существенную роль для установления различных особенностей в анализируемых нуклеиновых кислотах и тенденций их изменений. Важным этапом в технологии массового параллельного секвенирования нуклеиновых кислот является процесс построения последовательности нуклеотидов по измеренным интенсивностям сигналов флуоресценции. В работе рассматривается алгоритм генерации обучающей выборки, которая используется для построения последовательности буквенных кодов нуклеотидов ДНК по интенсивностям сигналов флуоресценции, полученным непосредственно по результатам обработки изображений. В такие сигналы не были внесены корректировки, связанные с физическими и химическими особенностями проведения процесса секвенирования. В алгоритме использованы метод главных компонент и классификатор, основанный на методе k-средних. С помощью такого классификатора данные после преобразования методом главных компонент разделяются на четыре независимых класса по числу буквенных кодов нуклеотидов ДНК. С помощью обучающей выборки определяется принадлежность вектора, содержащего данные сигналов флуоресценции, одному из классов, а значит, его буквенный код. Алгоритм апробирован на тестовой выборке и показал высокую достоверность результатов.
Секвенирование нуклеиновых кислот, математическая обработка и классификация многомерных данных, метод главных компонент, машинное обучение
Короткий адрес: https://sciup.org/142236995
IDR: 142236995
Список литературы АЛГОРИТМ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ ДЛЯ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ ПОСТРОЕНИЯ ПОСЛЕДОВАТЕЛЬНОСТИ НУКЛЕОТИДОВ В СЕКВЕНАТОРЕ "НАНОФОР СПС"
- 1. Манойлов В.В., Бородинов А.Г, Заруцкий И.В, Петров А.И., Курочкин В.Е. Алгоритмы обработки сигналов флуоресценции массового параллельного секвенирования нуклеиновых кислот // Труды СПИИРАН. 2019. Т. 18, № 4. С. 1010–1036. DOI: 10.15622/sp.2019.18.4.1010-1036
- 2. Manoilov V.V, Borodinov A.G., Saraev A.S., Petrov A.I., Zarutskii I.V., Kurochkin V.E. Algorithms for Image Processing in a Nanofor SPS DNA Sequencer // Technical Physics. 2022. Vol. 67, no. 4. P. 304–311. DOI: 10.1134/S1063784222050061
- 3. Ghannam R.B., Techtmann S.M. Machine learning applications in microbial ecology, human microbiome studies, and environmental monitoring // Computational and Structural Biotechnology Journal. 2021. Vol. 19. P. 1092–1107. DOI: 10.1016/j.csbj.2021.01.028
- 4. Kircher M., Stenzel U., Kelso J. Improved base calling for the Illumina Genome analyzer using machine learning strategies // Genome Biol. 2009. Vol. 10. Id. R83. DOI: 10.1186/gb-2009-10-8-r83
- 5. Tegfalk E. Application of machine learning techniques to perform base-calling in next-generation DNA sequencing. Thesis in degree project engineering physics KTH Royal Institute of Technology, Stockholm, Sweden, 2020. 53 p. URL: https://www.divaportal.org/smash/get/diva2:1465444/FULLTEXT01.pdf
- 6. Borodinov A., Manoilov V., Zarutsky I., Petrov A., Kurochkin V., Saraev A. Machine learning in base-calling for next-generation sequencing methods // Informatics and Automation ('Trudy SPIIRAN'). 2022. Vol. 21, no. 3. P. 572–603. DOI: 10.15622/ia.21.3.5
- 7. Померанцев A. Метод главных компонент. (Сетевой ресурс) Российское хемометрическое общество. Учебники. URL: https://rcs.chemometrics.ru/ru/books
- 8. Jolliffe I. T. Principal Component Analysis. 2nd edition, Springer, 2002. 518 p.
- 9. Martinez W.L., Martinez A.R. Exploratory Data Analysis with MATLAB. A CRC Press Company Boca Raton, London, New York, Washington, D.C., 2005. 363 p.
- 10. Kaufman L., Rousseeuw, P.J. Finding Groups in Data: An Introduction to Cluster Analysis. Hoboken, New Jersey, John Wiley & Sons Inc, 2009. 342 p.