Смешанные ядерные оценки многомерных распределений и их применение в задачах машинного обучения для классификации биологических объектов на основе спектральных измерений
Автор: Сирота Александр Анатольевич, Донских Артм Олегович, Акимов Алексей Викторович, Минаков Дмитрий Анатольевич
Журнал: Компьютерная оптика @computer-optics
Рубрика: Численные методы и анализ данных
Статья в выпуске: 4 т.43, 2019 года.
Бесплатный доступ
Рассматривается задача непараметрического восстановления многомерных плотностей распределения вероятностей в системах машинного обучения для классификации и аугментации данных. Предлагается метод получения смешанной ядерной непараметрической оценки плотности распределения как свертки ядерной оценки неизвестной плотности распределения вектора информативных признаков и известной или независимо оцениваемой плотности распределения вектора помеховой составляющей, сопровождающей процесс измерений. Анализируются свойства получаемых таким образом смешанных оценок. Приводятся результаты их сравнения с традиционной ядерной оценкой Парзена, применяемой непосредственно к общей выборке обучающих данных. Теоретически и экспериментально показывается, что использование смешанной оценки эквивалентно реализации процедуры аугментации - искусственного размножения обучающих данных в соответствии с известной или оцененной статистической моделью помеховой составляющей. Рассматриваются возможности применения смешанных оценок для обучения алгоритмов классификации биологических объектов (элементов зерновых смесей) на основе обработки измерений спектров пропускания в видимом и ближнем ИК-диапазонах длин волн.
Машинное обучение, классификация образов, аугментация данных, ядерная оценка плотности распределения, спектральные измерения
Короткий адрес: https://sciup.org/140246501
IDR: 140246501 | DOI: 10.18287/2412-6179-2019-43-4-677-691
Список литературы Смешанные ядерные оценки многомерных распределений и их применение в задачах машинного обучения для классификации биологических объектов на основе спектральных измерений
- Кривенко, М.П. Непараметрическое оценивание элементов байесовского классификатора / М.П. Кривенко // Информатика и её применения. - 2010. - Т. 4, № 2. - С. 13-24.
- Лапко, А.В. Непараметрический алгоритм автоматической классификации в условиях статистических данных большого объема / А.В. Лапко, В.А. Лапко // Информатика и системы управления. - 2018. - № 3(57). - С. 59-70. - DOI: 10.22250/isu.2018.57.59-70
- Nakamura, Y. Nonparametric density estimation based on self-organizing incremental neural network for large noisy data / Y. Nakamura, O. Hasegawa // IEEE Transactions on Neural Networks and Learning Systems. - 2016. - Vol. 28, Issue 1. - P. 8-17. - DOI: 10.1109/TNNLS.2015.2489225
- Донских, А.О. Метод искусственного размножения данных в задачах машинного обучения с использованием непараметрических ядерных оценок плотности распределения вероятностей / А.О. Донских, А.А. Сирота // Вестник Воронежского государственного университета Серия: Системный анализ и информационные технологии. - 2017. - № 3. - С. 142-155.
- Yaeger, L. Effective training of a neural network character classifier for word recognition / L. Yaeger, R. Lyon, B. Webb // Advances in Neural Information Processing Systems 9 (NIPS 1996). - 1996. - P. 807-813.
- Ciresan, D.C. Deep big simple neural nets excel on handwritten digit recognition / D.C. Ciresan, U. Meier, L.M. Gambardella, J. Schmidhuber // Neural Computation. - 2010. - Vol. 22, Issue 12 - P. 3207-3220. -
- DOI: 10.1162/NECO_a_00052
- Simard, P.Y. Best practices for convolutional neural networks applied to visual document analysis / P.Y. Simard, D. Steinkraus, J.C. Platt // Seventh International Conference on Document Analysis and Recognition. - 2003. - P. 958-963. -
- DOI: 10.1109/ICDAR.2003.1227801
- Качалин, С.В. Повышение устойчивости обучения больших нейронных сетей дополнением малых обучающих выборок примеров-родителей, синтезированными биометрическими примерами-потомками / С.В. Качалин // Труды научно-технической конференции кластера пензенских предприятий, обеспечивающих безопасность информационных технологий. - 2014. - Т. 9. - С. 32-35.
- Акимов, А.В. Модели и алгоритмы искусственного размножения данных для обучения алгоритмов распознавания лиц методом Виолы-Джонса / А.В. Акимов, А.А. Сирота // Компьютерная оптика. - 2016. - Т. 40, № 6. - С. 911-918. -
- DOI: 10.18287/2412-6179-2016-40-6-911-918
- Guo, H. Learning from imbalanced data sets with boosting and data generation: the DataBoost-IM approach / H. Guo, H.L. Viktor // ACM SIGKDD Explorations Newsletter. - 2004. - Vol. 6, Issue 1. - P. 30-39. -
- DOI: 10.1145/1007730.1007736
- Chawla, N.V. SMOTE: synthetic minority over-sampling technique / N.V. Chawla, K.W. Bowyer, L.O. Hall, W.P. Kegelmeyer // Journal of Artificial Intelligence Research. - 2002. - Vol. 16, Issue 1. - P. 321-357. -
- DOI: 10.1613/jair.953
- Chawla, N.V. SMOTEBoost: Improving prediction of the minority class in boosting / N.V. Chawla, A. Lazarevic, L.O. Hall, K.W. Bowyer. - In: Knowledge discovery in databases / ed. by N. Lavrač, D. Gamberger, L. Todorovski, H. Blockeel. - 2003. - P. 107-119.-
- DOI: 10.1007/978-3-540-39804-2_12
- Фукунага, К. Введение в статистическую теорию распознавания образов / К. Фукунага. - М.: Наука, 1979. - 368 с.
- Duda, R.O. Pattern classification / R.O. Duda, P.E. Hart, D.G. Stork. - 2nd ed. - Hoboken, NJ: Wiley-Interscience, 2000. - 680 p.
- Крянев, А.В.Математические методы обработки неопределенных данных / А.В. Крянев, Г.В. Лукин. - М.: Физмалит, 2003. - 216 с.
- Акимов, А.В. Модели и алгоритмы распознавания цифровых изображений в условиях воздействия деформирующих и аддитивных искажений / А.В. Акимов, А.О. Донских, А.А. Сирота // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. - 2018. - № 1. - С. 104-118.
- Gramacki, A. Nonparametric kernel density estimation and its computational aspects / A. Gramacki. - Cham, Switzerland: Springer International Publishing AG, 2018. - P. 42-49. -
- ISBN: 978-3-319-71687-9
- Добровидов, А.В. Выбор ширины окна ядерной функции в непараметрической оценке производной плотности методом сглаженной кроссвалидации / А.В. Добровидов, И.М. Рудько // Автоматика и телемеханика. - 2010. - № 2 - С. 42-58.
- Воронов, И.В. Выбор ширины окна при аппроксимации плотности распределения вероятности методом Парзена-Розенблатта в случае малого объема выборки / И.В. Воронов, Р.Н. Мухометзянов, А.А. Краснова // Радиоэлектронная техника. - 2016. - № 1(9) - С. 93-98.
- Donskikh, A.O. Optical methods of identifying the varieties of the components of grain mixtures based on using artificial neural networks for data analysis / A.O. Donskikh, D.A. Minakov, A.A. Sirota // Journal of Theoretical and Applied Information Technology - 2018. - Vol. 96, Issue 2. - P. 534-542.