Проблемы формирования обучающей выборки в задачах машинного обучения

Бесплатный доступ

Правильное формирование обучающей выборки часто имеет решающее значение в задачах машинного обучения, что признаётся большинством специалистов в данной области. Зачастую решение задач машинного обучения сводится к грамотному формированию обучающей выборки. Несмотря на это, в современной литературе по машинному обучению вопросам формирования обучающей выборки почти не уделяется внимание, теоретическая база практически отсутствует. В настоящей статье постараемся исправить данный недостаток. В статье исследуются возможные проблемы и ошибки при формировании обучающей выборки, обобщается опыт авторов в решении задач машинного обучения, предлагаются теоретические модели для описания явлений, связанных с формированием множества обучающих данных, приводятся методы улучшения обучающей выборки. Даются практические рекомендации на основе разработанных теоретических моделей. В конце статьи представлены результаты экспериментов, демонстрирующие некоторые из проблем формирования обучающей выборки и методы их решения на примере задачи обучения деревьев решений.

Еще

Машинное обучение, глубокие нейронные сети, деревья решений, обучающая выборка

Короткий адрес: https://sciup.org/147155127

IDR: 147155127   |   УДК: 004.855.5   |   DOI: 10.14529/ctcr160302

Problems of training set’s formation in machine learning tasks

Proper formation of the training set is often crucial in the problems of machine learning, that is recognized by most experts in machine learning, often solving machine learning problems is reduced to the competent formation of the training set. Despite this, in the modern literature on machine learning these issues given undeservedly little attention, although often it is the correct formation of the training set is crucial for solving practical problems, theoretical basis practically absent. This article is intended to correct this shortcoming. The article examines the potential problems and errors in the formation of a training set, summarizes the author’s experience in solving machine learning tasks, offers a models for describing the phenomena, associated with the formation of a training set, methods for improving the training set are given. Practical recommendations, based on these theoretical models, are given. At the end of the article shows the experimental results demonstrating some of the problems of training set formation and methods for their solution by the example of learning a decision trees.

Еще

Список литературы Проблемы формирования обучающей выборки в задачах машинного обучения

  • Воронцов, К. Математические методы обучения по прецедентам (теория обучения машин)/К. Воронцов -http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf.
  • Labeled Faces in the Wild. -http://vis-www.cs.umass.edu/lfw/.
  • The Facial Recognition Technology (FERET) Database. -http://www.itl.nist.gov/iad/humanid/feret/feret_master.html.
  • Мангалова, Е. Прогнозирование мощности ветряных электростанций на основе непараметрического алгоритма k ближайших соседей/Е. Мангалова, И. Петрунькина//Доклады всероссийской научной конференции АИСТ’2013. -2013 -С. 1-8.
  • Canavet, O. Efficient sample mining for object detection./O. Canavet, F. Fleuret//Proceedings of the Asian Conference on Machine Learning (ACML). -2014 -P. 48-63.
  • Dropout: A simple way to prevent neural networks from overfitting/N. Srivastava, G.E. Hinton, A. Krizhevsky et al.//The Journal of Machine Learning Research. -2014 -Vol. 15, no. 1. -P. 1929-1958.
  • Amazon Mechanical Turk. -https://www.mturk.com/mturk/welcome.