Проблемы формирования обучающей выборки в задачах машинного обучения
Автор: Кафтанников Игорь Леопольдович, Парасич Андрей Викторович
Рубрика: Информатика и вычислительная техника
Статья в выпуске: 3 т.16, 2016 года.
Бесплатный доступ
Правильное формирование обучающей выборки часто имеет решающее значение в задачах машинного обучения, что признаётся большинством специалистов в данной области. Зачастую решение задач машинного обучения сводится к грамотному формированию обучающей выборки. Несмотря на это, в современной литературе по машинному обучению вопросам формирования обучающей выборки почти не уделяется внимание, теоретическая база практически отсутствует. В настоящей статье постараемся исправить данный недостаток. В статье исследуются возможные проблемы и ошибки при формировании обучающей выборки, обобщается опыт авторов в решении задач машинного обучения, предлагаются теоретические модели для описания явлений, связанных с формированием множества обучающих данных, приводятся методы улучшения обучающей выборки. Даются практические рекомендации на основе разработанных теоретических моделей. В конце статьи представлены результаты экспериментов, демонстрирующие некоторые из проблем формирования обучающей выборки и методы их решения на примере задачи обучения деревьев решений.
Машинное обучение, глубокие нейронные сети, деревья решений, обучающая выборка
Короткий адрес: https://sciup.org/147155127
IDR: 147155127 | DOI: 10.14529/ctcr160302
Список литературы Проблемы формирования обучающей выборки в задачах машинного обучения
- Воронцов, К. Математические методы обучения по прецедентам (теория обучения машин)/К. Воронцов -http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf.
- Labeled Faces in the Wild. -http://vis-www.cs.umass.edu/lfw/.
- The Facial Recognition Technology (FERET) Database. -http://www.itl.nist.gov/iad/humanid/feret/feret_master.html.
- Мангалова, Е. Прогнозирование мощности ветряных электростанций на основе непараметрического алгоритма k ближайших соседей/Е. Мангалова, И. Петрунькина//Доклады всероссийской научной конференции АИСТ’2013. -2013 -С. 1-8.
- Canavet, O. Efficient sample mining for object detection./O. Canavet, F. Fleuret//Proceedings of the Asian Conference on Machine Learning (ACML). -2014 -P. 48-63.
- Dropout: A simple way to prevent neural networks from overfitting/N. Srivastava, G.E. Hinton, A. Krizhevsky et al.//The Journal of Machine Learning Research. -2014 -Vol. 15, no. 1. -P. 1929-1958.
- Amazon Mechanical Turk. -https://www.mturk.com/mturk/welcome.