Применение машинного обучения в эконометрических исследованиях для решения проблемы пропущенных данных
Автор: Лысенко Н.А., Огородников Л.О.
Журнал: Теория и практика современной науки @modern-j
Рубрика: Основной раздел
Статья в выпуске: 1 (103), 2024 года.
Бесплатный доступ
Проблема пропущенных данных является одной из основных в эконометрике в связи с ограничением точности и достоверности результатов исследований. В данной статье рассматривается применение методов машинного обучения для решения проблемы пропущенных данных в эконометрических исследованиях. Акцент делается на эффективности машинного обучения в вопросах восстановления данных, классификации, регрессии и ансамблевых методов в эконометрике.
Машинное обучение, эконометрика, пропущенные данные, импутация данных, классификация, регрессия, ансамблевые методы
Короткий адрес: https://sciup.org/140304112
IDR: 140304112
Текст научной статьи Применение машинного обучения в эконометрических исследованиях для решения проблемы пропущенных данных
В условиях стремительного развития технологий и роста объемов данных в экономике, проблема пропущенных данных в эконометрических исследованиях становится более актуальной и сложной. Традиционные методы обработки пропусков не всегда эффективны, и именно в этом контексте машинное обучение предоставляет перспективные решения. Цель данной статьи заключается в рассмотрении применения методов машинного обучения для решения проблемы пропущенных данных в эконометрике.
Пропущенные данные в эконометрике представляют серьезное препятствие для корректной оценки параметров моделей и влияют на статистическую мощность и достоверность результатов. Традиционные методы, такие как удаление неполных наблюдений, часто нежелательны из-за потери ценной информации и смещения результатов. Именно здесь методы машинного обучения становятся неотъемлемым инструментом для эффективной импутации данных.
Традиционные методы, такие как метод k-ближайших соседей или линейная регрессия, были широко использованы в эконометрике для восстановления пропущенных значений. Однако эти методы могут оказаться недостаточно гибкими для обработки сложных взаимосвязей в экономических данных. В контексте переменных с высокой степенью взаимосвязи и нелинейных зависимостей традиционные методы часто не справляются с задачей восстановления.
Алгоритмы машинного обучения, такие как случайные леса и градиентный бустинг, предоставляют эффективные средства для борьбы с пропущенными данными в эконометрических моделях. Эти методы позволяют учесть сложные структуры данных, выявлять нелинейные взаимосвязи и адаптироваться к изменениям в данных. Процесс обучения моделей на основе имеющихся данных и последующее использование их для предсказания пропущенных значений становится ключевым элементом успешной импутации данных.
Случайные леса, по сути, осуществляют предсказания для объектов на основе меток похожих объектов из обучения. Схожесть объектов при этом тем выше, чем чаще эти объекты оказываются в одном и том же листе дерева. [2]
Рассмотрим задачу регрессии с квадратичной функцией потерь. Пусть
Тп(х) — номер листа тг(х)-го дерева из случайного леса, в который попадает объект х. Ответ объекта x равен среднему ответу по всем объектам обучающей выборки, которые попали в этот лист Тп(х). Это можно записать в виде формулы:
I
Ьп№ = / i=i
Мп(х> Xi)yi
где
W n( X,Xi ) =
[Тп(х) = Тп(хд]
Е;=1[Тп(Х) = Tn(Xj)] ,
N - количество деревьев, i - счетчик для деревьев, b - решающее дерево, x - сгенерированная на основе данных выборка.
Тогда ответ композиции равен:
Мх) =
1 VN vz
й / / ^n(x^Xi)Уi
V t—in=1*—4=1
Ответ случайного леса представляет собой сумму ответов всех объектов обучения с некоторыми весами. Отметим, что номер листа Тп(х), в который попал объект, сам по себе является ценным признаком. Достаточно неплохо работает подход, в котором по выборке обучается композиция из небольшого числа деревьев с помощью случайного леса или градиентного бустинга, а потом к ней добавляются категориальные признаки Т1(х),...,Тп(х). Новые признаки являются результатом нелинейного разбиения пространства и несут в себе информацию о сходстве объектов. [3]
В контексте решения проблемы пропущенных данных в эконометрике, классификация и регрессия находят применение для построения моделей, предсказывающих отсутствующие значения на основе имеющихся данных. Классификация подходит, когда пропущенные значения являются категориальными, а регрессия применяется, когда нужно предсказать непрерывные переменные.
Алгоритмы классификации, такие как Support Vector Machines и Decision Trees, а также алгоритмы регрессии, включая линейную регрессию и градиентный бустинг, обладают способностью улавливать сложные зависимости в данных. Это особенно важно в эконометрике, где переменные могут взаимодействовать многими способами. [2]
Важным этапом при использовании классификации и регрессии для восстановления данных является оптимизация моделей и подбор гиперпараметров. Это обеспечивает наилучшую производительность моделей и предотвращает их переобучение или недообучение.
Ансамблевые методы, такие как Random Forest и Gradient Boosting, могут быть особенно полезными в контексте восстановления пропущенных данных. Их способность объединять прогнозы нескольких моделей повышает устойчивость и качество предсказаний. [2]
Хорошим примером ансамблей считается теорема Кондорсе «о жюри присяжных» (1784). Если каждый член жюри присяжных имеет независимое мнение, и если вероятность правильного решения члена жюри больше 0.5, то тогда вероятность правильного решения присяжных в целом возрастает с увеличением количества членов жюри и стремится к единице. Если же вероятность быть правым у каждого из членов жюри меньше 0.5, то вероятность принятия правильного решения присяжными в целом монотонно уменьшается и стремится к нулю с увеличением количества присяжных. [1]
N
и =
i=m
cNpi(i-p)N 1
N – количество присяжных, p – вероятность правильного решения присяжного,
µ – вероятность правильного решения всего жюри, m — минимальное большинство членов жюри, т = floor (N) + 1,
C N — число сочетаний из N по i.
Если p > 0.5, то µ > p.
Если N ^ го, то д ^ 1 .
Использование алгоритмов классификации и регрессии для восстановления пропущенных данных представляет собой эффективный подход в современной эконометрике. Эти методы не только повышают точность предсказаний, но и обеспечивают более гибкое моделирование сложных взаимосвязей в экономических данных. Однако, необходимость тщательного подбора моделей и параметров подчеркивает важность методологического подхода к данной задаче.
Оценка качества восстановленных данных является ключевым этапом при применении методов машинного обучения в решении проблемы пропущенных данных в эконометрике. Стандартные метрики, такие как Mean Squared Error (MSE) и R-squared, предоставляют количественные оценки точности восстановления. Однако, в эконометрике важно также учитывать особенности моделей и специфику данных. [3]
При оценке качества восстановленных данных в эконометрике необходимо учитывать специфику используемых моделей. Например, при восстановлении данных для временных рядов экономических показателей, важно оценивать не только точность предсказаний, но и устойчивость временных зависимостей.
Для более точной оценки качества восстановленных данных в эконометрике предлагается разработка новых метрик, учитывающих особенности экономических моделей. Например, метрика, уделяющая внимание точности восстановления в периодах экономической нестабильности, может быть более релевантной для определенных задач.
Процесс валидации моделей важен для обеспечения их способности обобщения на новые данные. Кросс-валидация и разделение выборки на обучающую и тестовую позволяют оценить, насколько хорошо модель восстанавливает пропущенные значения на новых данных.
Не менее важным этапом является интерпретация результатов оценки качества восстановленных данных. Анализ ошибок моделей и понимание того, как они могут повлиять на исследовательские выводы, предоставляет дополнительный уровень информации для принятия решений.
Оценка качества восстановленных данных в эконометрике требует комплексного подхода, учитывающего не только стандартные метрики точности, но и специфику экономических моделей. Разработка новых метрик и акцент на статистической значимости позволят более точно определить эффективность применяемых методов в конкретных эконометрических задачах.
В реальных эконометрических исследованиях методы машинного обучения успешно применялись для прогнозирования макроэкономических показателей. Например, отбор переменных для анализа и прогнозирования нестабильности с помощью моделей градиентного бустинга для предсказания ВВП национальной экономики на основе имеющихся данных, включая индексы потребительских цен, инвестиции и торговый баланс. [4] Полученные результаты сравнимы с традиционными эконометрическими моделями, но при этом методы машинного обучения позволяют учесть более сложные зависимости в данных.
В финансовых исследованиях машинное обучение успешно применяется для анализа временных рядов и прогнозирования рыночных трендов. Используются методы классификации, такие как Support Vector Machines, для предсказания направления движения ценных бумаг. [1] Это позволяет трейдерам и инвесторам принимать информированные решения на основе моделей машинного обучения.
В банковской сфере применение методов машинного обучения широко используется для анализа кредитного риска. Модели машинного обучения позволяют учесть более широкий спектр факторов и взаимосвязей, что улучшает точность оценок риска.
Применение методов машинного обучения в эконометрических исследованиях для решения проблемы пропущенных данных является актуальной и перспективной областью исследований. Предложенные методы позволяют эффективно восстанавливать пропущенные значения и улучшать качество моделей. Однако, необходимо учитывать особенности данных и выбирать подходящую модель для каждого конкретного случая. Дальнейшие исследования в этой области помогут разработать новые методы и подходы для решения проблемы пропущенных данных и повысить точность и надежность результатов эконометрических исследований.
Список литературы Применение машинного обучения в эконометрических исследованиях для решения проблемы пропущенных данных
- Ануфриева Е.В. Предсказание индекса Мосиржи при помощи метода опорных векторов // Экономические исследования. - 2019. - №4. - С. 34-42. EDN: MYYVYK
- Радченко В. Открытый курс машинного обучения [Электронный ресурс] // Open Data Science (дата публикации 27.03.2017). - URL: https://habr.com/ru/companies/ods/articles/324402/(дата обращения: 05.01.2024).
- Хасти Т., Тибришани Р., Фридман Д. Основы Статического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование, 2-е изд.: Пер. с англ. - СПб.: ООО "Диалектика", 2020. -764 с.
- Шульгин С.Г. Отбор переменных для анализа и прогнозирования нестабильности с помощью моделей градиентного бустинга // Ежегодник. - Волгоград: Учитель, 2018. - С. 115-153. EDN: JFUHQP