Analysis of the logistics models predictive ability within the stock market

Бесплатный доступ

In this study, three logistic models are used to predict the profitability of stocks for the next day based on text information, the number of requests in social networks, historical data on profitability and the key rate with a delay of up to 2 days. The article presents the results of each model, emphasizing the influence of hyperparameters, regularization, on the accuracy of forecasting, and also draws conclusions about the relationship between current profitability and historical data. In addition, the results of this article are more consistent with previous studies in the scientific literature, confirming the possibility of forecasting the current profitability with past data. The integration of predictive modeling and a comprehensive literature review increases the depth and reliability of the conclusions drawn, providing investors andfinancial analysts to make informed decisions in difficult trading conditions on the stock market.

Еще

Forecasting, classification models, regularization, text mining, logistic regression, decision tree, random forests

Короткий адрес: https://sciup.org/148327776

IDR: 148327776

Текст научной статьи Analysis of the logistics models predictive ability within the stock market

Финансовый сектор имеет огромное значение в экономике, выступая в качестве ключевого фактора стабильности и способствуя экономическому росту. Однако присущие данному сектору сложности, особенно ввиду нестабильности в мире, привели к повышенному уровню волатильности акций компаний. Следовательно вопрос возможности прогнозирования доходности акций становится особенно актуальным, что поможет инвесторам и финансовым учреждениям осуществлять финансовое планирование, определяя когда покупать, когда продавать ценные бумаги, получая сверхприбыль на рынке, а также анализируя прошлые цены акции данной компании, содержащие в себе уже имеющуюся информацию и свежие новостные статьи, которые содержат новую информацию и могут потенциально изменить ожидания инвесторов относительно будущей доходности вложений в акции.

Для осуществления прогнозирования и оценки точности существует широкий спектр моделей машинного обучения. В данной статье мы сконцентрируемся на подходе, основанном на логике и правилах – логистическом подходе. Он выбран в силу высокой интерпретируемости и возможности управлять шумом в данных, уменьшая влияние выбросов, что помогает улучшить качество прогнозов. Цель данной статьи заключается в исследовании возможности прогнозирования доходности акций на финансовых рынках, основываясь на анализе прошлых доходностей акций компаний, новостных статей и ключевой ставки. Также будет произведен сравнительный анализ нескольких логистических моделей, включая логистическую регрессию, дерево решений и случайные леса. Дополнительно будет построена интегрированная модель, которая будет обучаться на основе выводов, полученных из вышеуказанных моделей на основе логистической регрессии с целью проверить возможность улучшения точности прогнозирования.

Литературный обзор

Было проведено большое количество исследований, посвященных прогнозированию доходности акций с использованием алгоритмов машинного обучения. В данном разделе будут рассмотрены некоторые из этих работ. Так, в работе [1] применяется метод дерева решений для прогнозирования доходности акций с 20-тью финансовыми показателями в качестве независимых переменных, в результате автор пришел к выводу, что модель способна сравнительно хорошо справляться с прогнозированием, точность которого составляет чуть больше 61%, несмотря на серьезное ограничение в виде недостаточности размера выборки.

В статье [2] предлагается основанный на дереве решений подход к прогнозированию цен на акции. Исследование демонстрирует, что деревья принятия решений могут эффективно отражать уникальные характеристики акций и генерировать точные прогнозы. Авторы сравнивают различные алгоритмы дерева решений и обнаруживают, что случайный лес достигает наивысшей точности, превосходя другие модели, такие как одиночные деревья решений и повышение градиента. Также в статье [3] сравнивались несколько алгоритмов машинного обучения, включая случайный лес, градиентное ускорение и сети с долговременной / кратковременной памятью, для прогнозирования временных рядов. Обнаружено, что сеть с долговременной / кратковременной памятью достигла наилучших показателей с точки зрения точности и способности к прогнозированию.

В исследовании [4] сравниваются модели линейной регрессии и дерева решений для прогнозирования временных рядов и делается вывод, что модели дерева решений лучше отражают нелинейные взаимосвязи, в то время как модели линейной регрессии больше подходят для учета линейных тенденций, к такому же выводу пришли и в исследовании [5]. В статье [6] также сравнивают модели линейной регрессии и дерева решений для прогнозирования фондового рынка и обнаруживают, что модели дерева решений превосходят модели линейной регрессии в выявлении сложных закономерностей и обработке нелинейных взаимосвязей. В исследовании [7] используется алгоритм машинного обучения для прогнозирования доходности акций на фондовом рынке. Были собраны данные с фондовой биржи за 10 лет, и использовались различные алгоритмы машинного обучения, включая искусственные нейрон- ные сети, машины опорных векторов и случайный лес для прогнозирования доходности акций. В результате показано, что алгоритмы машинного обучения могут быть использованы для прогнозирования прибыльности акций, а объединение нескольких алгоритмов может повысить точность прогнозирования. Однако данные результаты специфичны для фондового рынка Шри-Ланки.

Также стоит отдельно рассмотреть статьи, направленные на анализ влияния новостных статей на фондовый рынок. Так, в исследовании [8] рассматривается связь между тоном новостей и ожидаемой доходностью, в частности, рассматривается влияние тона в новостях на цены акций. Результаты показали, что негативный фон, как и предполагалось, связан с более низкой доходностью, тогда как позитивный тон был связан с более высокой доходностью. То есть, СМИ оказывает значительное влияние на ожидания инвесторов и соответственно на цены акций. Также в исследовании [9] анализируется влияние новостей, связанных с корпоративным управлением, на доходность акций. Данный анализ учитывает не только тон новости, но и ее содержание. Для того, чтобы улучшить точность показателей содержания и тона, в исследовании применяются различные методы анализа текста с использованием словаря Harvard IV Psycho Social1. Результаты показали, что доходность акций, как правило, увеличивается после новостей о владельце, если в момент публикации новостей соответствующая фирма не приносила прибыли. В противном случае общее влияние на доходность акций будет существенно отрицательным. Также результаты показывают, что инвесторы находятся под влиянием тона новостей, связанных с прибыльными фирмами и соотнесённо склоны покупать акции, что приводит к росту цен на соответствующие акции.

В данной работе помимо тональности новостных статей рассмотрена доходность с лагами от 1 до 3 дней, чтобы ответить на вопрос, является ли доходность прошлых периодов хорошим индикатором доходности в будущем? В исследовании связи между прошлыми и будущими темпами роста Литтл предложил термин «беспорядочный рост», так как он не нашел свидетельств в пользу того, что компании в одном периоде продолжали расти теми же темпами в следующем периоде. В процессе выведения ряда корреляций между темпами роста в следующие друг за другом периоды различной длины он часто обнаруживал отрицательную корреляцию между темпами роста в двух периодах, а средняя корреляция между двумя периодами оказалась близкой к нулю (0,02), что означает отсутствие связи прошлых значений и текущих.

Методика проведения исследования

Для начала был собран датасет на ежедневной основе, состоящих из 9 признаков (стоимости акций с лагом до 2 дней, ключевой ставки, количеств запросов в поисковике «сбербанк» с лагом до 2 дней и текстовой информации на тему фондового рынка с лагом до 2 дней) за 5 лет с 22.03.2018 по 20.06.2023. Далее данные были нормализованы для модели дерева решений и случайного леса, дабы избежать присвоения большей важности объектам, имеющим большую масштабность, что могло привести к искажению результатов, а для логистической регрессии данные были стандартизированы, так как стандартизация помогает центрировать столбцы признаков относительно среднего значения 0 со стандартным отклонением 1, так что столбцы признаков имеют те же параметры, что и нормальное распределение, облегчая модели выяснение весов, сохраняя полезную информацию о выбросах, в отличие от алгоритма нормализации, который мог бы привести к ограниченному диапазону значений.

Для анализа эмоциональной окраски более 40 тысяч статей была произведена обработка текстов следующим образом: сначала были убраны все знаки препинания и выделены наиболее важные слова, такие как личные глаголы и инфинитивы, полные и краткие формы прилагательных и существительных, после текст был лемматизирован. Далее была применена библиотека для обработки естественного языка – NLTK, которая присваивает оценку полярности тексту. Дальнейший алгоритм процесса представлен на рисунке 1.

Результаты и их обсуждение

Модели, рассматриваемые в данной статье, были оценены на основе их корректности как в обучающем, так и в тестовом наборах данных. Логистическая регрессия смогла превзойти другие модели. Логистические модели демонстрируют признаки переобучения, значительно превышая точность на обучающем наборе над тестовым, что говорит о том, что логические подходы в прогнозировании более склоны к переобучению. Логический подход строит сложные границы принятия решений, стараясь запомнить сложные закономерности, присутствующие в обучающих данных, что приводит к ухудшению точности на тестовых наборах.

Рис. 1. Алгоритм построения моделей

Отсюда следует, что для анализа финансовых показателей логические подходы неприменимы, попытки применить жёсткие логические правила приводят к упрощению тесных связей, заложенных в финансовых данных. С другой стороны, линейный подход, в основе которого лежит способность выявлять тенденции и сезонности, может отражать постепенные сдвиги, характерные для финансовой сферы, что делает данный подход более эффективным для анализа финансовых рынков. Результаты приведены в таблице.

Таблица

Результаты моделей на обучающей и тестовой выборках

Логистическая регрессия с регуляризацией 1

Дерево решений

Случайный лес

Агрегированная модель с регуляризацией 100

Правильность на обучающем наборе

64,8%

74,4%

79%

71,1%

Правильность на тестовом наборе

62,2%

58,6%

54,8%

61,8%

Также результаты показали, что точность модели логистической регрессии достигает максимума при показателе регуляризации, равном 1. Модель достигает баланса при заданном уровне, предотвращая переобучение и недопонимание. То есть, модель ограничена таким образом, что улавливает закономерности в данных, предотвращая подгонку шума. При строгой регуляризации модель демонстрирует определенный уровень простоты, что приводит к худшей прогностической способности.

Присваивая меньшие веса переменным, модель плохо определяла закономерности в данных, игнорируя сложные взаимосвязи. Другими словами, в области сложных взаимосвязей более строгая регуляризация накладывает жесткие ограничения. С другой стороны, ослабляя ограничение, путем повыше- ния параметра регуляризации, модель начала присваивать более существенные веса, в частности коэффициенту тональности новостей за соответствующий период, доходности с лагом 1 и количеству запросов в соцсетях про ПАО «Сбербанк России», показывая их важность при прогнозировании целевой переменной, что также подтверждается научной литературой.

То есть, модель стала более восприимчивой к тонким нюансам, что позволило ей различать тонкие закономерности, которые ранее были упрощены. Эти закономерности отражены на рисунке 2. На рисунке 3 ROC-кривой продемонстрирована эффективность всех моделей. Можно заметить большее отклонение кривой от диагонали модели логистической регрессии, что указывает на то, что модель лучше проводит различие между положительными и отрицательными классами и достигает наибольшего компромисса между чувствительностью и специфичностью.

Рис. 2. Точность модели с разной степенью регуляризации

Рис. 3 . ROC-кривая

Значимый коэффициент, присвоенный переменной тональности новостных статей, подтверждает гипотезу о влиянии информационного тона на доходность акций компаний. Положительное значение коэффициента ассоциируется с благоприятными рыночными условиями, что поднимает настроения инвесторов и стимулирует их тому, чтобы инвестировать, что приводит к росту рыночные цены акций и

– соответственно – доходности. Возможно, низкая точность связана с тем, что были игнорированы многие факторы, которые потенциально могли бы указывать на убыток или неэффективность компании. Например, показатели с финансовой отчетности, которые характеризовали бы качество баланса, денежных потоков и ликвидности. Включив дополнительные факторы в модель и расширив наблюдения, возможно, получится повысить точность прогнозирования доходности акций.

Заключение

Полученные результаты позволяют сделать вывод, что линейные подходы наиболее эффективны при прогнозировании доходности акций. Высокие коэффициенты, присвоенные таким факторам, как новостной тон, доходность прошлых периодов показывают наибольшую зависимость доходности от данных факторов.

Статья научная