Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей
Автор: Хандаров Федор Владимирович, Дондоков Зорикто Бато-Дугарович
Журнал: Вестник Бурятского государственного университета. Математика, информатика @vestnik-bsu-maths
Рубрика: Системный анализ и информационные технологии
Статья в выпуске: 1, 2012 года.
Бесплатный доступ
В статье излагается методика прогнозирования налога на доходы физических лиц с использованием аппарата искусственных нейронных сетей. Приводятся полученные результаты.
Временные ряды, налоговое прогнозирование, отбор признаков
Короткий адрес: https://sciup.org/14835059
IDR: 14835059 | УДК: 004+336.221
Personal income tax forecasting using artificial neural networks
The paper deals with methods of personal income tax forecasting using artificial neural networks. The results are described.
Текст научной статьи Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей
Одной из важных проблем в региональном экономическом планировании является прогнозирование налоговых поступлений; в частности, основного вида прямых налогов – налога на доходы физических лиц. Данный вид налога является третьим по величине отчислений в бюджет и отличается следующими важными особенностями:
-
• объектом обложения данным налогом служит именно доход, реально полученный налогоплательщиком;
-
• его плательщиками является практически все трудоспособное население страны;
-
• при прочих равных условиях он легче других налогов контролируется налоговыми органами, от его уплаты сложнее уклониться недобросовестным налогоплательщикам.
При этом специфика и сложность прогнозирования НДФЛ обусловлена влиянием множества трудно формализуемых факторов, неполнотой и противоречивостью исторических данных. Трактовка полученных результатов также затруднена в силу чисто экономических причин, вроде: сокрытия доходов, неуплаты налогов, теневого оборота и т.п.
В работе описывается методика прогнозирования рассматриваемого вида налога на основе применения аппарата искусственных нейронных сетей, производится её сравнение с другими методами прогнозирования, приводится интерпретация полученных результатов: оценка качества полученных прогнозов.
Вычислительные эксперименты в работе производятся по данным налоговых поступлений по Республике Бурятия. Временной интервал исторических данных, используемых для построения системы прогнозирования, составляет 3 года с разбивкой по месяцам.
Описание методики
В ходе эксперимента рассматривались 10 экономических показателей, по одному из которых («Поступление НДФЛ в бюджет города Улан-Удэ») требовалось построить прогноз (табл. 1), остальные 9 показателей предположительно считаются влияющими. Кроме того, требовалось определить степень подобного влияния и построить модель прогнозирования «Поступлений НДФЛ».
Таблица 1
Экономические показатели
|
№ |
Показатель |
|
1 |
Индексы промышленного производства |
|
2 |
Добыча полезных ископаемых |
|
3 |
Обрабатывающие производства |
|
4 |
Производство и распределение электроэнергии, газа и воды |
|
5 |
Продукция сельского хозяйства в хозяйствах всех категорий |
|
6 |
Грузооборот всех видов транспорта на основе коммерческого грузооборота |
|
7 |
Объем работ по виду деятельности «строительство» (в фактических ценах соответствующих лет) |
|
8 |
Численность занятого в экономике населения |
|
9 |
Среднемесячная номинальная начисленная заработная плата одного работника |
|
10 |
Поступление НДФЛ в бюджет города Улан-Удэ |
Методика заключалась в переборе k-сочетаний показателей, для получаемого всякий раз k-мерного временного ряда строилась модель прогнозирования. В качестве аппарата прогнозирования использовались искусственные нейронные сети с применением метода «взвешенного скользящего окна» [1]. Стоит отметить, что в качестве непосредственного механизма прогнозирования, вообще говоря, возможно использование любого другого подходящего аппарата, однако такие преимущества искусственных нейронных сетей, как возможность обучения, решение задач при неизвестных закономерностях, устойчивость к шумам, адаптация к окружающим условиям и др., вполне определяют выбор авторов.
В качестве механизма настройки весов и подбора структуры нейронных сетей использовался эволюционный алгоритм. Особью для эволюционного алгоритма является искусственная нейронная сеть, в качестве хромосомы рассматривается вектор вещественных чисел – множество весов связей ИНС, содержащий также информацию о входном и выходном нейронах для каждой связи.
При скрещивании два графа ИНС сортировались топологически обходом в ширину, начиная с входных нейронов, с сохранением фиксированного количества и нумерации входных и выходных нейронов. Таким образом, для любых двух ИНС возможно было установить «одинаковые» и «различающиеся» элементы вектора представления – хромосомы. Так, например, рассмотрим две ИНС с одинаковым количеством и нумерацией входных и выходных нейронов (рис. 1).
Рис. 1. Пример двух различных ИНС
Полученные в результате поиска в ширину векторы связей будут иметь следующие «совпадающие» связи ИНС (выделены подчеркиванием).
|
1 |
2 |
3 |
6 |
6 |
7 |
|
6 |
6 |
7 |
4 |
7 |
5 |
|
1 |
2 |
3 |
6 |
7 |
7 |
8 |
8 |
|
6 |
7 |
7 |
8 |
8 |
5 |
4 |
5 |
Рис. 2. «Совпадающие» связи ИНС
Для особей были определены операции инициализации, оценивания, отбора для скрещивания, скрещивания, мутации, редукции и селекции.
Критерием остановки процесса настройки нейронной сети является достижение максимального количества итераций или сходимость популяции к заданной величине ε. Таким образом, в описываемой методике критерием оценки качества отбора показателей и одновременно критерием качества полученной сетевой структуры и настройки весов сети является качество прогноза, совершаемого нейронной сетью.
Полученные результаты и сравнение со статистическими методами
В качестве альтернативных методов прогнозирования рассматривалось построение уравнения регрессии с предварительным проведением факторного анализа для отбора влияющих на величину НДФЛ показателей и без него.
В таблице представлены реальные величины НДФЛ в 2011 году («Ре-альн.»), а также результаты, полученные с использованием описанного подхода («ИНС-1» – «ИНС-5») и статистических методов («ФА+лин. регр.» и «Лин. регр.»). В последней строке приведено значение среднеквадратической ошибки для каждого метода.
|
сч S3 |
Ш |
in |
о |
о сч^ |
о 40 |
О in |
О |
о °ч |
о |
О 40^ |
о оо^ |
о |
о СП |
о |
|
У |
оо" |
оо" |
04" |
in" |
40" |
СП |
40" |
40" |
'хГ |
сч" |
ГП |
|||
|
S |
О |
пГ |
^ |
in |
40 |
04 |
in |
СП |
40 |
—. |
in |
|||
|
40 |
СП |
40 |
СП |
хГ |
СП |
ОО |
оо |
СЧ |
оо |
оо |
СП |
|||
|
ю |
►А |
00 |
40 |
in |
ОО |
40 |
04 |
сч |
04 |
^^ |
40 |
in |
^^ |
тГ |
|
S3 |
Нн |
40 |
сч |
СП |
сч |
сч |
СП |
in |
чГ |
in |
in |
40 |
сч |
|
|
^н |
04 |
сч |
^ |
|||||||||||
|
О |
о |
о |
о |
о |
О |
о |
о |
о |
о |
о |
о |
|||
|
Он |
04 |
40 |
ОО |
СП |
— |
£—. |
in |
—. |
— |
40 |
40 |
СП |
сп |
|
|
+ о |
40 |
А |
о |
СП |
ОО |
сч |
^г |
оо |
оо |
чГ |
чГ |
|||
|
Ш |
ОО |
сч |
^- |
40 |
сч |
ОО |
о |
о |
оо |
о |
тт |
|||
|
ш |
04 |
40 |
40 |
сч |
. |
ш |
04 |
о |
^^ |
00 |
сп |
|||
|
в о |
in |
СП |
[^^ |
40 |
04 |
о |
СП |
|||||||
|
S |
о |
^^ |
^-А |
^-А |
^А |
^t |
in |
in |
40 |
40 |
40 |
оо |
о |
|
|
сп |
||||||||||||||
|
о |
о |
о |
о |
о |
О |
о |
О |
О |
О |
о |
||||
|
о |
СО |
со |
о^ |
со |
о |
со |
со |
со |
—. |
|||||
|
сч" |
ш" |
сч" |
о" |
оо" |
^-" |
сч" |
сч" |
СП |
||||||
|
и |
о" |
04 |
04 |
04 |
о |
о |
00 |
СП |
сч |
оо |
^^ |
оо" |
||
|
£—. |
in |
00 |
СП |
40 |
—. |
сч |
04 |
СП |
— |
40 |
тГ |
|||
|
00 |
сч |
СЧ |
00 |
о |
in |
40 |
in |
04 |
1П |
|||||
|
А |
, 4 |
^н |
сч |
сч |
СП |
СП |
сч |
[—. |
04 |
сч |
СЧ |
|||
|
00 |
сч |
сч |
СП |
|||||||||||
|
S |
||||||||||||||
|
о |
о |
о |
о |
о |
о |
о |
о |
О |
о |
о |
||||
|
сЗ |
о |
о |
-о |
<о |
о |
о |
о^ |
со |
о |
о |
сч |
|||
|
1 |
[^ |
^ |
СП |
40" |
оо" |
in" |
[^ |
4о" |
||||||
|
О |
и |
04" |
чГ |
ОО |
in |
xh |
04 |
in |
04 |
in |
СП |
--- |
||
|
Он |
о |
40 |
^г |
сч |
СП |
ОО |
оо |
сч |
сч |
04 |
40 |
|||
|
А |
ОО |
ОО |
40 |
^^А |
^^ |
—. |
сч |
in |
сч |
сч |
ОО |
|||
|
со |
А |
чГ |
in |
40 |
40 |
40 |
00 |
04 |
сп |
in |
^^ |
|||
|
О К |
ОО |
сч |
сч |
сч |
чГ |
|||||||||
|
о |
о |
О |
О |
о |
О |
о |
||||||||
|
Он |
CN |
<о |
in |
1П |
сч^ |
in |
чГ |
О |
40^ |
—. |
in |
04 |
о |
о |
|
с |
с^ |
in |
о^ |
О^ |
СП |
СП |
оо" |
о^ |
40^ |
|||||
|
3 |
О |
04" |
40" |
о |
о |
си" |
СП |
о |
оо |
сп" |
04" |
04" |
||
|
04 |
in |
04 |
in |
40 |
04 |
40 |
^^ |
04 |
^^ |
in |
||||
|
А |
£—. |
04 |
04 |
А |
— |
—. |
О |
чГ |
— |
оо |
О |
04 |
сч |
|
|
А |
о |
04 |
сч |
40 |
in |
сч |
— |
in |
СП |
чГ |
СП |
40 |
СП |
|
|
^ |
00 |
г-Н |
г-Н |
и—1 |
o^ |
г-Н |
г-н |
г-н |
o^ |
00 |
40 |
|||
|
О |
О |
о |
о |
о |
О |
О |
О |
|||||||
|
о^ |
in |
О |
ос. |
40^ |
04^ |
in |
40^ |
in |
ОО |
чо |
||||
|
Рн |
in |
^ |
04" |
in" |
[^ |
СП |
СП |
40" |
40" |
in |
||||
|
и |
in |
— |
А |
ОО |
40 |
40 |
04 |
сч |
сч |
— |
04" |
—. |
||
|
сч |
ОО |
ОО |
£—. |
СП |
СП |
in |
СП |
о |
— |
00 |
in |
|||
|
А |
in |
40 |
40 |
04 |
СП |
—. |
in |
in |
0 |
|||||
|
А |
сч |
04 |
ОО |
О |
СП |
40 |
40 |
— |
о |
in |
in |
сч |
||
|
40 |
сч |
1 |
сч |
00 |
00 |
г-~ |
||||||||
|
[^ |
сч |
сч |
ОО |
04 |
[^ |
чГ |
04 |
СП |
чГ |
|||||
|
^А |
о |
сч |
^^ |
40 |
40 |
оо |
сч |
^^ |
о |
[^^ |
□0 |
|||
|
Щ Он |
ОО |
чГ |
^А |
ОО |
in |
in |
ОО |
чГ |
40 |
—. |
сч |
чГ |
||
|
К ^ |
о |
^^ |
ОО |
сч |
xj- |
^^ |
^^ |
о |
^f |
о |
сч |
40 |
А |
|
|
04 |
in |
о |
xf |
in |
[^^ |
^^ |
40 |
о |
04 |
|||||
|
Он |
сч |
^А |
сч |
чГ |
о |
СП |
in |
04 |
04 |
04 |
||||
|
^^ |
^А |
сч |
СП |
ш |
40 |
in |
[—. |
40 |
1П |
—. |
СЧ |
|||
|
сп |
||||||||||||||
|
о |
о |
о |
о |
о |
о |
о |
о |
О |
О |
о |
||||
|
о |
о |
оо |
со |
сч^ |
сч^ |
сч^ |
40 |
ОЧ |
сч^ |
|||||
|
сч |
сч" |
о" |
40" |
оо" |
сп" |
04" |
оо" |
04" |
4О" |
. S3 |
||||
|
г: |
£—. |
СП |
СП |
1П |
о |
— |
о |
04 |
СП |
40 |
§ ю |
|||
|
— |
ОО |
ОО |
40 |
—. |
—. |
04 |
40 |
^^ |
||||||
|
in |
чГ |
[^^ |
СП |
о |
40 |
04 |
чГ |
О |
in |
|||||
|
Он |
о |
сп |
СП |
СП |
in |
СП |
СП |
^f |
40 |
Он 3 |
||||
|
ОО |
сч |
° о |
||||||||||||
|
О |
И |
м о |
Он |
ж |
2 |
Ч 2 |
PQ |
Щ |
н ^ |
ю о |
2 о |
|||
|
СЧ |
W |
г©Н |
S3 |
S |
s |
S3 |
о |
о |
щ |
м |
На рисунках 3а – 3в представлены графики, иллюстрирующие данные таблицы 2. Рис. 3а – лучшие (по ср.-кв. ошибке) прогнозы от нейронных сетей при k > 4 , т.е. ИНС, построенные на 5 и более сочетаниях показателей, – налицо неадекватность поведения и большая ср.-кв. ошибка. Рис.3б – лучшие результаты прогнозов ИНС, построенных на 4-х сочетаниях – при сокращении размерности k-мерного временного ряда лучше угадывается тренд, однако по величине ср.-кв. ошибки ИНС все еще уступают статистическим методам (для представленных ИНС использовались следующие наборы показателей: 7-8-9, 6-7-9, 7-8-9 по табл.1). Рис.3в – лучшая ИНС, построенная на 3-х сочетаниях (7-9 по табл.1), а также регрессионные модели с предварительным снижением размерности и без него.
Реальн.
ИНС-1
ИНС-2
Рис. 3а. Результаты прогнозирования
Реальн.
ИНС-3
ИНС-4
ИНС-5
Рис. 3б. Результаты прогнозирования
Реальн.
ФА+лин.регр. лин.регр.
ИНС-5
Рис. 3в. Результаты прогнозирования
По результатам проведенных экспериментов можно сделать выводы о том, что применение искусственных нейронных сетей для прогнозирования НДФЛ позволяет добиваться прогноза как минимум не хуже результатов, получаемых статистическими методами, а также о том, что предварительное снижение размерности позволяет повысить качество прогноза.
Заключение
Таким образом, применение рассмотренной методики позволяет получать адекватный прогноз, который может быть использован в качестве одного из контрольных инструментов при построении прогноза, поскольку в качестве оснований для прогнозирования используются лишь исторические данные, что, впрочем, при сохранении трендов вполне уместно. Предсказание же изменения трендов остается привилегией макроэкономических методов.
Налицо такие преимущества методики, как способность к выявлению скрытых связей, универсальность подхода, широкие возможности повторного использования (reusability), естественные возможности распараллеливания.
Список литературы Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей
- Morantz B.H., Whalen T., Zhang P.G. A Weighted Window Approach to Neural Network Time Series Forecasting//Chapter 13 in P. Zhang (ed.) Neural Networks in Business Forecasting, IRM Press, 2004. -Р.251-265.
- Eshelman L.J., Schaffer J.D. Real-coded genetic algorithms and interval schemata//Foundation of Genetic Algorithms 2. -1993. -P. 187-202.
- Deb K., Kumar A. Realcoded genetic algorithms with simulated binary crossover: Studies on multimodal and multiobjective problems//Complex Systems. 9(6). -1995. -P. 431-451.
- Herrera F., Lozano M. Adaptation of genetic algorithm parameters based on fuzzy logic controllers//Genetic Algorithms and Soft Computing. -1996. -P. 95-125.