Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей
Автор: Хандаров Федор Владимирович, Дондоков Зорикто Бато-Дугарович
Журнал: Вестник Бурятского государственного университета. Математика, информатика @vestnik-bsu-maths
Рубрика: Системный анализ и информационные технологии
Статья в выпуске: 1, 2012 года.
Бесплатный доступ
В статье излагается методика прогнозирования налога на доходы физических лиц с использованием аппарата искусственных нейронных сетей. Приводятся полученные результаты.
Временные ряды, налоговое прогнозирование, отбор признаков
Короткий адрес: https://sciup.org/14835059
IDR: 14835059
Текст научной статьи Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей
Одной из важных проблем в региональном экономическом планировании является прогнозирование налоговых поступлений; в частности, основного вида прямых налогов – налога на доходы физических лиц. Данный вид налога является третьим по величине отчислений в бюджет и отличается следующими важными особенностями:
-
• объектом обложения данным налогом служит именно доход, реально полученный налогоплательщиком;
-
• его плательщиками является практически все трудоспособное население страны;
-
• при прочих равных условиях он легче других налогов контролируется налоговыми органами, от его уплаты сложнее уклониться недобросовестным налогоплательщикам.
При этом специфика и сложность прогнозирования НДФЛ обусловлена влиянием множества трудно формализуемых факторов, неполнотой и противоречивостью исторических данных. Трактовка полученных результатов также затруднена в силу чисто экономических причин, вроде: сокрытия доходов, неуплаты налогов, теневого оборота и т.п.
В работе описывается методика прогнозирования рассматриваемого вида налога на основе применения аппарата искусственных нейронных сетей, производится её сравнение с другими методами прогнозирования, приводится интерпретация полученных результатов: оценка качества полученных прогнозов.
Вычислительные эксперименты в работе производятся по данным налоговых поступлений по Республике Бурятия. Временной интервал исторических данных, используемых для построения системы прогнозирования, составляет 3 года с разбивкой по месяцам.
Описание методики
В ходе эксперимента рассматривались 10 экономических показателей, по одному из которых («Поступление НДФЛ в бюджет города Улан-Удэ») требовалось построить прогноз (табл. 1), остальные 9 показателей предположительно считаются влияющими. Кроме того, требовалось определить степень подобного влияния и построить модель прогнозирования «Поступлений НДФЛ».
Таблица 1
Экономические показатели
№ |
Показатель |
1 |
Индексы промышленного производства |
2 |
Добыча полезных ископаемых |
3 |
Обрабатывающие производства |
4 |
Производство и распределение электроэнергии, газа и воды |
5 |
Продукция сельского хозяйства в хозяйствах всех категорий |
6 |
Грузооборот всех видов транспорта на основе коммерческого грузооборота |
7 |
Объем работ по виду деятельности «строительство» (в фактических ценах соответствующих лет) |
8 |
Численность занятого в экономике населения |
9 |
Среднемесячная номинальная начисленная заработная плата одного работника |
10 |
Поступление НДФЛ в бюджет города Улан-Удэ |
Методика заключалась в переборе k-сочетаний показателей, для получаемого всякий раз k-мерного временного ряда строилась модель прогнозирования. В качестве аппарата прогнозирования использовались искусственные нейронные сети с применением метода «взвешенного скользящего окна» [1]. Стоит отметить, что в качестве непосредственного механизма прогнозирования, вообще говоря, возможно использование любого другого подходящего аппарата, однако такие преимущества искусственных нейронных сетей, как возможность обучения, решение задач при неизвестных закономерностях, устойчивость к шумам, адаптация к окружающим условиям и др., вполне определяют выбор авторов.
В качестве механизма настройки весов и подбора структуры нейронных сетей использовался эволюционный алгоритм. Особью для эволюционного алгоритма является искусственная нейронная сеть, в качестве хромосомы рассматривается вектор вещественных чисел – множество весов связей ИНС, содержащий также информацию о входном и выходном нейронах для каждой связи.
При скрещивании два графа ИНС сортировались топологически обходом в ширину, начиная с входных нейронов, с сохранением фиксированного количества и нумерации входных и выходных нейронов. Таким образом, для любых двух ИНС возможно было установить «одинаковые» и «различающиеся» элементы вектора представления – хромосомы. Так, например, рассмотрим две ИНС с одинаковым количеством и нумерацией входных и выходных нейронов (рис. 1).

Рис. 1. Пример двух различных ИНС
Полученные в результате поиска в ширину векторы связей будут иметь следующие «совпадающие» связи ИНС (выделены подчеркиванием).
1 |
2 |
3 |
6 |
6 |
7 |
6 |
6 |
7 |
4 |
7 |
5 |
1 |
2 |
3 |
6 |
7 |
7 |
8 |
8 |
6 |
7 |
7 |
8 |
8 |
5 |
4 |
5 |
Рис. 2. «Совпадающие» связи ИНС
Для особей были определены операции инициализации, оценивания, отбора для скрещивания, скрещивания, мутации, редукции и селекции.
Критерием остановки процесса настройки нейронной сети является достижение максимального количества итераций или сходимость популяции к заданной величине ε. Таким образом, в описываемой методике критерием оценки качества отбора показателей и одновременно критерием качества полученной сетевой структуры и настройки весов сети является качество прогноза, совершаемого нейронной сетью.
Полученные результаты и сравнение со статистическими методами
В качестве альтернативных методов прогнозирования рассматривалось построение уравнения регрессии с предварительным проведением факторного анализа для отбора влияющих на величину НДФЛ показателей и без него.
В таблице представлены реальные величины НДФЛ в 2011 году («Ре-альн.»), а также результаты, полученные с использованием описанного подхода («ИНС-1» – «ИНС-5») и статистических методов («ФА+лин. регр.» и «Лин. регр.»). В последней строке приведено значение среднеквадратической ошибки для каждого метода.
сч S3 |
Ш |
in |
о |
о сч^ |
о 40 |
О in |
О |
о °ч |
о |
О 40^ |
о оо^ |
о |
о СП |
о |
У |
оо" |
оо" |
04" |
in" |
40" |
СП |
40" |
40" |
'хГ |
сч" |
ГП |
|||
S |
О |
пГ |
^ |
in |
40 |
04 |
in |
СП |
40 |
—. |
in |
|||
40 |
СП |
40 |
СП |
хГ |
СП |
ОО |
оо |
СЧ |
оо |
оо |
СП |
|||
ю |
►А |
00 |
40 |
in |
ОО |
40 |
04 |
сч |
04 |
^^ |
40 |
in |
^^ |
тГ |
S3 |
Нн |
40 |
сч |
СП |
сч |
сч |
СП |
in |
чГ |
in |
in |
40 |
сч |
|
^н |
04 |
сч |
^ |
|||||||||||
О |
о |
о |
о |
о |
О |
о |
о |
о |
о |
о |
о |
|||
Он |
04 |
40 |
ОО |
СП |
— |
£—. |
in |
—. |
— |
40 |
40 |
СП |
сп |
|
+ о |
40 |
А |
о |
СП |
ОО |
сч |
^г |
оо |
оо |
чГ |
чГ |
|||
Ш |
ОО |
сч |
^- |
40 |
сч |
ОО |
о |
о |
оо |
о |
тт |
|||
ш |
04 |
40 |
40 |
сч |
. |
ш |
04 |
о |
^^ |
00 |
сп |
|||
в о |
in |
СП |
[^^ |
40 |
04 |
о |
СП |
|||||||
S |
о |
^^ |
^-А |
^-А |
^А |
^t |
in |
in |
40 |
40 |
40 |
оо |
о |
|
сп |
||||||||||||||
о |
о |
о |
о |
о |
О |
о |
О |
О |
О |
о |
||||
о |
СО |
со |
о^ |
со |
о |
со |
со |
со |
—. |
|||||
сч" |
ш" |
сч" |
о" |
оо" |
^-" |
сч" |
сч" |
СП |
||||||
и |
о" |
04 |
04 |
04 |
о |
о |
00 |
СП |
сч |
оо |
^^ |
оо" |
||
£—. |
in |
00 |
СП |
40 |
—. |
сч |
04 |
СП |
— |
40 |
тГ |
|||
00 |
сч |
СЧ |
00 |
о |
in |
40 |
in |
04 |
1П |
|||||
А |
, 4 |
^н |
сч |
сч |
СП |
СП |
сч |
[—. |
04 |
сч |
СЧ |
|||
00 |
сч |
сч |
СП |
|||||||||||
S |
||||||||||||||
о |
о |
о |
о |
о |
о |
о |
о |
О |
о |
о |
||||
сЗ |
о |
о |
-о |
<о |
о |
о |
о^ |
со |
о |
о |
сч |
|||
1 |
[^ |
^ |
СП |
40" |
оо" |
in" |
[^ |
4о" |
||||||
О |
и |
04" |
чГ |
ОО |
in |
xh |
04 |
in |
04 |
in |
СП |
--- |
||
Он |
о |
40 |
^г |
сч |
СП |
ОО |
оо |
сч |
сч |
04 |
40 |
|||
А |
ОО |
ОО |
40 |
^^А |
^^ |
—. |
сч |
in |
сч |
сч |
ОО |
|||
со |
А |
чГ |
in |
40 |
40 |
40 |
00 |
04 |
сп |
in |
^^ |
|||
О К |
ОО |
сч |
сч |
сч |
чГ |
|||||||||
о |
о |
О |
О |
о |
О |
о |
||||||||
Он |
CN |
<о |
in |
1П |
сч^ |
in |
чГ |
О |
40^ |
—. |
in |
04 |
о |
о |
с |
с^ |
in |
о^ |
О^ |
СП |
СП |
оо" |
о^ |
40^ |
|||||
3 |
О |
04" |
40" |
о |
о |
си" |
СП |
о |
оо |
сп" |
04" |
04" |
||
04 |
in |
04 |
in |
40 |
04 |
40 |
^^ |
04 |
^^ |
in |
||||
А |
£—. |
04 |
04 |
А |
— |
—. |
О |
чГ |
— |
оо |
О |
04 |
сч |
|
А |
о |
04 |
сч |
40 |
in |
сч |
— |
in |
СП |
чГ |
СП |
40 |
СП |
|
^ |
00 |
г-Н |
г-Н |
и—1 |
o^ |
г-Н |
г-н |
г-н |
o^ |
00 |
40 |
|||
О |
О |
о |
о |
о |
О |
О |
О |
|||||||
о^ |
in |
О |
ос. |
40^ |
04^ |
in |
40^ |
in |
ОО |
чо |
||||
Рн |
in |
^ |
04" |
in" |
[^ |
СП |
СП |
40" |
40" |
in |
||||
и |
in |
— |
А |
ОО |
40 |
40 |
04 |
сч |
сч |
— |
04" |
—. |
||
сч |
ОО |
ОО |
£—. |
СП |
СП |
in |
СП |
о |
— |
00 |
in |
|||
А |
in |
40 |
40 |
04 |
СП |
—. |
in |
in |
0 |
|||||
А |
сч |
04 |
ОО |
О |
СП |
40 |
40 |
— |
о |
in |
in |
сч |
||
40 |
сч |
1 |
сч |
00 |
00 |
г-~ |
||||||||
[^ |
сч |
сч |
ОО |
04 |
[^ |
чГ |
04 |
СП |
чГ |
|||||
^А |
о |
сч |
^^ |
40 |
40 |
оо |
сч |
^^ |
о |
[^^ |
□0 |
|||
Щ Он |
ОО |
чГ |
^А |
ОО |
in |
in |
ОО |
чГ |
40 |
—. |
сч |
чГ |
||
К ^ |
о |
^^ |
ОО |
сч |
xj- |
^^ |
^^ |
о |
^f |
о |
сч |
40 |
А |
|
04 |
in |
о |
xf |
in |
[^^ |
^^ |
40 |
о |
04 |
|||||
Он |
сч |
^А |
сч |
чГ |
о |
СП |
in |
04 |
04 |
04 |
||||
^^ |
^А |
сч |
СП |
ш |
40 |
in |
[—. |
40 |
1П |
—. |
СЧ |
|||
сп |
||||||||||||||
о |
о |
о |
о |
о |
о |
о |
о |
О |
О |
о |
||||
о |
о |
оо |
со |
сч^ |
сч^ |
сч^ |
40 |
ОЧ |
сч^ |
|||||
сч |
сч" |
о" |
40" |
оо" |
сп" |
04" |
оо" |
04" |
4О" |
. S3 |
||||
г: |
£—. |
СП |
СП |
1П |
о |
— |
о |
04 |
СП |
40 |
§ ю |
|||
— |
ОО |
ОО |
40 |
—. |
—. |
04 |
40 |
^^ |
||||||
in |
чГ |
[^^ |
СП |
о |
40 |
04 |
чГ |
О |
in |
|||||
Он |
о |
сп |
СП |
СП |
in |
СП |
СП |
^f |
40 |
Он 3 |
||||
ОО |
сч |
° о |
||||||||||||
О |
И |
м о |
Он |
ж |
2 |
Ч 2 |
PQ |
Щ |
н ^ |
ю о |
2 о |
|||
СЧ |
W |
г©Н |
S3 |
S |
s |
S3 |
о |
о |
щ |
м |
На рисунках 3а – 3в представлены графики, иллюстрирующие данные таблицы 2. Рис. 3а – лучшие (по ср.-кв. ошибке) прогнозы от нейронных сетей при k > 4 , т.е. ИНС, построенные на 5 и более сочетаниях показателей, – налицо неадекватность поведения и большая ср.-кв. ошибка. Рис.3б – лучшие результаты прогнозов ИНС, построенных на 4-х сочетаниях – при сокращении размерности k-мерного временного ряда лучше угадывается тренд, однако по величине ср.-кв. ошибки ИНС все еще уступают статистическим методам (для представленных ИНС использовались следующие наборы показателей: 7-8-9, 6-7-9, 7-8-9 по табл.1). Рис.3в – лучшая ИНС, построенная на 3-х сочетаниях (7-9 по табл.1), а также регрессионные модели с предварительным снижением размерности и без него.

Реальн.
ИНС-1
ИНС-2
Рис. 3а. Результаты прогнозирования

Реальн.
ИНС-3
ИНС-4
ИНС-5
Рис. 3б. Результаты прогнозирования

Реальн.
ФА+лин.регр. лин.регр.
ИНС-5
Рис. 3в. Результаты прогнозирования
По результатам проведенных экспериментов можно сделать выводы о том, что применение искусственных нейронных сетей для прогнозирования НДФЛ позволяет добиваться прогноза как минимум не хуже результатов, получаемых статистическими методами, а также о том, что предварительное снижение размерности позволяет повысить качество прогноза.
Заключение
Таким образом, применение рассмотренной методики позволяет получать адекватный прогноз, который может быть использован в качестве одного из контрольных инструментов при построении прогноза, поскольку в качестве оснований для прогнозирования используются лишь исторические данные, что, впрочем, при сохранении трендов вполне уместно. Предсказание же изменения трендов остается привилегией макроэкономических методов.
Налицо такие преимущества методики, как способность к выявлению скрытых связей, универсальность подхода, широкие возможности повторного использования (reusability), естественные возможности распараллеливания.
Список литературы Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей
- Morantz B.H., Whalen T., Zhang P.G. A Weighted Window Approach to Neural Network Time Series Forecasting//Chapter 13 in P. Zhang (ed.) Neural Networks in Business Forecasting, IRM Press, 2004. -Р.251-265.
- Eshelman L.J., Schaffer J.D. Real-coded genetic algorithms and interval schemata//Foundation of Genetic Algorithms 2. -1993. -P. 187-202.
- Deb K., Kumar A. Realcoded genetic algorithms with simulated binary crossover: Studies on multimodal and multiobjective problems//Complex Systems. 9(6). -1995. -P. 431-451.
- Herrera F., Lozano M. Adaptation of genetic algorithm parameters based on fuzzy logic controllers//Genetic Algorithms and Soft Computing. -1996. -P. 95-125.