Построение модели оценки ожидаемой продолжительности жизни
Автор: Газдик С.Е., Невежин В.П.
Журнал: Экономика и социум @ekonomika-socium
Статья в выпуске: 6-2 (19), 2015 года.
Бесплатный доступ
В статье рассматривается процесс создания и оценки моделей множественной регрессии, позволяющих оценить ожидаемую продолжительность жизни. Описывается механизм отбора факторов для модели, оценки ее параметров на качество и адекватность, а также проверки самой регрессии на качество и адекватность. Проводится сравнение различных видов множественной регрессии и делается вывод по выбору наилучшей, отражающей реальные данные. Делается вывод о том, как, согласно полученной модели, на какие факторы следует обратить внимание с целью влияния на ожидаемую продолжительность жизни.
Ожидаемая продолжительность жизни, модель регрессии, параметры модели, коэффициент корреляции, коэффициент детерминации
Короткий адрес: https://sciup.org/140115063
IDR: 140115063
Текст научной статьи Построение модели оценки ожидаемой продолжительности жизни
Ожидаемая продолжительность жизни является одним из наиболее важных демографических показателей, характеризующих уровень жизни населения. Очевидна связь между уровнем жизни в стране и долголетием ее населения. Конечно, за последние 100 лет благодаря открытию новых лекарств и улучшению медицинского обслуживания удалось ощутимо увеличить ожидаемую продолжительность жизни. Наибольшее влияние оказал фактор борьбы с детской (особенно младенческой) смертностью. Однако в беднейших странах Азии и Африки ситуация все еще катастрофическая. Согласно данным CIA World Factbook, наименьшая ожидаемая продолжительность жизни в мире на 2015 год составила всего 49,81 год (государство Чад, имеется в виду агрегированный показатель для обоих полов) [1]. Для стран, близких по уровню жизни к упомянутой, вопрос оценки продолжительности жизни и, что еще более важно, выявление основных факторов, влияющих на нее, стоит чрезвычайно остро. Модель оценки и прогнозирования ожидаемой продолжительности жизни может помочь определить направления, в которых необходимо работать, чтобы изменить ситуацию, и сконцентрировать усилия на них. Поэтому актуальность рассмотренного исследования не вызывает сомнений.
В представленном исследовании произведены отбор и оценка факторов, которые оказывают воздействие на долголетие людей, и создание адекватной математической модели, с помощью которой можно как подсчитывать текущие значения ожидаемой продолжительности жизни, так и составлять прогнозы.
В целом, для построения эконометрической модели необходимо было выполнить четыре процедуры:
-
1) составить спецификацию модели;
-
2) собрать статистические данные по показателям, принятым в качестве объясняющих переменных в спецификации;
-
3) оценить параметры модели;
-
4) проверить адекватность параметров и оцененной модели. [2, c. 13]
Для проведения первого этапа построения модели были определены существенные факторы, оказывающие влияние на объясняемую переменную. Ученые, исследующие проблематику ожидаемой продолжительности жизни, выделяют множество различных факторов, оказывающих воздействие на данный показатель, как то:
-
- экономические;
-
- социальные;
-
- эколого-гигиенические;
-
- природные (климатические) и т.д. [3, c. 360]
При создании спецификации мы стремились охватить как можно больше указанных групп факторов, поэтому изначально для анализа было выбрано 6 показателей:
-
1) ВВП на душу населения (в долларах США);
-
2) доля женского населения (в %);
-
3) расходы на здравоохранение на душу населения (в долларах США);
-
4) доля населения, имеющая доступ к улучшенным средствам гигиены и санитарии (в %);
-
5) материнская смертность (количество на 100 тысяч рождений);
-
6) выбросы CO2 (в тоннах на душу населения).
Для того, чтобы модель была адекватной и ее оценки были несмещенными, нужно не допустить наличия в ней гетероскедастичности и автокорреляции остатков. Причинами возникновения гетероскедастичности могут быть, во-первых, неоднородность объектов исследования, во-вторых, характер наблюдения (особенно это касается временных рядов) [2, c. 141]. Для того, чтобы избавиться от потенциальной гетероскедастичности была взята выборка за один год по странам одного региона, схожих по уровню жизни населения (30 стран Европы). Все данные были взяты с сайта базы данных Всемирного банка за 2013 год [4].
Показатель «выбросы CO2» должен был отражать влияние экологических факторов, однако, его размерность, а также незначительный коэффициент корреляции с показателем ожидаемой продолжительности жизни (0,178) были основанием для исключения данного фактора из последующих расчетов. Остальные факторы были приняты к рассмотрению в указанном порядке с условными обозначениями x1, x2, …, x5. В качестве эндогенной переменной взята ожидаемая продолжительность жизни.
При анализе полученной модели были найдены следующие значения вектора корреляции R0, включающего значения коэффициентов корреляции между факторами xи эндогенной переменной y:
To = (0,731; -0,724; 0,655; 0,615; -0,557)
Помимо сравнения данных коэффициентов для определения факторов, которые должны попасть в спецификацию модели, отбор существенных объясняющих переменных множественной модели был произведен методом показателей информационной емкости. Он показал, что наиболее значимыми факторами являются ВВП на душу населения (x1), доля женского населения (x2) и доля населения, имеющая доступ к улучшенным средствам гигиены и санитарии (x4). Эти факторы с их статистическими данными были использованы для оценки параметров модели.
В исследовании проведен анализ множественной линейной и множественных нелинейных экономических моделей вида:
-
- линейная (y = a0 + al •xl + a2-x2 + ... + ak^xk + u );
-
- полиномиальная (y = a0 + a1x12 + a2x22 + … + akxk2 + ɛ);
-
- степенная (y = a0∙x1a1∙x2a2∙…∙xkak∙eɛ);
-
- гиперболическая (y = a0 + al/xl + a2/x2 + ... + ak/xk + u);
-
- показательная (y = a0^a1xka2x2-.. zakxk- e).
Применив инструмент «Регрессия» табличного процессора Excelбыли оценены параметры для всех представленных выше моделей (для этого все нелинейные модели были к линейным либо с помощью замены переменной, либо с помощью логарифмирования):
-
1) Линейная:
y = 115,907 + 0,000048 * x1 - 1,194 * x2 + 0,233 * x4
(17,5334) (0,000016) (0,3025) (0,0698) (1,6957)
-
2) Полиномиальная:
y = 99,667 + 0,0000000002 * x2 - 0,0136 * x2 + 0,0016 * x2
(9,7271) (0,0000000002) (0,0031) (0,0004) (1,8703)
-
3) Степенная:
y = 536,641 * x”251 * x'-0,7738’ * xj1911
(0,6916) (0,0045) (0,1508) (0,0666) (0,0171)
-
4) Гиперболическая:
y = 21,373 - 24537,859 * x1 + 3835,189 * x2 - 1531,593 * x4
(12,4597) (4133,9586) (553,6482) (440,3807) (1,3024)
-
5) Показательная:
у = 129,268 * 1,0000006 * 1 * 0,984 *2 * 1,003 *4 (0,2273) (0,00000021) (0,0039) (0,0009) (0,022)
Для всех моделей было доказано отсутствие гетероскедастичности и автокорреляции остатков. Качество полученных регрессий было доказано при использовании F-теста.
Таким образом, на основании проведенных исследований не удалось выявить наиболее/наименее адекватную модель. Больший интерес представляет проверка параметров на качество и адекватность. Для нее необходимо провести t-тест. Некачественными оказались только параметр a0 в гиперболической модели и a1 полиномиальной. Проверка адекватности параметров дала аналогичные результаты. Доверительные интервалы переходят через 0 только для параметра a0 в гиперболической модели и a1 полиномиальной. Это свидетельствует об их неадекватности. Однако стоит заметить, что параметр a0можно исключить из гиперболической модели достаточно легко, а вот исключение параметра a1 из полиномиальной ведет к исключению регрессора x1. Это означает, что необходимо будет провести повторную оценку модели. В том виде, в котором она была изображена, она не подходит для оценки ожидаемой продолжительности жизни. Кроме того, у нее самый маленький коэффициент детерминации (0,7305). Исключим ее из дальнейшего рассмотрения и сравним оставшиеся модели по таким показателям, как коэффициент корреляции и средняя ошибка аппроксимации:
Таблица 1- Сравнение моделей множественной регрессии
Тип регрессии |
R2 |
Средняя ошибка аппроксимации, Ā |
Линейная |
0,77848 |
1,58% |
Степенная |
0,8647 |
0,278% |
Гиперболическая |
0,8693 |
1,26% |
Показательная |
0,7775 |
0,36% |
Лучшей множественной регрессией по коэффициенту детерминации (R2) является гиперболическая. Также можно заметить достаточно высокий коэффициент детерминации у степенной модели. Кроме того, у них обеих достаточно небольшая средняя ошибка аппроксимации. В степенной модели все параметры являются качественными, в гиперболической – все, кроме a0, но этот параметр можно исключить. Принимая во внимание то, что коэффициент детерминации является наиболее значимым критерием выбора модели, а также относительную сложность расчетов при использовании степенной модели (среди всех видов нелинейных множественных регрессий), окончательный выбор делаем в пользу гиперболической модели.
Выводы: согласно проведенным тестам и расчетам лучшей моделью для расчета ожидаемой продолжительности жизни является гиперболическая модель, включающая три переменные (ВВП на душу населения (x1), доля женского населения (x2) и доля населения, имеющая доступ к улучшенным средствам гигиены и санитарии (x4)). Следует отметить, что для самых бедных стран достаточно тяжело повышать ВВП на душу населения, менять соотношение женского и мужского населения также не представляется возможным без применения каких-либо негуманных методов. Согласно данной модели, самым действенным методом повышения продолжительности жизни в каждой стране является облегчение людям доступа к средствам гигиены и санитарии (особенно следует выделить доступ к чистой питьевой воде, вакцинам от инфекционных заболеваний, современным больницам и пунктам медицинской помощи). Именно в этом направлении стоит вести деятельность правительственным организациям этих стран, а также функционирующим на территории беднейших стран Азии и Африки благотворительным организациям.
Список литературы Построение модели оценки ожидаемой продолжительности жизни
- COUNTRY COMPARISON: LIFE EXPECTANCY AT BIRTH//The World Factbook-URL: https://www.cia.gov/library/publications/the-world-factbook/rankorder/2102rank.html (дата обращения: 12.12.2015).
- Бабешко Л.О. Основы эконометрического моделирования: учебное пособие. -2 изд. -М.: КомКнига, 2006. -432 с.
- Фрумкин Д. Эволюция продолжительности жизни населения в пореформенной России//Вестник Института экономики Российской академии наук. -2008. -№4. -С. 360-369.
- World Bank Data//World Bank Group URL: http://data.worldbank.org/indicator (дата обращения: 05.12.2015).
- Колычева О.С., Зубов В.О., Невежин В.П. Анализ факторов, влияющих на формирование Индекса развития человеческого потенциала (ИРЧП)./В сборнике: Современное общество: научный взгляд молодых//Сборник статей и тезисов докладов XI международной научно-практической конференции студентов, магистрантов и аспирантов. 2015. С. 60-63.