Реализация методов статистического анализа с использованием информационных технологий
Бесплатный доступ
В связи с активным развитием цифровизации, использование информационных технологий в статистическом анализе приобретает особую актуальность. Автор выделяет основные преимущества использования информационных технологий в статистическом анализе, такие как повышение скорости обработки данных, улучшенная точность результатов и возможность автоматизации процессов анализа.
Случайные события, факторный и результативный параметры, корреляционный, регрессионный и дисперсионный анализ данных, статистика
Короткий адрес: https://sciup.org/14136727
IDR: 14136727 | УДК: 311.2 | DOI: 10.23672/SAE.2024.4.4.043
Implementation of statistical analysis methods using information technologies
In connection with the active development of digitalization, the use of information technologies in statistical analysis is becoming particularly relevant. The author highlights the main advantages of using information technology in statistical analysis, such as increased data processing speed, improved accuracy of results and the ability to automate analysis processes. Object: practical application of information technology in statistical research. Research object: research of methods and tools that allow modern researchers to effectively conduct statistical analysis of information, as well as the practical application of statistical methods using the example of various information technologies, such as data analysis software, databases and results visualization tools.
Текст научной статьи Реализация методов статистического анализа с использованием информационных технологий
Введение .
Актуальность применения информационных технологий для статистического анализа данных обусловлена, в первую очередь, растущим объемом информации, которая поступает для обра-
ботки из различных источников. Современное общество переживает этап цифровизации всех сфер жизнедеятельности, в результате которого появляется огромное количество структурированных и неструктурированных данных, требующих анализа. Эффективная обработка такого массива информации без использования ИТ-инструментов становится практически невозможной. Кроме того, быстрота и точность анализа с использованием информационных технологий значительно превосходят традиционные методы обработки данных [4].
Второй аспект актуальности связан с необходимостью принятия обоснованных управленческих, экономических и социальных решений. В условиях высокой конкуренции и быстро меняющейся экономической ситуации, важность принятия правильных решений, основанных на анализе больших данных возрастает. Информационные технологии позволяют не только быстро собирать и анализировать данные, но и представлять их в удобном для восприятия виде, что является ключевым фактором в процессе принятия решений на всех уровнях управления [1].
В профессиональной деятельности, а также в научных исследованиях люди часто сталкиваются с событиями и явлениями с непредсказуемым исходом. При этом приходится принимать важные решения на их основе. В быту такие решения принимаются на основе здравого смысла, интуиции, предыдущего опыта. Однако в практической сфере решения принимаются на основе детального анализа имеющейся информации.
Результаты .
Разработанные математической статистикой методы анализа данных, связанные с влиянием случайных воздействий, позволяют выявлять закономерности на фоне случайности, делать обоснованные выводы и прогнозы, а также оценивать вероятность их выполнения.
В данной статье рассматривается реализация данных методов с использованием информационных технологий.
Стохастические зависимости отличаются непредсказуемостью, многие объекты имеют параметры, характеризуемые количественными показателями. Некоторые из показателей влияют друг на друга. Такие показатели называют факторными. Каждой величине факторного показателя или аргумента может соответствовать некоторое значение результативного показателя или функции [6].
При анализе факторных показателей, мы часто сталкиваемся с понятием корреляции. Корреляция позволяет нам оценить степень взаимосвязи между двумя количественными переменными. Сильная корреляция указывает на то, что изменение одного показателя склонно сопровождаться изменением другого в определённом направлении. Однако важно помнить, что корреляция не говорит нам о причинно-следственной связи – она только обнаруживает связь без объяснения причин такой зависимости.
Другой важной задачей корреляционного анализа является определение влияния факторов на величину результата. Для решения этой задачи подбирается необходимый тип математической модели, которая лучше отражает характер исследуемой связи (прямой, обратной и других). Подбор математической модели или уравнения играет важную роль в корреляционном анализе, потому что от него зависит ход решения задачи и результаты расчетов [9].
Эффективным статистическим методом изучения взаимосвязей переменных, из которых одна рассматривается как зависимая, а другие - как независимые, является регрессионный анализ. В его основе лежит уравнение регрессии, которое показывает, каким будет в среднем изменение зависимой переменной y, если независимые переменные xi примут конкретные значения [8].
Регрессионный анализ не только выявляет силу взаимосвязи между переменными, но и предоставляет возможность проверки гипотез о характере этих взаимосвязей. Используя статистические тесты, такие как t-критерий Стьюдента для коэффициентов регрессии, исследователи могут оценить, насколько значимо влияние независимых переменных на зависимую переменную. Это позволяет отличать значимые предикторы от случайных колебаний, обеспечивая тем самым более надежное основание для прогнозирования и принятия решений [3].
С другой стороны, дисперсионный анализ (ANOVA) используется, когда необходимо оценить влияние одной или нескольких категориальных независимых переменных на непрерывную зависимую переменную. ANOVA позволяет нам проверить гипотезу о том, что средние значения групп, сформированных на основе категориальных переменных, различаются. Это критически важно во многих областях исследований, включая клинические испытания, где изучается эффективность лекарств, или в маркетинговых исследованиях, где анализируется влияние рекламных кампаний на поведение потребителей [5].
Обсуждение .
Для реализации методов математической статистики с помощью информационных технологий используется такой мощный инструмент проведения статистического анализа как табличный процессор Microsoft Excel.
На вкладке Данные ленты Microsoft Excel расположена надстройка Анализ данных, применяемая для проведения статистического анализа. Надстройка Анализ данных содержит такие статистические инструменты, как Корреляция, Регрессия, Однофакторный дисперсионный анализ и Двухфакторный дисперсионный анализ.
Кроме этого, при выполнении статистических расчетов применяются статистические функции табличного процессора.
Для корреляционного анализа данных используют статистическую функцию КОРРЕЛ (мас-сив1; массив2).
Здесь:
Массив1 – это интервал ячеек одной случайной величины.
Массив2 – это второй диапазон ячеек со значениями другой случайной величины.
Параметры a0 и a1 линейной регрессионной модели y = a0 + a1x, можно определить с помощью функций НАКЛОН и ОТРЕЗОК.
Функция НАКЛОН определяет угловой коэффициент наклона линии тренда, а функция ОТРЕЗОК – точку пересечения линии тренда с осью ОУ.
Для дисперсионного анализа данных, при котором происходит сравнение внутригрупповых и межгрупповых дисперсий, можно применять статистические функции Дисп.В, Дисп.Г, диспа, дис-пра для выборки или генеральной совокупности [7].
Заключение .
Таким образом, табличный процессор Microsoft Excel предоставляет большое количество возможностей для определения статистических закономерностей массивов данных.
Сочетание мощного функционала и дружественного интерфейса привело к тому, что табличный процессор Microsoft Excel является одним из