Применение технологий интеллектуального анализа данных для прогнозирования изменений кадровой политики образовательных учреждений

Автор: Кистанова И.А., Никифорова М.А.

Журнал: Теория и практика современной науки @modern-j

Рубрика: Основной раздел

Статья в выпуске: 10 (16), 2016 года.

Бесплатный доступ

Статья посвящена описанию и особенностям методов интеллектуального анализа данных. Рассматриваются метод деревьев решений, байесовской классификации и метод «ближайшего соседа». Используем эти методы для прогнозирования изменений в кадровой политике образовательных учреждений.

Интеллектуальный анализ данных, байесовская классификация, прогноз, метод деревьев решений, метод "ближайшего соседа"

Короткий адрес: https://sciup.org/140267288

IDR: 140267288

Текст научной статьи Применение технологий интеллектуального анализа данных для прогнозирования изменений кадровой политики образовательных учреждений

В современном мире сфера применения интеллектуального анализа данных (ИАД) ничем не ограничена - она применяется везде, где имеются какие-либо данные. Существует множество методов интеллектуального анализа данных (ИАД), но в зависимости от области применения, состава и количества исходных данных выбираются различные методы и/или их комбинации. Не исключением является и сфера образования и все составляющие её процессы, в которой имеется множество входных данных и случайных величин и для анализа которых целесообразно применение методов ИАД.

В качестве исходных данных для решения поставленной задачи используем статистику поступающих абитуриентов по нескольким годам. Для ее анализа применим такие методы, как байесовская классификация, деревья решений и «ближайшего соседа» (CBR) и сравним точность использования этих методов и полученные результаты. Рассмотрим более подробно каждый из методов ИАД.

Байесовская классификация или метод байесовских сетей, изначально использовалась для формализации знаний экспертов в экспертных системах, чуть позже нашла применение в методах ИАД. Наиболее простой и часто используемый подход при применении байесовской классификации – наивно-байесовских подход (наивная классификация). Он помогает решать задачи классификации и результатом его использования являются так называемые «прозрачные» модели. Свое название этот подход получил, потому что исходит из предположения о взаимной независимости признаков. Метод использует все имеющиеся переменные и определяет все зависимости между ними, а затем строит предположения о том, что все переменные являются одинаково важными, либо переменные являются статистически независимыми друг от друга.

Преимуществами байесовских сетей, как метода ИАД являются:

  • —    легкая обработка ситуации с неизвестными значениями переменных из-за определения зависимости между всеми переменными;

  • —    простая интерпретация и за счет этого упрощение анализа по сценарию «что, если» на этапе прогнозирования;

  • —    совмещение закономерностей и экспертных знаний, полученных в явном виде естественным образом;

  • —    избежание проблем переучивания (overfitting), то есть избыточного усложнения модели.

При этом данный метод так же имеет ряд недостатков:

— перемножение условных вероятностей происходит без соблюдения условия статистической независимости входных переменных, что может привести к некорректности данных;

— обработка непрерывных переменных происходит при преобразовании их к интервальной шкале, чтобы атрибуты были дискретными, что может привести к потере значимых закономерностей;

— на результаты данного подхода влияют только индивидуальные значения переменных, комбинированное влияние пар или троек значений разных атрибутов здесь не учитывается.

Наиболее популярным подходом при решении задач ИАД являются деревья решений (decision trees). При помощи классифицирующих правил «Если… то…» они создают иерархическую структуру, имеющую вид дерева. После ответа на вопросы стоящие в узлах дерева, начиная с его корня, принимается решение к какому классу отнести тот или иной объект или ситуацию. Данные вопросы имеют вид «значение параметра А больше х?». При положительном ответе на вопрос, осуществляется переход к правому узлу следующего уровня, при отрицательном - к левому. Далее снова следует вопрос, связанный уже с текущим узлом.

Популярность деревьев решений обуславливается их простотой и наглядностью. Однако данный подход не способен находить наиболее полные и точные правила в данных, поскольку при нем используется принцип последовательного просмотра признаков без выявления настоящих закономерностей.

Метод «ближайшего соседа» является системой рассуждения на основе аналогичных случаев. Для выбора правильного решения или составления прогноза на будущее, эти системы находят в прошлом близкие аналоги данной ситуации и предлагают тот же ответ, который был для них правильным.

Минусом данного подхода является то, что эти системы вообще не создают каких-либо моделей или правил из предыдущего опыта. При принятии решения они основываются на всем массиве исторических данных, поэтому невозможно понять на основе каких конкретно факторов CBR строят свои ответы.

Еще одним минусом является произвол, который допускают системы CBR при выборе меры «близости». Эта мера определяет объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительных результатов при классификации или прогнозе.

Во всех рассмотренных выше методах используются разные методы прогнозирования, разная точность расчетов, однако на выходе получаются схожие результаты. Итак, с помощью описанных методов предлагается спрогнозировать число необходимых ставок преподавателей в зависимости от изменения числа обучающихся студентов и количества сформированных групп, а также дисциплин в учебной нагрузке. Берется статистика по числу ставок необходимых для определенного числа обучающихся. Затем рассчитывается, сколько ставок необходимо добавить или убрать для нормального функционирования учебного процесса. Также возможен вариант, что существующее число ставок является оптимальным, и ничего менять не придется. В качестве входных данных будет использоваться число обучающихся студентов, число учебных групп и число учебных дисциплин. На выходе получим число ставок преподавателей в формате ±n или 0, где n-количество ставок, которые необходимо прибавить или отнять.

Практическая ценность применения методов ИАД для прогнозирования учебной нагрузки в образовательных учреждениях в том, что правильное и своевременное планирование кадрового обеспечения позволит организации производить управление учебным процессом без лишних кадровых и как следствие материальных затрат. А эта проблема является актуальной в связи с переходом на двухуровневую систему высшего образования, а также ввиду меняющейся демографической обстановки.

Список литературы Применение технологий интеллектуального анализа данных для прогнозирования изменений кадровой политики образовательных учреждений

  • Салмин А.А., Никифорова М.А. Формирование модели управления кадровой политикой образовательного учреждения на основе имитационного моделирования / Информационные технологии моделирования и управления. 2016. Т. 97. № 1. С. 45-54.
  • Салмин А.А., Кистанова И.А. Совершенствование бизнес-процессов предприятия средствами технологии Data Mining / Символ науки. 2016. № 2-2. С. 76-78.
  • Чернова С.В., Салмин А.А. Применение категориального анализа в профессиональной ориентации абитуриентов / Известия Самарского научного центра Российской академии наук. Социальные, гуманитарные, медико-биологические науки. 2010. Т. 12. № 3-3. С. 683-688.
Статья научная