Анализ существующих методов решения Data Mining

Автор: Вострова К.С.

Журнал: Теория и практика современной науки @modern-j

Рубрика: Основной раздел

Статья в выпуске: 1 (31), 2018 года.

Бесплатный доступ

Актуальность заключается в том, что в настоящее время часто используют алгоритмам Data Mining. Это связано с тем, что его важнейшим назначением является наглядное представление результатов вычислений, что позволяет использовать инструментарий Data Mining людям, не имеющим специальной подготовки.

Машинное обучение, регрессия, кластеризация, ассоциация, системы прогнозирования

Короткий адрес: https://sciup.org/140272249

IDR: 140272249

Текст научной статьи Анализ существующих методов решения Data Mining

Стоит сказать, что машинное обучение неотъемлемо связано с наукой о данных. Это, так называемая, методология искусственного обучения, которую применяют для анализа большого количества данных. Иначе говоря, это лёгкая возможность обучения системы, а также доступное получение статистик. При данном обучении для проектирования модели используется исходный набор данных. Машинное обучение можно применять для различной сложности систем: от регрессионных моделей до построения нейронных сетей. Главное – обучить систему, чтобы она сумела распознать и спрогнозировать.

Есть масса применений: например, системы, которые могут спрогнозировать поведение пользователя; системы, которые распознают и вовремя отфильтровывают спам; рекомендательные системы, которые могут грамотно предложить товар или услугу по его личным интересам; а также нейронные сети, которые могут не только распознавать образы, но и сами их проектировать.

Исходные данные первоначально не систематизированы и своего рода хаотичны, ведь они взяты из различных источников и носят неточный характер. Такие данные без обработки могут быть неправдивыми, что усложнит работу аналитика. DataMining – процесс «очистки» больших данных и предподготовки их к дальнейшей работе с использованием различных алгоритмов. Аналитик должен иметь такие качества, как распознавательное чутьё, интуицию, терпеливость и технические навыки для слияния и трансформации большого количества отобранных данных. Задачи DataMiningразделяются по типам производимой информации. Классы задач, решаемые DataMining:

  • 1)    Классификация (обучение с учителем) – установление зависимости дискретной выходной переменной по входным переменным. Это один из самых распространённых классов задач DataMining, здесь выявляются какие-либо признаки, которые дают характеристику

совокупности объектов исследуемого набора данных, то есть классы. И уже исходя из этого по выявленным признакам (качествам) полученный объект может быть отнесён к какому-либо классу. Для данного класса могут применяться методы «ближайшего соседа», «k-ближайшего соседа», «Байесовские сети», «нейронные сети;

  • 2)    Регрессия – установление зависимости непрерывной выходной переменной от входной. Примером регрессии могут быть почтовые рассылки, борьба с мошенничеством;

  • 3)    Кластеризация (обучение без учителя) – группировка объектов на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожи друг на друга и отличаться от других, которые вошли в другой кластер. Этот класс задач является своего рода продолжением класса классификации, но в отличие от него здесь решаются более трудные задачи. Особенность состоит в том, что объекты, принадлежащие классам, первоначально не определены и не заданы. Результатом метода будет являться разделение объектов на группы. Кластерные задачи решаются с помощью нейронных сетей и деревьев-решений. Например, обучение «без учителя» или карты Кохонена;

  • 4)    Ассоциация – выявление закономерностей между связанными событиями. С помощью данного класса решаются ассоциации. В ходе решения данного типа задач ищутся закономерности между связанными событиями в наборе данных. Отличие класса ассоциации от классификации и кластеризации заключается в поиске закономерностей между событиями, происходящими одновременно, а не через поиск закономерностей между свойствами объектов. Как пример – алгоритм Apriori;

  • 5)    Последовательные шаблоны – установление закономерностей между связями во времени событий. Две последовательности часто объединяются в анализ связи. Данный класс значит, что после какого-то определённого события через определённое количество времени обязательно

произойдёт какое-то другое событие. Примерами решения данного класса очень часто являются задачи маркетинга и менеджмента;

В настоящий момент существует несколько моделей решения данной проблемы: линейная и логистическая регрессия, карты Кохонена, дерево обоснованных методов. В данной работе был выбран метод логистической регрессии.

Этот метод является статистическим, логистическую регрессию часто используют в науке. В логистической регрессии не делается предсказание значения числовой переменной исходя из выборки исходных значений. Значением функции выступает вероятность того, что имеющееся значение принадлежит какому-то конкретному классу. Ключевая идея этого метода – пространство значений может быть разделено прямой на две области соответствующих классов. Прямая разделения задаётся исходя из обучающего алгоритма и исходных данных. А исходные данные должны быть предварительно разделены на выше сказанные области. Для определения коэффициентов можно использовать любые градиентные методы. Эта модель применима для решения задач классификации. Наибольшим преимуществом данного метода является высокая эффективность оценки качества проектируемой модели.

Список литературы Анализ существующих методов решения Data Mining

  • DataMining - добыча данных [электронныйресурс]. - Режимдоступа: URL: https://basegroup.ru/community/articles/data-mining.
  • Аналитическая платформа Deductor [электронный ресурс]. - Режим доступа: URL: http://www.intuit.ru/studies/courses/6/6/lecture/208?page=3.
  • Технология DataMining[электронный ресурс]. - Режим доступа: URL:http://www.arshinov74.ru/files/files/10.pdf.
Статья научная