Краткий экскурс в особенности Data Mining

Автор: Лещева Д.В.

Журнал: Теория и практика современной науки @modern-j

Статья в выпуске: 12-1 (18), 2016 года.

Бесплатный доступ

В статье рассмотрены основные характеристики системы Data Mining.

Анализ данных, принятия решений, извлечение знаний, закономерность

Короткий адрес: https://sciup.org/140267841

IDR: 140267841

Текст научной статьи Краткий экскурс в особенности Data Mining

В связи с развитием способов хранения и использования данных число анализируемой информации увеличивается с каждым днем все больше и больше, в огромных масштабах. Количество информации настолько обширно, что человек просто не в состоянии проанализировать ее всю, хотя это необходимо, поскольку в этих "сырых" данных может содержаться востребованная информация для принятия важных решений. Собственно для того, чтобы проанализировать весь поток и применяется Data Mining.

Data Mining - процедура выявления в "сырых" данных до недавних пор неизвестных уникальных и полезных толкований знаний, требующихся для принятия решений во многообразных сферах общественной жизни. Data Mining является одним из шагов Knowledge Discovery in Databases.

История области Data Mining началась с семинара, проведённого Григорием Пятецким-Шапиро (в настоящее время является президентом и главным редактором сайта KDnuggets.com, а также основателем Data Mining) в 1989 году. Он, ранее работая в корпорации GTE Labs, увлекся задачей автоматического нахождения способов для ускорения некоторых запросов к объемным базам данных. Именно в то время и появилось два термина - Data Mining ("нахождение данных") и Knowledge Discovery in Data (который следует переводить как "открытие знаний в базах данных"). В 1993 году возникла первая рассылка "Knowledge Discovery Nuggets", а в 1994 году и был создан один из первых сайтов по Data Mining.

Алгоритмам, задействованным в Data Mining, необходимо огромное число вычислений. Первоначально это было неким ограничивающим фактором от массового практического использования Data Mining, хотя теперь эта проблема утратила актуальность благодаря техническому росту производительности процессоров. Поэтому в настоящее время появилась возможность совершать точный анализ сотен тысяч и миллионов записей.

Итак, перейдем к задачам, решаемым с помощью методов Data Mining:

  • 1.    Классификация - это открытие некоторых свойств у объектов (событий), которые могут позволить причесть их к тому или иному прежде известному классу.

  • 2.    Регрессия, включающая и прогнозирование - нахождение зависимости непрерывных выходных данных от переменных входных сведений.

  • 3.    Кластеризация - это объединение объектов  (наблюдений,

  • 4.    Ассоциация - нахождение регулярной зависимости между связанными между собой событиями. В качестве примера можно привести правило, заключающее, что из события X следует событие Y. Один несхожий признак с вышеописанными задачами -ассоциативное обнаружение закономерностей опирается не на анализ свойств объекта, а на рассмотрение нескольких событий, которые происходят в одно и то же время.

  • 5.    Последовательные шаблоны - обнаружение закономерностей между связанными в течение времени событиями, т. е. нахождение зависимости, что если произойдет событие X, то через некоторое время произойдет и событие Y.

  • 6.    Анализ отклонений – выявление наиболее нехарактерных шаблонов.

событий), основанное  на данных (свойствах),  объясняющих сущность этих объектов. Позволяет группировать объекты при изначальном отсутствии самих классов.

Итак, мы рассмотрели теоретические аспекты технологии Data Mining, задачи, решаемые системой, возможность ее применения и пришли к выводу, что в современном мире аналитическая обработка данных занимает отнюдь не последнее место и использование средств Data Mining заметно облегчает работу специалистам, увеличивая их производительность.

Список литературы Краткий экскурс в особенности Data Mining

  • https://basegroup.ru/community/articles/data-mining
  • http://www.swsys.ru/index.php?page=article&id=297&lang=ru
  • http://rtb-media.ru/wiki-data-mining/
Статья научная