Средства интеллектуального анализа данных в Microsoft SQL Server
Автор: Аверьянова Е.В.
Журнал: Экономика и социум @ekonomika-socium
Рубрика: Информационные и коммуникативные технологии
Статья в выпуске: 11-2 (30), 2016 года.
Бесплатный доступ
В статье написаны возможности SQL SERVER по проведению интеллектуального анализа данных
Интеллектуальный анализ данных
Короткий адрес: https://sciup.org/140116816
IDR: 140116816
Текст научной статьи Средства интеллектуального анализа данных в Microsoft SQL Server
Microsoft SQL Server предоставляет интегрированную среду для создания моделей Data Mining и работы с ними. Средства анализа данных OLAP и Data Mining объединены в две среды разработки: Business Intelligence Development Studio и SQL Server Management Studio. В Business Intelligence Development Studio можно создавать отсоединенные от сервера проекты. В этом случае готовый проект можно загрузить на сервер, но ничто не мешает работать с проектом, работающим с сервером напрямую.
Все средства для управления моделями Data Mining доступны в редакторе моделей. С его помощью можно создавать, просматривать, сравнивать разные модели, а также создавать на их базе прогнозы.
После создания модели можно провести ее анализ на предмет выявления интересных для нас шаблонов (паттернов) и правил. В зависимости от применяемого алгоритма в среде разработки используется различные представления просматриваемой модели.
Поскольку зачастую проект содержит несколько моделей Data Mining, то возникает задача определения наиболее адекватной из них. Для решения этой задачи в редакторе присутствует средство сравнения моделей Mining Accuracy Chart. С использованием этого инструмента можно предсказать точность модели и выбрать лучшую их них.
Для создания прогнозов используется язык Data Mining Extensions (DMX), который является расширением SQL и содержит команды для создания, изменения и осуществления предсказаний на основании различных моделей. Создание таких прогнозов может быть сложной задачей, поэтому в редакторе присутствует инструмент под названием Prediction Query Builder, которых представляет собой визуальное средство создания DMX-запросов.
Кроме инструментария для работы с моделями, не менее значимыми являются и способы создания моделей. Ключевым моментом создания модели является выбор алгоритма обнаружения данных. SQL Server Analysis Services включает в себя следующие девять алгоритмов:
-
• Дерево решений (Microsoft Decision Trees)
-
• Кластеризация (Microsoft Clustering)
-
• "Наивный" Байес (Microsoft Na?ve Bayes)
-
• Кластеризация последовательностей (Microsoft Sequence Clustering)
-
• Временные ряды (Microsoft Time Series)
-
• Ассоциативные правила (Microsoft Association)
-
• Нейронная сеть (Microsoft Neural Network)
-
• Линейная регрессия (Microsoft Linear Regression)
-
• Логистическая регрессия (Microsoft Logistic Regression)
Используя комбинацию этих алгоритмов можно создавать решения для большей части встречающихся задач по обнаружению скрытых закономерностей в больших объемах данных.
Наиболее важные шаги создания модели Data Mining состоят в получении, объединении, очистке и предобработке данных для дальнейшего использования алгоритмом. В состав SQL Server входят средства преобразования данных - SQL Server Integration Services (SSIS), которые позволяют объединять, очищать, проверять и проводить предварительную обработку данных.
Рынок систем Data Mining экспоненциально развивается. В этом развитии принимают участие практически все крупнейшие корпорации. В частности, Microsoft непосредственно руководит большим сектором данного рынка (издает специальный журнал, проводит конференции, разрабатывает собственные продукты).
Системы Data Mining применяются по двум основным направлениям:
-
1. как массовый продукт для бизнес-приложений;
-
2. как инструменты для проведения уникальных исследований (генетика, химия, медицина и пр.).
В настоящее время стоимость массового продукта от $1000 до $10000. Количество инсталляций массовых продуктов, судя по имеющимся сведениям, сегодня достигает десятков тысяч. Лидеры Data Mining связывают будущее этих систем с использованием их в качестве интеллектуальных приложений, встроенных в корпоративные хранилища данных.
Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных if-then правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются.
Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, WizWhy), либо строят деревья решений (алгоритмы CART, CHAID, ID3, See5, Sipina и др.), имеющих принципиальные ограничения эффективности поиска if-then правил. Другие проблемы связаны с тем, что известные методы поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. Удачное решение указанных проблем может составить предмет новых конкурентоспособных разработок.
Список литературы Средства интеллектуального анализа данных в Microsoft SQL Server
- Библиотека MSDN (по-русски) . -Электрон. дан. -2010. -Режим доступа: http://msdn.microsoft.com/library/ms123401 (15.12.2010)
- Интеллектуальный анализ данных (Data Mining) по версии Microsoft . -Электрон. дан. -2009. -Режим доступа: http://microsoftbi.ru/2009/08/05/data-mining (15.12.2010)
- Интеллектуальный анализ данных . -Электрон. дан. -2009. -Режим доступа: http://v8.1c.ru/consolid/1018.htm (15.12.2010)
- Интеллектуальный анализ данных в системах поддержки принятия решений . -Электрон. дан. -2009. -Режим доступа: http://www.osp.ru/os/1998/01/179360 (15.12.2010)