Сложности накопления данных для интеллектуального анализа

Бесплатный доступ

В этой статье рассматривается актуальная проблема сложности накопления данных для интеллектуального анализа. Автор представил основные понятия: данные и интеллектуальный анализ. Он также рассмотрел сложность, связанную с накоплением данных, в ситуациях, когда необходимо разработать базу данных и заполнить ее данными. Рекомендации, направленные на снижение риска возникновения описанных проблем, были предложены автором.

Короткий адрес: https://sciup.org/14319725

IDR: 14319725

Текст научной статьи Сложности накопления данных для интеллектуального анализа

Для лучшего восприятия и понимания статьи введём основные понятия данных и интеллектуального анализа. Данные – это результат фиксации и отображения информации на каком-либо материальном носителе. Интеллектуальный анализ данных (data mining) – совокупность методов, позволяющих обнаруживать в данных, ранее неизвестные и практически полезные знания. Для проведения интеллектуального ана- лиза необходимо использовать базу данных большого объёма. Это одно из самых главных правил. Хорошо, если стоит задача использовать готовую базу с массой накопленных данных, остаётся заняться только анализом, поиском и подбором методов для него. Но бывают и другие ситуации, когда необходимо разработать базу данных и наполнить её информацией. При рассмотрении таких ситуаций возника- ет ряд сложностей, которые относятся к накоплению данных, а именно:

– «неправильная» модель данных;

– недостаточно гибкая модель данных;

– «бесполезные» данные;

– недостаточность или нехватка материала (конкретных данных);

– получение новой информации о предметной области.

Каждые из этих сложностей тесно связаны между собой, то есть при обнаружении одной из них можно быть уверенным в появлении ещё каких-либо. Несмотря на то, что все эти принципы известны уже очень давно, чёткого и понятного ответа, как избежать их, до сих пор нет. Однако если пользоваться следующими рекомендациями, то можно свести риск появления сложностей к минимуму:

  • 1.    Использовать принцип гибкой модели данных.

  • 2.    Получить «полезные» данные.

  • 3.    Провести анализ недостаточного количества конкретных данных.

  • 4.    Проверить актуальность данных.

Как избежать неправильной модели данных?

Модель данных, соответствующая предметной области, никогда не будет построена правильно с первого раза. Проектирование модели данных очень сложная работа, именно поэтому к данному этапу нужно отнестись серьёзно. Собственно, здесь необходимо пользоваться существующими методами и подходами к построению надёжной модели данных. Главное помнить, что ошибка на этом этапе часто заставляет переделывать проект полностью.

Гибкая модель данных.

Одно из требований, которым должна отвечать любая модель – гибкость. Чем больше знаний о предметной области, тем больше шансов построить гибкую, устойчивую модель.

Получение «полезных» данных.

Многие очень часто сталкиваются с проблемой получения «бесполезных» данных. На самом деле таких данных просто не бывает. Несмотря на то, что в процессе работы можно получить данные, абсолютно неудовлетворяющие исходным требованиям, они всё ещё являются полезными. Такие данные свидетельствуют о ранее неизвестных отклонениях. Учёт этих отклонений необходим, поскольку позволяет провести анализ полученных отклонений и сделать вывод.

Недостаточное количество конкретных данных.

По этой теме проведено много исследований, однако проблема недостатка данных на сегодняшний день стоит очень остро. Нет конкретных правил о том, как её избежать. Необходимо лишь сделать выбор: работать с недостаточным количеством данных или нет.

Актуальность данных.

Нередки ситуации, когда существует огромное количество данных, но, к сожалению, они не являются актуальными. Такое может произойти при получении новой информации о предметной области. Чтобы этого не произошло, как уже было ранее сказано, необходимо проектировать гибкую модель данных, постоянно учитывать и анализировать получаемые отклонения.

В заключение заметим, что данных никогда не бывает много, поэтому нужно использовать все доступные рекомендации, литературу, мнения известных экспертов во избежание ошибок ещё на стадии проектирования системы.

Список литературы Сложности накопления данных для интеллектуального анализа

  • Макленнен, Дж. Microsoft SQL Server 2008: Data mining-интеллектуальный анализ данных/Дж. Макленнен, Чж. Танг, Б. Криват. -СПб.: БХВ-Петербург, 2009. -720с.
  • Чубукова, И. А. Data Mining/И. А. Чубукова. -М.: Интернет-университет информационных технологий, 2008. -382 с.
  • Барсегян, А. А. Анализ данных и процессов: учеб. пособие/А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. -3-е изд., перераб. и доп. -СПб.: БХВ-Петербург, 2009. -512 с.
  • Основные понятия интеллектуального анализа данных (службы Analysis Services -интеллектуальный анализ данных). URL: http://msdn.microsoft.com/ru-ru/library/ms174949.aspx
Статья научная