Аналитическая обработка данных в реальном времени

Автор: Погонышева Дина Алексеевна, Морозова Елена Ивановна, Морозов Станислав Владимирович

Журнал: Вестник образовательного консорциума Среднерусский университет. Информационные технологии @vestnik-university

Статья в выпуске: 1 (7), 2016 года.

Бесплатный доступ

В статье раскрывается сущность технологии OLAP, которую называют интерактивной аналитической обработкой. Она дает возможность на основе многомерной модели данных (в отличие от плоской реляционной модели данных) моделировать реальные структуры и связи, которые исключительно важны для аналитических систем.

Эдгар кодд анализ, требования, режим реального времени, технология, многомерность, данные, документы, отчёты, скорость, обработка, распределённая система управления, база данных

Короткий адрес: https://sciup.org/140129943

IDR: 140129943

Текст научной статьи Аналитическая обработка данных в реальном времени

OLAP (от англ. OnLine Analytical Processing – оперативная аналитическая обработка данных, также: аналитическая обработка данных в реальном времени, интерактивная аналитическая обработка данных) – это подход к аналитической обработке данных, базирующийся на их многомерном иерархическом представлении, являющийся частью более широкой области информационных технологий – бизнес – аналитики.

Технология обработки информации, включающая составление и динамическую публикацию отчётов и документов. Применяется аналитиками для скорой обработки сложных запросов к базе данных. Необходима для подготовки бизнес-отчётов по продажам, маркетингу, в целях управления, т. н. Data Mining – добыча данных (метод анализа информации в базе данных с целью отыскания аномалий и трендов без выяснения смыслового значения записей). Основоположником термина OLAP является Эдгар Кодд, который предложил в 1993 году «12 законов аналити- ческой обработки в реальном времени» [1].

OLAP – средства осуществляют проведение анализа деловой информации по множеству критериев, таких как вид товара, географическое положение покупателя, время оформления сделки и продавец, каждый из которых допускает формирование иерархии представлений. К примеру, для времени можно применять годовые, квартальные, месячные и даже недельные и дневные промежутки; географическая разбивка возможна по городам, штатам, регионам, странам или по полушариям.

Главное требование, предъявляемое к OLAP-системам – скорость, лежащая в основе процесса интерактивной работы аналитика с информацией. В этой части OLAP-системы противопоставляются, во-первых, традиционным распределенных систем управления базами даннных (далее РСУБД), отбор из которых типовых для аналитиков запросов, использующих группировку и агрегирование данных, обычно затратны по времени ожидания и загрузке РСУБД, а интерактивная работа с ними при значительных объемах данных является сложной.

Во-вторых, OLAP-системы противопоставляются и обычному плоскофайловому представлению данных, например, в виде часто используемых традиционных электронных таблиц, отражение многомерных данных в которых сложно и не интуитивно, а операции по смене среза – с точки зрения на данные требуют временных затрат и еще более усложняют интерактивную работу с данными.

Термин OLAP, открытый Эдгаром Коддом (Edgar Codd) для разденления таких систем с OLTP-системами (от англ. OnLine Transaction Processing – обработка транзакций в реальном времени), некоторые эксперты считают слишком широким. В связи с этим, Найджел Пендс (Nigel Pendse) предложил использовать для описания этой концепции взамен предложенных Коддом 12-ти правил OLAP так называемый тест FASMI (от англ. Fast Analysis of Shared Multidimensional Information – это быстрый анализ доступной многомерной информации), более точно харакетеризу-ющий требования к OLAP системам [2].

Fast (быстрый) – отражает требование к скорости реакции системы. По Пендсу, интервал с момента инициации запроса до получения результата должен измеряться секундами. Значимость этого требования возрастает при использовании таких систем в качестве инструмента оперативного представления данных для аналитика, так как долгое время ожидания может отрицательно влиять на концепцию аналитика.

Analysis (анализ) – указывает на адаптацию системы к использованию в релевантной для задачи и пользователя бизнес-логике с сохранением доступной «обычному» пользователю легкости оперирования данными без применения низкоуровневого специального инструментария.

Shared (доступность, общедоступность) – отражает реальное требование к уровню одновременного многопользовательского доступа к информации с интегрированной системой разграничения прав доступа с точностью до уровня конкретной ячейки данных.

Multidimensional (многомерность) – является основным требованием концепции. При этом система должна полностью поддерживать многомерное иерархическое представление как «наиболее логичный путь анализа бизнеса и организаций». Многомерность – это модель концептуального представления данных, которую пользователь должен организовать при формировании запросов [2].

Многомерность в рамках OLAP предполагает концептуальное представление данных в виде многомерной структуры данных – гиперкуба (OLAP-куба), рёбрами в котором выступают измерения(dimension), а данные (facts – факты; measures – меры, показатели) расположены на пересечении осей измерений.

При этом измерение обычно представляет собой плоский или иерархический список. Например, измерение «Партнёры» может включать список партнёров компании; измерение «Время» – может отражать список филиалов с географической группировкой (регион мира, страна, регион, город, филиал).

Если в качестве меры определён объём продаж, то на срезе по измерениям «Партнёры» и «Время» будем иметь таблицу с данными об изменении объема продажа по партнёрам во времени. В качестве заголовков строк и столбцов этой таблицы будут выступать наши измерения – «Время» и «Партнёры», а в ячейках на пересечении строк и столбцов будут расположены значения меры, т. е. данные об объеме продаж в конкретный период времени для конкретного партнёра.

Information (информация) – это все релевантные целям пользователя данные, при этом наличие «лишних» данных негативно отражается на скорости реакции системы.

OLAP – системы можно разбить на три класса. Самыми сложными и дорогими среди них являются построенные на патентованных технологиях серверы многомерных баз данных. Эти системы выполняют полный цикл OLAP – обработки и включают в себя, помимо серверного компонента, собственный интегрированный клиентский интерфейс; используют для анализа внешние программы взаимодействия с электронными таблицами.

Продукты этого класса соответствуют уровню использования в рамках крупных информационных хранилищ. Необходим целый штат сотрудников, занимающихся установкой и сопровождением системы и формированием представлений данных для конечных пользователей. Подобные пакеты довольно дороги в обиходе. В качестве примеров продуктов данного класса можно привести систему Essbase корпорации Arbor Software , Express фирмы IRI (входящей теперь в состав Oracle ), Lightship производства компании Pilot Software и другое программное обеспечение [3].

Одним из способов обеспечения оперативной обработки анализируемых данных является их организация в виде многомерных баз данных (MDD). Информация в MDD хранится не в виде индексированных записей в таблицах, а в форме логически упорядоченных файлов. Единой общепризнанной многомерной модели хранения данных не придумали. В MDD отсутствует стандартизованный метод доступа к данным, и они могут отвечать требованиям специфической аналитической обработки данных.

В заключение, сравнение между различными MDD – продуктами можно проводить только по самым общепринятым понятиям. В более дешевом секторе рынка предлагаются только однопользовательские и предназначенные для небольших локальных сетей средства просмотра многомерных данных. Хотя они обладают очень высоким уровнем функциональных возможностей и удобны в применении.

Эти системы ограниченны по своему масштабу. и им недостает средств, необходимых для реализации OLAP – обработки в более широком смысле. В эту категорию попадает следующее программное обеспечение: PowerPlay корпорации Cognos; PaBlo фирмы Andyne и Mercury компании Business Objects .

Более дорогой сектор рынка представляет системы Acumate ES фирмы Kenan Technologies; Express корпорации Oracle; Gentium компании Planning Sciences и Holos фирмы Holistic Systems . Они сильно отличаются по своим возможностям, что каждую из них можно выделять в индивидуальную категорию. И наконец, на рынке имеются MDD – системы в чистом виде: Essbase корпорации Arbor Software; LightShip Server фирмы Pilot Software и TM /1 компании Sinper [ N . Raden (Рынок программных средств)].

Второй класс OLAP – средств – реляционные OLAP – системы (ROLAP). В них для хранения данных применяются реляционные системы управления базами данных, а между базой данных (БД) и клиентским интерфейсом организуется определяемый администратором системы слой метаданных. Через промежуточный слой клиентский компонент взаимодействует с реляционной базой данных как с многомерной базой.

ROLAP – системы полностью приспособлены для работы с крупными информационными хранилищами, требуют значительных затрат обслуживания специалистами информационных подразделений и предусматривают работу в многопользовательском режиме. Среди продуктов этого типа – IQ / Vision корпорации IQ Software, DSS / Server и DSS / Agent фирмы MicroStrategy и DecisionSuite компании Information Advantage. ROLAP – средства реализуют функции поддержки принятия решений в надстройке над реляционным процессором базы данных.

ROLAP – программные продукты должны отвечать ряду требований, в частности:

  • •    иметь мощный оптимизированный для OLAP генератор SQL -выражений, позволяющий применять многопроходные SQL – операторы SELECT и/или коррелированные подзапросы;

  • •    иметь достаточно развитые средства для проведения нетривиальной обработки, обеспечивающей ранжирование, сравнительный анализ и вычисление процентных соотношений в рамках класса;

  • •    генерировать SQL – выражения, оптимизированные для целевой реляционной СУБД, включая поддержку доступных в ней расширений этого языка;

  • •    иметь в наличии механизмы описания модели данных с помощью метаданных и использовать эти метаданные для построения запросов в реальном масштабе времени;

  • •    включать в себя механизм, позволяющий оценивать качество формирования сводных таблиц с точки зрения оперативности вычисления, с накоплением статистики по их реализации [3].

Третий, новый тип OLAP – средств – это инструменты генерации запросов и отчетов для настольных компьютеров, начинённые OLAP -функциями или интегрированные с внешними средствами, реализующими такие функции. Эти вполне развитые системы выбирают данные из исходных источников, видоизменяют их и помещают в динамическую многомерную базу данных, работающую на компьютере конечного пользователя

Подход, позволяющий обойтись без дорогостоящего сервера многомерной базы данных и без сложного промежуточного слоя метаданных, необходимого для ROLAP – средств, обеспечивает эффективность анализа.

Средства для настольных ПК лучше всего подходят для работы с небольшими, просто организованными БД. Потребность в квалифицированном обслуживании для них ниже, чем для других OLAP -систем, и примерно соответствует уровню обычных сред обработки запросов. В числе основных участников этого сектора рынка – компания Brio Technology со своей системой Brio Query Enterprise , Business Objects с одноименным продуктом и Cognos с PowerPlay [3].

В России и странах СНГ уже реализовано более 200 – 300 проектов с применением OLAP. Из самых известных можно назвать проекты, реализованные на АвтоВазе, РАО ЕЭС, НК Лукойле, СибНефти, Государственном Таможенном Комитете РФ, Московской Сотовой Связи.

На текущий момент сложились благоприятные условия для продвижения OLAP – средств на российском рынке программного обеспечения. Руководство компаний постепенно осознает роль и значимость для бизнеса систем данного класса, и рынок сегодня готов предложить им широкий спектр продуктов и услуг [3].

Список литературы Аналитическая обработка данных в реальном времени

  • http://www.tadviser.ru/index.php/OLAP
  • http://www.tadviser.ru/index.php
  • http://studopedia.ru/2_27496_obzor-programmnih-sredstv-realizuyushchih-upravlenie-hranilishchami-dannih-i-podderzhku-prinyatiya-resheniy.html
  • http://www.topsbi.ru/
Статья научная