Инфраструктура больших данных

Автор: Волкова Юлия Сергеевна, Лесина Татьяна Викторовна

Журнал: Вестник образовательного консорциума Среднерусский университет. Информационные технологии @vestnik-university

Статья в выпуске: 1 (7), 2016 года.

Бесплатный доступ

В статье рассматривается понятие Большие Данные и основные производители программ на основе данной технологии.

Большие данные, софт, программное обеспечение

Короткий адрес: https://sciup.org/140129952

IDR: 140129952

Текст научной статьи Инфраструктура больших данных

По мере увеличения степени встраиваемости средств электронной информационной технологии в различные направления современного общества возрастают и требования к их адаптируемости к решению новых задач, которые предполагают огромные объемы данных. Сейчас эти данные занимают триллионы байтов информации. Миллионы датчиков, встроенных в различного вида устройства, таких как мобильные телефоны, счетчики электроэнергии, автомобили и промышленные машины, создают и передают данные. Такое количество данных не является чем-то невероятным в век интернета. Компании и организации генерируют колоссальные объемы цифровых данных, которые становятся побочным продуктом от других видов деятельности.

Согласно отчету McKinsey Institute: «Большие Данные – это набор данных, размер которых выходит за пределы возможностей типовых баз данных программных инструментов для захвата, хранения, управления и анализа данных» [6].

В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, постоянно обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую и достаточно понятную формулировку:

Таблица 1. Сравнительная характеристика больших данных и традиционных данных

Критерии сравнения

Традиционные базы данных

Большие Данные

Область применения

Одна или более предметная область применения

Сфера применения технологий Больших Данных обширна. От выявления предпочтений клиентов до анализа рисков

Характеристика данных

Только структурированные данные

Огромные массивы информации со сложной неоднородной и\или неопределенной структурой

Способ хранения данных

Централизованный

Децентрализованный

Модель хранения и обработки данных

Вертикальная модель

Горизонтальная модель

Количество информации для обработки

От гигабайта (109 байт) до терабайт (1012 байт)

От петабайт (1015 байт) до эксабайт (1018 байт)

«Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности» [2].

В таблице 1 представлена сравнительная характеристика Больших Данных и традиционных баз данных. Основанием для формирования данной таблицы послужили исследования Будзко В. И. и Московской биржи. [1, 3]

Для удобства рынок big data можно разделить на несколько категорий (на деле границы между ними не так уж и четки) [4]:

  • •    поставщики инфраструктуры, которые решают задачи хранения и предобработки данных (Sap, Oracle, IBM, EMC, Microsoft и др.);

  • •    датамайнеры — разработчики алгоритмов, которые помогают клиентам извлекать ценность из больших данных (Yandex Data Factory, «Алгомост», Glowbyte Consulting, CleverData и др.);

  • •    системные интеграторы, которые разворачивают системы анализа больших данных на стороне клиента («Форс», «Крок» и др.);

  • •    потребители, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов (телеком, банки, ритейл и др.);

  • •    разработчики готовых сервисов на базе больших данных (в основном цифровой маркетинг), которые открывают возможности big data для широкого круга пользователей, в том числе для малого и среднего бизнеса.

Основной акцент следует сделать на основных поставщиках инфраструктуры. Именно они продают специализированные системы управления базами данных, программно-аппаратные комплексы и сопутствующий аналитический софт — напрямую или через официальные дистрибьюторы. Разбираться в этих продуктах нужно компаниям с собственной экспертизой в сфере анализа больших данных. Поэтому многие предпочитают доверяться системным интеграторам и IT-консультантам, которые подбирают железо и софт под задачи клиента.

Перечислим основных из них:

SAP. На рынок бизнес-аналитики немецкая SAP вышла в 2007 году, купив фирму Business Objects. Сегодня в ее портфель решений для работы с big data входят аналитические системы управления базами данных SAP Hana и SAP IQ, СУБД в оперативной памяти SAP Hana, SAP Event Stream Processing на базе Hadoop, инструмент визуализации Lumira и софт для прогнозной аналитики от KXEN (SAP купила ее в 2013 году). По части оборудования вендор сотрудничает с Dell, Cisco, Fujitsu, Hitachi, HP и IBM.

В России продуктами SAP для работы с большими данными пользуются, например, Федеральная налоговая служба, Пенсионный фонд, банковская группа «Открытие» и энергетический холдинг «Сибирская генерирующая компания». В октябре 2014 года SAP запустила 9-месячный акселератор для стартапов в сфере big data, четыре из них дошли до уровня прототипов.

Oracle. Американская корпорация продает широкий спектр технологий для больших данных — специализированные устройства, системы управления базами данных, различные аналитические приложения. В 2014 году Oracle купила облачную платформу управления большими данны- ми BlueKai, получив ее массивы неструктурированной информации (самые большие на американском рынке).

В линейке вендора — аналитические СУБД Oracle Database, Oracle MySQL и Oracle Essbase, СУБД в оперативной памяти Oracle TimesTen, Oracle Event Processing на базе Hadoop, программно-аппаратные решения Oracle Big Data Appliance, Exadata и Exalytics. В России продуктами Oracle пользуются, например, Федеральная налоговая служба и «Альфа-Банк».

Microsoft. Компания предлагает технологии big data для любого масштаба бизнеса. Небольшим компаниям адресован инструмент Power BI, который входит в Office 365 и встроен в приложение Excel. Сервис включает публичный и корпоративный каталоги данных, новые инструменты поиска информации, интерактивную визуализацию и широкие возможности для совместной работы.

Ряд решений для работы с большими данными доступен пользователям облачной платформы Microsoft Azure. Так, обрабатывать информацию в режиме реального времени помогает Azure Stream Analytics, извлекать сведения из различных источников и управлять потоками данных — Azure Data Factory, а составлять бизнес-прогнозы — инструмент машинного обучения Azure Machine Learning.

Teradata. Американская компания специализируется на программно-аппаратных комплексах для обработки и анализа данных. В линейку продуктов для big data входят устройство Teradata Data Warehouse Appliance, платформа Teradata Aster Discovery и аналитическое ПО. Также компания оказывает услуги по анализу больших данных. В России решения Teradata внедрены у Федеральной налоговой службы, банка «ВТБ24», «Сбербанка» и «Ситибанка».

Google. На рынок бизнес-аналитики корпорация вышла в 2012 году, запустив облачный сервис анализа больших данных в режиме реального времени Google BigQuery. Через год его интегрировали в платную версию счетчика Google Analytics Premium. Обновленная версия BigQuery способна анализировать до 100 тысяч строк данных в секунду. Недавно Google представила новую специализированную базу данных Cloud Bigtable, которая подходит для big data лучше предшественницы Cloud Dataflow.

В России решения Google для больших данных можно купить у официальных реселлеров — российского представительства украинской компании OWOX и отечественных агентств iConText, Adventum, «Кокос», AdLabs и i-Media. Судя по открытым источникам, сервисом BigQuery пользуются «М.Видео», «Юлмарт», «Связной», Ozon.Travel, «Эльдорадо», Onlinetours, Anywayanyday и «Вымпелком».

В мировом масштабе российский рынок услуг и технологий big data все еще мал. В 2014 году американская компания IDC оценивала его в $340 млн. Зато растет он значительно быстрее глобального — как минимум на 40% в год. По некоторым данным, по итогам 2015 года он увеличится до $500 млн (возможно, эту цифру придется корректировать из-за девальвации рубля).

В России, Большие Данные только начинают завоевывать рынок, но уже имеют свою нишу. В опросе, который был проведен CNews Analytics и в котором приняло участие более 100 крупных российских компаний. Наиболее актив-

Рис. 1. Отраслевая структура использования Больших Данных

ными заказчиками таких решений являются банки, телеком и ритейл, их процентное соотношение представлено на рисунке 1. Менее заметно количество компаний, которые используют или готовы использовать большие данные в транспортной отрасли и энергетики, промышленности. Первые примеры использования больших данных появились и в госсекторе [5].

Компании прибегают к использованию этой технологии тогда, когда они сталкиваются с рядом проблем:

  • •    появились новые бизнес-задачи;

  • •    понадобилась аналитика в режиме реального времени;

  • •    стало дорого хранить информацию;

  • •    столкнулись с проблемой качества данных.

Как показывает опыт зарубежных представителей, внедрение технологий Больших Данных помогает успешно решать современные бизнес-задачи. Российские компании уже сейчас находятся на пути внедрения технологий Больших Данных как в производственную сферу, так и в общественную, так как количество информации с каждым годом увеличивает практически в двое. Со временем, множество сфер нашей жизни подвергнется изменению под влиянием Больших Данных.

Список литературы Инфраструктура больших данных

  • Будзко В. И. Системы высокой доступности и Большие Данные//Большие данные в национальной экономике 2013. С. 16-19
  • Большие данные (Big Data). http://www.tadviser.ru/index.php/Статья:Большие_данные_(Big_Data)
  • Московская биржа «Аналитический обзор рынка Big Data» http://habrahabr.ru/company/moex/blog/256747/
  • Соколова А. «Как устроен рынок Big data в России» http://rusbase.com/howto/big-data-in-russia/
  • CNews «Инфографика: Большие данные пришли в Россию» http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu
  • McKinsey Global institute «Big data: The next frontier for innovation, competition and productivity» (June 2011)
Статья научная