Инфраструктура больших данных
Автор: Волкова Юлия Сергеевна, Лесина Татьяна Викторовна
Статья в выпуске: 1 (7), 2016 года.
Бесплатный доступ
В статье рассматривается понятие Большие Данные и основные производители программ на основе данной технологии.
Большие данные, софт, программное обеспечение
Короткий адрес: https://sciup.org/140129952
IDR: 140129952
Текст научной статьи Инфраструктура больших данных
По мере увеличения степени встраиваемости средств электронной информационной технологии в различные направления современного общества возрастают и требования к их адаптируемости к решению новых задач, которые предполагают огромные объемы данных. Сейчас эти данные занимают триллионы байтов информации. Миллионы датчиков, встроенных в различного вида устройства, таких как мобильные телефоны, счетчики электроэнергии, автомобили и промышленные машины, создают и передают данные. Такое количество данных не является чем-то невероятным в век интернета. Компании и организации генерируют колоссальные объемы цифровых данных, которые становятся побочным продуктом от других видов деятельности.
Согласно отчету McKinsey Institute: «Большие Данные – это набор данных, размер которых выходит за пределы возможностей типовых баз данных программных инструментов для захвата, хранения, управления и анализа данных» [6].
В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, постоянно обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую и достаточно понятную формулировку:
Таблица 1. Сравнительная характеристика больших данных и традиционных данных
Критерии сравнения |
Традиционные базы данных |
Большие Данные |
Область применения |
Одна или более предметная область применения |
Сфера применения технологий Больших Данных обширна. От выявления предпочтений клиентов до анализа рисков |
Характеристика данных |
Только структурированные данные |
Огромные массивы информации со сложной неоднородной и\или неопределенной структурой |
Способ хранения данных |
Централизованный |
Децентрализованный |
Модель хранения и обработки данных |
Вертикальная модель |
Горизонтальная модель |
Количество информации для обработки |
От гигабайта (109 байт) до терабайт (1012 байт) |
От петабайт (1015 байт) до эксабайт (1018 байт) |
«Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности» [2].
В таблице 1 представлена сравнительная характеристика Больших Данных и традиционных баз данных. Основанием для формирования данной таблицы послужили исследования Будзко В. И. и Московской биржи. [1, 3]
Для удобства рынок big data можно разделить на несколько категорий (на деле границы между ними не так уж и четки) [4]:
-
• поставщики инфраструктуры, которые решают задачи хранения и предобработки данных (Sap, Oracle, IBM, EMC, Microsoft и др.);
-
• датамайнеры — разработчики алгоритмов, которые помогают клиентам извлекать ценность из больших данных (Yandex Data Factory, «Алгомост», Glowbyte Consulting, CleverData и др.);
-
• системные интеграторы, которые разворачивают системы анализа больших данных на стороне клиента («Форс», «Крок» и др.);
-
• потребители, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов (телеком, банки, ритейл и др.);
-
• разработчики готовых сервисов на базе больших данных (в основном цифровой маркетинг), которые открывают возможности big data для широкого круга пользователей, в том числе для малого и среднего бизнеса.
Основной акцент следует сделать на основных поставщиках инфраструктуры. Именно они продают специализированные системы управления базами данных, программно-аппаратные комплексы и сопутствующий аналитический софт — напрямую или через официальные дистрибьюторы. Разбираться в этих продуктах нужно компаниям с собственной экспертизой в сфере анализа больших данных. Поэтому многие предпочитают доверяться системным интеграторам и IT-консультантам, которые подбирают железо и софт под задачи клиента.
Перечислим основных из них:
SAP. На рынок бизнес-аналитики немецкая SAP вышла в 2007 году, купив фирму Business Objects. Сегодня в ее портфель решений для работы с big data входят аналитические системы управления базами данных SAP Hana и SAP IQ, СУБД в оперативной памяти SAP Hana, SAP Event Stream Processing на базе Hadoop, инструмент визуализации Lumira и софт для прогнозной аналитики от KXEN (SAP купила ее в 2013 году). По части оборудования вендор сотрудничает с Dell, Cisco, Fujitsu, Hitachi, HP и IBM.
В России продуктами SAP для работы с большими данными пользуются, например, Федеральная налоговая служба, Пенсионный фонд, банковская группа «Открытие» и энергетический холдинг «Сибирская генерирующая компания». В октябре 2014 года SAP запустила 9-месячный акселератор для стартапов в сфере big data, четыре из них дошли до уровня прототипов.
Oracle. Американская корпорация продает широкий спектр технологий для больших данных — специализированные устройства, системы управления базами данных, различные аналитические приложения. В 2014 году Oracle купила облачную платформу управления большими данны- ми BlueKai, получив ее массивы неструктурированной информации (самые большие на американском рынке).
В линейке вендора — аналитические СУБД Oracle Database, Oracle MySQL и Oracle Essbase, СУБД в оперативной памяти Oracle TimesTen, Oracle Event Processing на базе Hadoop, программно-аппаратные решения Oracle Big Data Appliance, Exadata и Exalytics. В России продуктами Oracle пользуются, например, Федеральная налоговая служба и «Альфа-Банк».
Microsoft. Компания предлагает технологии big data для любого масштаба бизнеса. Небольшим компаниям адресован инструмент Power BI, который входит в Office 365 и встроен в приложение Excel. Сервис включает публичный и корпоративный каталоги данных, новые инструменты поиска информации, интерактивную визуализацию и широкие возможности для совместной работы.
Ряд решений для работы с большими данными доступен пользователям облачной платформы Microsoft Azure. Так, обрабатывать информацию в режиме реального времени помогает Azure Stream Analytics, извлекать сведения из различных источников и управлять потоками данных — Azure Data Factory, а составлять бизнес-прогнозы — инструмент машинного обучения Azure Machine Learning.
Teradata. Американская компания специализируется на программно-аппаратных комплексах для обработки и анализа данных. В линейку продуктов для big data входят устройство Teradata Data Warehouse Appliance, платформа Teradata Aster Discovery и аналитическое ПО. Также компания оказывает услуги по анализу больших данных. В России решения Teradata внедрены у Федеральной налоговой службы, банка «ВТБ24», «Сбербанка» и «Ситибанка».
Google. На рынок бизнес-аналитики корпорация вышла в 2012 году, запустив облачный сервис анализа больших данных в режиме реального времени Google BigQuery. Через год его интегрировали в платную версию счетчика Google Analytics Premium. Обновленная версия BigQuery способна анализировать до 100 тысяч строк данных в секунду. Недавно Google представила новую специализированную базу данных Cloud Bigtable, которая подходит для big data лучше предшественницы Cloud Dataflow.
В России решения Google для больших данных можно купить у официальных реселлеров — российского представительства украинской компании OWOX и отечественных агентств iConText, Adventum, «Кокос», AdLabs и i-Media. Судя по открытым источникам, сервисом BigQuery пользуются «М.Видео», «Юлмарт», «Связной», Ozon.Travel, «Эльдорадо», Onlinetours, Anywayanyday и «Вымпелком».
В мировом масштабе российский рынок услуг и технологий big data все еще мал. В 2014 году американская компания IDC оценивала его в $340 млн. Зато растет он значительно быстрее глобального — как минимум на 40% в год. По некоторым данным, по итогам 2015 года он увеличится до $500 млн (возможно, эту цифру придется корректировать из-за девальвации рубля).
В России, Большие Данные только начинают завоевывать рынок, но уже имеют свою нишу. В опросе, который был проведен CNews Analytics и в котором приняло участие более 100 крупных российских компаний. Наиболее актив-

Рис. 1. Отраслевая структура использования Больших Данных

ными заказчиками таких решений являются банки, телеком и ритейл, их процентное соотношение представлено на рисунке 1. Менее заметно количество компаний, которые используют или готовы использовать большие данные в транспортной отрасли и энергетики, промышленности. Первые примеры использования больших данных появились и в госсекторе [5].
Компании прибегают к использованию этой технологии тогда, когда они сталкиваются с рядом проблем:
-
• появились новые бизнес-задачи;
-
• понадобилась аналитика в режиме реального времени;
-
• стало дорого хранить информацию;
-
• столкнулись с проблемой качества данных.
Как показывает опыт зарубежных представителей, внедрение технологий Больших Данных помогает успешно решать современные бизнес-задачи. Российские компании уже сейчас находятся на пути внедрения технологий Больших Данных как в производственную сферу, так и в общественную, так как количество информации с каждым годом увеличивает практически в двое. Со временем, множество сфер нашей жизни подвергнется изменению под влиянием Больших Данных.
Список литературы Инфраструктура больших данных
- Будзко В. И. Системы высокой доступности и Большие Данные//Большие данные в национальной экономике 2013. С. 16-19
- Большие данные (Big Data). http://www.tadviser.ru/index.php/Статья:Большие_данные_(Big_Data)
- Московская биржа «Аналитический обзор рынка Big Data» http://habrahabr.ru/company/moex/blog/256747/
- Соколова А. «Как устроен рынок Big data в России» http://rusbase.com/howto/big-data-in-russia/
- CNews «Инфографика: Большие данные пришли в Россию» http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu
- McKinsey Global institute «Big data: The next frontier for innovation, competition and productivity» (June 2011)