Большие данные - большие возможности

Автор: Клюхина Елена, Лучина Ольга, Лесина Татьяна Викторовна

Журнал: Вестник образовательного консорциума Среднерусский университет. Информационные технологии @vestnik-university

Статья в выпуске: 1 (7), 2016 года.

Бесплатный доступ

В статье приведен аналитический обзор Big data (Большие данные) на российском и мировом рынках. Также изложены проблемы использования и преимущества технологии Big data. Рассмотрен вопрос о совершенствовании данной технологии.

Большие данные (big data), it-технологии, интернет маркетинг, мировой рынок, российский рынок

Короткий адрес: https://sciup.org/140129951

IDR: 140129951

Текст научной статьи Большие данные - большие возможности

В современном мире IT-технологии изменили наше понимание частной жизни. Многие процессы, которыми люди занимались в реальном мире, стало возможным делать в интернете: оплата услуг, общение с друзьями и др. Это повлекло за собой размещение в интернете личной информации, которую человек раскрывает о себе, и в связи с этим объемы личных данных, подвергаемых сбору и систематизации различными организациями, увеличились до огромных масштабов.

В связи с этим понятие BigData (в переводе с англ. «большие данные») очень актуально и особенно необходимо при работе с большими объемами данных в таких сферах, как: в маркетинге, экономике, банковской деятельности, медицине и т.д.[1]

Термин BigData был заимствован аналитиками из научных публикаций и имеет дату своего рождения — 3 сентября 2008 года. Но несмотря на это, многие ученые еще раньше стали задумываться о важности и роли данных.

Первым об обработке данных писал еще в XVIII веке английский астроном Томас Симпсон в труде «О преимуществах использования чисел в астрономических наблюдениях», но ключевое место обработка данных заняла в конце XX века, когда выяснилось, что IT-технологии могут успешно применяться и быть полезными практически во всех науках.

Процесс накопления научных данных постоянно растет. Осознавая это, редактор номера «Nature» Клиффорд

Линч предложил для новой парадигмы специальное название «Большие Данные», выбранное им по аналогии с такими метафорами, как «Большая Нефть», «Большая Руда».

Изучением вопроса Bigdata занимались также профессор Оксфордского университета Виктор Майер-Шенбергер и редактор журнала «Economist» Кеннет Кукьер. В их книге «Большие данные»[1] говорится о том, что BigData – это развивающаяся способность обрабатывать огромные массивы информации, мгновенно их анализировать и получать порой совершенно неожиданные выводы. В ближайшие годы BigData в корне изменят наше представление об образовании, бизнесе, политике.

BigData довольно распространенное понятие в интер-нет-маркетинге. В узком смысле, оно означает набор информации, по объему превосходящей жесткий диск одного персонального устройства и не поддающейся обработке классическими инструментами, применяемыми для меньших объемов. В широком смысле, это информация, которая не поддается обработке классическими способами по причине больших объемов.[1]

Рассмотрим сущность BigData на примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы

анализировали, как и в каких условиях менялись предпочтения покупателей, и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 г. разразился скандал, когда отец 12-летней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признать ошибку и извиниться перед обиженными клиентами, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.[2]

Как любая система, Bigdata имеют отличительные признаки: большой объем информации; разнородность и слабая структурированность данных; высокая скорость и оперативность обработки данных.

Сфера использования BigData весьма обширна. С помощью BigData можно узнать о предпочтениях потребителей, провести анализ рисков и т.д. На рис.1[2] представлены результаты опроса IBM Institute, о направлениях использования BigData в компаниях.

■ Клиентский сервис Операционная эффективность ■ Риск-менеджмент

Рис.1. Сферы применения Больших данных.

Как видно из диаграммы, наибольшее количество компаний используют BigData в сфере клиентского сервиса, на втором месте– операционная эффективность, в сфере управления рисками BigData менее распространены.

Приведем пример применения технологии Bigdata.

Для противодействия мошеннических операций с пластиковыми картами НSВС использует технологии BigData. С их помощью эффективность службы безопасности увеличилась в 3 раза, а распознавание мошеннических инцидентов – в 10 раз. Внедрение BigData привело к большому экономическому эффекту в размере 10 млн долл.

Известный производитель спортивных очковLuxotticagroup, таких марок, как Ray-Ban, Oakley, Persol, использует BigData для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате применения BigData данная фирма определила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%.

Мировой спрос на технологии BigData постоянно растет. По данным IDC, объем рынка технологий и услуг BigData в 2013-2017 гг. будет ежегодно увеличиваться приблизительно на 27% и в 2017 г. составит $32,4 млрд. [1]

В связи с этим при реализации проектов BigData основные расходы идут на оборудование и программное обеспе- чение, в числе которого платформа хранения и обработки собираемой информации (СУБД), средства интеграции данных ETL и CDC (средства извлечения данных из источников, их преобразования и загрузки, в т.ч. в режиме реального времени), средства проектирования моделей данных и инструментарий для анализа и визуализации данных.

Для анализа больших данных также используется бесплатное (открытое) программное обеспечение Hadoop. [10]

В данное программное обеспечение входят решения Sqoop, Flume и Pig, которые используются для переноса данных в Hadoop-кластеры или из них, MapRedice, который берет на себя обработку данных, Cascading и WebHDFS, которые применяются для разработки приложений, Hive – для организации доступа к данным через SQL. В числе поставщиков не SQL-решений для исследования и выявления новой информации необходимо отметить MongoDB, Cassandra, HBase, Mahoot, Rhadoop.

Кроме того, практически все основные разработчики BI-продуктов включают в их функциональность возможности для доступа к данным, которые постоянно содержатся в Hadoop-кластерах.

Кроме компонентов Hadoop также устанавливаются коммерческие приложения, например, для интеграции с базами данных или формирования аналитической отчетности. Часто Hadoop используется в связке со стандартными технологиями хранения и обработки данных.

Помимо Hadoop на рынке также есть достаточно много мощных, легко масштабируемых решений для организации хранилищ больших данных и работы с ними. Среди них можно выделить Greenplum, Netezza и Teradata, которые предлагают эффективную производительность при обработке информации благодаря использованию массивнопараллельной архитектуры.[11]

«Расширение BigData и ускорение темпа роста стало объективной реальностью»,- считают специалисты IT-технологий. Социальные сети, информационные сайты ежесекундно генерируют гигантские объемы информации, и это лишь 1/100 поставщиков данных.

Согласно исследованию IDC DigitalUniverse, в ближайшие 5 лет объем данных на планете вырастет до 40 зеттабайтов, то есть к 2020 году на каждого живущего на Земле человека будет приходиться по 5200 Гб.[3]

В связи с этим возникает вопрос: какие еще источники генерации данных, помимо социальных сетей и сайтов, существуют? Итак, источниками BigData также являются сенсоры, системы наблюдения, смартфоны, датчики и т.д. Все они приводят к росту объема данных, как следствие появляются потребности увеличивать количество рабочих серверов, т.е. расширять и внедрять новые информационные центры.

В стоимостной оценке, по прогнозу американского агентства Wikibon, рост объемов индустрии больших данных к 2020 году вырастет до $61 млрд, в 2026 году — до $85 млрд. Каждый год этот рынок прибавляет примерно на 17%. (табл.1.) [1]

В связи со стремительным ростом объема информации ускоренными темпами развиваются и технологии анализа данных. Совсем недавно было возможно лишь сгруппировать клиентов на сегменты со схожими предпочтениями, а

Таблица 1. ПрогнозBigdataMarketForecastна 2014 – 2026 гг.

Год

Показатель, млрд. долл

2014

27,36

2015

33,31

2016

37,97

2017

43,40

2018

49,28

2019

55,22

2020

60,91

2021

66,11

2022

70,76

2023

74,88

2024

78,53

2025

81,78

2026

84,69

сегодня появилась возможность строить модели специально для каждого клиента в режиме реального времени, анализируя, например, его перемещение по сети Интернет для поиска конкретного товара. Интересы потребителя анализируются, и строится соответствующая модель, исходя из которой, осуществляется реклама или конкретные предложения потребителю. Модель также может адаптироваться и меняться в режиме реального времени, что было немыслимо еще несколько лет назад.

Как и любой механизм Bigdate имеет свои преимущества и недостатки, чтобы изучить их более детально, проанализируем положение Bigdata на российском рынке.

В мировом масштабе российский рынок услуг и технологий BigData очень мал. По итогам 2015 года он увеличился до $500 млн (мировой рынок BigData за аналогичный период – $33,3 млрд). Но несмотря на это растет российский рынок услуг и технологий Bigdata значительно быстрее глобального — как минимум на 40% в год (мировой – на 17%).

  • [6]    На данный момент в России данную технологию активно используют около 20% и около 17 % только начинают ее использовать. (рис.2)[1].

Из этих 37 % основными пользователями Bigdata являются банки, телеком, промышленность и др. (рис.3) [8].

Рис.2. Объем использования Bigdata в России

Рис.3. Основные пользователи Bigdata

В частности: Сбербанк, Газпромбанк, ВТБ24, «АльфаБанк», компании «Тройка Диалог», «Райффайзенбанк». Из крупных ритейлеров этой технологией пользуются X5 RetailGroup, «Глория Джинс», сеть гипермаркетов «Лента», «М.Видео», из нефтяных компаний — «Транснефть», «Роснефть» и «Сургутнефтегаз».Среди госструктур обработку Bigdata внедрили Федеральная налоговая служба, аналитический центр правительства России, Пенсионный фонд, правительство Москвы, Фонд обязательного медицинского страхования, Федеральная служба безопасности, Следственный комитет и Служба внешней разведки [6].

Преимуществами использования технологии BigData на российском рынке являются:

  • •    повышение конкурентоспособности организации.

  • •    улучшение качества финансовой и производственной активности.

  • •    персонализация потребителей и моделирование изменений их поведения в режиме реального времени.

  • •    индивидуализация предлагаемых продуктов и услуг, автоматизация процесса разработки товаров и услуг.

  • •    создание программ, автоматически анализирующих поступающую информацию, значительно увеличивает эффективность работы.[1]

Согласно результатам опроса EconomistIntelligenceUn itsurvey, 46% компаний заявляют, что с помощью технологий BigData они улучшили клиентский сервис более чем на 10%, 33% компаний оптимизировали запасы и улучшили продуктивность основных активов, 32% компаний улучшили процессы планирования[5].

Bigdata имеет множество достоинств, но существуют барьеры, которые препятствуют полноценному развитию ее использования, они представлены на рисунке 4[5].

Согласно опросу Accenture, главным барьером внедрения технологий BigData являются вопросы безопасности данных, более 51% респондентов подтвердили, что беспокоятся за обеспечение защиты данных и их конфиденциальности. Поисковики сохраняют все запросы пользователя в Интернете, им известен его IP-адрес, расположение, он-лайн-покупки, личные данные и др., что, к примеру, позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в Интернете. При этом согласия пользователя на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается.

47% компаний сообщили, о невозможности внедрения BigData в связи с ограниченным бюджетом, 41% компаний в качестве проблемы указали нехватку квалифицированных кадров.

Если есть проблемы, то обязательно должны быть и пути их решения.[1]

  • •    Виртуализирование данных с помощью SQL, REST и языков описания сценариев, которое увеличит эффективность и безопасность новых методов


    Источник: Accenture

    Рис.4. Основные проблемы при внедрении проектов Bigdata.


Упрощение инструментов самостоятельной работы с BigData, что расширит круг ее пользователей.

Внедрение новых систем безопасности с применением классификации информации, которая защищена и структурирована

Ускорение развития технологий искусственного ин- теллекта (машинное обучение, обработка естественного языка) и становление их стандартом для обработки данных.

Подводя итоги, можно сказать, что на сегодняшний день рынок BigData является достаточно молодым, но он уже пользуется большим спросом.

Список литературы Большие данные - большие возможности

  • Савельев А.И. Проблемы применения законодательства о персональных данных в эпоху «Больших данных» (Big Data)//Право. Журнал Высшей школы экономики. 2015. №1. (Электронный ресурс): Режим доступа:https://law-journal.hse.ru
  • и Большие данные (Big data)//Изд-во «Манн, Иванов и Фербер», Москва, 2014//(Электронный ресурс): Режим доступа: http://www.mann-ivanov-ferber.ru
  • Что такое Big Data (большие данные) в маркетинге: проблемы, алгоритмы, методы анализа. (Электронный ресурс): Режим доступа: http://lpgenerator.ru
  • Что такое на самом деле Big Data и чем они прекрасны. Лекция Андрея Себранта в Яндексе//(Электронный ресурс): Режим доступа: https://habrahabr.ru
  • Аналитический обзор рынка Big Data 6 мая 2015//(Электронный ресурс): Режим доступа: https://habrahabr.ru
  • Как устроен рынок big data в России//Журнал Rusbase//(Электронный ресурс): Режим доступа: http://rusbase.com
  • Большие данные (Big Data) в России//Журнал TADVISER Государство. Бизнес. ИТ.//(Электронный ресурс): Режим доступа: http://www.tadviser.ru
  • Бизнес и большие данные//(Электронный ресурс): Режим доступа: http://www.liveinternet.ru
  • Пол Сондеррегер Что будет с Big Data в 2016 году?//Журнал Oracle Big Data Strategist//(Электронный ресурс): Режим доступа: https://blogs.oracle.com
  • Проблема Big Data//Журнал Азиатский репортер: Деловые хроники Востока//(Электронный ресурс):http://asiareport.ru/index.php/news/14563-oracle-i-problema-big-data.html
Еще
Статья научная