Большие данные. Расширение области практического применения

Поддымникова А.Е.; Воробьева К.Р.; Мастилин А.Е.; Poddymnikova A.E.; Vorobyeva K.R.; Mastilin A.E.

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Программные средства

Большие данные. Расширение области практического применения

Автор: Поддымникова А.Е., Воробьева К.Р., Мастилин А.Е.

Журнал: Экономика и социум @ekonomika-socium

Рубрика: Основной раздел

Статья в выпуске: 5 (48), 2018 года.

Бесплатный доступ

В статье рассмотрена технология Big Data, а также причины ее публичного распространения. На примере компании «Amazon» было проанализировано как возникают такие большие объемы данных, как их собирают и делают выводы на их основе. Так же была выявлена проблема публичной обработки персональных данных и пути их решения.

Большие данные, анализ, поведение, маркетинг

Короткий адрес: https://sciup.org/140239109

IDR: 140239109

Big data. Еxpansion of the field of practical application

The article considers the Big Data technology, and the reasons for its public distribution. The example of the company "Amazon" was analyzed, as there are such large amounts of data as they collect and make marketing conclusions based on them. Also the problem of public processing of personal data and ways to solve them was identified.

Текст научной статьи Большие данные. Расширение области практического применения

Термин Big Data или «Большие данные» не имеют строгого определения, а также нельзя провести четкий диапазон границ объема созданных и реплицированных данных. Несмотря на это, есть устоявшееся мнение, что большие данные – совокупность технологий, которые должны совершать три операции: обрабатывать большие объемы данных, уметь работать с быстро поступающими данными в больших объемах, а также уметь работать со структурированными и плохо структурированными данными, то есть с данными, которые не имеют заранее определенной структуры или не организованы в определенном порядке, параллельно в разных отношениях. В сущности, Big Data предполагает работу с информацией огромного объема и разнообразного состава, которая очень часто обновляется для увеличения эффективности работы и повышения конкурентоспособности. Огромные объемы данных обрабатываются для того, чтобы человек мог получить нужные ему результаты для их дальнейшего применения [1].

Появление больших данных в публичном пространстве было связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество. В публичную сферу технологии больших данных вышли, когда речь начала идти о числе жителей планеты. Около семи миллиардов человек, собирающихся в различных социальных сетях и других проектах, которые объединяют людей. YouTube, Facebook, ВКонтакте, Одноклассники, где количество людей измеряется миллиардами, а количество операций, которые они одновременно совершают, колоссально велико. Поток данных в этом случае — это пользовательские действия.

В нашей жизни все больше аппаратных средств и программ начинают генерировать большое количество данных — например, «интернет вещей». Вещи уже сейчас генерируют огромные потоки информации. Полицейская система «Поток» отправляет информацию со всех камер и позволяет находить машины по этим данным. Набирает обороты мода на различные фитнес-браслеты, GPS-трекеры и другие вещи, которые помогают человеку решать определенные задачи.

По мере развития технологий, связанных с Big Data, всё большее внимание привлекает к себе «менеджмент на основе анализа данных» – моментальный анализ большого массива данных, отражающих поведение клиентов в целях постоянного выявления новых деловых возможностей.

На сегодняшний день любой товар приобретается по отзывам других в социальных сетях и на сайтах, а не из-за удачной рекламной кампании предприятия. Поэтому для того, чтобы заниматься маркетингом, нужно обязательно анализировать действия каждого потребителя и как следствие анализировать огромные объёмы данных. Но настоящие возможности обработки данных с использованием искусственного интеллекта (ИИ) позволили осуществлять моментальный анализ больших массивов данных.

Разберем пример. На портале электронной торговли «Amazon» каждому покупателю предлагается раздел рекомендаций «Те, кто приобрели данный товар, также купили и это». Для того, чтобы рекомендацию дать верно, «Amazon» осуществляет по каждому пользователю индексацию всех товаров:

— покупатель ознакомился с описанием товара - присваивается код «1»;
— покупатель приобрёл товар - «5»;
— пользователь не предпринял никаких действий - «0».

Компанией «Amazon» были созданы такие платформы, как вебсайты электронной коммерции, поисковые сайты и социальные сети. Это им позволяет искусно собирать данные своих пользователей и, ограничивая использование этих сведений, получать всё новые данные, расширяя свой бизнес [3].

Таким образом даже при минимальном количестве покупок и просмотров конкретным покупателем, имея покупателей со схожим шаблоном поведения, появляется возможность рекомендовать товары, приобретённые другими людьми со сходными интересами. Данный процесс анализа массива данных называется «покупательское поведение».

Не стоит забывать и о том, что чем мощнее и значимее технология, тем больше появляется побочных эффектов при её использовании. Знать эти слабые стороны необходимо не только разработчикам, но и тем, кто пользуется технологией.

Вновь обратимся к «Amazon». У них рекомендации строятся путем догадок на основании данных о других пользователях. Однако это очень похоже на нарушение границ частной жизни, несмотря на свои благие намерения. Поэтому все персональные данные и приватность должны защищаться как законом, так и технологически. Что касается законодательного аспекта, то в мае 2017 года вступил в силу закон о защите личных данных с внесенными поправки с учётом предполагаемого использования больших данных. Если говорить о технологической защите, то компаниям, которые пользуются Bid Date, необходимо применять процедуру деидентификации данных - исключение возможности извлечения персональных данных, а также шифровать данные, причем несколькими этапами, разными уровнями сложности [2].

Список литературы Большие данные. Расширение области практического применения

Будзко В. И. Системы высокой доступности и Большие Данные//Большие данные в национальной экономике 2013.
Короткова Т. «EMC Data Lake 2.0 -средство перехода к аналитике больших данных и цифровой экономике» http://bigdata.cnews.ru/news/line/2015-12-03_emc_data_lake_20_pomozhet_perejti_k_analitike (Дата обращения 20.05.2018).
Кувахар Рик. Можно ли эффективно использовать «большие данные» без свободы действий на местах? https://www.nippon.com/ru/features/c04601/(Дата обращения 20.05.2018).