Big data - начало будущего

Автор: Соколова Е.Г., Рогатых Д.А.

Журнал: Мировая наука @science-j

Рубрика: Основной раздел

Статья в выпуске: 6 (15), 2018 года.

Бесплатный доступ

В статье указаны актуальные методы исследования огромных массивов данных

Информация, технология

Короткий адрес: https://sciup.org/140263690

IDR: 140263690

Текст научной статьи Big data - начало будущего

Мы живем в 21 веке, веке информационном, когда IT – технологии оказывают влияние на жизнь каждого, когда информация становится ценнейшим ресурсом. Постепенно увеличивается население Земли, а вместе с этим и увеличивается количество информации, которое нужно обрабатывать. Именно поэтому людям пришла идея Big data.

В первые термин big data ввел редактор журнала Nature Клиффорд Линч еще в 2008 году, в специальном выпуске, посвященном взрывному росту мировых объемов информации.

Big data – это методы и инструменты обработки данных любого, даже самого огромного объёма, для более эффективного восприятия её человеком.

Big data применяется по отношению к информации, которая:

  • 1.    Имеет объем более 100 ГБ;

  • 2.    Не обрабатывается через инструменты Excel;

  • 3.    Обрабатывается более чем одним компьютером.

Обобщая – big data это не конкретный объём данных и даже не сами данные, а различные методы их обработки, благодаря которым можно обрабатывать любую информацию.

Big data имеет безграничные области применения – начиная от сигналов с GPS автомобилей, заканчивая данными, снимаемыми с датчиков в большом Андроном коллайдере.

В повседневной жизни каждого человека эта система задействована почти во всех сферах. Мы ежедневно делимся массивами информации. Но она не пропадает бесследно. В банке, поликлинике или почте - ваши данные заносятся в систему big data. И даже когда вы стоите на остановке и используете приложение для отслеживания необходимого вам автобуса, в котором ежедневно совершаете привычный для маршрут до работы и обратно, вы даже не подозреваете, что становитесь частью обработки огромных объемов данных. Благодаря этому система может среди тысяч автобусов в стране выбрать нужный именно вам, оцифровать эту информацию и вывести на экран вашего смартфона его точные координаты.

Основные принципы работы с big data:

  • 1.    Горизонтальная маштабируемость. Основное условие работы системы – возможность увеличиваться объемов данных. Основная функция системы – расширение. При увеличении данных в 3 раза потребуется в 3 раза больше оборудования для возможности дальнейшего эффективного функционирования системы.

  • 2.    Беспрерывная работа. В кластере системы должно быть столько машин, чтобы при поломке одной, или даже части всего оборудования система не выходила из строя. Так, например, у Hadoop – кластера Yahoo – на счету более 42000 машин.

  • 3.    Локальность данных. Если данные будут храниться на одном сервере, а передаваться на другой, то издержки от их передачи займут значительную часть средств из-за их объема, именно поэтому данные обрабатываются на той же машине, на которой и хранятся.

На сегодня существует всего лишь несколько компаний, которые могут обработать гигантские, даже по современным меркам, объемы информации: NoSQL, MapReduce, Hadoop, R.

По данным компании IBS, к 2005 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2017 года глобальное количество данных превысило 6,5 зеттабайта.

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а обеспечение их безопасности — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет осуществлять контакт с подключёнными устройствами почти 5000 раз в день.

Технологии big date являются дорогостоящими, отчасти потому первыми в России их начали использовать крупные банки, такие как Сбербанк, Альфа-Банк, ВТБ и Тинькофф-банк.

В 2017 году Альфа-Банк приобрёл технологию для анализа социальных сетей и поведения пользователя сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки данных Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

Мир стремительно меняется, еще 10 лет назад сложно было представить беспроводные наушники или сенсорные телефоны, уже такие привычные для каждого сегодня. Технологии все больше и больше влияют на нашу жизнь, вплетаются в её повседневные алгоритмы. Объемы информации стремительно растут. Big data проникает в каждую из сфер жизни, становясь механизмом, который позволяет этим сферам эффективно функционировать и развиваться. Эта тема актуальна сейчас и будет набирать значимость в будущем. Но мир меняется так быстро, массивы информации растут с еще большими темпами, и для того чтобы не «отставать» от жизни и трендов, удержаться на плаву зеттабайтов данных, необходимо понимать суть современных технологий и учиться работать с ними.

Список литературы Big data - начало будущего

  • Введение в «Цифровую» экономику под общей редакцией Кешелава А.В.,Москва 2017, 405 с
  • Цифровая экономика: Цифровые навыки населения., Абдрахманова Г. И., Ковалева Г. Г.,москва 2017, 345 с
  • https://rb.ru/howto/chto-takoe-big-data
  • http://www.clouderp.ru/tags/big_data
  • http://tass.ru/ekonomika/5138017
Статья научная