Введение в обработку Больших Данных


Содержание

Как выучить Big Data — отвечают эксперты

О Big Data сегодня не слышал только человек, совсем далёкий от IT. Тем не менее, молодым IT-шникам не всегда понятно, с чего нужно начать изучение этой темы, какими навыками нужно обладать и какими инструментами стоит пользоваться. Узнаем у экспертов, что они могут посоветовать.

Краткие выводы можно найти внизу статьи.

Сергей Левашов , директор Центра бизнес-анализа ГК «РАМАКС»

С чего начать в Big Data? В первую очередь с определения направления:

  1. Data Engineer — занимается разработкой каркаса, сбора и хранения данных, а также делает соответствующие данные доступными для различных потребительских и внутренних приложений.
  2. Data Scientist — занимается анализом и поиском закономерностей в данных.

Если в вас больше программирования и понимания, как взаимодействуют компьютеры через интернет, а не высшей математики, то первое подойдёт вам больше. В случае, если вам нравится высшая математика, теория вероятности, комбинаторика — второй вариант. Начать изучение можно с прохождения курса на одной из платформ — Coursera, edX, Stepik предоставляют отличные материалы и упражнения для обучения. Есть бесплатные курсы. В дальнейшем можно посмотреть лекции ШАД (Школа Анализа Данных) от Яндекса.

Для развития навыков Data Science есть отличная платформа Kaggle, на которой проводится большое количество конкурсов по машинному обучению. На этой платформе можно рассмотреть множество готовых кейсов и прокачать свои навыки, решая предложенные задачи.

Михаил Сеткин , вице-президент «Райффайзенбанка»

Для начала стоит определиться, что вы понимаете под термином Big Data. Может подразумеваться одно из следующих направлений:

  • анализ данных, построение моделей и прочий machine learning;
  • построение и интеграция существующих DWH с Hadoop;
  • построение стриминговых и RTDM-решений;
  • всевозможные интеграции с NoSQL-базами.

Я дам советы для направления machine learning как самого популярного, на мой взгляд, ответвления Big Data на текущий момент. В целом же общие рекомендации универсальны, при том, что конкретные цели и майлстоуны будут отличаться в зависимости от выбранного вами направления.

После того, как вы определились с направлением, начинает работать правило 70–20–10.

10 % — курсы. Сейчас очень много курсов, платных и бесплатных, которые можно подобрать под любой запрос, а также есть хорошие книги и обучающие видео. Из книг я бы посоветовал взять следующие:

  • «Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking», F. Provost, T. Fawcett;
  • «Python и анализ данных», У. Маккини;
  • «Построение систем машинного обучения на языке Python», Л. П. Коэльо, В. Ричард.

20 % — опыт других. Проводится много митапов/тематических встреч сообществ, есть онлайн-сообщества. Можно искать по ключевым словам проекты на GitHub и изучать, что уже сделали другие.

70 % — самостоятельные упражнения. Можно выбрать, например, уже решенные соревнования Kaggle и попытаться повторить бейзлайн. Или поучаствовать в открытых соревнованиях, одному или в команде единомышленников.

Также вам помогут:

  • Google / Stackoverflow. Там вы наверняка найдёте ответ на любой вопрос.
  • Образование. Гораздо проще будет тем, у кого есть математическая подготовка или опыт программирования. Конечно, без профильного образования заниматься Big Data тоже можно, но нужно быть готовым самостоятельно изучать следующие разделы: линейная алгебра (перемножение матриц и векторов), дифференциальное исчисление (производная, градиент), теория вероятностей и математическая статистика.
  • Личный ПК или ноутбук (само собой, подключенный к высокоскоростному интернету). Можно или собрать, или заказать производительный ПК за 100–200 тысяч рублей, а можно (иногда даже бесплатно) воспользоваться облачными сервисами и практиковаться решать задачи в облаке.
  • Время. Важно погрузить себя в среду полностью, жить этой темой, тогда и результаты будут более ощутимыми. Не нужно иметь завышенные ожидания и ждать, что всё получится само собой уже через неделю. Лучше ориентироваться на 2–3 месяца или даже больше.

Всё вышесказанное поможет достичь уровня Junior. Дальше освоение может длиться всю жизнь, особенно если есть желание дорасти до уровня, когда не просто умеешь виртуозно использовать инструменты и библиотеки, но также видишь целесообразность применения и ожидаемый эффект от использования Big Data в деньгах.

Руслан Габбасов , руководитель центра разработки DIRECTUM в Уфе

Всерьёз изучать Big Data сейчас нет особого смысла для, пожалуй, 99,9 % разработчиков, потому что задачи, с которыми они могут столкнуться в своей повседневной работе, будут опираться на хоть и большие, но вполне формализованные и структурированные данные.

С масштабами порядка миллиардов записей в день легко справляются современные базы данных (и документоориентированные, и реляционные). А если уж вдруг жизнь столкнёт с потребностью обработать десятки петабайт скопившегося информационного мусора или очень широкий поток данных в реальном времени, то по ключевым словам Hadoop и Apache Spark гуглится всё необходимое и, потратив пару вечеров, можно разобраться и в подходах к работе с таким данными, и в существующих высокоуровневых решениях. Так что, по моему мнению, «молодым IT-шникам» лучше на эту тему время зря не тратить.

Мария Горькова , эксперт в области IT-разработок

Прежде чем начать осваивать Big Data, нужно ответить на вопрос: «Кем хочется стать в данной области»? Сейчас выделяют 2 основных направления в работе — это Data Engineer и Data Scientist. Для обеих профессий желательно иметь математическое или физико-математическое образование, так как оно даст необходимый базис. Если такого образования нет, но вникнуть в тему больших данных всё же хочется, я рекомендую книгу Big Data for Dummies.

Следующим важным навыком является знание английского языка. Большинство книг, статей и документации к инструментарию написано только на английском языке. Далее идёт изучение языка программирования, например Python или R. Существуют онлайн-курсы по программированию на них и по использованию этих языков для Big Data. На этом моменте пути расходятся. Data Engineer должен заняться глубоким изучением SQL- и NoSQL-решений (таких как Spark, Hadoop, Storm, Cassandra, Hive), их принципов работы и структур данных. Для Data Scientist стоит изучить синтаксис команд, также необходимо углубиться в области статистики, машинного обучения и анализа данных. Благо книг по данным темам очень много.

Валерий Студенников , руководитель направления анализа данных REG.RU

Термину Big Data предпочитаю Data science. Это широкое понятие включает в себя в том числе и анализ больших данных, и многое другое.

Области знаний специалиста по анализу данных (data scientist): машинное обучение, статистика и знание конкретных инструментов.

Основные платформы анализа данных на данный момент в порядке убывания популярности:

  • библиотеки Python (scikit-learn, SciPy и различные библиотеки для работы с нейронными сетями);
  • R;
  • Matlab.

Я рекомендую Python, поскольку он может быть использован как для исследований, так и для непосредственно обработки данных в составе каких-либо систем. То есть один и тот же код, одни и те же модели могут быть использованы как на стадии исследования, так и production-реализации.

Информации для изучения этой специальности сейчас очень много:

  • курсы — как платные так и бесплатные — на Сoursera, Stepic, Udemy и других площадках (Машинное обучение и анализ данных — самый известный курс от Яндекс/МФТИ, Python для анализа данных — сокращённый вариант предыдущего, Введение в машинное обучение — курс от ВШЭ, Анализ данных — специализация от Новосибирского государственного университета, Введение в науку о данных — курс от СПбГУ);
  • платные курсы от IT-компаний;
  • несколько книг по анализу данных на русском языке и сотни (если не тысячи) дельных книг на английском;
  • обучающие статьи. Например открытый курс машинного обучения в виде статей от OpenDataScience на Habr.com. Ну, и в целом блог ODS полезный;
  • очень много обучающих роликов и курсов на YouTube;
  • в городах-миллионниках регулярно проводятся митапы по анализу данных, а в Москве ещё и специализированные конференции.

Кроме того, я советую прокачаться в статистике. По моему мнению, для DS это «must have».

Тимофей Костин , глобальный консультант Experian в России и странах СНГ

Начать, конечно, лучше с азов и почитать учебник по теории вероятности и статистике. Без этого дальше будет очень тяжело ?.

А теперь немного посерьёзнее. Под термином Big Data что только ни подразумевают. Начиная от проведения маркетинговых кампаний и заканчивая программированием процесса извлечения этих самых данных. Не будем сейчас спорить и пытаться привести собственное определение. Просто посмотрим, что же необходимо знать и уметь тому, кто решил связать свою карьеру с этими двумя словами.

Во-первых, понадобится понять, что такое неструктурированные данные и как с ними работать. Для этого можно изучить Hadoop и то, что вращается вокруг него: Pig, Hive, Hbase, Sqoop и т. п. Это позволит понять, как формируются, выгружаются и хранятся данные для анализа. В целом, можно использовать и обычные DB-технологии, но тогда вы рискуете получить обвинение в том, что «это совсем не Big Data!». ? В итоге вы должны иметь представление о том, как работать с данными, получаемыми из разнообразных источников, объединять и связывать их между собой, складывать и перемещать их.

Следующий шаг — это знакомство с современными методами аналитической обработки данных, методами поиска закономерностей и моделирования. Вот здесь как раз и понадобятся знания статистики и теории вероятности. Именно они рассказывают о том, как извлекать знания из большого набора наблюдений, определять наличие или отсутствие связей между событиями, определять причины и следствия, проверять гипотезы и т. п. После изучения «мат. части» очень пригодится умение программировать на современных языках типа Python, R или знание систем SAS, SPSS и аналогичных для применения полученных знаний к данным, которые мы собрали и подготовили на первом этапе. Знания о том, что такое Random Forest, Neural Network, Boosting, как и для чего они применяются, также просто необходимо.

Можно, конечно, программировать все методы и алгоритмы самостоятельно, но, поверьте, это отнимет очень много сил и времени, так что рекомендую воспользоваться уже подготовленным и протестированным инструментарием. Здесь уместно будет сделать замечание по поводу open source и проприетарных продуктов. При огромных преимуществах первых, они, увы, не гарантируют вам быстрое и качественное исправление ошибок, защиту и поддержку.

Итак, вы освоили обработку данных и методы моделирования, остаётся последний и самый важный шаг: понять, а для чего вообще всё это надо и решение каких задач вы хотите реализовать с применением технологии Big Data? Тут, с одной стороны, всё просто: мы начали с того, что Big Data сейчас используется практически везде. С другой стороны, начав использовать эти технологии в решении своих задач, можно осознать, что они могут быть решены и без применения так называемых «Big Data tools». Иногда даже быстрее и проще.

Мой совет тем, кто собирается посвятить своё время изучению Big Data — это очень интересное и перспективное направление. Только всегда отталкивайтесь от той задачи, которую надо решить, и выбирайте те средства, которые наиболее эффективны.

Смотрите на задачи и проблемы шире — это поможет намного больше, чем знание конкретного языка или framework’а.

Татьяна Кириленко , руководитель направления Big Data и Machine Learning Accenture

Чаще всего инструментарий в создании Big Data проектов выбирается под конкретную бизнес-задачу и зависит от существующей инфраструктуры клиента. Можно выделить следующие направления: анализ данных и архитектура хранения и обработки.

Анализ данных начните изучать с Python и open-source библиотек, таких как numpy, pandas, matplotlib, scikit-learn. Не забывайте об SQL, поскольку большая часть корпоративных данных продолжает храниться в реляционном виде и важно уметь использовать эти источники.

Изучите типовые архитектурные паттерны по распределённым вычислениям и хранению данных, обработке данных в режиме реального времени, работе с неструктурированными и структурированными данными, базовые принципы управления данными. Для решения задач по распределённой обработке данных изучите Apache Spark, по распределённому хранению данных — основы HDFS.

Не забывайте об инструментах, связанных с проверкой качества данных, ведением бизнес-глоссариев, визуализацией данных конечным потребителям. Это очень влияет на успешность внедрения проектов Big Data.

Сконцентрируйтесь на методах анализа данных, научитесь извлекать инсайты, находить скрытые закономерности для оптимизации существующих процессов и прогнозирования будущих событий. Применяйте навыки представления и визуализации результатов анализа.

Не забывайте, что системы создаются для конечного пользователя! Для этого ответьте себе на вопрос: кто будет использовать данное решение (от администратора до конечного потребителя)? Не старайтесь создать очередную «свалку» данных просто ради внедрения каких-то технологий. Используйте ваши знания, чтобы создавать действительно ценный продукт, который станет колоссальным ресурсом для компаний, их «козырем» в конкурентной борьбе на рынке.

Максим Иванов , директор по развитию «Хэндисофт»

На просторах интернета огромное количество информации о технологиях формирования и методах использования БигДаты в коммерческих и социальных сферах, но как определить значимость материалов и с чего начать первые шаги в пространстве данных? Сферу Big Data можно разделить на два направления: аналитика (консолидация и анализ данных) и разработка (создание систем для вычислений и обработки массива данных). Чтобы понять основы и определиться с направлением работы, предлагаю начать знакомство с основами на проверенных ресурсах: Rb и Wikipedia.

Если хотите далее продвигаться в разработке Big Data — изучайте темы: SQL, NoSQL, основы статистического анализа (если прогуляли в университете), C# или Python, или Java, или Go (мне предпочтительнее Python), основы машинного обучения, распределённые вычисления на примере Amazon, Google — потому что они отражают масштабы, когда Big Data открывает новые возможности и приносит ощутимую ценность компании.

Из печатной литературы рекомендую зарубежных авторов — у них больше опыта, изложение материала понятное и даже захватывающее. Для начала подойдут самые популярные книги, например «The Human Face of Big Data» (Человеческое лицо БигДаты) Рика Смолана и Дженнифер Эрвитт или «Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die» Эрика Сигеля.

В этом деле без массива данных или доступа к стороннему хранилищу Big Data оттачивать навыки бессмысленно. Любые новые познания без практики сводят процесс обучения к нулю, но если действительно хочется заниматься Big Data — идите на стажировку в соответствующую компанию.

Есть другие «модные» направления (перечисляю не все): это облачные хранилища (Hadoop), распределённые вычисления (MapReduce), машинное обучение (machine learning, но тут надо знать С# или Python), DataMining (выявления закономерностей). Все эти направления появились благодаря или по причине экспоненциального роста массива данных.

Алексей Каткевич , главный архитектор направления «Большие данные и машинное обучение» компании «Инфосистемы Джет»

Ко мне частенько приходят коллеги и огорошивают простым, на первый взгляд, вопросом: «С чего начать изучение Big Data/Hadoop/Streaming/ML/…?»

В моём понимании, хорошо, когда изучение этих технологий базируется на трёх «слонах». Кстати слон — это эмблема Hadoop, который является практически родоначальником того, что сейчас принято называть экосистемой Big Data.

Первый «слон» — это понимание принципов работы с данными. Вы можете написать SQL-запрос, понимаете, как устроены различные индексы, слышали про принцип ACID.

Второй «слон» — это общие навыки программирования и даже скорее умение читать и понимать чужой код, ибо Open Source живёт по принципу «лучшая документация — это код».

И третий «слон» — это умение работать с консолью (отсутствие навыков работы с Linux сильно осложнит ваше знакомство с любыми технологиями).

И немного практических советов.

Как делать не надо

Не пытайтесь изучать технологии впрок — это бесполезно. Изучайте их, если есть потенциальная возможность практического применения.

Практика First

Не читайте — делайте. Открыли User Guide, скачали, настроили, запустили, попробовали, PROFIT!

Найдите прикладную задачу

Перетащите БД бухгалтерии на Hive. Это плохая идея, но пока не попробуешь, не узнаешь, почему.

Big Data — это про БОЛЬШИЕ данные

Эту фразу уже можно использовать в качестве эпитафии на немалом количестве проектов. Если попробовали сделать предыдущий пункт, то сами сможете ответить, почему. Если нет, то придётся просто поверить.

Что гуглить?

Хранение данных/замена SQL-базы данных: Hive, HDFS, ClikHouse, Hbase + Phoenix, Cassandra.

Асинхронное взаимодействие, очередь, «шина»: Kafka — на самом деле, один из немногих продуктов, альтернативы которому в некоторых применениях почти нет.

Обработка событий налету, например фильтрация запросов на сайт от поисковых систем и подсчёт количества запросов по уникальным пользователям: Storm, Spark Streaming.

Хороший «комбайн» — Apache Nifi. Позволяет сделать Internet of Things, не открывая консоли IDE, имеет удобный визуальный интерфейс и даёт возможность запускаться даже на «калькуляторах».

Если хочется All Inclusive, то могу посоветовать уже готовые пакетные дистрибутивы типа Horton Works HDP/HDF. Отличительная особенность в том, что все компоненты в таком дистрибутиве будут совместимыми друг с другом, а также будут обладать механизмами автоматического развёртывания и мониторинга из коробки. Поэтому вам не придётся разбираться, почему Spark не хочет подключаться к Kafka и как настроить Phoenix для подключения к Hbase.

Андрей Майоров , технический директор компании «РДТЕХ»

Прежде всего, чтобы избежать путаницы, надо определится, идёт ли речь о Big Datа или о Data Science. К сожалению, многие часто смешивают эти два понятия. Big Data — это набор в значительной степени инженерных технологий и продуктов для сбора, хранения и «преобразования» больших объёмов данных. В то время как Data Science — это методики и алгоритмы извлечения знаний из данных, не обязательно больших.

Что учить?

Основой Big Data является Hadoop. При первом знакомстве с Big Data лучше всего воспользоваться готовыми дистрибутивами от Cloudera или Hortonworks и изучить продукты, входящие в эти дистрибутивы:

  • HDFS и форматы файлов ( avro, parquet, …);
  • HBASE;
  • MapReduce;
  • Spark;
  • Flume;
  • Kafka;
  • Hive и, может быть, Impala;
  • Hue;
  • Pig;

И уже потом, понимая назначение и ограничения этих стандартных дистрибутивов, продвигаться к более новым и/или специализированным продуктам.

Поскольку большая часть продуктов написаны на Java или более современном Scala и предоставляют API на них же, то обойтись без этих языков в решении серьёзных задач вряд ли удастся. В ряде случаев поддерживается API на Python, что обычно ценится в привязке к Data Science.

Как учить?

Учить придётся самому: читая учебные материалы, руководства по продуктам, делая упражнения. Мечта об обучении во сне для Big Data не реализована.

Как получить учебные материалы?

Как обычно, есть два пути: платный и бесплатный. Платный — вендоры и учебные центры, которые имеют авторизованные программы обучения. Официальная сертификация — это всегда дополнительный плюс. Однако, если обучение с преподавателем и последующая сертификация не критичны, можно купить только подписку на учебные материалы. Например, в Cloudera есть отличная библиотека платных учебных курсов, которые можно освоить без преподавателя.

В качестве примера бесплатного обучения можно привести платформу Coursera, которая предлагает большое количество курсов и сертификаций, включая Big Data и Data Science. Курсы подготовлены ведущими университетами, в том числе и российскими. Есть и Yandex.

Пройти курс на Coursera можно бесплатно и в своём темпе, за сертификат придётся заплатить.

Ну, и, наконец, есть множество ресурсов в интернете — возможно, не всеобъемлющих и не очень глубоких, но иногда отвечающих конкретно на вашу проблему.

Рустем Галиуллин , специалист по машинному обучению «Ак Барс Банка»

1. Прежде всего необходимо понять цель изучения Big Data и какую именно специализацию хочет приобрести молодой ИТ-профессионал.

Каждая специальность предусматривает свой функционал и путь развития:

  • Менеджер проекта/продукт-менеджер — эксперт, который понимает потребности в аналитике, профессиональную терминологию специалистов по работе с данными и умеет ставить задачи разработчикам. Такой человек не обязательно умеет «кодить», но знает верхнеуровневые концепции машинного обучения и статистического анализа больших данных. Чтобы развиваться в этом направлении, полезнее всего изучать успешные кейсы внедрения аналитических проектов, понимать проблемы и потребности своей компании в области аналитики. Для этой специальности лучше всего подходят люди, которые уже отработали в компании некоторое время и обладают доменной экспертизой, т. е. понимают внутренние процессы и внешний рынок.
  • Data scientist/исследователь данных — специалист по обработке больших массивов данных, знаток машинного обучения и статистики. Он должен уметь совершать всевозможные преобразования над данными и строить аналитические модели, в большей степени с применением машинного обучения. Также важно правильно валидировать алгоритмы и презентовать свои наработки членам своей команды и другим подразделениям. На эту специальность можно обучиться в вузах, к примеру, в Иннополисе. Также можно пройти онлайн-курсы на многочисленных ресурсах вроде Coursera, Edx, Stepik, Udacity или от крупных российских/зарубежных ИТ-компаний. Будет полезно подписаться на профильные ресурсы. Много знаний можно почерпнуть от участия в соревнованиях, которые проходят как офлайн, так и онлайн. Самая популярная платформа — Kaggle. Технологический стек, который применяется в этой области — ML-библиотеки, Python, R, SQL.
  • Data engineer/дата инженеры. Для работы с данными нужны сами данные. Дата-инженеры занимаются созданием инфраструктуры сбора и хранения данных. Такие эксперты умеют собирать, грузить данные из разных источников и аккуратно складывать в хранилище, чтобы специалисты по работе с данными могли беспрепятственно их использовать. Также можно выделить machine learning engineer — специалиста, который может автоматизировать работу предикативной модели от процесса сбора данных до расчёта признаков, получения результата и предоставления результата потребителю/заказчику. Зачастую инженеры будут выполнять задачи по devops. Такие специалисты могут пройти онлайн-курсы по специализации Big Data, курсы по работе с базами данных и оптимизации вычислений. Технологический стек: Python, Hadoop, Spark, DBA.

2. После определения специализации следует найти ресурсы, которые подробно расписывают дорожную карту развития компетенций (желательно заручившись поддержкой более опытных коллег/друзей). Рекомендую изучить Data engineer career path from Amazon, курс на Habr от Open Data Science (русский), data scientist 2020 path from av.com, классический курс по машинному обучению для продвинутых (на английском), специализацию от Яндекс по Big Data, специализацию по машинному обучению от Яндекс и МФТИ.

3. Далее советую поставить конкретные цели для изучения. Без них и без видения конечного результата внутренняя мотивация снижается, и сложно дойти до успешного результата.

4. Выделить время и приступить.

Анна Добрыченко , старший преподаватель учебного центра SAS

Это зависит от выбранного направления. Условно сферу Big Data можно разделить на две категории — Big Data Engeneering и Big Data Scientist / Data Analyst. Они различаются по характеру задач, тем не менее, в обеих сферах необходимы навыки программирования, мы рекомендуем их осваивать, и знание высшей математики.

Для старта карьеры Data Scientist и Data Analyst следует научиться писать SQL-запросы и начать работать с базой данных, научиться обрабатывать файлы и интерпретировать результаты, также уметь предобрабатывать массивы данных, формировать большие данные в кластеры, уметь обрабатывать данные в Hadoop. Из фундаментальных знаний пригодятся статистика, аналитика, теория вероятностей и хорошая математическая база. Все это необходимо для построения алгоритмов.

Для работы в области Big Data Engeneering нужно уметь строить саму архитектуру хранилищ данных, уметь настроить систему хранилищ так, чтобы данные не пропадали, чтобы поиск был удобным и вовремя происходило резервное копирование данных. Это направление работы включает в себя проектирование и развертывание систем, над которыми должны выполняться вычисления. Начать обучение имеет смысл с основ программирования, основ SQL и освоения работы с базами данных.

Людмила Локтева , директор учебного центра SAS

Если вы собираетесь развиваться в направлении Big Data Engineering, то есть заниматься разработкой архитектуры системы, настройкой сбора и хранения больших объемов данных, то прежде всего, нужно обладать навыками программирования, понимать принцип работы Hadoop, понимать внутреннее устройство СУБД, иметь представление о многопоточном программировании.

В свою очередь, Big Data Analytics предполагает использование массивов данных из готовых систем, разработанных специалистами по Big Data Engineering. Анализ Big Data включает в себя выявление тенденций и закономерностей, разработку различных систем классификации и прогнозирования, интерпретацию результатов. Если вы хорошо разбираетесь в программировании, успешно решаете сложные задачи по высшей математике, знаете теорию вероятностей, математический анализ, комбинаторику, то это как раз те навыки, которые пригодятся в работе в области Big Data Analytics.

Для математических вычислений и построения алгоритмов пригодятся SAS, Python, R. Для выгрузки массивов из баз необходимо уметь писать SQL-запросы. Главным инструментом в работе с Big Data считается Hadoop. Иногда может требоваться Spark – он выполняет задачи, схожие с Hadoop.

Франсуа Руа , руководитель отдела разработки ГК «Авилекс»

С чего начинающему программисту нужно начать изучение темы Big Data, какими навыками нужно обладать?

Для ответа на этот вопрос нужно в первую очередь разграничить, с какой точки зрения мы подходим к изучению Big Data.

  1. Сбор и хранение данных.
  2. Анализ данных.

Анализ данных — это о-о-очень много математики. Это знание алгоритмов и математических методов, причём порою весьма специфических. Это интуиция, в том числе математическая интуиция, если можно так сказать. Например, как посмотреть на те же самые цифры по-другому.

С другой стороны, вся область Big Data была бы не востребована, если бы не были собраны, обработаны и сохранены миллиарды записей. Поэтому важно эффективно данные записывать, хранить и обрабатывать.

Начинающему разработчику требуется для себя понять, с чем он справится, что ему, прежде всего, интересно: осваивать фреймворки, писать всевозможные модули по сбору данных, начать работать с таким инструментарием как Kafka, Spark, Elastic Stack, Hadoop и другими похожими технологиями в контексте именно сбора и накопления данных. Либо ему, как математику, интересно прежде всего постепенно учиться строить простые модели, простую выборку данных, и дальше всё углубляться и углубляться в процесс, применяя тот или иной язык, специфический для анализа данных.

Очень часто данные анализируются с помощью языка Python, либо R, также используются более специализированные языки. Некоторые делают анализ данных на функциональных языках типа Scala, Haskell. А вот собираются данные часто с использованием Java, и вообще тем, что там было придумано на JVM-машине и применимо для сбора, анализа, обработки данных. Netty, Akka, Kafka, Spark и прочее, и прочее.

Хотелось бы отметить, что начинающему программисту об этом думать вообще не надо. То есть сами понятия «начинающий программист» и «Big Data», они несколько несовместимые.

Программист должен быть довольно опытным, чтобы, например, заниматься сбором данных. Или, если это аналитик данных, то это даже больше не программист, а больше математик, тот, кто «дружит» с системным анализом, с математической вероятностью, со статистическими погрешностями и тому подобными вещами для исследования.

Например, на сегодня обычный путь разработчика Big Data — это относительно простые на первом этапе приложения по стандартной схеме: получили данные, записали их в реляционную базу, научились оттуда получать, фильтровать, агрегировать, группировать, строить таблицы фактов, использовать колоночные NoSQL-решения для накопления и последующей выборки. Иногда даже саму реляционную базу можно опустить, но всё равно язык SQL никто не отменял. Почему? Потому что на популярных NoSQL-решениях, том же Spark, который входит в большую Hadoop-экосистему, в нём часто имеет смысл представить данные как некий data frame, который является аналогом таблицы в реляционной базе, и потом применить подобные языку SQL запросы. Иногда это удобнее и быстрее, эффективнее в контексте данных или опыта команды разработки.

Чтобы стать разработчиком Big Data, нужно обладать большим кругозором, а также попасть в команду, которая уже эффективно занимается Big Data.
Но, как правило, в эти команды зовут опытных людей из других, смежных областей, а не начинающих разработчиков.

Сразу стать программистом, связанным с Big Data, — это очень сложно. Даже захотеть сложно. То есть надо понимать, почему ты туда попал, почему ты хочешь с этим работать. А это значит, что нужен опыт. А опыт есть у опытных программистов. Игра слов, но всё-таки.

Какими навыками нужно обладать и какими инструментами стоит пользоваться?

Программист должен хорошо знать алгоритмы и структуры данных. Хорошая алгоритмическая подготовка и всевозможные структуры, представления данных. Почему? Например, B-Tree. Это удобная структура для хранения данных в файловой системе, то есть на диске. Рано или поздно все данные попадают на диск. И если мы предлагаем какое-то другое решение для хранения, мы очень хорошо должны представлять, а нет ли в семействе структур данных B-Tree чего-то подходящего и хорошо изученного с известным временем выборки, эффективностью использования памяти, и так далее, чтобы это наше «другое решение» не оказалось «велосипедом» или малоизученным решением с неизвестными проблемами. Это странно, но часто даже опытные разработчики используют B-Tree-индексы в базах данных, не понимая, как они работают. Я уже не говорю про то, что хэш-таблицу, фильтр Блума, SS Table надо просто очень здорово понимать и уметь эффективно использовать.

А это только опыт, опыт и опыт. Теория — хорошо, но знать и уметь применять — вещи разные.

Кроме того, есть важная специфика работы с большими данными. Потому что, как мы только говорим о Big Data, мы сразу получаем и «большие» проблемы. Нам всегда мало оперативной памяти, нам всегда мало дискового пространства, и нам всегда мало нод в кластере. Это нормальная история, которую надо уметь превращать из печальной в работоспособную. А кто доверит неопытному человеку, допустим, Linux-кластер, в котором 100 нод? Для заказчика, для компании — это деньги. Впустую потраченное неопытной командой электричество сравнимо с затратами на опытных в работе с большими данными разработчиков.

Big Data — это не два компьютера в компании, которые потребляют немного электричества, и, допустим, простой которых некритичен. Это большой согласованный кластер со сложным ПО и высокими затратами на эксплуатацию, обслуживание. И, как правило, эти большие данные и анализ для кого-то предназначены. Если они пропадают, неэффективно обрабатываются, то проект обречён на провал… Важно не только правильно проанализировать данные, но и успеть это сделать за определённый конечный интервал времени, успеть дать ответ к конкретной дате.

Например, какой-либо совет на основе анализа по запросу маркетологов крупного интернет-магазина нужен, допустим, в течение месяца. Если месяц прошел, а понятного ответа на заданный вопрос нет, то всё, сезон скидок закончился, мы так и не узнали, какие товары надо было предложить клиенту интернет-магазина в «чёрную пятницу» (условно). В результате год готовились, исследовали, считали, и ничего не сосчитали. Это будет весьма болезненно для компании. Доверит ли она работу с Big Data начинающим разработчикам и исследователям?

Татьяна Зобнина , ведущий разработчик систем машинного обучения NAUMEN

Отрасль Big Data не только очень популярна, но и является одной из самых быстро развивающихся областей знаний. Поэтому наиболее важным навыком, позволяющим не только занять в данной отрасли устойчивую позицию сейчас, но и продолжить развиваться в качестве специалиста по большим данным в будущем, является фундаментальное базовое образование в области компьютерных наук и математики. Для специалистов в данной отрасли важны не только навыки программирования и работы с базами данных, но и знание основ алгоритмирования, вычислительной математики, статистического анализа, комбинаторики и т. д. Фундаментальное образование играет ключевую роль в развитии специалиста по большим данным, закладывая основу эффективного самостоятельного развития в рамках данной отрасли. Поэтому одним из приоритетных направлений для компании Naumen является подготовка IT-специалистов на базе ведущих естественно-научных факультетов УрФУ, а также образовательные мероприятия для сотрудников компании.

Для начала стоит определить, о какого рода специалистах идет речь, поскольку данная область весьма обширна и включает в себя специалистов в области построения, хранения и обработки больших данных — Data Engineers, специалистов в области анализа данных и построения алгоритмов машинного обучения — Data Scientists, а также нового поколения бизнес-аналитиков, которые могут переносить потребности бизнеса на язык IT с учётом новых задач, которые ставит перед бизнесом внедрение технологий больших данных. Основные инструменты для Data Engineer на данный момент — это технологический стек Hadoop, как наиболее распространённое решение в области хранения и обработки больших данных, а также понимание и навыки работы с различным NoSQL базами данных. Специалисты Data Science в свою очередь должны уметь работать с такими фреймворками как Spark и h2o. Знание и понимания алгоритмов нейронных сетей, как наиболее универсального инструмента построения алгоритмов машинного обучения, является неотъемлемым для любого специалиста в области Data Science. Важным качеством специалистов в области больших данных является гибкость и умение работать в рамках разных технологических стеков, то есть понимание того, что машинное обучение не является синонимом Python или R, а большие данные — не синоним Hadoop или HP Vertica. И для Data Engineer, и для Data Scientist будет полезным интерес в области квантовых вычислений. Сегодня область квантовых вычислений – это, по большей части, ещё наука, но возможно, что для нового поколения IT-специалистов квантовые компьютеры станут реальностью. Для бизнес-аналитиков важно не только понимание, как описать бизнес-процессы заказчика, но и умение выстраивать данные процессы в рамках задачи внедрить технологию больших данных на уровне сложных структурных взаимодействий между дочерними предприятиями и подразделениями крупных и средних компаний, а также умение быть арбитром во внутрикорпоративных спорах, возникающих в условиях необходимости единого хранения, обработки и обмена корпоративными данными.

Технологии и алгоритмы, которые ещё вчера были передовыми, сменяются новыми разработками, но это не значит, что стоит переписывать все задачи на новых фреймворках с применением новых алгоритмов. Стоит сохранять пристальное внимание и понимание происходящих вокруг изменений, но брать на вооружение только те методики и технологии, которые могут принести реальную и максимальную пользу бизнесу в рамках неизбежной ограниченности как вычислительных, так и финансовых ресурсов. Для компании Naumen это означает внимание ко всем аспектам внедрения технологий больших данных, изучение и тестирование наиболее актуальных open source-решений с акцентом на реальное состояние IT- и бизнес-структуры клиентов компании.

Илакаи Ромеро Рейес , стратегический директор Persona Grata Group

Важно сначала разобраться, что же такое Big Data, когда именно они начинаются.

Big Data — это данные, которые не помещаются в оперативную память компьютера.

Поэтому всю подготовку стоит разделить на анализ данных и анализ больших данных.

На основе анализа данных вы можете создать новые смыслы и незримые значимые выводы, но есть известный парадокс — очень легко породить ложные смыслы. Поэтому важно уметь в целом разбираться с данными.

Поскольку эта сфера сейчас быстро развивается, то информации относительно неё всегда много, и она также будет расти дальше. Поэтому важно уметь конкретно в своей голове работать с большими наплывом обучающей информации и структурировать её «под себя». Для этого важно выбрать себе базис, основной костяк информации, на который вы как на дерево будете насаживать разные ветки текущих знаний, да и будущих, с которыми вам ещё предстоит столкнуться. Свой личный базис поможет Вам не путаться во всём многообразии материалов на эту тему и спокойно в нём «жить». Я предложу своё видение, что можно взять за базис и в каких направлениях его стоит расширять, чтобы шаг за шагом повышать своё мастерство и освоить Big Data. Но повторюсь, что важно собрать базис под себя, поэтому будьте вольны всё, что указано ниже, рассматривать только как пример, а конкретный путь выбирать сами.

1 этап. Выстроить тот самый базис: научиться ориентироваться, какие типы данных вообще бывают, и что с ними можно делать.

Казалось бы, тривиальный вопрос для IT-шника, но порой это иллюзия. Вот один живой пример. Часто в интернете мы видим разные рейтинги, например рейтинги фильмов. Это знакомая всем история, когда посетители ресурса ставят оценку фильму от 1 до 5 звёздочек, а сайт автоматически интерактивно подсчитывает среднее значение рейтинга фильма. Это очень частая картина, но смысл в том, что тут-то и происходит подмена понятий: идёт искажение реальной оценки рейтинга фильма. Нельзя считать среднее значение, если расстояние между всеми оценками неодинаковое. Ведь для кого-то 4 — как для вас 3, или наоборот, как 5. Как в школе: 4 у определённого педагога — это подарок «с небес», а у другого 5 получить удаётся легко, и 4 наоборот «обижает». То есть оценки от разных пользователей неравнозначны. Поэтому тут для адекватной оценки рейтинга специалисты Data Science используют другие меры расчёта. И вот таких жизненных примеров много. Поэтому повторюсь, базис важно знать, и с него стоит начинать своё обучение Big Data. Доступней всего эти важные основы излагают, как ни странно, в гуманитарных науках. Там минимизированное количество формул и больше жизненных понятных примеров вместо абстрактных определений, которыми кишит статический анализ для естественных наук. Конечно, в чистой математике определения максимально точные, но из-за сложности языка не так-то легко бывает уловить смысл. Поэтому подбирайте под себя литературу о методах математической обработки, например, для психологов, социологов и, возможно, экономистов. И на жизненных примерах на доступном языке вы разберётесь с нужными основами быстрее. К тому же по пути вы разберётесь в том, как данные отбирать. Каким данным стоит верить, а какие ставить под сомнение. Это тоже важно. А заодно определитесь с вашим уровнем знаний в статистике и начнёте параллельно на тех же самых примерах его «подкачивать».

2 этап. Развивать навык задавать интересные осмысленные вопросы.

Дело в том, что когда вы видите огромный объём данных, очень важно знать, что именно вы хотите разузнать, прояснить и выверить. Поэтому важно уметь видеть не просто данные, а смысл за ними. Допустим, вы хотите выявить ТОП-10 фильмов XX и XXI веков с наибольшими кассовыми сборами. Вариант просто сделать ранжирование фильмов по убыванию общей суммы кассовых сборов не подходит. Важно видеть смысл и нюансы. В этом примере нужно сначала пересчитать суммы сборов с учётом инфляции доллара с момента выхода фильма до сегодняшнего дня. И только после этого сделать ранжирование и определить ТОП-10 фильмов. А для развития этого важного навыка задавания интересных и осмысленных вопросов полезно читать книги типа «Все лгут. Поисковики, Big Data и Интернет знают о вас всё» и разные научно-популярные книги, которые провоцируют ваш мозг думать нестандартно и замечать критические нюансы. Также в этом помогают навыки из других дисциплин, например, коучинг. А ещё, конечно, детективы содействуют, потому что, на мой взгляд, специалист в анализе данных — это некий Digital Шерлок.

3 этап. Развивать навык, как из интересных вопросов строить гипотезы, переводить их на язык математики и «компьютерного мышления» и проверять их.

Сначала, на всякий случай, поясню: любой исследователь вам скажет, что одна гипотеза — это не вариант, их должно быть как минимум три. И кроме этого, важно разбираться в стратегии их проверки. На уровне анализа обычных данных в первую очередь проверяется гипотеза от противного, а не наоборот, как часто бывает в наших привычках. Приведу пример. Допустим, у вас есть гипотеза, что онлайн-образование влияет на мотивацию учеников учиться. Просто проверка именно этой гипотезы ничего не доказывает, важно проверить обратную гипотезу, что онлайн-образование НЕ влияет на мотивацию учеников учиться. И если именно обратная гипотеза не будет подтверждена, то верна первоначальная гипотеза: что онлайн-образование влияет на мотивацию. Так что эти нюансы важны. Где можно почерпнуть эти знания? Там же, где и про типы данных. В литературе для гуманитариев по методам матобработки в исследованиях по психологии, социологии и т. п.

Цукерберг рекомендует:  Online-maraphone - Запись материалов с онлайн марафона

4 этап. Обучаться на конкретных примерах, не зацикливаясь на языке программирования.

На мой взгляд, в первую очередь важно набивать руку не на коде, а на смыслах. Для этого хорошо подходят онлайн-программы MOOC, в частности edX. Можно подобрать себе бесплатные онлайн-курсы на Python, R или аналогичные варианты. Есть ряд курсов, где не растрачивается время на сложности программирования и настройку среды программирования, и для этого задействуются настроенные версии web-платформ для интерактивных вычислений, таких как open-source проект Jupiter. В его названии как раз и кроется ответ, какие языки этот проект поддерживает: Julia, Python и R. На самом деле там больше языков, но суть в том, что благодаря Jupiter и другим аналогичным проектам вы можете сразу начать программировать на онлайн-курсе, разбирая ключевые смыслы задач, не тратя время на настройку среды. На этом этапе — то, что надо, чтобы не тратить время на сложности языка. А живые примеры помогут вам укрепить свой базис, начать в этом разбираться. А также по пути вы научитесь структурировать данные и обогащать копилку методов и приемов, которые используют как в обычном анализе данных, так и в анализе больших данных. Плюс ко всему, вы обучитесь азам визуализации данных, что очень полезно и важно для выверки верности своих гипотез.

5 этап. Переход на чистый Big Data Analysis.

На этом этапе вы, уже понимая ключевые смыслы анализа данных, обновляете свои инструменты именно для работы с суперкомпьютерами, кластерами и хранилищами данных. То есть этот этап позволит вам оптимизировать вычисления через парадигму параллельных вычислений и платформ обработки для распределённых в разных местах больших данных (Hadoop, Scala и т. п.). Именно их используют, когда объём данных уже слишком велик, и не помещается в оперативную память одного компьютера. Если есть азарт выходить на уровень промышленного или научного программирования, то тут понадобятся знания языков C++ или Go и подключение параллельных библиотек MPI или CUDA. Если ваши аппетиты чуть пониже, то тогда можно остановиться на обработке информации через различные системы (например для обработки информации в реальном времени используют платформы Scala и Storm). Системы обработки больших данных являются фреймворками, то есть каркасами, для использования которых необходимо состыковать их с другими фреймворками, прикладным программным обеспечением пользователя и системой хранения данных. Для изучения инструментов этого этапа также подойдут различные MOOC-курсы, либо при сильной математической подготовке можно раскачать свои навыки Big Data Analysis в Школе Анализа Данных Яндекса.

Ну, а дальше начинается своя самостоятельная дорога.

На базе заказов с Big Data, общения с коллегами и использования разных научных публикаций формируется ваш профессионализм и личная версия мастерства. И, как говорится, нет предела совершенству.

Big Data — что такое системы больших данных? Развитие технологий Big Data

Содержание статьи:

Большие данные — определение

Под термином «большие данные» буквально понимают огромный объем хранящейся на каком-либо носителе информации. Причем данный объем настолько велик, что обрабатывать его с помощью привычных программных или аппаратных средств нецелесообразно, а в некоторых случаях и вовсе невозможно.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации, быстродействие ее обработки и разнообразие сведений, хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value, что обозначает ценность информации. То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

Источники больших данных

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

История появления и развития Big Data

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

Техники и методы анализа и обработки больших данных

К основным методам анализа и обработки данных можно отнести следующие:

  1. Методы класса или глубинный анализ (Data Mining).

Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.

Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.

Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.

  1. Прогнозная аналитика.

Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.

  1. Машинное обучение (искусственный интеллект).

Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

  1. Сетевой анализ.

Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.

Перспективы и тенденции развития Big data

В 2020 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:

  • Облачные хранилища.

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

  • Использование Dark Data.

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

  • Искусственный интеллект и Deep Learning.

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

  • Blockchain.

Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.

  • Самообслуживание и снижение цен.

В 2020 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.

Большие данные в маркетинге и бизнесе

Все маркетинговые стратегии так или иначе основаны на манипулировании информацией и анализе уже имеющихся данных. Именно поэтому использование больших данных может предугадать и дать возможность скорректировать дальнейшее развитие компании.

К примеру, RTB-аукцион, созданный на основе больших данных, позволяет использовать рекламу более эффективно – определенный товар будет показываться только той группе пользователей, которая заинтересована в его приобретении.

Чем выгодно применение технологий больших данных в маркетинге и бизнесе?

  1. С их помощью можно гораздо быстрее создавать новые проекты, которые с большой вероятностью станут востребованными среди покупателей.
  2. Они помогают соотнести требования клиента с существующим или проектируемым сервисом и таким образом подкорректировать их.
  3. Методы больших данных позволяют оценить степень текущей удовлетворенности всех пользователей и каждого в отдельности.
  4. Повышение лояльности клиентов обеспечивается за счет методов обработки больших данных.
  5. Привлечение целевой аудитории в интернете становится более простым благодаря возможности контролировать огромные массивы данных.

Например, один из самых популярных сервисов для прогнозирования вероятной популярности того или иного продукта – Google.trends. Он широко используется маркетологами и аналитиками, позволяя им получить статистику использования данного продукта в прошлом и прогноз на будущий сезон. Это позволяет руководителям компаний более эффективно провести распределение рекламного бюджета, определить, в какую область лучше всего вложить деньги.

Примеры использования Big Data

Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.

Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.

К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.

Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.

Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.

Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.

К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.

Проблемы Big Data

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации. Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы.

Рынок технологий больших данных в России и мире

По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.

Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.

Результаты внедрения технологий больших данных:

  • рост качества клиентского сервиса;
  • оптимизация интеграции в цепи поставок;
  • оптимизация планирования организации;
  • ускорение взаимодействия с клиентами;
  • повышение эффективности обработки запросов клиентов;
  • снижение затрат на сервис;
  • оптимизация обработки клиентских заявок.

Лучшие книги по Big Data

«The Human Face of Big Data», Рик Смолан и Дженнифер Эрвитт

Подойдет для первоначального изучения технологий обработки больших данных – легко и понятно вводит в курс дела. Дает понять, как обилие информации повлияло на повседневную жизнь и все ее сферы: науку, бизнес, медицину и т. д. Содержит многочисленные иллюстрации, поэтому воспринимается без особых усилий.

«Introduction to Data Mining», Панг-Нинг Тан, Майкл Стейнбах и Випин Кумар

Также полезная для новичков книга по Big Data, объясняющая работу с большими данными по принципу «от простого к сложному». Освещает многие немаловажные на начальном этапе моменты: подготовку к обработке, визуализацию, OLAP, а также некоторые методы анализа и классификации данных.

«Python Machine Learning», Себастьян Рашка

Практическое руководство по использованию больших данных и работе с ними с применением языка программирования Python. Подходит как студентам инженерных специальностей, так и специалистам, которые хотят углубить свои знания.

«Hadoop for Dummies», Дирк Дерус, Пол С. Зикопулос, Роман Б. Мельник

Hadoop – это проект, созданный специально для работы с распределенными программами, организующими выполнение действий на тысячах узлов одновременно. Знакомство с ним поможет более детально разобраться в практическом применении больших данных.

Big Data: с чего начать

Каждый обмен с социальными медиа, каждый цифровой процесс, каждое подключённое устройство генерирует большие данные, которые будут использоваться различными компаниями.

Сегодня компании используют Big Data для углубленного взаимодействия с клиентами, оптимизации операций, предотвращения угроз и мошенничества. За последние два года такие компании, как IBM, Google, Amazon, Uber, создали сотни рабочих мест для программистов и Data science.

Область больших данных слишком размылась на просторах интернета, и это может быть очень сложной задачей для тех, кто начинает изучать большие данные и связанные с ними технологии. Технологии данных многочисленны это может быть огромным препятствием для начинающих. Давайте попробуем разложить все по полочкам.

1. Как начать

В сфере Big Data существует много направлений. Но в широком смысле можно разделить на две категории:

  1. Big Data engineering.
  2. Big Data Analytics (Scientist).

Эти поля взаимозависимы, но отличаются друг от друга.

Big Data engineering занимается разработкой каркаса, сбора и хранения данных, а также делают соответствующие данные доступными для различных потребительских и внутренних приложений.

У вас хорошие навыки программирования и вы понимаете, как компьютеры взаимодействуют через интернет, но у вас нет интереса к математике и статистике. В этом случае вам больше подойдёт Big data engineering.

В то время как Big Data Analytics — среда использования больших объемов данных из готовых систем, разработанных Big data engineering. Анализ больших данных включает в себя анализ тенденций, закономерностей и разработку различных систем классификации и прогнозирования. После магических действий и танцев с бубном Data Analytics (Scientist) интерпретирует результаты.

Если вы хорошо разбираетесь в программировании, за чашкой кофе решаете сложные задачи по высшей математике, понимаете, что такое теория вероятностей, математический анализ, комбинаторики, тогда вам подойдёт Big Data Analytics.

Таким образом, Big data Analytics включает в себя расширенные вычисления по данным. В то время как Big data engineering включает проектирование и развертывание систем, над которыми должны выполняться вычисления.

Как стать специалистом по большим данным

С направлением определились, теперь давайте разберём, что должен знать Data science, чтобы его рассматривали в качестве будущего кандидата.

Терминология данных

Проект с большими данными имеет два основных понятия — требования к данным и требования их обработке.

Требования к данным

Структурированные данные: хранятся в таблицах или в файлах. Если данные хранятся в предопределённой модели данных (то есть в схемах), это называется структурированными данными.

Неструктурированные: если данные хранятся в файлах и не имеют предопределённой модели, это называется неструктурированными данными.

Источники данных: внутренние (CRM, ERP или любые источники, которые находятся внутри системы) и внешние (соцсети, интернет).

Размер: с размером мы оцениваем количество данных. Типы: S, M, L, XL, XXL, передача потоков.

Пропускная способность: определяет, с какой скоростью данные могут быть приняты в систему. Типы: H, M, L.

Пропускная способность источника: определяет, с какой скоростью данные могут быть обновлены и преобразованы в систему. Типы: H, M, L.

Требования к обработке данных

Время запроса: время, за которое система выполняет запрос. Типы: Long, Medium, Short.

Время обработки: время обработки данных. Типы: длинный, средний, короткий.

Точность: точность обработки данных. Типы: точные или приблизительные, Exact или Approximate.

Учимся проектировать решения

Задача — разработать Data lake для эффективного анализа продаж банка.

Данные берём из разных источников.

  • ERP (персональная информация о клиенте, данные о кредитной истории, данные о потенциальных клиентах);
  • CRM (данные от колл-центра, данные о продажах,) данные о продуктах, транзакции проведенные через банковскую систему, CRM системы.
  • социальные сети (BDSMM);
  • интернет;
  • веб-аналитика.

Важно понимать, что первым делом нужно рассчитывать, что система должна быть интегрирована со всеми вышеперечисленными источниками и бесперебойно принимать данные.

Определяем конечные цели:

  1. Создаем Data lake для объединения данных из нескольких источников.
  2. Автоматическое обновление данных через определённые промежутки времени.
  3. Доступность данных для анализа (круглосуточно, возможно ежедневно).
  4. Архитектура для лёгкого доступа к панели инструментов аналитики.

Теперь, когда мы знаем, каковы наши конечные цели, попробуем сформулировать наши требования более формальными терминами.

Требования к данным

Структура: большая часть данных структурирована и имеет определённую модель. Но источники данных, такие как веб-журналы, взаимодействия с клиентами или данные колл-центра, изображения из каталога продаж, данные рекламы продукта —доступность и требования к изображениям и мультимедийной рекламной информации могут зависеть от компании.

Тип данных: структурированные и неструктурированные данные.

Курсы по Big Data и анализу больших данных на русском языке

Аналитик Big Data изучает большие массивы данных, которые собирает и хранит компания, чтобы разрабатывать и внедрять продукты, которые повысят эффективность решения задач, увеличат доход или улучшат обслуживание клиентов. Курсы Big Data нацелены на изучение задач и подходов к их решению. Комплексная работа с большими данными включает их анализ, обработку и визуализацию для дальнейшего применения в решении бизнес-задач.

Технологии Big Data применяются в IT, телекоме, финансах, государственном управлении, онлайн-торговле. Инженеры и аналитики больших данных должны уметь разбираться в математике, статистике, информатике, бизнес-процессах. Публикуем курсы по Big Data на русском языке или с русскими субтитрами.

Базы данных (Databases)

Автор: СПбГУ
Платформа: Coursera
Язык: русский
Уровень: продвинутый

Курс Базы данных направлен на изучение и применение языка SQL для создания, модификации объектов баз данных и управления данными в произвольных реляционных базах данных. Рассматриваются этапы проектирования баз данных, составление запросов, методы индексирования. Помимо этого обозреваются основные изменения и тенденции в науке о данных в связи с появлением Big Data.

Продолжительность: 20 часов
Стоимость: бесплатно

Big Data — основы работы с большими массивами данных

Автор: Университет Нетология
Платформа: Нетология
Язык: русский
Уровень: продвинутый

Курс Big Data от Нетологии подойдет тем, кто хочет расширить знания в аналитике. В программе курса обучение сбору, хранению и обработке больших данных, работа в Hadoop и MapReduce. Также обозреваются облачные платформы для анализа и работы с Big Data: AWS, EMR, Azure и другие, рассматриваются основы реализации проектов.

Продолжительность: 39 часов
Стоимость: 27 900 рублей

Managing Big Data with MySQL

Автор: Duke University
Платформа: Coursera
Язык: английский, русские субтитры
Уровень: начальный

Курс Managing Big Data with MySQL в специализацию от Duke University «От Excel до MySQL: способы анализа бизнес-данных» на Coursera и представляет собой введение в использование реляционных баз данных в бизнес-анализе. Вы узнаете, как собирать данные самостоятельно, работать с базами и использовать визуализацию для отображения структуры в данных.

Продолжительность: 24 часа
Стоимость: по подписке Coursera

Managing Data Analysis

Автор: Johns Hopkins University
Платформа: Coursera
Язык: английский, русские субтитры
Уровень: начальный

Курс Managing Data Analysis входит в специализацию «Data science для руководителей» и знакомит с процессом анализа больших данных. Он описывает, как управлять аналитической деятельностью команды, чтобы достигать полезных для компании результатов.

Продолжительность: 7 часов
Стоимость: по подписке Coursera

Курс «Введение в технологии BIG DATA»

Код: EDU-BD-01
Специализация: Авторские курсы: СУБД и хранилища данных

Продолжительность — 3 дня

Стоимость: 26 445 руб.

Цель курса » Введение в технологии Big Data » — дать углубленное представление о технологиях Big Data и особенностях и перспективах их использования на практике. Программа состоит из взаимосвязанных блоков, где будут представлены как технологические так и экономические особенности использования технологий BigData а так же варианты построения необходимой инфраструктуры для конкретного использования в организации. Программа ориентирована на широкий круг слушателей, включая бизнес пользователей, ИТ специалистов и руководителей проектов, а также руководителей или владельцев бизнеса.

Аудитория: Курс ориентирован на широкий круг слушателей, включая бизнес пользователей, ИТ специалистов и руководителей проектов, а также руководителей или владельцев бизнеса.

Программа курса

Программа состоит из 3 модулей:

Модуль 1: Что такое Big Data: введение в большие данные.

Ведение в аналитику Больших данных. Основные понятия и определения. История вопроса. Источники Больших данных. Применение в экономике, бизнесе, здравоохранении, промышленности

  • Ключевые характеристики
  • Основные сферы применения
  • Технологии обработки и работы с большими данных
  • Примеры применения в различных отраслях
  • Mировой опыт и российский опыт
  • Перспективы роста, госсектор

Модуль 2: Основы технологий больших данных

Особенности применения. Big Data и Data Mining. Технологии Больших данных. Hadoop

Инфраструктура больших данных

  • Распределенные вычисления и экосистема Hadoop
  • Подход MapReduce и его программные реализации
  • Параллельные вычисления
  • Применение облачных технологий

  • Виды анализа данных
  • Постановка задачи классификации и регрессии
  • Обзор алгоритмов машинного обучения
  • Пример анализа данных с использованием машинного обучения на платформе MicrosoftAzure

Модуль 3: Практическое применение технологий больший данных на примерах, с использованием инструментария MicrosoftAzure

  • Получение и подготовка данных, на примере реальных накопленных бизнес данных
  • Выбор алгоритмов анализа
  • Построение моделей обучения
  • Анализ результатов

В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.

В современном мире сложно обойтись без информационных технологий и их производных — компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. — не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных.

Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence . Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации.

В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных.

Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас!

В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на основании оценок, полученных обучающимся при проверке усвоения изучаемого материала на основании оценок за практические работы, выполненные в процессе обучения.

Учебный центр «Интерфейс» оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.

IT.UA — home page

Продажи
Производство
Затраты и контроллинг
Ремонты и обслуживание
Закупки и логистика
Финансы
Бухгалтерия
Персонал
Документооборот и BPM
Управление проектами
Правительство
  1. Технологии и Инновации
  2. Big Data (Большие данные)
Цифровая трансформация бизнеса
Методологии управления
Инструментарий управления бизнесом
ДРУГИЕ СТАТЬИ
Искусственные нейронные сети (ИНС)
Интернет дронов (IoD) —технологическая революция X.0?

Big Data

Википедия по состоянию на середину 2020 года давала следующее определение термину Big Data:

«Большие данные (Big Data) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence».

Как видим, в этом определении присутствуют такие неопределенные термины, как «огромных», «значительного», «эффективно» и «альтернативных». Даже само название весьма субъективно. Например, 4 Терабайта (емкость современного внешнего жесткого диска для ноутбука) — это уже большие данные или еще нет? К этому определению Википедия добавляет следующее: «в широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий».

Аналитики компании IBS «весь мировой объём данных» оценили такими величинами:

2003 г. — 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов)
2008 г. — 0,18 зеттабайта (1 ЗБ = 1024 эксабайта)
2015 г. — более 6,5 зеттабайтов
2020 г. — 40–44 зеттабайта (прогноз)
2025 г. — этот объем вырастет еще в 10 раз.

В докладе также отмечается, что большую часть данных генерировать будут не обычные потребители, а предприятия 1 (вспомним Промышленный интернет вещей).

Можно пользоваться и более простым определением, вполне соответствующим устоявшемуся мнению журналистов и маркетологов.

«Большие данные — это совокупность технологий, которые призваны совершать три операции:

  1. Обрабатывать большие по сравнению со «стандартными» сценариями объемы данных
  2. Уметь работать с быстро поступающими данными в очень больших объемах. То есть данных не просто много, а их постоянно становится все больше и больше
  3. Уметь работать со структурированными и слабо структурированными данными параллельно и в разных аспектах» 2

Считается, что эти «умения» позволяют выявить скрытые закономерности, ускользающие от ограниченного человеческого восприятия. Это дает беспрецедентные возможности оптимизации многих сфер нашей жизни: государственного управления, медицины, телекоммуникаций, финансов, транспорта, производства и так далее. Не удивительно, что журналисты и маркетологи настолько часто использовали словосочетание Big Data, что многие эксперты считают этот термин дискредитированным и предлагают от него отказаться. 3

Более того, в октябре 2015 года компания Gartner исключила Big Data из числа популярных трендов. Свое решение аналитики компании объяснили тем, что в состав понятия «большие данные» входит большое количество технологий, уже активно применяемым на предприятиях, они частично относятся к другим популярным сферам и тенденциям и стали повседневным рабочим инструментом. 4

Как бы то ни было, термин Big Data по-прежнему широко используется, подтверждением чему служит и наша статья.

Три «V» (4, 5, 7) и три принципа работы с большими данными

Определяющими характеристиками для больших данных являются, помимо их физического объёма, и другие, подчеркивающие сложность задачи обработки и анализа этих данных. Набор признаков VVV (volume, velocity, variety — физический объём, скорость прироста данных и необходимости их быстрой обработки, возможность одновременно обрабатывать данные различных типов) был выработан компанией Meta Group в 2001 году с целью указать на равную значимость управления данными по всем трём аспектам.

В дальнейшем появились интерпретации с четырьмя V (добавлялась veracity — достоверность), пятью V (viability — жизнеспособность и value — ценность), семью V (variability — переменчивость и visualization — визуализация). Но компания IDC, например, интерпретирует именно четвёртое V как value (ценность), подчеркивая экономическую целесообразность обработки больших объёмов данных в соответствующих условиях. 5

Исходя из вышеприведенных определений, основные принципы работы с большими данными таковы:

  1. Горизонтальная масштабируемость. Это — базовый принцип обработки больших данных. Как уже говорилось, больших данных с каждым днем становится все больше. Соответственно, необходимо увеличивать количество вычислительных узлов, по которым распределяются эти данные, причем обработка должна происходить без ухудшения производительности.
  2. Отказоустойчивость. Этот принцип вытекает из предыдущего. Поскольку вычислительных узлов в кластере может быть много (иногда десятки тысяч) и их количество, не исключено, будет увеличиваться, возрастает и вероятность выхода машин из строя. Методы работы с большими данными должны учитывать возможность таких ситуаций и предусматривать превентивные меры.
  3. Локальность данных. Так как данные распределены по большому количеству вычислительных узлов, то, если они физически находятся на одном сервере, а обрабатываются на другом, расходы на передачу данных могут стать неоправданно большими. Поэтому обработку данных желательно проводить на той же машине, на которой они хранятся.

Эти принципы отличаются от тех, которые характерны для традиционных, централизованных, вертикальных моделей хранения хорошо структурированных данных. Соответственно, для работы с большими данными разрабатывают новые подходы и технологии.

Технологии и тенденции работы с Big Data

Изначально в совокупность подходов и технологий включались средства массово-параллельной обработки неопределённо структурированных данных, такие как СУБД NoSQL, алгоритмы MapReduce и средства проекта Hadoop. В дальнейшем к технологиям больших данных стали относить и другие решения, обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных, а также некоторые аппаратные средства.

  • MapReduce — модель распределённых параллельных вычислений в компьютерных кластерах, представленная компанией Google. Согласно этой модели приложение разделяется на большое количество одинаковых элементарных заданий, выполняемых на узлах кластера и затем естественным образом сводимых в конечный результат.
  • NoSQL (от англ. Not Only SQL, не только SQL) — общий термин для различных нереляционных баз данных и хранилищ, не обозначает какую-либо одну конкретную технологию или продукт. Обычные реляционные базы данных хорошо подходят для достаточно быстрых и однотипных запросов, а на сложных и гибко построенных запросах, характерных для больших данных, нагрузка превышает разумные пределы и использование СУБД становится неэффективным.
  • Hadoop — свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Считается одной из основополагающих технологий больших данных.
  • R — язык программирования для статистической обработки данных и работы с графикой. Широко используется для анализа данных и фактически стал стандартом для статистических программ.
  • Аппаратные решения. Корпорации Teradata, EMC и др. предлагают аппаратно-программные комплексы, предназначенные для обработки больших данных. Эти комплексы поставляются как готовые к установке телекоммуникационные шкафы, содержащие кластер серверов и управляющее программное обеспечение для массово-параллельной обработки. Сюда также иногда относят аппаратные решения для аналитической обработки в оперативной памяти, в частности, аппаратно-программные комплексы Hana компании SAP и комплекс Exalytics компании Oracle, несмотря на то, что такая обработка изначально не является массово-параллельной, а объёмы оперативной памяти одного узла ограничиваются несколькими терабайтами. 6

Консалтинговая компания McKinsey, кроме рассматриваемых большинством аналитиков технологий NoSQL, MapReduce, Hadoop, R, включает в контекст применимости для обработки больших данных также технологии Business Intelligence и реляционные системы управления базами данных с поддержкой языка SQL.

Методы и техники анализа больших данных

Международная консалтинговая компания McKinsey, специализирующаяся на решении задач, связанных со стратегическим управлением, выделяет 11 методов и техник анализа, применимых к большим данным.

Методы класса Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — совокупность методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных знаний, необходимых для принятия решений. К таким методам, в частности, относятся обучение ассоциативным правилам (association rule learning), классификация (разбиение на категории), кластерный анализ, регрессионный анализ, обнаружение и анализ отклонений и др.

Краудсорсинг — классификация и обогащение данных силами широкого, неопределённого круга лиц, выполняющих эту работу без вступления в трудовые отношения

Смешение и интеграция данных (data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников с целью проведения глубинного анализа (например, цифровая обработка сигналов, обработка естественного языка, включая тональный анализ, и др.)

Машинное обучение, включая обучение с учителем и без учителя — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей

Искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы (genetic algorithm — эвристические алгоритмы поиска, используемые для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе)

Распознавание образов

• Прогнозная аналитика

• Имитационное моделирование (simulation) — метод, позволяющий строить модели, описывающие процессы так, как они проходили бы в действительности. Имитационное моделирование можно рассматривать как разновидность экспериментальных испытаний

Пространственный анализ (spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию, извлекаемую из данных

Статистический анализ — анализ временных рядов, A/B-тестирование (A/B testing, split testing — метод маркетингового исследования; при его использовании контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того чтобы выяснить, какие из изменений улучшают целевой показатель)

Визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа. Очень важный этап анализа больших данных, позволяющий представить самые важные результаты анализа в наиболее удобном для восприятия виде. 7

Большие данные в промышленности

Согласно отчету компании McKinsey «Global Institute, Big data: The next frontier for innovation, competition, and productivity», данные стали таким же важным фактором производства, как трудовые ресурсы и производственные активы. За счет использования больших данных компании могут получать ощутимые конкурентные преимущества. Технологии Big Data могут быть полезными при решении следующих задач:

  • прогнозирование рыночной ситуации
  • маркетинг и оптимизация продаж
  • совершенствование продукции
  • принятие управленческих решений
  • повышение производительности труда
  • эффективная логистика
  • мониторинг состояния основных фондов 8,9

На производственных предприятиях большие данные генерируются также вследствие внедрения технологий Промышленного интернета вещей. В ходе этого процесса основные узлы и детали станков и машин снабжаются датчиками, исполнительными устройствами, контроллерами и, иногда, недорогими процессорами, способными производить граничные (туманные) вычисления. В ходе производственного процесса осуществляется постоянный сбор данных и, возможно, их предварительная обработка (например, фильтрация). Аналитические платформы обрабатывают эти массивы информации в режиме реального времени, представляют результаты в наиболее удобном для восприятия виде и сохраняют для дальнейшего использования. На основе анализа полученных данных делаются выводы о состоянии оборудования, эффективности его работы, качестве выпускаемой продукции, необходимости внесения изменений в технологические процессы и т.д.

Благодаря мониторингу информации в режиме реального времени персонал предприятия может:

  • сокращать количество простоев
  • повышать производительность оборудования
  • уменьшать расходы на эксплуатацию оборудования
  • предотвращать несчастные случаи


Последний пункт особенно важен. Например, операторы, работающие на предприятиях нефтехимической промышленности, получают в среднем около 1500 аварийных сообщений в день, то есть более одного сообщения в минуту. Это приводит к повышенной усталости операторов, которым приходится постоянно принимать мгновенные решения о том, как реагировать на тот или иной сигнал. Но аналитическая платформа может отфильтровать второстепенную информацию, и тогда операторы получают возможность сосредоточиться в первую очередь на критических ситуациях. Это позволяет им более эффективно выявлять и предотвращать аварии и, возможно, несчастные случаи. В результате повышаются уровни надежности производства, промышленной безопасности, готовности технологического оборудования, соответствия нормативным требованиям. 10

Кроме того, по результатам анализа больших данных можно рассчитывать сроки окупаемости оборудования, перспективы изменения технологических режимов, сокращения или перераспределения обслуживающего персонала — т.е. принимать стратегические решения относительно дальнейшего развития предприятия. 11

BDAM: Большие данные Big Data для руководителей

Новая версия курса «Аналитика Big Data для руководителей и менеджеров»

Ближайшая дата курса Big Data для руководителей 12-14 февраля 2020
18-20 марта 2020
13-15 мая 2020
Стоимость обучения 54.000 рублей

Все, что нужно знать для успешной работы с большими данными: методы аналитики и машинного обучения, основы и функционал компонентов экосистемы Hadoop, безопасность в Data Lake, Интернет Вещей и GDRP

Аудитория: курс аналитика больших данных Big Data для руководителей ориентирован на руководителей, менеджеров и специалистов, и тех кто хочет получить расширенные знания по инструментам и методам анализа больших данных для участия в проектах больших данных.

Предварительный уровень подготовки:
  • Предварительный опыт не требуется

Продолжительность: 3 дня, 24 академических часа
Документ об окончании курса: сертификат учебного центра.

Курс «Аналитика больших данных для менеджеров» предоставляет необходимые знания для участия в проектах по анализу больших данных. Включает информацию о фазах жизненного цикла процессов аналитики больших данных при переходе бизнеса к использованию Big Data. На курсе вы узнаете базовые и расширенные методы аналитики и техники поиска и извлечения знаний из больших массивов разнородных данных. Программа обучения включает сравнение различных версий дистрибутивов платформы Hadoop, облачные сервисы для хранения и аналитики данных, «open source« и коммерческие инструменты используемые для хранения, обработки, визуализации и аналитики больших данных.

В программе обучения подробно рассматриваются сценарии применения технологий работы с Большими Данными (Big Data) в различных отраслях бизнеса (Банки и финансовые учреждения, промышленность, торговля и транспорт) и организациях государственного сектора. Мы подробно изучим процесс инициации проекта по цифровизации предприятия (сбора больших данных, формирования команды проекта по аналитике больших данных) и рассмотрим все фазы жизненного цикла работы с большими данными (подготовка данных, выбор модели, пилотное развертывание и тестирование модели, промышленная эксплуатация).

В курсе особое внимание уделяется вопросам работы с персональными данными и обеспечение безопасности при работе с большими данными. Материалы содержат много реальных примеров (use cases) монетизации больших данных в Российском и мировом бизнесе. Особое внимание уделено условиям импортозамещения, а также возможные сложности и специфика использования при работе с большими данными для различных секторов экономики в России.

Если вы хотите разбираться:
  • в основных понятиях мира БольшихДанных, Машинногообучения и ИнтернетаВещей;
  • знать, в чем отличие разных версий дистрибутивов Hadoop, Spark, NoSQL или Kafka;
  • назначение компонентов экосистемы Hadoop, Spark, Kafka;
  • нюансы облачных решений;
  • что такое стандарт GDPR;
  • особенности Индустриального интернета Вещей;

Программа курса

Введение в Big Data (Большие данные)

  • Большие данные и цифровизация данных
  • Методы аналитики больших данных
  • Отраслевая специфика аналитики больших данных
  • Сценарии применения технологий больших данных
  • Жизненный цикл аналитики данных: получение данных, подготовка данных, планирование модели, построение модели, проверка результатов, внедрение
  • Формирование озера данных Data Lake
  • Data Mining — извлечение знаний из больших данных

    • Задачи и техники Data Mining
    • Классификация и кластеризация
    • Прогнозирование и визуализация
    • Ассоциативные правила и обнаружение аномалий
    • Методология CRISP-DM, SEMMA
    • Инструменты Data Mining
    • Специфика применения Data Mining для разных отраслей бизнеса с примерами
  • Машинное обучение для Data mining

    • Основные определения
    • Задачи и область применения машинного обучения
    • Supervised/unsupervisedмашинное обучение
    • Инструменты и технологии машинного обучения
  • Data mining в социальных сетях

    • Введение в анализ социальных сетей и теорию графов
    • Базовые алгоритмы на графах и основные возможности графового анализа
    • Феномен маленького мира
    • Выделение важных узлов в социальных сетях
    • Инструменты и методы визуализации графов для применения в бизнесе
  • Инструментарий для работы с Big Data

    • Специфика работы с Big Data
    • Аналитика для неструктурированных данных с использованием Hadoop
    • Назначение и характеристика компонент экосистемы ApacheHadoopдля хранения и обработки Big Data (MapReduce, HDFS, YARN, Spark, HBase, Hive, и т.д.)
    • Сравнительный анализ Hadoop дистрибутивов (ArenadataHadoop,Cloudera, Horton Works, MapR) и инструментарий аналитика данных на примерах использования
    • Сравнительные характеристики программных и аппаратных решений для реализации решений по Big Data
    • Облачные платформы (AWS, EMR, Azure) для реализации решений по Big Data
    • Средства визуализации для аналитики данных.
  • Интеграция Больших данных

    • Основные принципы работы с BigData
    • Импорт и экспорт данных с Hadoop (SQL, NoSQL, HDFS, NFS, потоковые данные, web content, файлы логов, социальные сети)
    • Пакетная и динамическая загрузка данных
  • Правовые аспекты организации защиты персональных данных

    • Правовое регулирование в области защиты персональных данных
    • Международная практика в области защиты персональных данных
    • Права субъекта и обязанности оператора при обработке персональных данных
    • Виды нарушений безопасности персональных данных
    • Стандарт GDRP
  • С чего начать?

    • Формирование команды проекта Big Data. Ключевые роли
    • Специфика рынка данных и аналитики
    • Использование подходов Agile и DevOps
    • Методологии для стандарты
    • Отличия подходов BusinessIntelligence и DataScience
    • Сравнительные характеристики программных и аппаратных решений для реализации решений по BigData.
  • Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (985) 162-29-63 или заполнить форму обратной связи на сайте.

    Что такое Big data: собрали всё самое важное о больших данных

    Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой: Rusbase объясняет на пальцах для тех, кто немного отстал от жизни.

    Что такое Big data

    Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

    Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

    Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

    Читайте также: Как зарождалась эра Big data

    Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.

    Big data — простыми словами

    В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

    Читайте также: Мир Big data в 8 терминах

    Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

    Кеннет Кукьер: Большие данные — лучшие данные

    Технология Big data

    Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

    Читайте также: Big data: анализ и структурирование

    Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

    Техники и методы анализа, применимые к Big data по McKinsey:

    • Data Mining;
    • Краудсорсинг;
    • Смешение и интеграция данных;
    • Машинное обучение;
    • Искусственные нейронные сети;
    • Распознавание образов;
    • Прогнозная аналитика;
    • Имитационное моделирование;
    • Пространственный анализ;
    • Статистический анализ;
    • Визуализация аналитических данных.

    Технологии:

    Читайте также: Big data: семантический анализ данных и машинное обучение

    Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

    1. Volume — величина физического объёма.
    2. Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
    3. Variety — возможность одновременно обрабатывать различные типы данных.

    Big data: применение и возможности

    Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

    Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.

    Сюзан Этлиджер: Как быть с большими данными?

    Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

    У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.

    Читайте также: «Большие данные дают конкурентное преимущество, поэтому не все хотят о них рассказывать»

    Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

    Big data в мире

    По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

    К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

    Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

    Рынок Big data в России

    В 2020 году мировой доход на рынке big data должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

    Читайте также: Как устроен рынок Big data в России

    Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.

    15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. Следите за Big Data Conference в Telegram, на Facebook и «ВКонтакте».

    Обычно большие данные поступают из трёх источников:

    • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
    • Корпоративные архивы документов;
    • Показания датчиков, приборов и других устройств.

    Big data в банках

    Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2020 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

    «ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

    Читайте также: Кто делает Big data в России?

    «Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

    «Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

    Big data в бизнесе

    Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали.

    Читайте также: Как заставить большие данные работать на ваш бизнес

    Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

    Читайте также: 6 современных тенденций в финансовом секторе

    Чтобы оптимизировать бизнес-процессы,«Сургутнефтегаз» воспользовался платформой данных и приложений «in-memory» под названием SAP HANA, которая помогает в ведении бизнеса в реальном времени. Платформа автоматизирует учёт продукции, расчёт цен, обеспечивает сотрудников информацией и экономит аппаратные ресурсы. Как большие данные перевернули бизнес других предприятий — вы можете прочитать здесь.

    Big data в маркетинге

    Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основываясь на модели RTB-аукциона.

    Читайте также: Чем полезны большие данные для рекламного бизнеса?

    Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.

    Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.

    Читайте также: Большие данные должны приносить практическую пользу бизнесу – или умереть

    Биг дата изменит мир?

    От технологий нам не спрятаться, не скрыться. Big data уже меняет мир, потихоньку просачиваясь в наши города, дома, квартиры и гаджеты. Как быстро технология захватит планету — сказать сложно. Одно понятно точно — держись моды или умри в отстое, как говорил Боб Келсо в сериале «Клиника».

    А что вам интересно было бы узнать о больших данных? Пишите в комментариях :)

    Материалы по теме:

    Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

    Технология больших данных

    Стремительное развитие инструментальных средств создало условия для накопления и хранения больших объемов данных, однако технологии их использования отстают от потребностей пользователей.

    Большие данные (Big Data) в информационных технологиях означают серию подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов и значительного многообразия для получения воспринимаемых пользователем результатов [33—35].

    В качестве определяющих характеристик для больших данных отмечают «три V»: объем (volume) в смысле величины физического объема, скорость (velocity) в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (variety) в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных.

    Введение термина «большие данные» относят к 2008 г., с 2009 г. термин широко распространился в деловой прессе, а к 2010 г. относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. В настоящее время большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett- Packard, EMC.

    На практике данных действительно становится все больше, но проблема вызвана не столько обрушившимися в невероятном количестве данными, сколько неспособностью старыми методами справиться с новыми объемами. Способность порождать данные оказалась сильнее, чем способность их перерабатывать. Причина возникновения такого дисбаланса связана с недостаточным вниманием к отслеживанию связей цепочки «данные — информация — знание». В современной теории информации недостаточное внимание уделено раскрытию понятий «данные» и «информация», отдавая предпочтение технологии работы с данными. Данные должны обрабатываться для получения информации, необходимой пользователю для превращения в знание.

    Принято делить подходы к Big Data на три группы: быстрые данные (Fast Data), их объем измеряется терабайтами; большая аналитика (Big Analytics) — петабайтные данные и глубокое проникновение (Deep Insight) — экзабайты, зеттабайты. Группы различаются между собой не только оперируемыми объемами данных, но и качеством решения по их обработке.

    Обработка для Fast Data не предполагает получения новых знаний, ее результаты соотносятся с априорными знаниями и позволяют судить о том, как протекают те или иные процессы, она позволяет лучше и детальнее увидеть происходящее, подтвердить или отвергнуть какие-то гипотезы. Небольшая часть из существующих сейчас технологов

    гий подходит для решения задач Fast Data, среди них некоторые технологии работы с хранилищами (продукты Teradata, Netezza, Greenplum, СУБД типа Verica и kdb). Скорость работы этих технологий должна возрастать синхронно с ростом объемов данных.

    Задачи, решаемые средствами Big Analytics, заметно отличаются, причем не только количественно, но и качественно, а соответствующие технологии должны помогать в получении новых знаний — они служат для преобразования зафиксированной в данных информации в новое знание. Однако на этом среднем уровне не предполагается наличие искусственного интеллекта при выборе решений или каких-либо автономных действий аналитической системы — она строится по принципу «обучения с учителем». Иначе говоря, весь ее аналитический потенциал закладывается в нее в процессе обучения. Классическими представителями такой аналитики являются продукты MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache и Mahout.

    Высший уровень Deep Insight предполагает обучение без учителя (unsupervised learning) и использование современных методов аналитики, а также различные способы визуализации. На этом уровне возможно обнаружение знаний и закономерностей, априорно неизвестных.

    С течением времени компьютерные приложения становятся все ближе к реальному миру во всем его многообразии, отсюда рост объемов входных данных и отсюда же потребность в их аналитике, причем в режиме, максимально приближенном к реальному времени. Конвергенция этих двух тенденций привела к возникновению направления аналитика больших данных (Big Data Analytics’).

    Потенциальные практические сферы применения «Больших данных» отличаются широким разнообразием: здравоохранение и медицина, государственные услуги, розничная торговля, различные производственные отрасли, телекоммуникационная отрасль, информационнотехнологическая отрасль, финансы и страхование, энергетика, маркетинг и риск-менеджмент, издательское дело, медиа и развлечения, биотехнологии, транспорт и логистика, коммунальные услуги. Со временем это разнообразие будет только нарастать. Применительно к коммерческим структурам «Большие данные» призваны стать дополнительным источником конкурентных преимуществ.

    Методы анализа больших данных. Рост объемов входных данных и потребность в их аналитике, причем в режиме, максимально приближенном к реальному времени привели к возникновению направления аналитика больших данных (Big Data Analytics).

    На текущий момент большие данные опираются на многочисленные методы анализа (табл. 3.5), создававшиеся на протяжении многих десятилетий во многих областях информационных технологий (искусственный интеллект, анализ данных, распознавание и др.). В процессе развития технологии больших данных будут созданы новые методы анализа либо существующие методы будут видоизменяться.

    Методы анализа, применяемые в больших данных

    А/Б тестирование (А/В Testing

    Метод, предусматривающий сравнение реакций на контрольный (А) и тестируемый (Б) варианты некоторых стимулов. Тестируемых вариантов может быть несколько. На основании сравнения реакций выбирается наилучшее для данной цели решение

    Анализ с использованием ассоциативных правил (Association Rule Learning)

    Совокупность методов для выявления характерных взаимосвязей (ассоциативных правил) между переменными в больших базах данных. Такие методы представляют собой набор алгоритмов для генерации и тестирования возможных правил. Одно из применений метода ассоциативных правил — анализ рыночной корзины (Market Basket Analysis), применение которого позволяет, например, установить, что покупатель товара А с высокой вероятностью купит и товар Б. Это дает возможность продавцам принимать соответствующие маркетинговые решения

    Совокупность методов рубрикации новых данных на основе рубрикации тренировочных данных (Training Data Set). Эти методы относят к группе методов управляемого (направляемого) обучения (Supervised Learning), так как изначально наличествующие тренировочные данные направляют процесс обучения (см. далее)

    Кластерный анализ (Cluster Analysis)

    Статистический метод классификации объектов, предполагающий разбиение всей совокупности объектов на более мелкие группы (кластеры), объединяющие похожие между собой объекты и в то же время сильно отличающиеся от объектов других групп. Характеристики, на основе которых данный объект относится к тому или иному кластеру, заблаговременно неизвестны. Этот метод относят к числу методов ненаправля- емого обучения (Unsupervised Learning)

    Метод сбора данных, предоставляемых большими группами людей («толпой») в ответ на открытый запрос на такие данные. Как правило, осуществляется с использованием сетевых методов социального взаимодействия

    Интеграция данных (Data Fusion and Data Integration)

    Совокупность методов интеграции и анализа данных, полученных из множественных источников, что позволяет делать более точные выводы по сравнению с ситуацией, когда такие данные используется раздельно

    Глубинный анализ данных (Data Mining)

    К числу методов, применяемых для глубинного анализа данных можно отнести, например, анализ с использованием ассоциативных правил, кластерный анализ, классификацию, регрессионный анализ и др.

    Ансамблевое обучение СEnsemble Learning)

    Подразумевает использование множественных прогностических моделей (Predictive Models), каждая из которых разработана с использованием статистических методов или машинного обучения для получения более адекватных прогнозов

    Генетические (эволюционные) алгоритмы (Genetic Algorithms)

    Метод оптимизации, вдохновленный изучением процессов естественной эволюции, которая, как известно, предполагает выживание наиболее приспособленных особей. В этом методе потенциальные решения интерпретируются как «хромосомы», которые могут объединяться и мутировать. «Хромосомы» приводятся в соприкосновении с условиями «окружающей среды». «Выжившие» «хромосомы» рассматриваются в качестве наилучшего решения. Такого рода методы наиболее ценны при решении нелинейных задач

    Подраздел компьютерной науки (относимый к области искусственного интеллекта), занимающийся разработкой алгоритмов, позволяющих компьютерам изменять свое поведение на основе поступающих эмпирических данных. Важнейшее направление исследований — автоматическое распознавание сложных устойчивых моделей и принятие адекватных решений на основе данных

    Обработка естественных языков (Natural Language Processing)

    Составная часть машинного обучения, подразумевающая совместное использование компьютерных технологий и лингвистики для создания алгоритмов, позволяющих анализировать естественные (человеческие) языки

    Искусственные нейросети (Neural Networks)

    Модели вычислений, предназначенные для распознавания устойчивых моделей в массивах данных. Их создание вдохновлено структурой и работой биологических нейросетей

    Сетевой анализ (Network Analysis)

    Совокупность методов, применяемых для описания взаимоотношений между отдельными узлами, объединенных в граф или сеть

    Совокупность численных методов, применяемых для изменения (to redesign) сложных систем и процессов с целью улучшения их результатов работы, определяемых на основе одного или нескольких объективных численных показателей (например, затраты, скорость, надежность и др.)

    Распознавание устойчивых моделей (Pattern Recognition)

    Совокупность методов машинного обучения, которые в соответствии с конкретным алгоритмом присваивают некоторой входной величине некоторую выходную величину — метку (ZabeZ). Классификация относится к числу таких методов

    Прогностическое моделирование (Predictive Modeling)

    Совокупность методов, подразумевающих создание или выбор математических моделей для предсказания вероятности некоторого результата (параметра выхода)

    Регрессионный анализ (Regression)

    Совокупность статистических методов для определения изменений зависимой величины вследствие изменений одной или нескольких независимых величин

    Анализ настроений (мнений) СSentiment Analysis)

    Применение методов обработки естественных языков и других аналитических методов для выявления и извлечения из анализируемого текста субъективной информации, характеризующей настроения, мнения, отношение людей к проблеме

    Статистическая обработка сигналов (Signal Processing)

    Эти методы заимствованы из электротехники и прикладной математики. Изначально они применялись для анализа дискретных и непрерывных сигналов. В современном анализе данных применяются для статистического вычленения из данных полезного сигнала и шума

    Пространственный анализ (Spatial Analysis)

    Совокупность методов анализа топологических, геометрических или географических свойств объектов, содержащихся в данных

    Наука о сборе, структурировании и интерпретации данных, включая планирование опросов (design of surveys) и планирование экспериментов (design of experiments)

    Направляемое обучение (Supervised Learning)

    Совокупность методов машинного обучения, позволяющих делать выводы о наличии некоторых функций или отношений на основе тренировочных данных. Пример — метод классификации

    Имитационное моделирование СSimulation)

    Создание моделей поведения сложных систем, применяемых для прогнозирования возможных будущих состояний и (или) сценарного планирования

    Анализ временных рядов (Time Series Analysis)

    Совокупность методов для анализа последовательностей данных, характеризующих изменение некоторых параметров объекта во времени, с целью содержательной характеризации такого объекта

    Ненаправляе- мое обучение (Unsupervised Learning)

    Совокупность методов машинного обучения, нацеленных на выявление скрытых взаимосвязей между объектами за счет анализа ^охарактеризованных (unlabeled) данных

    Методы создания изображений, диаграмм, анимации, используемых для коммуникаций, улучшения понимания самих данных и результатов их анализа

    Аппаратное и программное обеспечение больших данных. Выше отмечалось, что появление больших данных обусловлено бурным развитием информационно-телекоммуникационных технологий, что сопровождалось в том числе количественным наращиванием объемов данных, их качественным усложнением, стремительным нарастанием разнообразия. В какой-то момент стало очевидным, что устоявшиеся технологические решения не в состоянии справиться с новым вызовом вовлечения накапливаемых массивом данных в экономическую деятельность. Пренебрежительное отношение к таким данным ведет к потерям, которых хотелось бы избежать. Для решения этой задачи нужны новые технологические подходы.

    Ввиду разнообразия рассмотрим одну из технологий — Hadoop — стоит затронуть хотя бы на самом общем уровне, так как на текущий момент она находит наибольшее распространение и наиболее обсуждаема в сообществе специалистов.

    Hadoop представляет собой свободно распространяемый набор утилит, библиотек и программный каркас для разработки и выполнения распределенных программ, работающих на кластерах из сотен и тысяч узлов. Отличительные особенности Hadoop следующие

    • • доступность: Hadoop работает на больших кластерах общераспространенных (commodity) компьютеров или в облачных сервисах, таких как Elastic Compute Cloud (ЕС2) компании Amazon;
    • • надежность: так как пакет Hadoop ориентирован на работу на обычных, общедоступных компьютерах, его архитектура предусматривает возможность частых сбоев и позволяет успешно справляться с большинством из них;
    • • масштабируемость: Hadoop предусматривает возможность очень простого расширения вычислительных мощностей посредством добавления в кластер дополнительных узлов — общедоступных компьютеров, которых в одном кластере могут быть сотни;
    • • простота: Hadoop предоставляет пользователям возможность быстрого написания эффективного программного кода.

    Совокупность этих свойств делает Hadoop востребованной технологией в самых различных секторах и применениях. Доступность и простота позволяют быстро и дешево создавать кластеры Hadoop даже учащимся колледжей. Надежность и масштабируемость делают Hadoop привлекательным даже в самых крупных и технологически требовательных проектах и компаниях, таких как Yahoo и Facebook, например.

    Ключевые элементы Hadoop — распределенная файловая система Hadoop Distributed File System (далее — HDFS) и MapReduce — технология распределенных параллельных вычислений над очень большими наборами данных в компьютерных кластерах. Отметим лишь наиболее принципиальные особенности этих технологических элементов [36].

    Распределенная файловая система HDFS функционирует таким образом, что если требуется обеспечить работу вычислительной системы с очень большим блоком данных, например, несколько терабайт, то этот блок разбивается на более мелкие блоки (обычно 64 Мегабайт), которые распределяются по многочисленным компьютерам, составляющим кластер Hadoop. Затем HDFS обеспечит параллельную работу вычислительной системы с каждым малым блоком. В результате кластер простых общедоступных компьютеров справляется с большой вычислительной задачей намного быстрее, чем одиночный сервер с самыми передовыми техническими характеристиками. К тому же затраты на создание кластера будут меньшими по сравнению с затратами на высокопроизводительные серверы.

    Другая техническая особенность Hadoop заключена в самой философии работы с данными. Традиционно в работе с данными используется подход, предусматривающий неоднократную передачу данных между клиентами и сервером. Этот подход вполне оправдан, когда объемы данных сравнительно невелики. Однако в больших данных мы имеем дело с большими объемами данных по определению. Перемещение таких данных становится очень затратной затеей. Поэтому философия взаимодействия данных и вычислительных программ меняется на прямо противоположную: данные остаются там, где они изначально сохранены в рамках кластера Hadoop, а пересылаются от клиента к серверу вычислительные программы MapReduce, размеры которых обычно очень малы (килобайты). Как говорится, если гора не идет к Магомету, Магомет идет к горе.

    Еще одна важная особенность Hadoop касается принципов построения баз данных. В большинстве сегодняшних приложений используются реляционные базы данных, в качестве ключевого элемента которых выступает технология SQL (Structured Query Language). Ключевое слово в этом наименовании — Structured (структурированный). Оно «выдает» тот факт, что реляционные базы данных и SQL ориентированы на работу с хорошо структурированными данными, подразумевающую тщательный заблаговременный выбор полей и таблиц, в которых данные будут храниться, установление четких взаимосвязей между ними и т.п.

    Но задачи больших данных подразумевают работу не только с хорошо структурированными данными, но и с полу- и неструктурированными данными. Применение технологии реляционных баз данных и SQL в таких случаях было бы сопряжено со значительными затратами либо вообще невозможно. Нужны иные технологические подходы к работе с такими данными. В качестве такого подхода Hadoop как элементарной единицы данных использует пары «ключ — значение». Другими словами, исходные данные могут поступать в Hadoop в любой форме, однако в какой-то момент они преобразуются в пары «ключ — значение». В качестве технологии формирования и обработки запросов к данным, структурированными по принципу «ключ — значение», вместо SQL используются программы MapReduce, которые предъявляют принципиально иные (существенно менее строгие) требования к структурированности данных и обеспечивают принципиально иной уровень работы с ними.

    Разумеется, здесь приведены лишь наиболее примечательные особенности применяемого в задачах больших данных аппаратного и программного обеспечения. Более детальное изложение данного вопроса выходит за рамки настоящей статьи. Всем, кто заинтересован более глубоким изучением технологии Hadoop, можно лишь порекомендовать обратиться к специальным источникам.

    Гигантские объемы в сочетании с высокой скоростью, отличающие Big Data Analytics от других приложений, требуют соответствующих компьютеров, и сегодня практически все основные производители предлагают специализированные программно-аппаратные системы: SAP HANA, Oracle Big Data Appliance и Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics Platform на базе HP Converged Infrastructure. Помимо этого в игру вступило множество небольших и начинающих компаний: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

    Большие данные (Big Data)

    К категории Большие данные (Big Data) относится информация, которую уже невозможно обрабатывать традиционными способами, в том числе структурированные данные, медиа и случайные объекты. Некоторые эксперты считают, что для работы с ними на смену традиционным монолитным системам пришли новые массивно-параллельные решения.

    Содержание

    Что такое большие данные?

    Самое простое определение

    Из названия можно предположить, что термин ` большие данные` относится просто к управлению и анализу больших объемов данных. Согласно отчету McKinsey Institute `Большие данные: новый рубеж для инноваций, конкуренции и производительности` ( Big data: The next frontier for innovation, competition and productivity), термин `большие данные` относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. И мировые репозитарии данных, безусловно, продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC `Исследование цифровой вселенной` (Digital Universe Study), подготовку которого спонсировала компания EMC, предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м.

    Более сложное определение

    Тем не менее ` большие данные` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.

    Наилучшее определение

    В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: ` Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`.

    Насколько велика разница между бизнес-аналитикой и большими данными?

    Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывал, что бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.

    Мэтт Слокум из O’Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.

    • Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
    • Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
    • Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.

    Согласно опубликованной компанией Oracle белой книге `Информационная архитектура Oracle: руководство архитектора по большим данным` (Oracle Information Architecture: An Architect’s Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.

    Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов `машинного обучения`, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.

    Методики анализа больших данных

    Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

    A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

    Association rule learning. Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining.

    Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining.

    Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining.

    Crowdsourcing. Методика сбора данных из большого количества источников.

    Data fusion and data integration. Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

    Data mining. Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.

    Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

    Genetic algorithms. В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.

    Machine learning. Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

    Natural language processing (NLP). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.

    Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

    Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.

    Pattern recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.

    Predictive modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.

    Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.

    Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.

    Signal processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.

    Spatial analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

    Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.

    Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.

    Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.

    Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.

    Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis.

    Визуализация. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.

    Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций.

    Аналитический инструментарий

    На 2011 год некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать: [1]

    Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций [2] . Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. Практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

    Рынки решений для управления большими данными

    Платформы больших данных (BDP, Big Data Platform) как средство борьбы с цифровым хордингом

    Возможность анализировать большие данные, в просторечии называемая Big Data, воспринимается как благо, причем однозначно. Но так ли это на самом деле? К чему может привести безудержное накопление данных? Скорее всего к тому, что отечественные психологи применительно к человеку называют патологическим накопительством, силлогоманией или образно «синдромом Плюшкина». По-английски порочная страсть собирать все подряд называют хордингом (от англ. hoard – «запас»). По классификации ментальных заболеваний хординг причислен к психическим расстройствам. В цифровую эпоху к традиционному вещественному хордингу добавляется цифровой (Digital Hoarding), им могут страдать как отдельные личности, так и целые предприятия и организации (подробнее).

    Мировой и рынок России

    Big data Landscape — Основные поставщики

    Интерес к инструментам сбора, обработки, управления и анализа больших данных проявляли едва ли не все ведущие ИТ-компании, что вполне закономерно. Во-первых, они непосредственно сталкиваются с этим феноменом в собственном бизнесе, во-вторых, большие данные открывают отличные возможности для освоения новых ниш рынка и привлечения новых заказчиков.

    На рынке появлялось множество стартапов, которые делают бизнес на обработке огромных массивов данных. Часть из них используют готовую облачную инфраструктуру, предоставляемую крупными игроками вроде Amazon.

    • Acunu
    • Apigee
    • Aspera
    • Aster Data (поглотила Teradata)
    • Cloudera
    • Couchbase
    • Datameer
    • DataStax
    • Factual
    • GoodData
    • Greenplum (поглотила ЕМС)
    • Hortonworks (имеет общие корни с Yahoo)
    • MapR Technologies
    • Metaweb Technologies (поглотила Google)
    • Netezza (поглотила IBM)
    • nPario
    • Palantir Technologies
    • ParAccel
    • ParStream
    • SenSage
    • Socrata
    • Splunk
    • Sybase (поглотила SAP)
    • TellApart
    • Vertica (поглотила НР)

    Теория и практика Больших данных в отраслях

    История развития

    Прогноз TmaxSoft: следующая «волна» Big Data потребует модернизации СУБД

    Согласно отчету >[3] Однако те компании, у которых нет ИТ-инфраструктуры, необходимой для адаптации к революции больших данных, не смогут получить выгоду от этого роста, считают эксперты компании TmaxSoft.

    Предприятиям известно, что в накопленных ими огромных объемах данных содержится важная информация об их бизнесе и клиентах. Если компания сможет успешно применить эту информацию, то у нее будет значительное преимущество по сравнению с конкурентами, и она сможет предложить лучшие, чем у них, продукты и сервисы. Однако многие организации всё еще не могут эффективно использовать большие данные из-за того, что их унаследованная ИТ-инфраструктура неспособна обеспечить необходимую емкость систем хранения, процессы обмена данных, утилиты и приложения, необходимые для обработки и анализа больших массивов неструктурированных данных для извлечения из них ценной информации, указали в TmaxSoft.

    Кроме того, увеличение процессорной мощности, необходимой для анализа постоянно увеличивающихся объемов данных, может потребовать значительных инвестиций в устаревшую ИТ-инфраструктуру организации, а также дополнительных ресурсов для сопровождения, которые можно было бы использовать для разработки новых приложений и сервисов.

    По мнению Андрея Ревы, исполнительного директора TmaxSoft Россия, эти факторы приведут к тому, что организации, которые продолжают использовать унаследованную инфраструктуру, в будущем будут вынуждены заплатить намного больше за переход на актуальные технологии либо не смогут получить никакого эффекта от революции больших данных.

    Феномен больших данных заставил многие предприятия осознать необходимость сбора, анализа и хранения структурированных и неструктурированных данных. Однако для внедрения этих процессов нужен план действий и правильные инструменты оптимизации процессов. А реально получать ощутимый эффект от больших данных многие компании не в состоянии из-за использования унаследованных СУБД, в которых не хватает функциональности и масштабируемости, и в результате революция больших данных никак не помогает их бизнесу, — пояснил свой прогноз Андрей Рева.

    По убеждению представителя TmaxSoft, предприятиям нужна стратегия, учитывающая, среди прочего, источники данных для извлечения, жизненный цикл данных, совместимость разных реляционных СУБД и масштабируемость хранения.

    Прогноз EMC: BigData и аналитика в реальном времени объединятся

    В 2020 году мы познакомимся с новой главой истории развития аналитики « больших данных» по мере развития двухуровневой модели обработки. Первый уровень будет представлять собой «традиционную» аналитику BigData, когда большие массивы данных подвергаются анализу не в режиме реального времени. Новый, второй уровень обеспечит возможность анализа относительно больших объемов данных в реальном времени, в основном за счет технологий аналитики в памяти (in-memory). В этой новой фазе развития BigData, такие технологии как DSSD, Apache Spark и GemFire будут столь же важны, как Hadoop. Второй уровень предложит нам одновременно новые и привычные способы использования «озер данных» — для «аналитики на лету» с целью влияния на события, в то время, когда они происходят. Это открывает новые возможности для бизнеса в таких масштабах, которых раньше никто не видел.

    Но для того, чтобы аналитика в памяти стала реальностью, необходимо, чтобы произошло два события. Во-первых, поддерживающие технологии должны получить необходимое развитие, чтобы обеспечить достаточные объемы памяти для размещения действительно масштабных наборов данных. Также нужно подумать о том, как эффективно перемещать данные между большими объектными хранилищами и системами, ведущими анализ в памяти. Ведь эти два элемента работают в принципиально разных режимах, и ИТ-группам нужно будет создать особые условия, чтобы данные могли перемещаться туда и обратно с нужной скоростью и прозрачно для пользователей. Работы уже ведутся, появляются новые объектные хранилища, специальные флеш-массивы для монтажа в стойку, а также специальные технологии, которые могут объединить их в одну систему. Инициативы с открытым кодом будут играть важную роль в поиске ответа на этот вызов.

    Во-вторых, масштабные среды вычислений в памяти требуют устойчивости и динамичности данных. Проблема состоит в том, что обеспечивая персистентность данных в памяти, мы делаем устойчивыми также любые их дефекты. В результате в 2020 году мы увидим появления систем хранения для сред, проводящих обработку данных в памяти. Они будут предоставлять сервисы дедупликации, снимков состояния, многоуровневого хранения, кеширования, репликации, а также возможность определения последнего состояния, когда данные были верными и система работала корректно. Эти функции будут крайне важны по мере перехода к аналитике в реальном времени, когда более безопасные технологии обработки данных в памяти станут коммерческими в 2020 году.

    Gartner исключила «Большие данные» из популярных трендов

    6 октября 2015 года стало известно об исключении из отчета Gartner «Цикл зрелости технологий 2015» сведений о больших данных. Исследователи объяснили это размыванием термина — входящие в понятие «большие данные» технологии стали повседневной реальностью бизнеса [4] .

    Отчет Gartner «Цикл зрелости технологий» (Hype Cycle for Emerging Technologies) взбудоражил отрасль отсутствием технологии сбора и обработки больших массивов данных. Свое решение аналитики компании объяснили тем, что в состав понятия «большие данные» входит большое количество технологий, активно применяющихся на предприятиях, они частично относятся к другим популярным сферам и тенденциям и стали повседневным рабочим инструментом.

    Диаграмма Gartner «Hype Cycle for Emerging Technologies 2015»

    «Изначально понятие «большие данные» расшифровывали через определение из трех «V»: volume, velocity, variety. Под этим термином подразумевалась группа технологий хранения, обработки и анализа данных большого объема, с изменчивой структурой и высокой скоростью обновления. Но реальность показала, что получение выгоды в бизнес-проектах осуществляется по тем же принципам, что и раньше. А описываемые технологические решения сами по себе не создали никакой новой ценности, лишь ускорив обработку большого количества данных. Ожидания были очень высокие, и список технологий больших данных интенсивно рос. Очевидно, что вследствие этого границы понятия размылись до предела», — поведал Святослав Штумпф, главный эксперт группы маркетинга продуктов «Петер-Сервис».

    Дмитрий Шепелявый, заместитель генерального директора SAP CIS (САП СНГ), считает — тема больших данных не исчезла, а трансформировалась во множество различных сценариев:

    «Примерами здесь могут быть ремонты по состоянию, точное земледелие (precision farming), системы по противодействию мошенничеству, системы в медицине, позволяющие на качественно новом уровне диагностировать и лечить пациентов. А также планирование логистической системы и транспортировки в режиме реального времени, усовершенствованная бизнес-аналитика для поддержки и сопровождения основных функций компаний. Один из основных трендов сейчас — Интернет вещей, позволяющий связывать машины между собой (machine-to-machine). Устанавливаемые электронные датчики производят миллионы транзакций в секунду, и необходимо надежное решение, способное трансформировать, сохранить и работать с ними в режиме реального времени».

    В мае 2015 года Эндрю Уайт (Andrew White), вице-президент по исследованиям Gartner, в своем блоге размышлял:

    «Интернет вещей (Internet of Things, IoT) затмит собой большие данные, как слишком сфокусированную технологию. Она может породить еще несколько эффективных решений и инструментов, но платформой будущего, которая в долгосрочной перспективе повысит нашу продуктивность, станет именно интернет вещей».

    Аналогичные идеи раньше — по результатам отчета Gartner за 2014 год, опубликовал обозреватель Forbes Гил Пресс (Gil Press).

    По мнению Дмитрия Шепелявого, наступила эпоха, когда важно не просто уметь аккумулировать информацию, а извлекать из нее бизнес-выгоду. Первыми к этому выводу пришли индустрии, которые непосредственно работают с потребителем: телекоммуникационная и банковская, ритейл. Теперь процессы взаимодействия выходят на новый уровень, позволяя наладить связь между различными устройствами с использованием инструментов дополненной реальности и открывают новые возможности оптимизации бизнес-процессов компаний.

    «Понятие «большие данные» потеряло интерес для реального бизнеса, на диаграмме Gartner его место заняли другие технологии с более четким и понятным бизнесу звучанием», — подчеркнул Святослав Штумпф.

    Это, в первую очередь, машинное обучение — средства поиска правил и связей в очень больших объемах информации. Такие технологии позволяют не просто проверять гипотезы, но искать неизвестные ранее факторы влияния. Сегмент решений по хранению данных и параллельному доступу к ним (NoSQL Database), по предварительной обработке потоков информации (Marshalling), решения для визуализации и самостоятельного анализа (Advanced Analytics with Self-Service Delivery). Кроме того, по мнению эксперта, сохраняют свое значение средства интеллектуального анализа данных (Business Intelligence и Data Mining), выходящие на новый технологический уровень.

    В понимании «Яндекса», согласно заявлению пресс-службы компании, большие данные никуда не исчезли и не трансформировались. Для обработки больших массивов данных компания использует те же технологии и алгоритмы, что применяет в интернет-поиске, сервисе «Яндекс.Пробки», в машинном переводчике, в рекомендательной платформе, в рекламе. Алгоритмы основаны на умении компании: накапливать, хранить и обрабатывать большие объемы данных и делать их полезными бизнесу. Области применения Yandex Data Factory не ограничены — главное, чтобы были данные для анализа. В фокусе компании на 6 октября 2015 года:

    Big data и ценовая дискриминация клиентов

    Ниже приведены избранные фрагменты из статьи Морган Кеннеди (Morgan Kennedy) опубликованной 6 февраля 2015 на сайте Ins >[5] .

    5 февраля 2015 года Белый дом опубликовал доклад, в котором обсуждался вопрос о том, как компании используют « большие данные» для установления различных цен для разных покупателей — практика, известная как «ценовая дискриминация» или «дифференцированное ценообразование» (personalized pricing). Отчет описывает пользу «больших данных» как для продавцов, так и покупателей, и его авторы приходят к выводу о том, что многие проблемные вопросы, возникшие в связи с появлением больших данных и дифференцированного ценообразования, могут быть решены в рамках существующего антидискриминационного законодательства и законов, защищающих права потребителей.

    В докладе отмечается, что в это время имеются лишь отдельные факты, свидетельствующие о том, как компании используют большие данные в контексте индивидуализированного маркетинга и дифференцированного ценообразования. Этот сведения показывают, что продавцы используют методы ценообразования, которые можно разделить на три категории:

    • изучение кривой спроса;
    • Наведение (steering) и дифференцированное ценообразование на основе демографических данных; и
    • целевой поведенческий маркетинг (поведенческий таргетинг — behavioral targeting) и индивидуализированное ценообразование.

    Изучение кривой спроса: С целью выяснения спроса и изучения поведения потребителей маркетологи часто проводят эксперименты в этой области, в ходе которых клиентам случайным образом назначается одна из двух возможных ценовых категорий. «Технически эти эксперименты являются формой дифференцированного ценообразования, поскольку их следствием становятся разные цены для клиентов, даже если они являются «недискриминационными» в том смысле, что у всех клиенты вероятность «попасть» на более высокую цену одинакова».

    Наведение (steering): Это практика представления продуктов потребителям на основе их принадлежности к определенной демографической группе. Так, веб-сайт компьютерной компании может предлагать один и тот же ноутбук различным типам покупателей по разным ценам, уставленным на основе сообщённой ими о себе информации (например, в зависимости от того, является ли данный пользователь представителем государственных органов, научных или коммерческих учреждений, или же частным лицом) или от их географического расположения (например, определенного по IP-адресу компьютера).

    Целевой поведенческий маркетинг и индивидуализированное ценообразование: В этих случаях персональные данные покупателей используются для целевой рекламы и индивидуализированного назначения цен на определенные продукты. Например, онлайн-рекламодатели используют собранные рекламными сетями и через куки третьих сторон данные об активности пользователей в интернете для того, чтобы нацелено рассылать свои рекламные материалы. Такой подход, с одной стороны, дает возможность потребителям получить рекламу представляющих для них интерес товаров и услуг, Он, однако, может вызвать озабоченность тех потребителей, которые не хотят, чтобы определенные виды их персональных данных (такие, как сведения о посещении сайтов, связанных с медицинскими и финансовыми вопросами) собирались без их согласия.

    Хотя целевой поведенческий маркетинг широко распространен, имеется относительно мало свидетельств индивидуализированного ценообразования в онлайн-среде. В отчете высказывается предположение, что это может быть связано с тем, что соответствующие методы все ещё разрабатываются, или же с тем, что компании не спешат использовать индивидуальное ценообразование (либо предпочитают о нём помалкивать) — возможно, опасаясь негативной реакции со стороны потребителей.

    Авторы отчета полагают, что «для индивидуального потребителя использование больших данных, несомненно, связано как с потенциальной отдачей, так и с рисками». Признавая, что при использовании больших данных появляются проблемы прозрачности и дискриминации, отчет в то же время утверждает, что существующих антидискриминационных законов и законов по защиты прав потребителей достаточно для их решения. Однако в отчете также подчеркивается необходимость «постоянного контроля» в тех случаях, когда компании используют конфиденциальную информацию непрозрачным образом либо способами, которые не охватываются существующей нормативно-правовой базой.

    Данный доклад является продолжением усилий Белого дома по изучению применения «больших данных» и дискриминационного ценообразования в Интернете, и соответствующих последствий для американских потребителей. Ранее уже сообщалось [6] о том, что рабочая группа Белого дома по большим данным опубликовала в мае 2014 года свой доклад по этому вопросу. Федеральная комиссия по торговле (FTC) также рассматривала эти вопросы в ходе проведенного ею в сентября 2014 года семинара по дискриминации в связи с использованием больших данных [7] .

    Gartner развеивает мифы о «Больших данных»

    В аналитической записке осени 2014 года Gartner перечислен ряд распространенных среди ИТ-руководителей мифов относительно Больших Данных и приводятся их опровержения.

    • Все внедряют системы обработки Больших Данных быстрее нас

    Интерес к технологиям Больших Данных рекордно высок: в 73% организаций, опрошенных аналитиками Gartner в этом году, уже инвестируют в соответствующие проекты или собираются. Но большинство таких инициатив пока еще на самых ранних стадиях, и только 13% опрошенных уже внедрили подобные решения. Сложнее всего — определить, как извлекать доход из Больших Данных, решить, с чего начать. Во многих организациях застревают на пилотной стадии, поскольку не могут привязать новую технологию к конкретным бизнес-процессам.

    • У нас так много данных, что нет нужды беспокоиться о мелких ошибках в них

    Некоторые ИТ-руководители считают, что мелкие огрехи в данных не влияют на общие результаты анализа огромных объемов. Когда данных много, каждая ошибка в отдельности действительно меньше влияет на результат, отмечают аналитики, но и самих ошибок становится больше. Кроме того, большая часть анализируемых данных — внешние, неизвестной структуры или происхождения, поэтому вероятность ошибок растет. Таким образом, в мире Больших Данных качество на самом деле гораздо важнее.

    • Технологии Больших Данных отменят нужду в интеграции данных

    Большие Данные обещают возможность обработки данных в оригинальном формате с автоматическим формированием схемы по мере считывания. Считается, что это позволит анализировать информацию из одних и тех же источников с помощью нескольких моделей данных. Многие полагают, что это также даст возможность конечным пользователям самим интерпретировать любой набор данных по своему усмотрению. В реальности большинству пользователей часто нужен традиционный способ с готовой схемой, когда данные форматируются соответствующим образом, и имеются соглашения об уровне целостности информации и о том, как она должна соотноситься со сценарием использования.

    • Хранилища данных нет смысла использовать для сложной аналитики

    Многие администраторы систем управления информацией считают, что нет смысла тратить время на создание хранилища данных, принимая во внимание, что сложные аналитические системы пользуются новыми типами данных. На самом деле во многих системах сложной аналитики используется информация из хранилища данных. В других случаях новые типы данных нужно дополнительно готовить к анализу в системах обработки Больших Данных; приходится принимать решения о пригодности данных, принципах агрегации и необходимом уровне качества — такая подготовка может происходить вне хранилища.

    • На смену хранилищам данных придут озера данных

    В реальности поставщики вводят заказчиков в заблуждение, позиционируя озера данных (data lake) как замену хранилищам или как критически важные элементы аналитической инфраструктуры. Основополагающим технологиям озер данных не хватает зрелости и широты функциональности, присущей хранилищам. Поэтому руководителям, отвечающим за управление данными, стоит подождать, пока озера достигнут того же уровня развития, считают в Gartner.

    Accenture: 92% внедривших системы больших данных, довольны результатом

    Согласно исследованию Accenture (Аксенчер) (осень 2014 года), 60% компаний уже успешно завершили как минимум один проект, связанный с большими данными. Подавляющее большинство (92%) представителей этих компаний оказалось довольно результатом, а 89% заявили, что большие данные стали крайне важной частью преобразования их бизнеса. Среди остальных опрошенных 36% не задумывались о внедрении данной технологии, а 4% пока не закончили свои проекты.

    В исследовании Accenture приняло участие более 1000 руководителей компаний из 19 стран мира. В основу исследования легли данные опроса Economist Intelligence Unit среди 1135 респондентов по всему миру [8] .

    Среди главных преимуществ больших данных опрошенные назвали:

    • «поиск новых источников дохода» (56%),
    • «улучшение опыта клиентов» (51%),
    • «новые продукты и услуги» (50%) и
    • «приток новых клиентов и сохранение лояльности старых» (47%).

    При внедрении новых технологий многие компании столкнулись с традиционными проблемами. Для 51% камнем преткновения стала безопасность, для 47% — бюджет, для 41% — нехватка необходимых кадров, а для 35% — сложности при интеграции с существующей системой. Практически все опрошенные компании (около 91%) планируют в скором времени решать проблему с нехваткой кадров и нанимать специалистов по большим данным.

    Компании оптимистично оценивают будущее технологий больших данных. 89% считают, что они изменят бизнес столь же сильно, как и интернет. 79% респондентов отметили, что компании, которые не занимаются большими данными, потеряют конкурентное преимущество.

    Впрочем, опрошенные разошлись во мнении о том, что именно стоит считать большими данными. 65% респондентов считают, что это «большие картотеки данных», 60% уверены, что это «продвинутая аналитика и анализ», а 50% — что это «данные инструментов визуализации».

    Мадрид тратит 14,7 млн евро на управление большими данными

    В июле 2014 г. стало известно о том, что Мадрид будет использовать технологии big data для управления городской инфраструктурой. Стоимость проекта — 14,7 млн евро, основу внедряемых решений составят технологии для анализа и управления большими данными. С их помощью городская администрация будет управлять работой с каждым сервис-провайдером и соответствующим образом оплачивать ее в зависимости от уровня услуг.

    Речь идет о подрядчиках администрации, которые следят за состоянием улиц, освещением, ирригацией, зелеными насаждениями, осуществляют уборку территории и вывоз, а также переработку мусора. В ходе проекта для специально выделенных инспекторов разработаны 300 ключевых показателей эффективности работы городских сервисов, на базе которых ежедневно будет осуществляться 1,5 тыс. различных проверок и замеров. Кроме того, город начнет использование инновационной технологическлй платформы под названием Madrid iNTeligente (MiNT) — Smarter Madrid.

    Эксперты: Пик моды на Big Data

    Все без исключения вендоры на рынке управления данными в это время ведут разработку технологий для менеджмента Big Data. Этот новый технологический тренд также активно обсуждается профессиональными сообществом, как разработчиками, так и отраслевыми аналитиками и потенциальными потребителями таких решений.

    Как выяснила компания Datashift, по состоянию на январь 2013 года волна обсуждений вокруг « больших данных» превысила все мыслимые размеры. Проанализировав число упоминаний Big Data в социальных сетях, в Datashift подсчитали, что за 2012 год этот термин употреблялся около 2 млрд раз в постах, созданных около 1 млн различных авторов по всему миру. Это эквивалентно 260 постам в час, причем пик упоминаний составил 3070 упоминаний в час.

    Обсуждения Big Data в сети идут весьма активно. Причем, как видно из представленных выше круговых диаграмм, пик обсуждений только нарастает: если в первом квартале 2012 года насчитывалось более 504 тыс. упоминаний термина, то в четвертом квартале – уже более 800 тыс. Главные темы обсуждений применительно к большим данным – мифы и реальность, опыт использования, человеческий фактор, возврат инвестиций, новые технологии. Среди вендоров чаще всего упоминались компании Apache, 10gen, IBM, HP и Teradata.

    Gartner: Каждый второй ИТ-директор готов потратиться на Big data

    После нескольких лет экспериментов с технологиями Big data и первых внедрений в 2013 году адаптация подобных решений значительно возрастет, прогнозируют в Gartner [9] . Исследователи опросили ИТ-лидеров во всем мире и установили, что 42% опрошенных уже инвестировали в технологии Big data или планируют совершить такие инвестиции в течение ближайшего года (данные на март 2013 года).

    Компании вынуждены потратиться на технологии обработки больших данных, поскольку информационный ландшафт стремительно меняется, требую новых подходов к обработки информации. Многие компании уже осознали, что большие массивы данных являются критически важными, причем работа с ними позволяет достичь выгод, не доступных при использовании традиционных источников информации и способов ее обработки. Кроме того, постоянное муссирование темы «больших данных» в СМИ подогревает интерес к соответствующим технологиям.

    Фрэнк Байтендидк (Frank Buytendijk), вице-президент Gartner, даже призвал компании умерить пыл, поскольку некоторые проявляют беспокойство, что отстают от конкурентов в освоении Big data.

    «Волноваться не стоит, возможности для реализации идей на базе технологий «больших данных» фактически безграничны», — заявил он.

    По прогнозам Gartner, к 2015 году 20% компаний списка Global 1000 возьмут стратегический фокус на «информационную инфраструктуру».

    В ожидании новых возможностей, которые принесут с собой технологии обработки «больших данных», уже сейчас многие организации организуют процесс сбора и хранения различного рода информации.

    Для образовательных и правительственных организаций, а также компаний отрасли промышленности наибольший потенциал для трансформации бизнеса заложен в сочетании накопленных данных с так называемыми dark data (дословно – «темными данными»), к последним относятся сообщения электронной почты, мультимедиа и другой подобный контент. По мнению Gartner, в гонке данных победят именно те, кто научится обращаться с самыми разными источниками информации.

    Опрос Cisco: Big Data поможет увеличить ИТ-бюджеты

    В ходе исследования (весна 2013 года) под названием Cisco Connected World Technology Report, проведенного в 18 странах независимой аналитической компанией InsightExpress, были опрошены 1 800 студентов колледжей и такое же количество молодых специалистов в возрасте от 18 до 30 лет. Опрос проводился, чтобы выяснить уровень готовности ИТ-отделов к реализации проектов Big Data и получить представление о связанных с этим проблемах, технологических изъянах и стратегической ценности таких проектов.

    Большинство компаний собирает, записывает и анализирует данные. Тем не менее, говорится в отчете, многие компании в связи с Big Data сталкиваются с целым рядом сложных деловых и информационно-технологических проблем. К примеру, 60 процентов опрошенных признают, что решения Big Data могут усовершенствовать процессы принятия решений и повысить конкурентоспособность, но лишь 28 процентов заявили о том, что уже получают реальные стратегические преимущества от накопленной информации.

    Более половины опрошенных ИТ-руководителей считают, что проекты Big Data помогут увеличить ИТ-бюджеты в их организациях, так как будут предъявляться повышенные требования к технологиям, персоналу и профессиональным навыкам. При этом более половины респондентов ожидают, что такие проекты увеличат ИТ-бюджеты в их компаниях уже в 2012 году. 57 процентов уверены в том, что Big Data увеличит их бюджеты в течение следующих трех лет.

    81 процент респондентов заявили, что все (или, по крайней мере, некоторые) проекты Big Data потребуют применения облачных вычислений. Таким образом, распространение облачных технологий может сказаться на скорости распространения решений Big Data и на ценности этих решений для бизнеса.

    Компании собирают и используют данные самых разных типов, как структурированные, так и неструктурированные. Вот из каких источников получают данные участники опроса (Cisco Connected World Technology Report):

    • 74 процента собирают текущие данные;
    • 55 процентов собирают исторические данные;
    • 48 процентов снимают данные с мониторов и датчиков;
    • 40 процентов пользуются данными в реальном времени, а затем стирают их. Чаще всего данные в реальном времени используются в Индии (62 процента), США (60 процентов) и Аргентине (58 процентов);
    • 32 процента опрошенных собирают неструктурированные данные – например, видео. В этой области лидирует Китай: там неструктурированные данные собирают 56 процентов опрошенных.

    Почти половина (48 процентов) ИТ-руководителей прогнозирует удвоение нагрузки на их сети в течение ближайших двух лет. (Это особенно характерно для Китая, где такой точки зрения придерживаются 68 процентов опрошенных, и Германии – 60 процентов). 23 процента респондентов ожидают утроения сетевой нагрузки на протяжении следующих двух лет. При этом лишь 40 процентов респондентов заявили о своей готовности к взрывообразному росту объемов сетевого трафика.

    27 процентов опрошенных признали, что им необходимы более качественные ИТ-политики и меры информационной безопасности.

    21 процент нуждается в расширении полосы пропускания.

    Big Data открывает перед ИТ-отделами новые возможности для наращивания ценности и формирования тесных отношений с бизнес-подразделениями, позволяя повысить доходы и укрепить финансовое положение компании. Проекты Big Data делают ИТ-подразделения стратегическим партнером бизнес-подразделений.

    По мнению 73 процентов респондентов, именно ИТ-отдел станет основным локомотивом реализации стратегии Big Data. При этом, считают опрошенные, другие отделы тоже будут подключаться к реализации этой стратегии. Прежде всего, это касается отделов финансов (его назвали 24 процента респондентов), научно-исследовательского (20 процентов), операционного (20 процентов), инженерного (19 процентов), а также отделов маркетинга (15 процентов) и продаж (14 процентов).

    Gartner: Для управления большими данными нужны миллионы новых рабочих мест

    Мировые ИТ расходы достигнут $3,7 млрд к 2013 году, что на 3,8% больше расходов на информационные технологии в 2012 году (прогноз на конец года составляет $3,6 млрд). Сегмент больших данных (big data) будет развиваться гораздо более высокими темпами, говорится в отчете Gartner [10] .

    К 2015 году 4,4 млн рабочих мест в сфере информационных технологий будет создано для обслуживания больших данных, из них 1,9 млн рабочих мест – в США. Более того, каждое такое рабочее место повлечет за собой создание трех дополнительных рабочих мест за пределами сферы ИТ, так что только в США в ближайшие четыре года 6 млн человек будет трудиться для поддержания информационной экономики.

    По мнению экспертов Gartner, главная проблема состоит в том, что в отрасли для этого недостаточно талантов: как частная, так и государственная образовательная система, например, в США не способны снабжать отрасль достаточным количеством квалифицированных кадров. Так что из упомянутых новых рабочих мест в ИТ кадрами будет обеспечено только одно из трех.

    Аналитики полагают, что роль взращивания квалифицированных ИТ кадров должны брать на себя непосредственно компании, которые в них остро нуждаются, так как такие сотрудники станут пропуском для них в новую информационную экономику будущего.

    Первый скепсис в отношении «Больших данных»

    Аналитики компаний Ovum и Gartner предполагают, что для модной в 2012 году темы больших данных может настать время освобождения от иллюзий.

    Термином «Большие Данные», в это время как правило, обозначают постоянно растущий объем информации, поступающей в оперативном режиме из социальных медиа, от сетей датчиков и других источников, а также растущий диапазон инструментов, используемых для обработки данных и выявления на их основе важных бизнес-тенденций.

    «Из-за шумихи (или несмотря на нее) относительно идеи больших данных производители в 2012 году с огромной надеждой смотрели на эту тенденцию», — отметил Тони Байер, аналитик Ovum.

    Байер сообщил, что компания DataSift провела ретроспективный анализ упоминаний больших данных в Twitter за 2012 год. Ограничивая поиск производителями, аналитики хотели сфокусироваться на восприятии этой идеи рынком, а не широким сообществом пользователей. Аналитики выявили 2,2 млн твитов от более чем 981 тыс. авторов.

    Эти данные различались в разных странах. Хотя общепринято убеждение, что США лидирует по показателю установленных платформ для работы с большими данными, пользователи из Японии, Германии и Франции часто были более активны в обсуждениях.

    Идея Больших Данных привлекла столь большое внимание, что об этом широко писала даже бизнес-пресса, а не только специализированные издания.

    Число положительных отзывов о больших данных со стороны производителей в три раза превышало число отрицательных, хотя в ноябре в связи с покупкой компанией HP компании Autonomy наблюдался всплеск негатива.

    Концепцию больших данных ожидают намного более суровые времена, хотя, миновав их, эта идеология достигнет зрелости.

    «Для сторонников больших данных наступает время расставания с иллюзиями», — пояснила Светлана Сикулар, аналитик Gartner. Она сослалась на обязательную стадию, входящую в классическую кривую цикла популярности (Hype Cycle), которую используют в Gartner.

    Даже среди тех клиентов, которые добились наибольших успехов с использованием Hadoop, многие «утрачивают иллюзии».

    «Они отнюдь не чувствуют, что находятся впереди других, и полагают, что успех выпадает другим, в то время как они переживают не лучшие времена. У этих организаций потрясающие идеи, а теперь они разочарованы из-за трудностей в выработке надежных решений», — сказала Сикулар.

    Впрочем, источником оптимизма для сторонников больших данных в это время может быть то, что следующий цикл на кривой популярности, а также завершающие этапы имеют весьма многообещающие названия, а именно «склон просвещения» и «плато продуктивности».

    Медленные СХД сдерживают развитие «Больших данных»

    Если производительность современных вычислительных систем за несколько десятилетий выросла на многие порядки и не идет ни в какое сравнение с первыми персональными ПК образца начала 1980-х гг. прошлого столетия, то с СХД дела обстоят гораздо хуже. Безусловно, доступные объемы многократно увеличились (впрочем, они по-прежнему в дефиците), резко снизилась стоимость хранения информации в пересчете на бит (хотя готовые системы по-прежнему слишком дорогие), однако скорость извлечения и поиска нужной информации оставляет желать лучшего.

    Если не брать в рассмотрение пока еще слишком дорогие и не вполне надежные и долговечные флэш-накопители, технологии хранения информации не очень далеко ушли вперед. По-прежнему приходится иметь дело с жесткими дисками, скорость вращения пластин которых даже в самых дорогих моделях ограничена на уровне 15 тыс. об./мин. Коль скоро речь идет о больших данных, очевидно, немалое их количество (если не подавляющее) размещается на накопителях со скоростью вращения шпинделя 7,2 тыс. об./мин. Достаточно прозаично и грустно.

    Обозначенная проблема лежит на поверхности и хорошо знакома ИТ-директорам компаний. Впрочем, она далеко не единственная [11] :

    Большие данные могут превратиться в большую головную боль или открыть большие возможности перед правительственными учреждениями, если только они сумеют ими воспользоваться. К таким выводам пришли во втором квартале 2012 года авторы исследования с неутешительным названием The Big Data Gap (с англ. gap – «расхождение», в данном контексте между теоретическими выгодами и реальным положением дел). По результатам опроса 151 ИТ-директора в ближайшие два года объемы хранимых данных в государственных учреждениях увечатся на 1 Петабайт (1024 Терабайт). В то же время извлекать выгоды из постоянно растущих информационных потоков становится все сложнее, сказывается недостаток доступного пространства в СХД, затрудняется доступ к нужным данным, не хватает вычислительной мощности и квалифицированного персонала.

    Находящиеся в распоряжении ИТ-менеджеров технологии и приложения демонстрируют существенное отставание от требований реальных задач, решение которых способно принести большим данным дополнительную ценность. 60% представителей гражданских и 42% оборонных ведомств пока только занимаются изучением феномена больших данных и ведут поиск возможных точек его приложения в своей деятельности. Основной, по мнению ИТ-директоров федеральных органов власти, должно стать повышение эффективности работы – так считают 59% респондентов. На втором месте находится повышение скорости и точности принимаемых решений (51%), на третьем – возможность строить прогнозы (30%).

    Как бы там ни было, но потоки обрабатываемых данных продолжают расти. На увеличение объемов хранимой информации в течение последних двух лет указали 87% опрошенных ИТ-директоров, на сохранение этой тенденции в перспективе ближайших двух лет рассчитывают уже 96% респондентов (со средним приростом 64%). Чтобы суметь воспользоваться всеми преимуществами, которые сулят большие данные, принимавшим участие в опросе учреждениям понадобится в среднем три года. Пока только 40% органов власти принимают стратегические решения, основываясь на накапливаемых данных, и лишь 28% взаимодействуют с другими организациями для анализа распределенных данных.

    В большом доме всегда сложнее навести порядок, нежели в крохотной квартирке. Здесь можно провести полную аналогию с большими данными, при работе с которыми очень важно придерживаться формулы `мусор на входе — золото на выходе`. К сожалению, современные инструменты управления мастер-данными недостаточно эффективны и нередко приводят к обратным ситуациям (`золото на входе — мусор на выходе`).

    • Метаданные: осведомлен – значит вооружен.

    Запрос, который хорошо справляется с поиском сотни строк из миллиона, может не справиться с таблицей из ста миллиардов строк. Если данные часто меняются, крайне важно вести журнал и проводить аудит. Выполнение этих несложных правил позволит располагать важной для выработки методики хранения и работы с данными информации об объеме данных, скорости и частоте его изменения.

    • Скажи мне кто твой друг – и я скажу кто ты.

    Правильно интерпретировать скрытые в массивах больших данных тенденции и взаимосвязи могут в буквальном смысле считанные подготовленные специалисты. В некоторой степени их способны заменить фильтры и распознаватели структур, но качество получаемых на выходе результатов пока оставляет желать лучшего.

    Одноименный раздел статьи наглядно иллюстрирует всю сложность и неоднозначность используемых подходов для визуализации больших данных. В то же время, представление результатов в доступной для восприятия форме подчас имеет критически важное значение.

    Просмотр данных в реальном времени означает необходимость постоянного пересчета, что далеко не всегда приемлемо. Приходится идти на компромисс и прибегать к ретроспективному способу аналитики, например, на базе кубов, и мириться с отчасти устаревшими результатами.

    Никогда нельзя знать заранее на каком временном промежутке большие данные представляют особую ценность и наиболее релевантны. А ведь сбор, хранение, анализ, создание резервных копий требует немалых ресурсов. Остается оттачивать политику хранения и, конечно, не забывать применять ее на практике.

    Oracle: Решение проблемы больших данных в модернизации ЦОДов

    Результаты исследования корпорации Oracle свидетельствуют о том, что многие компании, по всей видимости, застигнуты врасплох бумом « больших данных».

    «Борьба с «большими данными», похоже, станет самой большой ИТ-задачей для компаний в ближайшие два года, – считает Луиджи Фрегуйя (Luigi Freguia), старший вице-президент по аппаратному обеспечению Oracle в регионе EMEA. – К концу этого периода они либо справятся с ней, либо значительно отстанут в бизнесе и будут далеки как от угроз, так и от возможностей «больших данных».

    Задача по «освоению» больших данных является уникальной, признают в Oracle. Главным же ответом компаний на вызовы big data должна стать модернизация корпоративных центров обработки данных (ЦОД).

    Чтобы оценить степень готовности компаний к изменениям внутри ЦОДов, на протяжении почти двух лет Oracle вместе с аналитической компанией Quocirca собирала данные для исследования Oracle Next Generation Data Centre Index (Oracle NGD Index). Этот индекс оценивает прогресс компаний в вопросе продуманного использования ЦОДов для улучшения производительности ИТ-инфраструктуры и оптимизации бизнес-процессов.

    Исследование состояло из двух фаз (циклов), и аналитики заметили существенные изменения всех ключевых показателей уже на пороге второго этапа. Средний балл по Oracle NGD Index, который набрали участники опроса из Европы и Ближнего Востока, составил 5,58. Максимальный балл –10,0 – отражает наиболее продуманную стратегию использования ЦОДов.

    Средний балл (5,58) стал выше по сравнению с первым циклом исследования, проведенным в феврале 2011 года, – 5,22. Это говорит о том, что компании в ответ на бум «больших данных» увеличивают инвестиции в стратегии развития ЦОДов. Все страны, отрасли и направления в рамках отраслей, охваченные исследованием, повысили индекс Oracle NGD Index по результатам второго цикла в сравнении с первым.

    Скандинавия и регион DCH (Германия/ Швейцария) занимают лидирующие позиции по устойчивому развитию с индексом (Sustainability Index) в 6,57. Далее в этом рейтинге следует Бенилюкс (5,76) и, затем, Великобритания с показателем 5,4, что уже ниже среднего уровня.

    У России, которая была включена в список стран/регионов только во втором цикле исследования и не участвовала в первом, есть значительный потенциал для роста (показатель 4,62), отмечают аналитики.

    Согласно исследованию, российские организации рассматривают поддержку роста бизнеса в качестве важной причины для инвестиций в ЦОДы. Более 60% компаний видят необходимость таких инвестиций сегодня или в ближайшем будущем, предполагая, что организации в скором времени обнаружат, что конкурировать становится невероятно сложно, если и пока не сделать соответствующие инвестиции.

    В целом в мире доля респондентов с собственными корпоративными ЦОДами снизилась с 60% по результатам первого цикла исследования до 44% на втором цикле исследования, напротив, использование внешних ЦОДов возросло на 16 пунктов до 56%.

    Лишь 8% респондентов заявили, что им не нужны новые мощности ЦОДа в обозримом будущем. 38% респондентов видят необходимость в новых мощностях ЦОДа в пределах двух ближайших лет. Лишь 6,4% респондентов сообщили, что в их организации нет плана устойчивого развития, связанного с использованием ЦОДа. Доля руководителей ЦОДов, которые просматривают копии счетов на оплату электроэнергии, выросла с 43,2% до 52,2% за весь период исследования.

    Инвестиции в Big Data-стартапы

    Во второй декаде октября 2012 года сразу три американских стартапа получили инвестирование на развитие приложений и сервисов для работы с Big data. Эти компании на своем примере показывают неугасающий, а возрастающий интерес венчуров к этому сегменту ИТ бизнеса, а также необходимость новой инфраструктуры для работы с данными, пишет TechCrunch 21 октября 2012 года.

    Интерес инвесторов к Big data объясняется позитивным прогнозом Gartner о развитии этого сегмента до 2020 года. Согласно исследованию, решения для Big data будут составлять около 232 млрд долларов в структуре ИТ-расходов компаний.

    При этом, многие компании и стартапы в сегменте Big data начинают уходить от схемы работы пионеров отрасли (Google, Amazon), когда решения по работе с большими данными являлись лишь частью центров обработки данных. Сейчас они трансформировались в отдельное направление ИТ-рынка.

    Big data сейчас-это и инфраструктурные предложения и приложения как коробочного, так и облачного типов, это инструмент работы не только больших корпораций, но и среднего, а порой и малого бизнесов.

    И это движение рынка вынуждает вендоров иначе смотреть на Big data и менять свой подход в работе с ними, а также меняет взгляд на клиентов-потребителей, которыми теперь являются не только телекоммуникационные или финансовые корпорации.

    Индия готовится к буму больших данных

    Индийский рынок ИТ постепенно начинает сбавлять темпы развития и индустрии приходится искать новые пути поддержания привычную динамику роста или способы не рухнуть вслед за другими отраслями в периоды мирового экономического кризиса. Разработчики ПО и приложений начинают предлагать новые варианты использования новейших технологий. Так некоторые индийские компании производят анализ покупательской активности на основе больших объемов неструктурированных данных (Big Data) и затем предлагают результаты исследований крупным магазинам и ритейловым сетям. Об этом сообщил 8 октября 2012 года Reuters.

    Под пристальное изучение попали камеры видеонаблюдения, отчеты о покупках, запросах в интернете, отчеты о завершенных покупках с помощью того или иного веб-ресурса.

    «Эти данные могут нам дать понять о склонности посетителя к той или иной покупке, а следовательно эта информация дает ключ к заключению выгодной сделки для всех сторон», — цитирует Reutes генерального директора Бангалорской компании Mu Sigma Дхирая Раджарама (Dhiraj Rajaram), одной из крупнейших организаций, занимающейся анализом Big Data.

    Дхирай Раджарам заметил, что основная часть подобного анализа производится в США, однако сейчас, когда бурное развитие индийского ИТ-рынка начало ослабевать, компании обращают все более пристальное внимание к этому перспективному сегменту.

    При этом, индийские компании при работе с Big Data чаще всего используют облачные технологии для хранения и обработки данных и результатов своей деятельности.

    Объем общемировых данных, производимых в 2011 году оценивается, по мнению Дхирая Раджарама, в примерно 1,8 зеттабайт — 1,8 миллиарда терабайт, что эквивалентно 200 млрд. полнометражных фильмов высокой четкости.

    Помимо анализа запросов и результатов обработки изображения с камер видеонаблюдения, огромный простор для работы Дхирай Раджарам видит в том, сколько информации от пользователей и покупателей появляется в социальных сетях. По его мнению этот относительно новый сегмент ИТ-рынка может стать драйвером всей индустрии в скором времени.

    Индийская национальная ассоциация программного обеспечения и ИТ услуг (India’s National Association of Software and Services Companies (Nasscom) прогнозирует шестикратный рост сегмента решения для работы с Big Data до 1,2 млрд долларов.

    При этом общемировой рост Big Data составит более чем 2 раза с 8,25 млрд долларов сейчас, до 25 млрд долларов в ближайшие несколько лет, считают в Nasscom.

    Мода на «Большие данные» расцветает

    В 2011 году было принято считать, что современные программные инструменты не в состоянии оперировать большими объемами данных в рамках разумных временных промежутков. Обозначенный диапазон значений носит весьма условный характер и имеет тенденцию к увеличению в большую сторону, поскольку вычислительная техника непрерывно совершенствуется и становится все более доступной. В частности, Gartner в июне 2011 года рассматривает « большие данные» сразу в трех плоскостях – роста объемов, роста скорости обмена данными и увеличения информационного разнообразия [12] .

    В это время считается, что основной особенностью используемых в рамках концепции больших данных подходов является возможность обработки информационного массива целиком для получения более достоверных результатов анализа. Прежде приходилось полагаться на так называемую репрезентативную выборку или подмножество информации. Закономерно погрешности при таком подходе были заметно выше. Кроме того, такой подход требовал затрат определенного количества ресурсов на подготовку данных для анализа и приведение их к требуемому формату.

    Согласно сообщениям СМИ в этот период, «трудно найти отрасль, для которой проблематика больших данных была бы неактуальной». Умение оперировать большими объемами информации, анализировать взаимосвязи между ними и принимать взвешенные решения, с одной стороны, несет потенциал для компаний из различных вертикалей для увеличения показателей доходности и прибыльности, повышения эффективности. С другой стороны, это прекрасная возможность для дополнительного заработка партнерам вендоров – интеграторам и консультантам.

    Чтобы подчеркнуть выгоды от развития и внедрения инструментов работы с большими данными компания McKinsey предлагала приведенную ниже статистику. Она имеет привязку преимущественно к рынку США, но ее нетрудно экстраполировать и на другие экономически развитые регионы.

    • Потенциальный объем рынка здравоохранения в США составляет $300 млрд в год. Часть этой огромной суммы идет на внедрение современных ИТ, и очевидно, большие данные не останутся в стороне.
    • Использование инструментов анализа «больших данных» в розничных сетях потенциально может привести к увеличению прибыльности на 60%.
    • Только в США для эффективной обработки «больших данных» понадобится 140-190 тыс. аналитиков и свыше 1,5 млн менеджеров для управления информационными массивами.
    • Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

    Почему данные стали большими

    В 2011 году апологеты концепции Big Data заявляют, что источников больших данных в современном мире великое множество. В их качестве могут выступать:

    • непрерывно поступающие данные с измерительных устройств,
    • события от радиочастотных идентификаторов,
    • потоки сообщений из социальных сетей,
    • метеорологические данные,
    • данные дистанционного зондирования земли,
    • потоки данных о местонахождении абонентов сетей сотовой связи,
    • устройств аудио- и видеорегистрации.

    Собственно, массовое распространение перечисленных выше технологий и принципиально новых моделей использования различно рода устройств и интернет-сервисов послужило отправной точкой для проникновения больших данных едва ли не во все сферы деятельности человека. В первую очередь, научно-исследовательскую деятельность, коммерческий сектор и государственное управление.

    Рост объемов данных (слева) на фоне вытеснения аналоговых средств хранения (справа). Источник: Hilbert and López, `The world’s technological capacity to store, communicate, and compute information,`Science, 2011Global

    Несколько показательных фактов этого времени:

    • В 2010 году корпорации мира накопили 7 экзабайтов данных, на наших домашних ПК и ноутбуках хранится 6 экзабайтов информации.
    • Всю музыку мира можно разместить на диске стоимостью 600 долл.
    • В 2010 году в сетях операторов мобильной связи обслуживалось 5 млрд телефонов.
    • Каждый месяц в сети Facebook выкладывается в открытый доступ 30 млрд новых источников информации.
    • Ежегодно объемы хранимой информации вырастают на 40%, в то время как глобальные затраты на ИТ растут всего на 5%.
    • По состоянию на апрель 2011 года в библиотеке Конгресса США хранилось 235 терабайт данных.
    • Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

    Рост вычислительной мощности компьютерной техники (слева) на фоне трансформации парадигмы работы с данными (справа). Источник: Hilbert and López, `The world’s technological capacity to store, communicate, and compute information,`Science, 2011Global

    К примеру, датчики, установленные на авиадвигателе, генерируют около 10 Тб за полчаса. Примерно такие же потоки характерны для буровых установок и нефтеперерабатывающих комплексов. Только один сервис коротких сообщений Twitter, несмотря на ограничение длины сообщения в 140 символов, генерирует поток 8 Тб/сут. Если все подобные данные накапливать для дальнейшей обработки, то их суммарный объем будет измеряться десятками и сотнями петабайт. Дополнительные сложности проистекают из вариативности данных: их состав и структура подвержены постоянным изменениям при запуске новых сервисов, установке усовершенствованных сенсоров или развертывании новых маркетинговых кампаний.

    Рекомендации ИТ-директорам

    Невиданное прежде разнообразие данных, возникающих в результате огромного числа всевозможных транзакций и взаимодействий, предоставляет собой прекрасную фундаментальную базу для бизнеса по уточнению прогнозов, оценке перспектив развития продуктов и целых направлений, лучшего контроля затрат, оценки эффективности – список легко продолжать сколь угодно долго. С другой стороны, большие данные ставят непростые задачи перед любым ИТ-подразделением, писали эксперты 2020vp.com в 2011 году. Мало того, что они принципиально нового характера, при их решении важно учитывать накладываемые бюджетом ограничения на капитальные и текущие затраты.

    ИТ-директор, который намерен извлечь пользу из больших структурированных и неструктурированных данных, должен руководствоваться следующими техническими соображениями [13] :

    Перемещение и интеграция данных необходимы, но оба подхода повышают капитальные и операционные расходы на инструменты извлечения информации, ее преобразования и загрузки (ETL). Поэтому не стоит пренебрегать стандартными реляционными средами, такими как Oracle, и аналитическими хранилищами данных, такими как Teradata.

    Обе технологии существенно ушли вперед, например, многоуровневая компрессия позволяет сокращать объем `сырых` данных в десятки раз. Впрочем всегда стоит помнить какая часть сжатых данных может потребовать восстановления, и уже отталкиваясь от каждой конкретной ситуации принимать решение об использовании той же компрессии.

    В зависимости от конкретной ситуации диапазон запросов для бизнес-аналитики меняется в широких пределах. Часто для получения необходимой информации достаточно получить ответ на SQL-запрос, но встречаются и глубокие аналитические запросы, требующие применения наделенных бизнес-интеллектом инструментов и обладающих полным спектром возможностей приборной доски и визуализации. Чтобы не допустить резкого увеличения операционных расходов, нужно тщательно подойти к составлению сбалансированного списка необходимых патентованных технологий в сочетании с открытым ПО Apache Hadoop.

    • Масштабирование и управляемость.

    Организации вынуждены решать проблему разнородности баз данных и аналитических сред, и в этой связи возможность масштабирования по горизонтали и вертикали имеет принципиальное значение. Собственно, как раз легкость горизонтального масштабирования и стала одной из основных причин быстрого распространения Hadoop. Особенно в свете возможности параллельной обработки информации на кластерах из обычных серверов (не требует от сотрудников узкоспециальных навыков) и экономии таким образом инвестиций в ИТ-ресурсы.

    Рост спроса на администраторов big data

    46% директоров ИТ-служб, опрошенных в конце 2011 года кадровым агентством Robert Half, называют самой востребованной специальностью администрирование баз данных. Администрирование сетей назвали 41% опрошенных, администрирование систем Windows — 36%, техническую поддержку настольных приложений — 33%, а бизнес-аналитику и средства составления отчетов — 28%.

    Обработка больших объемов данных становится серьезной проблемой для многих компаний, и это повышает спрос на специалистов по управлению базами данных, заключают в Robert Half. Помимо роста объемов неструктрированных данных (например, сообщений в социальных сетях), спрос повышается из-за подготовки к введению в Европе новых нормативных требований — в том числе стандартов платежеспособности Solvency II для страховых компаний и стандартов капитала и ликвидности Basel III для банковского сектора.

    Аналитики Robert Half предсказывают также дефицит специалистов по мобильным и облачным технологиям. Их вывод основан на том, что 38% опрошенных ИТ-директоров главным направлением инвестиций назвали мобильные технологии, а 35% — виртуализацию.

    2008: Появление термина «Большие данные»

    Непосредственно термин « большие данные» появился в употреблении только в конце 2000-х. Он относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». Специальный номер подытоживал предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в частности [14] .

    Можно выявить несколько причин, вызвавших новую волну интереса к большим данным. Объемы информации росли по экспоненциальному закону и ее львиная доля относится к неструктурированным данным. Другими словами, вопросы корректной интерпретации информационных потоков становились все более актуальными и одновременно сложными. Реакция со стороны ИТ-рынка последовала незамедлительно – крупные игроки приобрели наиболее успешные узкоспециализированные компании и начали развивать инструменты для работы с большими данными, количество соответствующих стартапов и вовсе превосходило все мыслимые ожидания.

    Наряду с ростом вычислительной мощности и развитием технологий хранения возможности анализа больших данных постепенно становятся доступными малому и среднему бизнесу и перестают быть исключительно прерогативой крупных компаний и научно-исследовательских центров. В немалой степени этому способствует развитие облачной модели вычислений.

    В это время ожидается, что с дальнейшим проникновением ИТ в бизнес-среду и повседневную жизнь подлежащие обработке информационные потоки продолжат непрерывно расти. И если в конце 2000-х большие данные – это петабайты, ожидалось, что в будущем придется оперировать с экзабайтами и т.д. Прогнозировалось, что в обозримой перспективе инструменты для работы с такими гигантскими массивами информации все еще будут оставаться чрезмерно сложными и дорогими.

    1970-е: Эпоха мейнфреймов — появление концепции больших данных

    Сама по себе концепция «больших данных» возникла ещё во времена мэйнфреймов и связанных с ними научных компьютерных вычислений [15] . Как известно, наукоемкие вычисление всегда отличались сложностью и обычно неразрывно связаны с необходимостью обработки больших объемов информации.

    Цукерберг рекомендует:  Приятные всплывающие подсказки с использованием CSS3 и jQuery
    Понравилась статья? Поделиться с друзьями:
    Все языки программирования для начинающих