9 языков для Big Data

Содержание

Data Science с нуля: языки, навыки и курсы для начинающих специалистов по данным

Если вы любите математику, статистику, умеете и любите программировать и хотите зарабатывать 300-600 тысяч рублей в месяц, идите в анализ больших данных и машинное обучение — Data Science.

В этой статье расскажем, какие навыки и знания вам понадобятся, где этому научиться и какие профессии есть сейчас в одном из самых востребованных IT-направлений.

Data Scientist — что за профессия?

Data Science занимается сбором и анализом данных. Разброс сфер, в котором она применяется, огромен: большие данные помогают определять вероятность развития заболеваний, находить опухоли на снимке, показывать персонализированную рекламу, находить мошеннические транзакции.

Сюда же входят машинное обучение, нейросети и искусственный интеллект — тот самый поиск по картинке, «умный дом» и Алиса, которая понимает шутки и отвечает почти как реальный человек.

Интернет вещей, промышленность, маркетинг и любая IT-компания генерируют петабайты данных, которые нужно где-то хранить и обрабатывать, а потом на основе анализа делать прогнозы и предлагать решения для оптимизации и роста бизнеса. В Data Science есть несколько специалистов, которые этим занимаются:

  1. Инженер данных (Data Engineer) – разрабатывает систему обработки данных, которая выдерживает большие нагрузки и не отключается от перегрузки. Собирает, хранит и управляет потоками данных в реальном времени, работает с кластерами серверов на Linux, с Hadoop, Spark и облачными системами.
  2. Разработчик BI (Business Intelligence Developer) — проектирует внутренние хранилища данных и создает аналитические отчеты в BI-системах. Знает SQL, инструменты ETL и умеет программировать.
  3. Аналитик данных (Data Analyst) — суммирует и интерпретирует полученные данные — переводит их на понятный бизнесу язык. Знает Excel, SQL и системы аналитики.
  4. Специалист по данным (Data Scientist) — имеет самый обширный список навыков: анализирует данные, программирует, разрабатывает новые алгоритмы, обрабатывает большие объемы информации. Но главное — именно он делает прогнозы и помогает компаниям решать бизнес-задачи на основе полученных данных.

Отдельно — инженер по машинному обучению и специалист по AI (искусственному интеллекту). Они занимаются программированием, администрированием и ускорением обучения нейронных сетей, владеют инструментами обработки естественного языка и методами глубокого обучения.

Сколько зарабатывают специалисты по большим данным

В Big Data глобальный дефицит кадров: уже сейчас в США не хватает больше 150 тысяч специалистов, а Amazon и Google инвестируют суммарно 357 млн долларов только в поиск сотрудников в отдел машинного обучения.

Благодаря высокому спросу зарплаты таких специалистов соответствующие: в США data scientist получает в среднем $9700 в месяц, что по нынешнему курсу превышает 600 тысяч рублей, аналитик — $5600 или 360 тысяч рублей.

В России ставки чуть ниже: максимальная зарплата специалиста по данным — 300 тысяч, а аналитика — 200 тысяч рублей в месяц. Впрочем, при таком дефиците профессионалу устроят релокейт и предоставят бесплатные языковые курсы — главное, чтобы он владел нужными навыками и опытом.

Какие навыки нужны для работы с Big Data и Machine Learning

Начнем с основ: для работы в любом направлении, связанном с большими данными, вам понадобятся знания математики, математической статистики и понятий науки о данных. Например, на собеседовании вам обязательно зададут вопросы о:

  • теории вероятности — проверят, насколько хорошо вы в этом разбираетесь и можете ли самостоятельно просчитать вероятность события. Примеры заданий здесь;
  • корреляции — если работаете со статистическими методами, освежите знания и потренируйтесь решать задачи на корреляцию;
  • линейной регрессии — этот метод часто используют, чтобы решать проблемы классификации, так что ловите вопросы, на которые точно нужно знать ответ любому специалисту по данным.

Что еще нужно изучить? Машинное обучение, его алгоритмы и методы, так как оно составляет основу работы с большими данными:

  • обработка естественного языка (NLP),
  • дерево решений,
  • метод опорных векторов,
  • метод снижения соразмерности,
  • кластерный анализ.

Дальше — больше, точнее, глубже: Deep Learning — глубокое обучение, алгоритмы обработки изображений, анализа текстов и распознавания речи.

Из технических навыков: специалист по большим данным должен знать языки программирования Python и R, работать с инструментами SQL и NoSQL, SAS, понимать Map Reduce Hadoop и Hive/Pig, уметь работать в xaaS-сервисах (один из таких — Amazon Web Services).

Не забываем и про soft skills: недостаточно уметь программировать и обрабатывать информацию, нужно еще понимать бизнес, уметь стратегически мыслить, быть креативным и работать в команде, а пойманные инсайты превращать в конкретные бизнес-решения.

Такой набор навыков встречается редко, специалисты — на вес золота, а спрос сейчас во много раз превышает предложение. Поэтому самое время учиться.

Где учиться на Data Scientist — специалиста по большим данным

В университетах такая специальность встречается редко — пока только в ВШЭ, СПбГУ, МГУ и МФТИ.

Чаще всего учат некоторым аспектам профессии, а не комплексно, поэтому на фоне государственного образования выигрывают онлайн-курсы: они короче, интенсивнее, дают больше практики и главное — больше актуальных знаний и навыков, потому что информация постоянно обновляется и не успевает устаревать.

Можно выбрать несколько курсов по разным направлениям и постепенно вырасти из аналитика данных до самого востребованного сейчас Data Scientist’а.

А можно пройти один: Data Science с нуля за 12 месяцев — программа комплексного изучения науки о данных: если вы ни разу в жизни не программировали, а математику учили только в школе, этот курс научит вас всему необходимому для работы с данными. Персональный ментор, множество практики на реальных бизнес-задачах, соревнования и хакатоны, а в конце — стажировка для лучших студентов курса и помощь с трудоустройством.

На курсе повторите математику и основы статистики, с нуля напишете свою первую программу на Python, обучите нейронную сеть и напишете умного чат-бота. Через 12 месяцев станете крутым специалистом, за которого IT-компании будут бороться и конкурировать.

Узнайте все о фрилансе в 5 письмах

Подпишитесь на бесплатный email-курс, который расскажет про поиск заказов, работу с клиентами и самопрезентацию фрилансера

Thank you!

You have successfully joined our subscriber list.

Что такое Big data простыми словами? Применение и перспективы больших данных

Через 10 лет мир перейдет в новую эпоху — эпоху больших данных. Вместо виджета погоды на экране смартфона, он сам подскажет вам, что лучше одеть. За завтраком телефон покажет дорогу, по которой вы быстрее доберетесь до работы и когда нужно будет выехать.

Под влиянием Big Data изменится все, чего бы не коснулся человек. Разберемся, что это такое, а также рассмотрим реальное применение и перспективы технологии.

Навигация по материалу:

Что такое Big data?

Большие данные — технология обработки информации, которая превосходит сотни терабайт и со временем растет в геометрической прогрессии.

Такие данные настолько велики и сложны, что ни один из традиционных инструментов управления данными не может их хранить или эффективно обрабатывать. Проанализировать этот объем человек не способен. Для этого разработаны специальные алгоритмы, которые после анализа больших данных дают человеку понятные результаты.

В Big Data входят петабайты (1024 терабайта) или эксабайты (1024 петабайта) информации, из которых состоят миллиарды или триллионы записей миллионов людей и все из разных источников (Интернет, продажи, контакт-центр, социальные сети, мобильные устройства). Как правило, информация слабо структурирована и часто неполная и недоступная.

Как работает технология Big-Data?

Пользователи социальной сети Facebook загружают фото, видео и выполняют действия каждый день на сотни терабайт. Сколько бы человек не участвовало в разработке, они не справятся с постоянным потоком информации. Чтобы дальше развивать сервис и делать сайты комфортнее — внедрять умные рекомендации контента, показывать актуальную для пользователя рекламу, сотни тысяч терабайт пропускают через алгоритм и получают структурированную и понятную информацию.

Сравнивая огромный объем информации, в нем находят взаимосвязи. Эти взаимосвязи с определенной вероятностью могут предсказать будущее. Находить и анализировать человеку помогает искусственный интеллект.

Нейросеть сканирует тысячи фотографий, видео, комментариев — те самые сотни терабайт больших данных и выдает результат: сколько довольных покупателей уходит из магазина, будет ли в ближайшие часы пробка на дороге, какие обсуждения популярны в социальной сети и многое другое.

Методы работы с большими данными:

  • Машинное обучение
  • Анализ настроений
  • Анализ социальной сети
  • Ассоциация правил обучения
  • Анализ дерева классификации
  • Генетические алгоритмы
  • Регрессионный анализ

Машинное обучение

Вы просматриваете ленту новостей, лайкаете посты в Instagram, а алгоритм изучает ваш контент и рекомендует похожий. Искусственный интеллект учится без явного программирования и сфокусирован на прогнозировании на основе известных свойств, извлеченных из наборов «обучающих данных».

Машинное обучение помогает :

  • Различать спам и не спам в электронной почте
  • Изучать пользовательские предпочтения и давать рекомендации
  • Определять лучший контент для привлечения потенциальных клиентов
  • Определять вероятность выигрыша дела и устанавливать юридические тарифы

Анализ настроений

Анализ настроений помогает :

  • Улучшать обслуживание в гостиничной сети, анализируя комментарии гостей
  • Настраивать стимулы и услуги для удовлетворения потребностей клиента
  • Определить по мнениям в социальной сети о чем думают клиенты.

Анализ социальных сетей

Анализ социальных сетей впервые использовали в телекоммуникационной отрасли. Метод применяется социологами для анализа отношений между людьми во многих областях и коммерческой деятельности.

Этот анализ используют чтобы :

  • Увидеть, как люди из разных групп населения формируют связи с посторонними лицами
  • Выяснить важность и влияние конкретного человека в группе
  • Найти минимальное количество прямых связей для соединения двух людей
  • Понять социальную структуру клиентской базы

Изучение правил ассоциации

Люди, которые не покупают алкоголь, берут соки чаще, чем любители горячительных напитков?

Изучение правил ассоциации — метод обнаружения интересных взаимосвязей между переменными в больших базах данных. Впервые его использовали крупные сети супермаркетов для обнаружения интересных связей между продуктами, используя информацию из систем торговых точек супермаркетов (POS).

С помощью правил ассоциации :

  • Размещают продукты в большей близости друг к другу, чтобы увеличились продажи
  • Извлекают информацию о посетителях веб-сайтов из журналов веб-сервера
  • Анализируют биологические данные
  • Отслеживают системные журналы для обнаружения злоумышленников
  • Определяют чаще ли покупатели чая берут газированные напитки

Анализ дерева классификации

Статистическая классификация определяет категории, к которым относится новое наблюдение.

Статистическая классификация используется для :

  • Автоматического присвоения документов категориям
  • Классификации организмов по группам
  • Разработки профилей студентов, проходящих онлайн-курсы

Генетические алгоритмы

Генетические алгоритмы вдохновлены тем, как работает эволюция, то есть с помощью таких механизмов, как наследование, мутация и естественный отбор.

Генетические алгоритмы используют для :

  • Составления расписания врачей для отделений неотложной помощи в больницах
  • Расчет оптимальных материалов для разработки экономичных автомобилей
  • Создания «искусственно творческого» контента, такого как игра слов и шутки

Регрессионный анализ

Как возраст человека влияет на тип автомобиля, который он покупает?

На базовом уровне регрессионный анализ включает в себя манипулирование некоторой независимой переменной (например, фоновой музыкой) чтобы увидеть, как она влияет на зависимую переменную (время, проведенное в магазине).

Регрессионный анализ используют для определения:

  • Уровней удовлетворенности клиентов
  • Как прогноз погоды за предыдущий день влияет на количество полученных звонков в службу поддержки
  • Как район и размер домов влияют на цену жилья

Data Mining — как собирается и обрабатывается Биг Дата

Загрузка больших данных в традиционную реляционную базу для анализа занимает много времени и денег. По этой причине появились специальные подходы для сбора и анализа информации. Для получения и последующего извлечения информацию объединяют и помещают в “озеро данных”. Оттуда программы искусственного интеллекта, используя сложные алгоритмы, ищут повторяющиеся паттерны.

Хранение и обработка происходит следующими инструментами :

  • Apache HADOOP — пакетно-ориентированная система обработки данных. Система хранит и отслеживает информацию на нескольких машинах и масштабируется до нескольких тысяч серверов.
  • HPPC — платформа с открытым исходным кодом, разработанная LexisNexis Risk Solutions. HPPC известна как суперкомпьютер Data Analytics (DAS), поддерживающая обработку данных как в пакетном режиме, так и в режиме реального времени. Система использует суперкомпьютеры и кластеры из обычных компьютеров.
  • Storm — обрабатывает информацию в реальном времени. Использует Eclipse Public License с открытым исходным кодом.

Реальное применение Big Data

Самый быстрый рост расходов на технологии больших данных происходит в банковской сфере, здравоохранении, страховании, ценных бумагах и инвестиционных услугах, а также в области телекоммуникаций. Три из этих отраслей относятся к финансовому сектору, который имеет множество полезных вариантов для анализа Big Data: обнаружение мошенничества, управление рисками и оптимизация обслуживания клиентов.

Банки и компании, выпускающие кредитные карты, используют большие данные, чтобы выявлять закономерности, которые указывают на преступную деятельность. Из-за чего некоторые аналитики считают, что большие данные могут принести пользу криптовалюте. Алгоритмы смогут выявить мошенничество и незаконную деятельность в крипто-индустрии.

Благодаря криптовалюте такой как Биткойн и Эфириум блокчейн может фактически поддерживать любой тип оцифрованной информации. Его можно использовать в области Big Data, особенно для повышения безопасности или качества информации.

Например, больница может использовать его для обеспечения безопасности, актуальности данных пациента и полного сохранения их качества. Размещая базы данных о здоровьи в блокчейн, больница обеспечивает всем своим сотрудникам доступ к единому, неизменяемому источнику информации.

Также, как люди связывают криптовалюту с волатильностью, они часто связывают большие данные со способностью просеивать большие объемы информации. Big Data поможет отслеживать тенденции. На цену влияет множество факторов и алгоритмы больших данных учтут это, а затем предоставят решение.

Перспективы использования Биг Дата

Blockchain и Big Data — две развивающиеся и взаимодополняющие друг друга технологии. С 2020 блокчейн часто обсуждается в СМИ. Это криптографически безопасная технология распределенных баз данных для хранения и передачи информации. Защита частной и конфиденциальной информации — актуальная и будущая проблема больших данных, которую способен решить блокчейн.

Почти каждая отрасль начала инвестировать в аналитику Big Data, но некоторые инвестируют больше, чем другие. По информации IDC, больше тратят на банковские услуги, дискретное производство, процессное производство и профессиональные услуги. По исследованиям Wikibon, выручка от продаж программ и услуг на мировом рынке в 2020 году составила $42 млрд, а в 2027 году преодолеет отметку в $100 млрд.

По оценкам Neimeth, блокчейн составит до 20% общего рынка больших данных к 2030 году, принося до $100 млрд. годового дохода. Это превосходит прибыль PayPal, Visa и Mastercard вместе взятые.

Аналитика Big Data будет важна для отслеживания транзакций и позволит компаниям, использующим блокчейн, выявлять скрытые схемы и выяснять с кем они взаимодействуют в блокчейне.

Рынок Big data в России

Весь мир и в том числе Россия используют технологию Big Data в банковской сфере, услугах связи и розничной торговле. Эксперты считают, что в будущем технологию будут использовать транспортная отрасль, нефтегазовая и пищевая промышленность, а также энергетика.

Аналитики IDC признали Россию крупнейшим региональным рынком BDA. По расчетам в текущем году выручка приблизится к 1,4 миллиардам долларов и будет составлять 40% общего объема инвестиций в секторе больших данных и приложений бизнес-аналитики.

Дата публикации 22.08.2020
Поделитесь этим материалом в социальных сетях и оставьте свое мнение в комментариях ниже.

Что такое Биг-Дата? Простой ответ для каждого

Термин «Биг-Дата», возможно, сегодня уже узнаваем, но вокруг него все еще довольно много путаницы относительно того, что же он означает на самом деле. По правде говоря, концепция постоянно развивается и пересматривается, поскольку она остается движущей силой многих продолжающихся волн цифрового преобразования, включая искусственный интеллект, науку о данных и Интернет вещей. Но что же представляет собой технология Big-Data и как она меняет наш мир? Давайте попробуем разобраться объяснить суть технологии Биг-Даты и что она означает простыми словами.

Удивительный рост Биг-Даты

Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.

Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.

Цукерберг рекомендует:  Java - нужна помощь с java!!!

В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.

Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.

Как работает технология Big-Data?

Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.

Бил Гейтс висит над бумажным содержимым одного компакт диска

До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.

Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.

Сейчас лучшее время для старта карьеры в области Data Science. В школе данных SkillFactory стартует онлайн-курс, позволяющий освоить профессию Data Scientist с нуля.

Как используется Биг-Дата?

Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.

Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:

  • Улучшая здравоохранение — медицина, управляемая данными, способна анализировать огромное количество медицинской информации и изображений для моделей, которые могут помочь обнаружить заболевание на ранней стадии и разработать новые лекарства.
  • Прогнозируя и реагируя на природные и техногенные катастрофы. Данные датчиков можно проанализировать, чтобы предсказать, где могут произойти землетрясения, а модели поведения человека дают подсказки, которые помогают организациям оказывать помощь выжившим. Технология Биг Даты также используется для отслеживания и защиты потока беженцев из зон военных действий по всему миру.
  • Предотвращая преступность. Полицейские силы все чаще используют стратегии, основанные на данных, которые включают их собственную разведывательную информацию и информацию из открытого доступа для более эффективного использования ресурсов и принятия сдерживающих мер там, где это необходимо.

Лучшие книги о технологии Big-Data

Проблемы с Big-Data

Биг Дата дает нам беспрецедентные идеи и возможности, но также поднимает проблемы и вопросы, которые необходимо решить:

  • Конфиденциальность данных – Big-Data, которую мы сегодня генерируем, содержит много информации о нашей личной жизни, на конфиденциальность которой мы имеем полное право. Все чаще и чаще нас просят найти баланс между количеством персональных данных, которые мы раскрываем, и удобством, которое предлагают приложения и услуги, основанные на использовании Биг Даты.
  • Защита данных — даже если мы решаем, что нас устраивает то, что у кого-то есть наши данные для определенной цели, можем ли мы доверять ему сохранность и безопасность наших данных?
  • Дискриминация данных — когда вся информация будет известна, станет ли приемлемой дискриминация людей на основе данных из их личной жизни? Мы уже используем оценки кредитоспособности, чтобы решить, кто может брать деньги, и страхование тоже в значительной степени зависит от данных. Нам стоит ожидать, что нас будут анализировать и оценивать более подробно, однако следует позаботиться о том, чтобы это не усложняло жизнь тех людей, которые располагают меньшими ресурсами и ограниченным доступом к информации.

Выполнение этих задач является важной составляющей Биг Даты, и их необходимо решать организациям, которые хотят использовать такие данные. Неспособность осуществить это может сделать бизнес уязвимым, причем не только с точки зрения его репутации, но также с юридической и финансовой стороны.

Глядя в будущее

Данные меняют наш мир и нашу жизнь небывалыми темпами. Если Big-Data способна на все это сегодня — просто представьте, на что она будет способна завтра. Объем доступных нам данных только увеличится, а технология аналитики станет еще более продвинутой.

Для бизнеса способность применять Биг Дату будет становиться все более решающей в ​​ближайшие годы. Только те компании, которые рассматривают данные как стратегический актив, выживут и будут процветать. Те же, кто игнорирует эту революцию, рискуют остаться позади.

Как вам статья? Еще более годный контент на моем замечательном YouTube-канале

Только остороженее! На моем ютубе можно стать слишком умным. ��

Профессии Big Data: кто здесь работает и как сюда попасть

Экскурс: больше data science

Наука о данных ведет свою историю с 1966 года. Именно тогда в Париже появился Комитет по данным для науки и техники при Международном научном совете. Однако, долгое время выражение «data science» можно было услышать только в узких кругах статистиков и ученых. Лишь в начале 2000-х термин стал общепризнанным в Америке и Европе, а с появлением и распространением хайпа вокруг Big Data традиционная наука о данных получила новое дыхание.

Внезапно аналитики стали нужны всем: бизнесу и государству, интернету и сельскому хозяйству. В 2011 году McKinsey подливает масла в огонь: по их предсказаниям, к 2020 году только в США потребуется больше 400 тысяч аналитиков данных. Где же их столько взять? В 2013 году университеты запускают магистратуру по data science, а бизнес-школы плодят курсы для Big Data специалистов.

В России происходит все то же самое, но чуть медленнее. На сегодняшний день количество вакансий, связанных с big data, на hh.ru переваливает за тысячу. При этом, отрасль остается новой и загадочной: большие данные притягивают специалистов и одновременно отпугивают. Сегодня будем развеивать страхи и изгонять жаждущих легких денег. Если вы до сих пор думаете, что работа с big data – это нечто, связанное со сверхспособностями и единорогами, приготовьтесь к погружению в реальность.

Big data профессии по полочкам

Добро пожаловать в отдел социальной аналитики Eastwind. Здесь наши коллеги создают и развивают платформу Social Analytics. Этот продукт помогает телеком-операторам и бизнесу собирать сырые неструктурированные данные и преобразовывать их в инсайты о клиентах. За удобными юзер интерфейсами и результатами кейсов, скрывается большой труд ребят из отдела социальной аналитики.

Заметим, что в зависимости от страны, компании и специфики бизнеса профессии подобного отдела могут называться по-разному. Некоторые (больше принято на зарубежном рынке) дробят функции big data специалистов и получают узконаправленных экспертов. Но в общем, все профессии, тесно связанные с Big Data, можно разделить на два основных направления: анализ данных и разработка.

В соответствующих рабочих группах Eastwind мы попросили рассказать: в чем суть работы аналитиков и разработчиков отдела, какие технологии они используют, с каким бэкграундом люди обычно приходят в big data и что нужно специалистам для успеха в этой индустрии.

Data scienist или аналитик big data

Суть работы:

– Человек продуцирует много фиксируемых событий. Например, у операторов это звонки и трафик, у банков – транзакции, в ритейле – посещения и покупки. Мы выявляем закономерности в этих данных, чтобы использовать их для бизнеса, – рассказывает Андрей Плющенко, руководитель группы анализа данных в Eastwind. – Работаем с сырой информационной историей. Из необработанных данных нам нужно убрать мусор и оставить то, что позволит лучше охарактеризовать людей, предсказать их поведение. Все это помогает бизнесу понять: какой товар или услуга вероятнее всего заинтересуют клиента. А также: когда это произойдет, стоит ли предоставлять ему кредит доверия и так далее. В нашей группе мы строим поведенческие модели, тестируем их и настраиваем алгоритмы machine learning – все кодим на python.

Бэкграунд и технологии:

– Обычно в анализ больших данных приходят математики. Я сам математик, –продолжает Андрей. – Также нужно разбираться в программировании, понимать, что такое big data в принципе, а главное – быть творческим человеком. Нам ведь постоянно приходится что-то придумывать, генерировать идеи, искать инсайты. Если говорить о технологиях, то для работы достаточно знать python, что-нибудь о распределенных вычислениях и устройстве кластеров данных.

– Я пришла в big data из java-разработки, – делится Ольга Анненкова, группа анализа данных Eastwind. – Просто плавно перешла из одной группы в другую, вместе со своими задачами. Сейчас сама разработка стала более аналитической. Сложность нашей работы в том, что постоянно появляются новые продукты, нам нужно очень быстро внедрять их и разбираться, как они работают, несмотря на баги. Интересно, потому что мы работаем с настоящими конфиденциальными данными и можем видеть результат своих вычислений и верность предсказаний в реальной жизни. Аналитика big data – это труд программиста, математика и исследователя в одной специальности.

Важно для успеха:

– Чтобы работать в анализе больших данных, нужно иметь скилы из разных областей, – добавляет Михаил Чернышев, группа анализа данных Eastwind. – Уметь делать визуализации, обладать фантазией и терпением. Не факт, что модель, которую ты придумаешь, сработает с первого раза.

– Самое сложное и начинается, когда тебе нужно тюнинговать созданную модель, – подтверждает Дмитрий Журавлев, группа анализа данных Eastwind. – Для создания и улучшения метрик важно с разных сторон смотреть на проблему.

– Главные компетенции рождаются при решении промышленных задач. Нельзя пройти курсы, почитать теорию, вдохновиться модой и стать успешным big data аналитиком, – объясняет Андрей Плющенко. – С сырой историей работать всегда сложнее, чем с готовыми фичами, которые дают на конкурсах. В каждой компании – свои специфические задачи, к решению которых нужно подходить индивидуально. Нужно приготовиться, что в работе с big data нет шаблона. Поэтому, после освоения базы, вам придется постоянно совершенствоваться. Но будет интересно.

Data engineer или разработчик в сфере big data

Суть работы:

– Мы занимаемся структурным обеспечением группы аналитиков. Другими словами, делаем так, чтобы им было проще работать с большими объемами данных, с кластерными и операционными системами, – рассказывает Шерзод Гапиров, руководитель группы разработки в отделе аналитики Eastwind. – В идеале, аналитики не должны углубляться в программирование. Им это не особо интересно и отвлекает от основного – построения моделей и работы с вычислениями.

– Разработчики в big data – это саппорт аналитикам, – дополняет Сергей Сычев, разработчик в отделе аналитики Eastwind. – Мы оптимизируем рутинные процессы, разрабатываем приложения для работы с данными. Решаем технические задачи, вроде шифрования информации. Так как область новая, зачастую нам приходится изобретать какие-то «костыли», писать новые скрипты и сразу вводить в работу.

Бэкграунд и технологии:

– В отдел аналитики мы берем людей из любой области разработки, — делится Шерзод Гапиров. – Важно, чтобы был хороший опыт программирования, понимание реляционных баз данных и работы систем – Linux, Hadoop. Еще хорошо бы знать языки java и scala. Если такая база есть, специфике big data мы обучаем с нуля.

– У нас есть кластер Cloudera, в его стеке – Oozie, HDFS, Spark. Во фронтенде мы используем React, – перечисляет технологии Сергей Сычев. – Но самое главное, в работе нашей группы – постоянно следить за новинками, внедрять их, быть на волне. Способность к обучению в big data разработке я бы поставил выше всего.

Важно для успеха:

– Наш человек – технарь. Тот, кто любит покрутить гаечки или разобрать технику, чтобы понять, как она работает, — говорит Шерзод Гапиров. – Чтобы преуспеть в этом, нужно просто проявлять упорство. Со стороны Big Data кажется сложной и возвышенной областью, потому что люди мало с ней знакомы. По факту, когда разберешься и вникнешь – big data разработка становится обычной инженерной работой и не отличается от любого другого программирования.

Профессии около big data

Рассказывая о специальностях отрасли, нельзя не упомянуть некоторые «вспомогательные» профессии. Это люди, которые напрямую не работают с большими данными, но тесно связаны с развитием многих аналитических платформ. Это тот случай, когда вы не математик и не технарь, но все-таки можете похвастаться, что крутитесь в сфере Big data. ;)

Дизайнер интерфейсов. Этот человек упаковывает все сложные вычисления и технологии в простую форму.Особенность создания интерфейсов аналитических платформ – большое количество параметров данных. Дизайнер делает так, чтобы пользователь по ту сторону экрана мог легко во всем разобраться и запускал собственные исследования без глубокого погружения в предметную область big data.

«Для создания интерфейсов к аналитическим платформам нужно разбираться в web-разработке, UX-дизайне и обладать чувством прекрасного, – объясняет Александр Иноземцев, руководитель группы веб-интерфейсов в Eastwind. – Нужно уметь поставить себя на место человека, который будет пользоваться интерфейсом, и сделать процесс управления максимально удобным и простым для него».

Продакт-менеджер. Этот человек продвигает аналитическую платформу в живой бизнес-среде: участвует во внедрении, развивает систему по потребностям заказчика и требованиям рынка. Он должен хорошо разбираться в продукте и быть связующим звеном между разработчиками и компанией.

«Для нашего технического отдела – я менеджер, который работает с клиентом. А клиенты часто считают меня технарем, — рассказывает Александр Павлов, менеджер продукта Eastwind Social Analytics. – Это отражает особенность профессии менеджера big data продукта: быть в равной степени погруженным в коммерческие нужды и технические возможности, понимать логику исследований данных и быть первым объективным тестировщиком UI».

Где учиться, чтобы взяли на работу

Если вы не передумали погружаться в Big Data, и готовы разбираться в теме: поищите подходящие программы на Coursera, послушайте, что рассказывают в Школе анализа данных от Яндекс и рассмотрите курсы от Open Data Science. Также сейчас ведут онлайн-курсы многие зарубежные университеты: например, введение в big data от Калифорнийского Berkeley или введение в data science от Массачусетского института технологий. Этот вариант подойдет, если ваш английский выше технического. Есть магистерские программы и в российских ВУЗах.

«Мы берем людей после таких курсов. Их большой плюс в том, что они уже понимают специфику отрасли, – говорит Андрей Плющенко, руководитель группы анализа данных в Eastwind. – На собеседовании я обычно задаю базовые вопросы по machine learning. Например, что такое классификация, регрессия и кластеризация? Или: что сделать, чтобы не переобучиться? Есть и вопросы с подвохом, но даже если человек на них не ответил – не значит, что его не возьмут. Намного важнее, чтобы специалист понимал, что сейчас он на старте, и был готов к прокачке.Почему глупо требовать большой опыт в этой области? На Урале сильная математическая и программистская школа, а вот применить свои знания ребятам, которые решили стать аналитиками данных – почти негде. Даже Яндекс сократил своих местных дата сайнтистов. Поэтому многие уезжают в Москву, более амбициозные – за рубеж. В Екатеринбурге мы – одни из немногих, у кого есть полноценный аналитический отдел».

Big data – работа «что надо»?

Мы выяснили, что в отрасли больших данных нет ничего магического и, при желании, – туда не так трудно попасть, как кажется. Потребуются лишь способности к математике, логике и программированию. А еще умение творить, видеть задачи под разным углом и понимать людей и бизнес одновременно. Ну и в идеале – нужно быть терпеливым, настойчивым, всегда готовым к новому и проходить сквозь стены. Ой, последнее – лишнее. :)

В общем, берем свои слова насчет «не так трудно» обратно. Уровень сложности зависит исключительно от ваших индивидуальных способностей и желаний. Примеряйте на себя профессии, проверяйте свои скилы и ищите то, что вам подходит. Нашли? Тогда спасибо за внимание и добро пожаловать в Big Data

Я в Big Data пойду – пусть меня научат: большие данные — с чего начать

Этой статьей мы продолжаем серию материалов по ИТ-специальностям мира больших данных и начинаем описывать профессиональные компетенции в области Big Data и машинного обучения (Machine Learning). Ищите в сегодняшнем выпуске ответ на главный вопрос новичка Big Data – с чего начать, что нужно знать и уметь, а также где этому учиться – ликбез для чайников и начинающих.

Профессиональные направления в мире Big Data

Под термином «большие данные» скрывается множество понятий: от непосредственно самих информационных массивов до технологий по их сбору, обработке, анализу и хранению. Поэтому, прежде чем пытаться объять необъятное в стремлении изучить все, что относится к Big Data, выделим в этой области знаний следующие направления:

  • аналитика – формулирование гипотез, визуализация информации, поиск закономерностей в наборе данных (датасете), подготовка информации к моделированию, разработка алгоритмов машинного обучения (Machine Learning) и интерпретация их результатов. Здесь задействованы аналитики и ученые по данным или исследователи данных (Data Analyst и Data Scientist), а также специалисты по машинному обучению. Помимо задач, связанных непосредственно с датасетами (Data Science, Data Mining), иногда аналитики также выполняют обязанности по анализу предметной области и бизнес-процессов (Business Intelligence). Все это необходимо для точного понимания потребностей заказчика, чтобы определиться с независимыми переменными, которые нужны для построения аналитических или предиктивных моделей. Подробнее про работу аналитика Big Data, набор его профессиональных компетенций и зарплату читайте здесь. А чем Data Analyst отличается от Data Scientist’а, мы рассказываем в этой статье.
  • инженерия – создание, настройка и поддержка программно-аппаратной инфраструктуры для систем сбора, обработки, аналитики и хранения информационных потоков и массивов, включая конфигурирование локальных и облачных кластеров. За эти процессы отвечают администратор и инженерBig Data. Чем отличается работа администратора больших данных от деятельности сисадмина, мы писали в этом материале. Какие именно навыки, знания и умения нужны специалистам по инженерии больших данных, а также сколько они за это получают, мы описываем в отдельных материалах.
Цукерберг рекомендует:  5 причин, почему первый язык не важен

На стыке вышеуказанных 2-х направлений находятся программист Big Data и DevOps-инженер, а также специалист по сопровождению жизненного цикла корпоративных данных (DataOps) и директор по данным (CDO, Chief Data Officer), который курирует на предприятии все вопросы, связанные с информацией. О роли каждого профессионала в Agile-команде мы немного рассказывали здесь.

Профессиональные направления и специальности Big Data

Большие данные: с чего начать

Зная, как в общем делится работа между специалистами больших данных, ответить на главный вопрос новичка в мире Big Data «с чего начать», становится гораздо проще. Прежде, чем погружаться в изучение множества мануалов по Apache Hadoop и алгоритмам Machine Learning, необходимо понять, что вас больше привлекает:

  • прикладное программирование;
  • администрирование;
  • проектирование архитектуры информационных потоков и сопровождение;
  • анализ данных;
  • создание математических моделей и алгоритмов обработки информации.

Кроме того, отметим, что, помимо линейных специалистов (программистов, администраторов, инженеров, архитекторов), знания в области больших данных также необходимы руководителям, чтобы видеть возможности цифровизации своего бизнеса и потенциальную выгоду от его цифровой трансформации. При этом менеджеру совсем не обязательно знать во всех деталях, как, например, работает Apache Kafka. Однако, чтобы не быть «чайником», руководителю крайне полезно ориентироваться в отраслевых сценариях применения средств Big Data (use-cases), понимать способы монетизации больших данных и специфику корпоративной цифровизации, чтобы эффективно расходовать временные, трудовые и материальные ресурсы, а также не ждать от технологий больше, чем они могут дать. Обо всем этом и не только мы рассказываем на обучающем курсе «Аналитика Big Data для менеджеров».

В качестве дополнительной мотивации изучения Big Data, отметим, что профессионалы в этой области больше всех зарабатывают среди ИТ-специалистов. Например, в 2020 году, согласно ежегодному исследованию Stack OverFlow, годовая зарплата аналитиков, инженеров и исследователей данных в США равнялась 60-70 тысяч долларов, т.е. около 350 тысяч рублей в месяц. При этом, поскольку цифровизация стремительно проникает во все сферы деятельности, от промышленности до образования, спрос на специалистов по данным все время растет по всему миру, в т.ч. и в России. Таким образом, большие данные – это очень перспективная и финансово выгодная область ИТ.

Зарплаты ИТ-специалистов в 2020 году по данным Stack OverFlow

Что необходимо знать и уметь аналитику, исследователю, инженеру и администратору больших данных, мы рассмотрим в следующих статьях. А практику работы с прикладными инструментами Big Data, Machine Learning и Internet of Things, вы узнаете на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве.

Курсы по Big Data и анализу больших данных на русском языке

Аналитик Big Data изучает большие массивы данных, которые собирает и хранит компания, чтобы разрабатывать и внедрять продукты, которые повысят эффективность решения задач, увеличат доход или улучшат обслуживание клиентов. Курсы Big Data нацелены на изучение задач и подходов к их решению. Комплексная работа с большими данными включает их анализ, обработку и визуализацию для дальнейшего применения в решении бизнес-задач.

Технологии Big Data применяются в IT, телекоме, финансах, государственном управлении, онлайн-торговле. Инженеры и аналитики больших данных должны уметь разбираться в математике, статистике, информатике, бизнес-процессах. Публикуем курсы по Big Data на русском языке или с русскими субтитрами.

Базы данных (Databases)

Автор: СПбГУ
Платформа: Coursera
Язык: русский
Уровень: продвинутый

Курс Базы данных направлен на изучение и применение языка SQL для создания, модификации объектов баз данных и управления данными в произвольных реляционных базах данных. Рассматриваются этапы проектирования баз данных, составление запросов, методы индексирования. Помимо этого обозреваются основные изменения и тенденции в науке о данных в связи с появлением Big Data.

Продолжительность: 20 часов
Стоимость: бесплатно

Big Data — основы работы с большими массивами данных

Автор: Университет Нетология
Платформа: Нетология
Язык: русский
Уровень: продвинутый

Курс Big Data от Нетологии подойдет тем, кто хочет расширить знания в аналитике. В программе курса обучение сбору, хранению и обработке больших данных, работа в Hadoop и MapReduce. Также обозреваются облачные платформы для анализа и работы с Big Data: AWS, EMR, Azure и другие, рассматриваются основы реализации проектов.

Продолжительность: 39 часов
Стоимость: 27 900 рублей

Managing Big Data with MySQL

Автор: Duke University
Платформа: Coursera
Язык: английский, русские субтитры
Уровень: начальный

Курс Managing Big Data with MySQL в специализацию от Duke University «От Excel до MySQL: способы анализа бизнес-данных» на Coursera и представляет собой введение в использование реляционных баз данных в бизнес-анализе. Вы узнаете, как собирать данные самостоятельно, работать с базами и использовать визуализацию для отображения структуры в данных.

Продолжительность: 24 часа
Стоимость: по подписке Coursera

Managing Data Analysis

Автор: Johns Hopkins University
Платформа: Coursera
Язык: английский, русские субтитры
Уровень: начальный

Курс Managing Data Analysis входит в специализацию «Data science для руководителей» и знакомит с процессом анализа больших данных. Он описывает, как управлять аналитической деятельностью команды, чтобы достигать полезных для компании результатов.

Продолжительность: 7 часов
Стоимость: по подписке Coursera

Big data простым языком

Big data простым языком

© Благирев А., текст, иллюстрации

© ООО «Издательство АСТ»

Именно такие мысли остаются в голове, когда тебе предлагают полностью переписать книгу. А если вы читаете это, значит, мне удалось, и я все-таки ее переписал.

Началось все с того, что один мой друг спросил, не знаю ли я людей, которые могли бы простым языком написать про Большие данные. Тогда я сразу представил бесконечное количество писем от издательства, разговоров, уточнений, переписываний, – всей этой суеты, и первое, что мне хотелось ответить: «Нет, таких разумных существ я не знаю».

Да и смысл писать про Большие данные, если про них уже столько всего написано и рассказано? Вероятность написать что-то умное – минимальна.

И вот я начал писать… Я даже уже представлял себе, как героически заканчиваю эту книгу, становлюсь миллионером и на все деньги с продаж бесконечных тиражей иду погашать ипотеку.

План был гениален, оставалось только его воплотить.

Но, когда я показал плод своих трудов редактору, он сказал, что книга сложна для восприятия, иными словами, подходит только для ботанов. Я честно писал ее с использованием книжной лексики, сложных эвфемизмов, деепричастных оборотов и кропотливо вставлял в текст ссылки на источники, если вдруг упоминал материалы других авторов.

Один раз даже пришлось взять DMBOK, такую специальную «поваренную книгу» с инструкциями и стандартами организации работы с данными. Я перевел из нее целую главу на русский, но мне сказали, что это точно «слишком мощно» для читателя, как и попытка проанализировать существующее регулирование данных.

Итак, в поисках правды, баланса и закрытия личных гештальтов – как сейчас популярно говорить, мне дали книгу «Хулиномика» как пример образцовой книги жанра нон-фикшн.

Когда я взял в руки «Хулиномику», помимо ненормативной лексики в мыслях у меня появились смелые очертания нового эксперимента, поэтому вы держите в руках книгу про Большие данные, изданную под влиянием уникальной простоты и творческой логики изложения.

Мир данных – это компот, из которого трудно отделить то, что нужно знать, а что нет. И вроде бы все интересно, про все можно рассказать, но как понять, что из этого важно, например, учителю физкультуры, который на досуге решил погрузиться в данные?

Задачка оказалась сложнее, чем я думал.

Если вы пишите, скажем, про физику, то план изложения поправит научный редактор. А тут – технологии, англицизмы, и людей, знающих ключевые понятия, широту и многогранность Больших данных в издательстве просто-напросто нет.

И я взялся за дело. Сам.

Для начала я решил, что в каждой главе будет два уровня сложности. Первый – для тех, кто собрался почитать про данные, сидя на белом друге в тихой комнате, второй – для тех, чья сфера деятельности связана с данными.

Я написал большую главу про стратегию данных для тех, кто вынужден проектировать стратегию с нуля; попытался разобраться, как данные влияют на корпоративное управление компаниями; показал на ошибках людей, рисующих сложные, малопонятные графики, что формат изложения информации не менее важен, чем сам процесс получения знания.

Конечно, то, что вы держите в руках, – сильно переработанный вариант, но не менее достойный. Наверное.

Сегодня этот компот под названием «мир данных» – уже целая экономика, которая сильно повлияла на все вокруг, включая людей. Теперь нашими данными располагают голосовые помощники, а банки и компании, с которыми мы когда-либо имели дело, все чаще напоминают о себе и требуют внимания. Наш телефон знает, когда мы собираемся на работу, и заранее подгоняет нас к выходу, чтобы мы не опоздали из-за пробок, а когда мы выбираем песню, которую хотим послушать в машине, он выдает нам подходящий плейлист.

Важно знать, что за данные, а точнее за искусственный интеллект, начали активно «топить» в обществе и бизнесе, поднимая проблемы этики их использования.

Просто задумайтесь, вся цифровая среда уже оперирует такими понятиями как «лайки», «репосты», «конверсии». Люди уже обсуждают, как и где подешевле купить трафик себе на сайт, а накруткой подписчиков в Инстаграме не пользуется только ленивый.

Мы оставили позади (в первой версии книги) весь романтизм и большие надежды, поместив в новую версию экспертное мнение по основным блокам работы с данными.

Читайте, наслаждайтесь и помните: сожжение книг противозаконно.

Что такое Big Data?

О Больших данных, или Big Data сегодня знают все.

Регулярно данные обсуждаются на сложных конференциях, где популярные компании собирают под своими тентами от дождя пару тысяч молодых людей, размещают роботов и плюшевые пуфики, предлагают даже сыграть в игру с ботом, чтобы посетители могли поучаствовать в машинном обучении. Происходит это примерно так: за ограниченное количество ходов игроку необходимо как можно быстрее споить девушку-робота.

В общем, кто чем пытается покорить свою аудиторию, рассказывая о работе сервисов с данными. Вот только ни у кого нет единой картины.

Одни компании говорят про конфиденциальность, другие – про машинное обучение, перечислять можно бесконечно. Есть даже гипотеза о том, что общая картина больше никому не нужна.

«Как это не нужна?» – спросите вы и поспешите на ее поиски.

Выйдете вы из зоны комфорта, пройдетесь по ключевым конференциям, связанным с данными, прочтете статейки известных умных авторов, но все равно толком ничего не соберется вместе.

Чтобы погрузиться в эту тему, надо взять лопату и копать, копать, копать: по кусочкам собирать смыслы, общаться с разными людьми. Администраторы баз данных могут рассказать вам о том, как настраивать кластеры, а ребята, которые копаются в аналитике, помогут разобрать общую логику процесса.

Только вот почему-то каждый эксперт понимает один и тот же термин по-своему. Будто люди строили Вавилонскую башню из данных, чтобы достучаться до небес, а в конце концов все равно заговорили на разных языках, как написано в Ветхом завете. И эти эксперты вкладывают в, казалось бы, обычные слова, какое-то свое понимание, близкое только им.

Конечно, всех бы мог спасти робот-переводчик, который знает тридцать три наречия межпланетных иезуитов. Но, боюсь, пока его функционал не вырос до такого уровня, придется прикидываться оленеводами, которые впервые услышали о Больших данных. Надо признать, что в некоторых историях мне пришлось разбираться прям с самого что ни на есть нуля, так что расслабьтесь и получайте удовольствие. Будет весело!

А начнем с того, что познакомимся с народом.

Есть такие важные и бессмертные инженеры по машинному обучению. Задача их проста – проектировать логику и обучать алгоритмы, известные как нейронные сети, заводя в них все новые и новые данные. Если спросить этих инженеров о чем-нибудь другом из области данных, то в большинстве случаев они понятия не будут иметь, о чем их спрашивают – например, кто такие дата-стюарды?

Дата-стюарды и инженеры качества данных – это такие человечки, которые все правят, чинят и спасают, как Мастер Феликс-младший из игры Fix-It Felix Jr, по ней еще несколько лет назад сняли мультфильм «Ральф». Миссия стюардов и инженеров велика и необъятна. В данных всегда происходит переполох, и нужны те самые бравые ребята, которые прибегут со словами «я починю!». Они измеряют искажения в данных и исправляют те самые ошибки, которые допускают пользователи, работая с информацией.

Алексей Благирев — Big data простым языком

99 Пожалуйста дождитесь своей очереди, идёт подготовка вашей ссылки для скачивания.

Скачивание начинается. Если скачивание не началось автоматически, пожалуйста нажмите на эту ссылку.

Описание книги «Big data простым языком»

Описание и краткое содержание «Big data простым языком» читать бесплатно онлайн.

Big data простым языком

© Благирев А., текст, иллюстрации

© ООО «Издательство АСТ»

Именно такие мысли остаются в голове, когда тебе предлагают полностью переписать книгу. А если вы читаете это, значит, мне удалось, и я все-таки ее переписал.

Началось все с того, что один мой друг спросил, не знаю ли я людей, которые могли бы простым языком написать про Большие данные. Тогда я сразу представил бесконечное количество писем от издательства, разговоров, уточнений, переписываний, – всей этой суеты, и первое, что мне хотелось ответить: «Нет, таких разумных существ я не знаю».

Да и смысл писать про Большие данные, если про них уже столько всего написано и рассказано? Вероятность написать что-то умное – минимальна.

И вот я начал писать… Я даже уже представлял себе, как героически заканчиваю эту книгу, становлюсь миллионером и на все деньги с продаж бесконечных тиражей иду погашать ипотеку.

План был гениален, оставалось только его воплотить.

Но, когда я показал плод своих трудов редактору, он сказал, что книга сложна для восприятия, иными словами, подходит только для ботанов. Я честно писал ее с использованием книжной лексики, сложных эвфемизмов, деепричастных оборотов и кропотливо вставлял в текст ссылки на источники, если вдруг упоминал материалы других авторов.

Один раз даже пришлось взять DMBOK, такую специальную «поваренную книгу» с инструкциями и стандартами организации работы с данными. Я перевел из нее целую главу на русский, но мне сказали, что это точно «слишком мощно» для читателя, как и попытка проанализировать существующее регулирование данных.

Итак, в поисках правды, баланса и закрытия личных гештальтов – как сейчас популярно говорить, мне дали книгу «Хулиномика» как пример образцовой книги жанра нон-фикшн.

Когда я взял в руки «Хулиномику», помимо ненормативной лексики в мыслях у меня появились смелые очертания нового эксперимента, поэтому вы держите в руках книгу про Большие данные, изданную под влиянием уникальной простоты и творческой логики изложения.

Мир данных – это компот, из которого трудно отделить то, что нужно знать, а что нет. И вроде бы все интересно, про все можно рассказать, но как понять, что из этого важно, например, учителю физкультуры, который на досуге решил погрузиться в данные?

Задачка оказалась сложнее, чем я думал.

Если вы пишите, скажем, про физику, то план изложения поправит научный редактор. А тут – технологии, англицизмы, и людей, знающих ключевые понятия, широту и многогранность Больших данных в издательстве просто-напросто нет.

И я взялся за дело. Сам.

Для начала я решил, что в каждой главе будет два уровня сложности. Первый – для тех, кто собрался почитать про данные, сидя на белом друге в тихой комнате, второй – для тех, чья сфера деятельности связана с данными.

Я написал большую главу про стратегию данных для тех, кто вынужден проектировать стратегию с нуля; попытался разобраться, как данные влияют на корпоративное управление компаниями; показал на ошибках людей, рисующих сложные, малопонятные графики, что формат изложения информации не менее важен, чем сам процесс получения знания.

Конечно, то, что вы держите в руках, – сильно переработанный вариант, но не менее достойный. Наверное.

Сегодня этот компот под названием «мир данных» – уже целая экономика, которая сильно повлияла на все вокруг, включая людей. Теперь нашими данными располагают голосовые помощники, а банки и компании, с которыми мы когда-либо имели дело, все чаще напоминают о себе и требуют внимания. Наш телефон знает, когда мы собираемся на работу, и заранее подгоняет нас к выходу, чтобы мы не опоздали из-за пробок, а когда мы выбираем песню, которую хотим послушать в машине, он выдает нам подходящий плейлист.

Важно знать, что за данные, а точнее за искусственный интеллект, начали активно «топить» в обществе и бизнесе, поднимая проблемы этики их использования.

Просто задумайтесь, вся цифровая среда уже оперирует такими понятиями как «лайки», «репосты», «конверсии». Люди уже обсуждают, как и где подешевле купить трафик себе на сайт, а накруткой подписчиков в Инстаграме не пользуется только ленивый.

Мы оставили позади (в первой версии книги) весь романтизм и большие надежды, поместив в новую версию экспертное мнение по основным блокам работы с данными.

Цукерберг рекомендует:  Вы используете шаблоны JavaScript

Читайте, наслаждайтесь и помните: сожжение книг противозаконно.

Что такое Big Data?

О Больших данных, или Big Data сегодня знают все.

Регулярно данные обсуждаются на сложных конференциях, где популярные компании собирают под своими тентами от дождя пару тысяч молодых людей, размещают роботов и плюшевые пуфики, предлагают даже сыграть в игру с ботом, чтобы посетители могли поучаствовать в машинном обучении. Происходит это примерно так: за ограниченное количество ходов игроку необходимо как можно быстрее споить девушку-робота.

В общем, кто чем пытается покорить свою аудиторию, рассказывая о работе сервисов с данными. Вот только ни у кого нет единой картины.

Одни компании говорят про конфиденциальность, другие – про машинное обучение, перечислять можно бесконечно. Есть даже гипотеза о том, что общая картина больше никому не нужна.

«Как это не нужна?» – спросите вы и поспешите на ее поиски.

Выйдете вы из зоны комфорта, пройдетесь по ключевым конференциям, связанным с данными, прочтете статейки известных умных авторов, но все равно толком ничего не соберется вместе.

Чтобы погрузиться в эту тему, надо взять лопату и копать, копать, копать: по кусочкам собирать смыслы, общаться с разными людьми. Администраторы баз данных могут рассказать вам о том, как настраивать кластеры, а ребята, которые копаются в аналитике, помогут разобрать общую логику процесса.

Только вот почему-то каждый эксперт понимает один и тот же термин по-своему. Будто люди строили Вавилонскую башню из данных, чтобы достучаться до небес, а в конце концов все равно заговорили на разных языках, как написано в Ветхом завете. И эти эксперты вкладывают в, казалось бы, обычные слова, какое-то свое понимание, близкое только им.

Конечно, всех бы мог спасти робот-переводчик, который знает тридцать три наречия межпланетных иезуитов. Но, боюсь, пока его функционал не вырос до такого уровня, придется прикидываться оленеводами, которые впервые услышали о Больших данных. Надо признать, что в некоторых историях мне пришлось разбираться прям с самого что ни на есть нуля, так что расслабьтесь и получайте удовольствие. Будет весело!

А начнем с того, что познакомимся с народом.

Есть такие важные и бессмертные инженеры по машинному обучению. Задача их проста – проектировать логику и обучать алгоритмы, известные как нейронные сети, заводя в них все новые и новые данные. Если спросить этих инженеров о чем-нибудь другом из области данных, то в большинстве случаев они понятия не будут иметь, о чем их спрашивают – например, кто такие дата-стюарды?

Дата-стюарды и инженеры качества данных – это такие человечки, которые все правят, чинят и спасают, как Мастер Феликс-младший из игры Fix-It Felix Jr, по ней еще несколько лет назад сняли мультфильм «Ральф». Миссия стюардов и инженеров велика и необъятна. В данных всегда происходит переполох, и нужны те самые бравые ребята, которые прибегут со словами «я починю!». Они измеряют искажения в данных и исправляют те самые ошибки, которые допускают пользователи, работая с информацией.

Если спросить у них, в чем роль инженеров по машинному обучению и почему они вообще так называются, то, очень вероятно, что ответа мы не получим. И это нормально.

Разные бригады экспертов занимаются разной работой.

Архитекторы и аналитики данных – это олицетворение разума. Они опираются на различные правила и методологию, чтобы структурировать данные внутри организации. Например, вместо обозначения таблички «N45» они напишут какое-нибудь гордое «Контрагент» и определят, что в этой табличке должна содержаться информация, касающаяся только контрагента, – например «ИМЯ» / «НАЗВАНИЕ», «ПАСПОРТ» / номер регистрации компании и так далее.

Суть архитекторов и аналитиков – стандартизировать взаимоотношения пользователей с данными и сделать самое главное: навести в этих данных порядок.

Результаты работы этих незаурядных личностей влияют через данные на управление организациями. По-умному их называют data-driven организациями. Они бывают разных типов и устроены все по-разному, но описать data-driven организации или отличить их друг от друга сможет далеко не каждый из описанных специалистов. И это еще один большой вызов.

Разные профессии работы с данными разговаривают на разных языках и формируют собой организации нового типа, где люди не имеют единого представления о том, как ими управлять. Вопрос «чем отличается data-driven организация от data-informed организации?» введет в дичайший ступор не только читателя, но и экспертов, которые работают с данными каждый день.

Топ 30 Big Data инструментов для анализа данных

Сегодня для анализа данных существуют тысячи инструментов Big Data. Анализ данных — это процесс проверки, очистки, трансформации и моделирования данных с целью обнаружения полезной информации, предложения и принятия решений. В этом посте перечислены 30 лучших инструментов для анализа данных с открытым исходным кодом, для визуализации данных, извлечения данных и баз данных.

Инструменты Big Data с открытым исходным кодом

1. KNIME
Платформа KNIME Analytics является ведущим открытым решением для инноваций, основанных на данных, помогая вам выявить потенциал, скрытый в ваших данных, расширять возможности для новых идей или предсказать новые тренды.
KNIME Analytics — это идеальный инструментарий для любого ученого-исследователя с более чем 1000 модулями, сотнями готовых к запуску примеров, широким спектром интегрированных инструментов и широчайшим выбором передовых алгоритмов.

2. OpenRefine
OpenRefine (ранее Google Refine) — это мощный инструмент для работы с неподготовленными данными: очистка, преобразование их из одного формата в другой, расшаривание их с помощью веб-служб. OpenRefine может помочь вам легко исследовать Big Data.

3. R — язык программирования
Что, если я скажу вам, что Project R, проект GNU, написан в самом R? Он в первую очередь написан на C и Fortran. И многие его модули написаны в самом R. Это бесплатный программный язык программирования и программная среда для статистических вычислений и графики. Язык R широко используется для разработки статистического программного обеспечения и анализа данных. Простота использования и масштабирование значительно повысила популярность R в последние годы.
Помимо интеллектуального анализа данных, он предоставляет статистические и графические методы, включая линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификацию, кластеризацию и другие.

4. Orange
Orange представляет собой визуализацию данных с открытым исходным кодом и анализ данных для новичков и экспертов, а также предоставляет интерактивные рабочие процессы с большим набором Big Data инструментов. Orange содержит в себе различные визуализации, от диаграмм разброса, гистограмм, деревьев, до дендрограмм, сетей и карт тепла.

Подобно KNIME, RapidMiner работает через визуальное программирование и способен манипулировать, анализировать и моделировать данные. RapidMiner делает вас более продуктивными с помощью платформы с открытым исходным кодом для подготовки данных, машинного обучения и развертывания модели. Его унифицированная платформа для научных исследований данных ускоряет построение полных аналитических рабочих процессов — от подготовки данных до машинного обучения, от моделирования до развертывания — в единой среде, что значительно повышает эффективность и сокращает время, затрачиваемое на реализацию проектов в области научных исследований.

6. Pentaho
Pentaho устраняет барьеры, которые блокируют способность вашей организации получать ценность от всех ваших данных. Платформа упрощает подготовку и микс любых данных и включает в себя спектр инструментов для легкого анализа, визуализации, изучения, отчета и прогнозирования. Открытая, встраиваемая и расширяемая Pentaho спроектирована так, чтобы гарантировать, что каждый член вашей команды — от разработчиков до бизнес-пользователей — может легко перевести данные в стоимость.

7. Talend
Talend является ведущим поставщиком программного обеспечения для интеграции с открытым исходным кодом на предприятия, ориентированные на данные. Наши клиенты соединяются где угодно, с любой скоростью. Talend используется в Big Data, в 5 раз быстрее и с 1/5-й стоимостью.

8. Weka
Weka, программное обеспечение с открытым исходным кодом, представляет собой набор алгоритмов машинного обучения для задач интеллектуального анализа данных и Big Data. Алгоритмы могут быть применены непосредственно к набору данных или вызваны из вашего собственного кода JAVA. Он также хорошо подходит для разработки новых алгоритмов машинного обучения, поскольку он полностью реализован на языке программирования JAVA, а также поддерживает несколько стандартных задач интеллектуального анализа данных.
Для тех, кто не знаком с Java, Weka с ее графическим интерфейсом обеспечивает самый простой переход в мир Data Science. Будучи написанными на Java, те, у кого есть опыт Java, могут также использовать библиотеку в своем коде.

9. NodeXL
NodeXL — это программное обеспечение для визуализации и анализа данных взаимоотношений и сетей. NodeXL обеспечивает точные вычисления. Это бесплатный (не профессиональный) и программный анализ и визуализация с открытым исходным кодом. Это один из лучших статистических инструментов для анализа данных, который включает в себя расширенные показатели сети, доступ к поставщикам данных сетей и автоматизацию.

10. Gephi
Gephi также представляет собой программный пакет для анализа и визуализации с открытым исходным кодом, написанный на Java на платформе NetBeans. Подумайте о гигантских картах взаимоотношений, которые представляют связанные соединения или друзей из Facebook. Gephi работает в этом направлении, предоставляя точные вычисления.

Big data инструменты для визуализации данных

11. Datawrapper
Datawrapper — это инструмент визуализации данных для создания интерактивных графиков. После того, как вы загрузите данные из файла CSV / PDF / Excel или вставьте его прямо в поле, Datawrapper создаст планку, линию, карту или любую другую связанную визуализацию. Графики Datawrapper могут быть встроены в любой веб-сайт или CMS через код вставки. Очень много новостных организаций используют Datawrapper для встраивания живых графиков в свои статьи. Он очень прост в использовании и создает эффектную графику.

12. Solver
Solver специализируется на предоставлении финансовой отчетности мирового уровня, составлении бюджетов и анализе с помощью кнопочного доступа ко всем источникам данных, которые обеспечивают прибыльность всей компании. Solver предоставляет BI360, который доступен для облачного и локального развертывания, сосредоточив внимание на четырех ключевых областях аналитики.

13. Qlik
Qlik позволяет создавать визуализации, информационные панели и приложения, которые отвечают на наиболее важные вопросы вашей компании. Теперь вы можете увидеть всю историю, которая находится в ваших данных.

14. Tableau
Tableau упрощает визуализацию в элегантном и интуитивно понятном инструменте. Он исключительно эффективен в бизнесе, потому что он передает информацию через визуализацию данных. В аналитическом процессе визуальные эффекты Tableau позволяют быстро исследовать гипотезу, проверить вашу гипотезу или просто изучить данные, прежде чем приступить к подробному анализу.

15. Таблицы Google Fusion
Таблицы Google Fusion более продвинутые таблицы похожие на Spreadsheets. Таблицы Google Fusion — это невероятный инструмент для анализа данных, big data визуализации и отображения. Неудивительно, что невероятное картографическое программное обеспечение Google играет большую роль в продвижении этого инструмента. Возьмем, к примеру, эту карту, чтобы посмотреть на платформы добычи нефти в Мексиканском заливе.

16. Infogram
Infogram предлагает более 35 интерактивных карт и более 500 карт, которые помогут вам визуализировать ваши данные красиво. Создайте множество диаграмм, включая столбцы, bar, pie, или облака слов. Вы даже можете добавить карту в свою инфографику или отчет, чтобы действительно произвести впечатление на вашу аудиторию.

Сентимент анализ текста

17. Opentext
Модуль анализа Sentiment OpenText — это специализированный механизм классификации, используемый для идентификации и оценки субъективных шаблонов и выражений чувств в текстовом контенте. Анализ выполняется на уровне темы, предложения и документа и нацелен на то, чтобы определить, являются ли части текста фактическими или субъективными, а в последнем случае, если мнение, выраженное в этих частях контента, является положительным, отрицательным, смешанным или нейтральным.

18. Semantria
Semantria — это инструмент, который предлагает уникальный сервисный подход, собирая тексты, твиты и другие комментарии от клиентов и тщательно анализируя их, чтобы получить эффективные и ценные идеи. Semantria предлагает текстовый анализ через плагин API и Excel. Он отличается от Lexalytics тем, что он предлагается через плагин API и Excel, и в нем он включает большую базу знаний и использует глубокое обучение.

19. Trackur
В автоматическом анализе настроений Trackur просматривается конкретное ключевое слово, которое вы контролируете, а затем определяет, является ли настроение по отношению к этому ключевому слову положительным, отрицательным или нейтральным. Это то что отличает Trackur от остальных. Он может использоваться для мониторинга всех социальных сетей и основных новостей, для получения информации о руководителях посредством трендов, поиска ключевых слов, автоматизированного анализа настроений и оценки влияния.

20. SAS sentiment analysis
SAS sentiment analysis автоматически извлекает настроения в реальном времени или в течение определенного периода времени с уникальной комбинацией статистического моделирования и методов обработки естественного языка на основе правил. Встроенные отчеты показывают образцы и подробные реакции.
С текущими оценками вы можете совершенствовать модели и корректировать классификации, чтобы отражать возникающие темы и новые термины, относящиеся к вашим клиентам, организации или отрасли.

21. Opinion Crawl
Opinion Crawl — это сентимент анализ в Интернете для текущих событий, компаний, продуктов и людей. Opinion Crawl позволяет посетителям оценивать веб-настроения по теме — человеку, событию, компании или продукту. Вы можете ввести тему и получить специальную оценку. Для каждой темы вы получаете круговую диаграмму, показывающую текущие настроения в реальном времени, список последних заголовков новостей, несколько уменьшенных изображений и облако тегов ключевых семантических понятий, которые публика связывает с объектом. Концепции позволяют вам видеть, какие проблемы или события приводят в чувство положительным или отрицательным образом. Для более глубокой оценки веб-сканеры найдут последнее опубликованное содержание по многим популярным темам и текущим публичным вопросам и посчитают для них настроения на постоянной основе. Затем в сообщениях в блоге будет показана тенденция настроений с течением времени, а также отношение «Позитивное отношение к отрицанию».

Big data инструменты извлечения данных или парсеры

22. Octoparse
Octoparse — это бесплатный и мощный инструмент, который используется для извлечения практически всех видов данных, которые вам нужны с веб-сайта. Вы можете использовать Octoparse для копирования веб-сайта с его обширными функциональными возможностями. Его пользовательский интерфейс с использованием курсора мыши помогает не программистам быстро привыкнуть к Octoparse. Это позволяет вам захватить весь текст с сайта с помощью AJAX, Javascript и, таким образом, вы можете загрузить практически весь контент сайта и сохранить его в виде структурированного формата, такого как EXCEL, TXT, HTML или ваши базы данных.

23. Content Grabber
Content Graber — это программное обеспечение для сканирования в Интернете, ориентированное на предприятия. Он может извлекать контент практически с любого веб-сайта и сохранять его в виде структурированных данных в выбранном вами формате, включая отчеты Excel, XML, CSV и большинство баз данных.
Он более подходит для людей с передовыми навыками программирования, поскольку он предлагает множество мощных скриптовых редакций, отладочных интерфейсов для нуждающихся людей. Пользователям можно использовать C# или VB.NET для отладки или записи сценария для управления процессом обработки обхода.

24. Import.io
Import.io — это web инструмент для извлечения данных, который позволяет извлекать информацию с сайтов. Просто выделите, что вам нужно, и Import.io проведет вас и «узнает» то, что вы ищете. Оттуда Import.io будет копать, извлекать данные для анализа или экспорта.

25. Parsehub
Parsehub — отличный веб-краулер, который поддерживает сбор данных с веб-сайтов, использующих технологии AJAX, JavaScript, куки и т. Д. Его технология машинного обучения может читать, анализировать, а затем преобразовывать веб-документы в соответствующие данные. В качестве бесплатного программного обеспечения вы можете создать не более пяти проектов для публикации в Parsehub.

26. Mozenda
Mozenda — это служба веб-поиска. Она предоставляет множество полезных функций для извлечения данных. Пользователям будет разрешено загружать извлеченные данные в облачное хранилище.

27. Scraper
Scraper — это расширение Chrome с ограниченными возможностями извлечения данных, но оно полезно для онлайн-исследований и экспорта данных в электронные таблицы Google. Этот инструмент предназначен как для новичков, так и для экспертов, которые могут легко копировать данные в буфер обмена или хранить их в электронных таблицах с использованием OAuth. Scraper — это бесплатный инструмент для веб-поиска, который работает прямо в вашем браузере и автоматически генерирует XPath для определения URL-адресов.

Наборы данных или datasets в Big Data

28. Data.gov
Правительство США пообещало сделать доступными все правительственные данные в Интернете. Этот сайт является первым этапом и выступает в качестве портала для всех видов удивительной информации обо всем: от климата до преступления.

29. Бюро переписи населения США
Бюро переписи населения США представляет собой обширную информацию о жизни граждан США, охватывающих данные о населении, географические данные и образование.

30. Всемирный информационный бюллетень ЦРУ
World Factbook предоставляет информацию об истории, людях, правительстве, экономике, географии, коммуникациях, транспорте, военных и транснациональных проблемах для 267 мировых организаций.

31. PubMed
PubMed, разработанный Национальной медицинской библиотекой (NLM), предоставляет бесплатный доступ к MEDLINE, базе данных более 11 миллионов библиографических ссылок и рефератов из почти 4500 журналов в области медицины, сестринского дела, стоматологии, ветеринарии, аптеки, систем здравоохранения и доклинических наук. PubMed также содержит ссылки на полнотекстовые версии статей на сайтах участвующих издателей. Кроме того, PubMed обеспечивает доступ и ссылки на интегрированные базы данных молекулярной биологии, поддерживаемые Национальным центром биотехнологической информации (NCBI). Эти базы данных содержат последовательности ДНК и белка, 3-D данные структуры белка, наборы данных обследований популяций и сборки полных геномов в интегрированной системе. В PubMed добавляются дополнительные библиографические базы данных NLM, такие как AIDSLINE. PubMed включает в себя «Old Medline». «Old Medline» охватывает 1950-1965 годы. (Обновляется ежедневно)

Автор статьи: Nora Choi, Octopus Data Inc.

Добавить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

9 языков для Big Data

92% компаний из списка Fortune 1000 планируют увеличить инвестиции в Big Data и AI в 2020 году. Одним из важнейших качеств лидера становится умение эффективно использовать эти технологии для трансформации своего подразделения. Руководители и менеджеры, которые не вкладывают время и силы в развитие этих компетенций, очень быстро теряют свои позиции.

Управление Big Data и AI – это отдельная область знаний, которая требует не столько технических навыков программирования и знания математики, сколько высокоуровневого понимания технологий и умения увидеть возможности для роста и трансформации с помощью Big Data и AI.

Обучение на курсе «Big Data» дает руководителям и менеджерам необходимые компетенции и множество конкретных бизнес-кейсов, которые можно переложить на свои бизнес-задачи.

Понравилась статья? Поделиться с друзьями:
Все языки программирования для начинающих