Big data — Порвём всех в kaggle.com!!!

Содержание

Как анализировать данные с помощью Google BigQuery

Очень часто маркетологам не хватает обычного набора инструментов для обработки больших массивов информации. Когда Google Analytics, Яндекс.Метрики и Excel недостаточно, на помощь приходят сторонние системы управления базами данных (СУБД).

В этой статье вы узнаете про одну из них – облачную систему Google BigQuery. У неё высочайшая скорость обработки информации, там можно строить отчеты любой сложности, создавать списки ремаркетинга и еще много чего полезного.

Итак, обо всём по порядку.

Начало работы в Google BigQuery

Google BigQuery – часть Google Cloud Platform, куда входит еще порядка 40 инструментов для вычисления, хранения и анализа данных. Поэтому начинаем с входа в платформу.

Первый шаг – соглашение с условиями пользования. Если вы не авторизованы в своем аккаунте Google, для начала нужно туда зайти.

После этого система предлагает активировать пробный период:

Не пугайтесь! 300 долларов в кредит – условная вещь. Система не станет списывать с вашего счета средства, пока вы не решите перейти на полную версию. А для того, чтобы исчерпать лимит $300, надо грузить информацию в промышленных масштабах, ибо расценки идут за объем данных. Через 12 месяцев предоставленная в кредит сумма сгорает. Дальше оплата по прайсу ($5 за 1Tb).

После согласия начать пробный период вы принимаете условия его использования:

Нужно оставить свои контакты и сведения о банковской карте:

Дальше создаем проект под определенным названием и снова подтверждаем условия использования:

После оповещения о создании проекта, привязываем его к зарегистрированному ранее платежному аккаунту в платформе:

И наконец-то переходим в интерфейс Google BigQuery, где открываем редактор запросов.

Обратите внимание: рабочая среда сервиса на английском языке. Чтобы открыть редактор запросов, нажмите «Compose query» или сочетание «Ctrl + Space»:

Загрузка данных в Google BigQuery

Три самых простых способа импорта данных в Google BigQuery:

  • из CSV файла
  • из JSON файла
  • из Google Spreadsheets.

Ниже мы подробнее рассмотрим последний способ, с помощью Google Spreadsheets.

Всё начинается с создания базы данных (dataset). Напомним, что проект у нас уже создан. Остальные поля можно не трогать:

Данные из Google Таблиц можно загрузить двумя способами.

1) Из интерфейса Google BigQuery.

Для этого необходимо выбрать из выпадающего списка Location пункт «Google Drive» и указать полную ссылку на нужную Google Таблицу.

Если вы хотите указать ссылку на конкретный лист, введите полный URL, включая параметр gid. Далее задаём имя таблицы и описываем её схему.

В этом случае данные не только будут загружены в Google BigQuery, но также будет сохранена связь непосредственно с листом таблицы Google.

2) Загрузка с помощью OWOX BI.

Для этого сначала устанавливаем приложение OWOX BI BigQuery Reports для браузера Google Chrome.

После установки оно появляется в вашем списке дополнений в Google таблицах. Выбираем его в меню и кликаем на «Upload data to BigQuery»:

В открывшимся окне «Set destination & schema» указываем проект, набор данных и название таблицы, в которую будут загружены данные:

Кликаем на «Start Upload» и получаем сообщение, что таблица успешно загружена. После этого нажимаем на «Show table in BigQuery» и переходим в интерфейс Google BigQuery. Там уже будет присутствовать только что загруженная таблица «load_from_spreadsheets»:

По алгоритму загрузки статистики из рекламных систем Яндекс.Директ, Google Ads, MyTarget, ВКонтакте и Facebook рекомендуем статью коллег из eLama:

Среди прочих способов импорта данных в Google BigQuery – клиентские библиотеки API; стриминг данных из Google Analytics.

Замечательное достоинство Google BigQuery – здесь можно сводить данные из разных источников.

Снова обратимся к опыту eLama: они поставили задачу определить эффективность обучающего вебинара. А именно – сколько участников зарегистрировались в сервисе после обучения и сколько из них подключили аккаунт Google Ads.

Для этого аналитики скомбинировали информацию из трех источников:

Другие возможности Google BigQuery

Как мы уже упомянули, система позволяет:

Строить отчеты любой сложности

Например, составить список пользователей, совершивших определенные действия на сайте, но не дошедших до оплаты. Для того, чтобы передать его в отдел продаж – прозванивать. Актуальная фича для e-commerce и онлайн-сервисов.

Создавать списки ремаркетинга по определенным условиям

Например, выделить тех, кто зарегистрировался, но не пополнил баланс. В Google BigQuery пишем соответствующие запросы и получаем список user_id, по которому можем создать аудиторию и использовать ее в рекламе.

При этом Google BigQuery работает с полным объемом данных. Тот же Google Analytics сэмплирует (дробит) большие массивы. Для достоверных анализов, где используются конкретные user_id пользователей, сэмплирование неприемлемо. Стриминг всех данных из Google Analytics в BigQuery позволяет обойти это ограничение.

Ну а для того, чтобы упаковать итоговые отчеты в красивые графики, в облачной платформе Google есть интеграция с более 20 системами визуализации данных (вкладка Data Analytics and Visualization):

Резюме

Вместо заключения перечислим еще раз преимущества системы — почему стоит выбрать Google BigQuery.

1) Вы не привязаны к локальным системам. Вся информация хранится и обрабатывается в «облаке».

2) Скорость на значительных объемах данных.

3) Простота. В любой другой системе управления базами данных (СУБД) помимо знания SQL придется долго разбираться с тонкостями администрирования и настройками базы.

Big Data

Big Data (Большие данные)

Big Data — данные большого объема, высокой скорости накопления или изменения и/или разновариантные информационные активы, которые требуют экономически эффективных, инновационных формы обработки данных, которые позволяют получить расширенное понимание информации, способствующее принятию решений и автоматизации процессов.

Что такое большие данные ? Обучение для руководителей и топ менеджеров в «Школе Больших Данных» +7 (985) 162-29-63

  • Для каждой организации или компании существует предел объема данных (Volume) которые компания или организация способна обрабатывать одновременно для целей аналитики, как правило этот объем ограничен объемами оперативной памяти серверов корпоративных приложений и баз данных и необходимостью партиционирования (Partitioning) хранимых данных.
  • Для каждой организации или компании существуют физические ограничения на количество транзакций/ объем данных (Velocity) , которая корпоративныя система может обработать или передать за единицу времени вследствии ограничений scale in архитектуры.
  • Традиционные корпоративные системы (реляционные) могут использовать эффективно только структурированные источники поступления информации, не принимая во внимание разновариантные и не структурированые источники данных (Variety) или имея серьезные органичения по работе с такими источниками.
  • Большое количество данных и разнообразие источников требует качества и аккуратности при обработке и анализе данных (Твиты, хэштэги, аббревиатуры, сокращения, типо ошибки и конечно просто надежность и точность контента ставят под сомнение достоверность (Veracity) самих данных так и принятых решений на основе этих данных. Количество не переходит в качество.
  • Cбор и анализ больших данных должен предоставлять определенную ценность (Value) для бизнеса. Ценность данных неразрывна связанна со стоимость владения и ценностью для бизнеса
  • Большие данные, зависимости между ними и условия окружения непрерывно меняются (Variability)

Что такое Биг-Дата? Простой ответ для каждого

Термин «Биг-Дата», возможно, сегодня уже узнаваем, но вокруг него все еще довольно много путаницы относительно того, что же он означает на самом деле. По правде говоря, концепция постоянно развивается и пересматривается, поскольку она остается движущей силой многих продолжающихся волн цифрового преобразования, включая искусственный интеллект, науку о данных и Интернет вещей. Но что же представляет собой технология Big-Data и как она меняет наш мир? Давайте попробуем разобраться объяснить суть технологии Биг-Даты и что она означает простыми словами.

Удивительный рост Биг-Даты

Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.

Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.

В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.

Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.

Как работает технология Big-Data?

Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.

Бил Гейтс висит над бумажным содержимым одного компакт диска

До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.

Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.

Сейчас лучшее время для старта карьеры в области Data Science. В школе данных SkillFactory стартует онлайн-курс, позволяющий освоить профессию Data Scientist с нуля.

Как используется Биг-Дата?

Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.

Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:

  • Улучшая здравоохранение — медицина, управляемая данными, способна анализировать огромное количество медицинской информации и изображений для моделей, которые могут помочь обнаружить заболевание на ранней стадии и разработать новые лекарства.
  • Прогнозируя и реагируя на природные и техногенные катастрофы. Данные датчиков можно проанализировать, чтобы предсказать, где могут произойти землетрясения, а модели поведения человека дают подсказки, которые помогают организациям оказывать помощь выжившим. Технология Биг Даты также используется для отслеживания и защиты потока беженцев из зон военных действий по всему миру.
  • Предотвращая преступность. Полицейские силы все чаще используют стратегии, основанные на данных, которые включают их собственную разведывательную информацию и информацию из открытого доступа для более эффективного использования ресурсов и принятия сдерживающих мер там, где это необходимо.

Лучшие книги о технологии Big-Data

Проблемы с Big-Data

Биг Дата дает нам беспрецедентные идеи и возможности, но также поднимает проблемы и вопросы, которые необходимо решить:

  • Конфиденциальность данных – Big-Data, которую мы сегодня генерируем, содержит много информации о нашей личной жизни, на конфиденциальность которой мы имеем полное право. Все чаще и чаще нас просят найти баланс между количеством персональных данных, которые мы раскрываем, и удобством, которое предлагают приложения и услуги, основанные на использовании Биг Даты.
  • Защита данных — даже если мы решаем, что нас устраивает то, что у кого-то есть наши данные для определенной цели, можем ли мы доверять ему сохранность и безопасность наших данных?
  • Дискриминация данных — когда вся информация будет известна, станет ли приемлемой дискриминация людей на основе данных из их личной жизни? Мы уже используем оценки кредитоспособности, чтобы решить, кто может брать деньги, и страхование тоже в значительной степени зависит от данных. Нам стоит ожидать, что нас будут анализировать и оценивать более подробно, однако следует позаботиться о том, чтобы это не усложняло жизнь тех людей, которые располагают меньшими ресурсами и ограниченным доступом к информации.

Выполнение этих задач является важной составляющей Биг Даты, и их необходимо решать организациям, которые хотят использовать такие данные. Неспособность осуществить это может сделать бизнес уязвимым, причем не только с точки зрения его репутации, но также с юридической и финансовой стороны.

Глядя в будущее

Данные меняют наш мир и нашу жизнь небывалыми темпами. Если Big-Data способна на все это сегодня — просто представьте, на что она будет способна завтра. Объем доступных нам данных только увеличится, а технология аналитики станет еще более продвинутой.

Для бизнеса способность применять Биг Дату будет становиться все более решающей в ​​ближайшие годы. Только те компании, которые рассматривают данные как стратегический актив, выживут и будут процветать. Те же, кто игнорирует эту революцию, рискуют остаться позади.

Как вам статья? Еще более годный контент на моем замечательном YouTube-канале

Только остороженее! На моем ютубе можно стать слишком умным. ��

Часто задаваемые вопросы

Q: При поступлении на магистерскую программу «Системы больших данных» со сменой направления могут ли сертификаты пройденных открытых онлайн-курсов ВШЭ на Coursera помочь подтвердить мои знания по дисциплинам из списка обязательных?
A: Да, если курсы включены в приложение к диплому. Если нет, то они будут рассмотрены в пункте «Сертификаты».

Цукерберг рекомендует:  Веб-вёрстка - Фриланс. Верстка

Q: На каком языке нужно написать мотивационное письмо — русском или английском?
A: На английском.

Q: При наличии публикации в электронном виде могу ли я предоставить для подтверждения ссылку на публикацию в РИНЦ? — https://elibrary.ru/project_risc.asp
A: Да, конечно.

Q: На каком языке пишется мотивационное письмо: на русском или английском языке?
A: На английском языке.

Q: Я учусь по направлению «Бизнес-информатика» в Казанском федеральном университете. У меня будет учитываться оценка за ВКР или оценки за профильные предметы?
A: Оценка ВКР

Q: Проводится ли собеседование?
A: Нет

Q: Нужно ли прикладывать в портфолио рекомендательные письма?
A: Нет.

Q: Каковы шансы, судя по прошлым годам, поступить на программу не имея грантов, стипендий, дипломов победителя (в активе: профильный красный диплом, участие в научной конференции по математическому моделированию и опыт работы системным аналитиком в IT-компании)?
A: Все зависит от того, какие портфолио будут представлены претендентами. Прогнозировать это невозможно.

Q: Есть ли в ВШЭ курсы для подготовки к экзамену по английскому языку?
A: Для подготовки к экзамену по английскому языку Вы можете воспользоваться программами дополнительного обучения, которые предлагаются в НИУ ВШЭ в качестве сервисов Вышка+. Более подробно с перечнем программ Вы можете ознакомить на сайте, пройдя по ссылке — https://www.hse.ru/plus/languages#pagetop

Q: Какие онлайн-курсы можно пройти для более мягкой адаптации к программе?
A: В рабочем учебном плане программы предусмотрено 2 очных адаптационных курса: Анализ данных и Архитектура предприятия, предназначенных для адаптации к прохождению основной программы. В качестве онлайн курсов, которые можно посоветовать пройти до начала обучения:

Профессии Big Data: кто здесь работает и как сюда попасть

Экскурс: больше data science

Наука о данных ведет свою историю с 1966 года. Именно тогда в Париже появился Комитет по данным для науки и техники при Международном научном совете. Однако, долгое время выражение «data science» можно было услышать только в узких кругах статистиков и ученых. Лишь в начале 2000-х термин стал общепризнанным в Америке и Европе, а с появлением и распространением хайпа вокруг Big Data традиционная наука о данных получила новое дыхание.

Внезапно аналитики стали нужны всем: бизнесу и государству, интернету и сельскому хозяйству. В 2011 году McKinsey подливает масла в огонь: по их предсказаниям, к 2020 году только в США потребуется больше 400 тысяч аналитиков данных. Где же их столько взять? В 2013 году университеты запускают магистратуру по data science, а бизнес-школы плодят курсы для Big Data специалистов.

В России происходит все то же самое, но чуть медленнее. На сегодняшний день количество вакансий, связанных с big data, на hh.ru переваливает за тысячу. При этом, отрасль остается новой и загадочной: большие данные притягивают специалистов и одновременно отпугивают. Сегодня будем развеивать страхи и изгонять жаждущих легких денег. Если вы до сих пор думаете, что работа с big data – это нечто, связанное со сверхспособностями и единорогами, приготовьтесь к погружению в реальность.

Big data профессии по полочкам

Добро пожаловать в отдел социальной аналитики Eastwind. Здесь наши коллеги создают и развивают платформу Social Analytics. Этот продукт помогает телеком-операторам и бизнесу собирать сырые неструктурированные данные и преобразовывать их в инсайты о клиентах. За удобными юзер интерфейсами и результатами кейсов, скрывается большой труд ребят из отдела социальной аналитики.

Заметим, что в зависимости от страны, компании и специфики бизнеса профессии подобного отдела могут называться по-разному. Некоторые (больше принято на зарубежном рынке) дробят функции big data специалистов и получают узконаправленных экспертов. Но в общем, все профессии, тесно связанные с Big Data, можно разделить на два основных направления: анализ данных и разработка.

В соответствующих рабочих группах Eastwind мы попросили рассказать: в чем суть работы аналитиков и разработчиков отдела, какие технологии они используют, с каким бэкграундом люди обычно приходят в big data и что нужно специалистам для успеха в этой индустрии.

Data scienist или аналитик big data

Суть работы:

– Человек продуцирует много фиксируемых событий. Например, у операторов это звонки и трафик, у банков – транзакции, в ритейле – посещения и покупки. Мы выявляем закономерности в этих данных, чтобы использовать их для бизнеса, – рассказывает Андрей Плющенко, руководитель группы анализа данных в Eastwind. – Работаем с сырой информационной историей. Из необработанных данных нам нужно убрать мусор и оставить то, что позволит лучше охарактеризовать людей, предсказать их поведение. Все это помогает бизнесу понять: какой товар или услуга вероятнее всего заинтересуют клиента. А также: когда это произойдет, стоит ли предоставлять ему кредит доверия и так далее. В нашей группе мы строим поведенческие модели, тестируем их и настраиваем алгоритмы machine learning – все кодим на python.

Бэкграунд и технологии:

– Обычно в анализ больших данных приходят математики. Я сам математик, –продолжает Андрей. – Также нужно разбираться в программировании, понимать, что такое big data в принципе, а главное – быть творческим человеком. Нам ведь постоянно приходится что-то придумывать, генерировать идеи, искать инсайты. Если говорить о технологиях, то для работы достаточно знать python, что-нибудь о распределенных вычислениях и устройстве кластеров данных.

– Я пришла в big data из java-разработки, – делится Ольга Анненкова, группа анализа данных Eastwind. – Просто плавно перешла из одной группы в другую, вместе со своими задачами. Сейчас сама разработка стала более аналитической. Сложность нашей работы в том, что постоянно появляются новые продукты, нам нужно очень быстро внедрять их и разбираться, как они работают, несмотря на баги. Интересно, потому что мы работаем с настоящими конфиденциальными данными и можем видеть результат своих вычислений и верность предсказаний в реальной жизни. Аналитика big data – это труд программиста, математика и исследователя в одной специальности.

Важно для успеха:

– Чтобы работать в анализе больших данных, нужно иметь скилы из разных областей, – добавляет Михаил Чернышев, группа анализа данных Eastwind. – Уметь делать визуализации, обладать фантазией и терпением. Не факт, что модель, которую ты придумаешь, сработает с первого раза.

– Самое сложное и начинается, когда тебе нужно тюнинговать созданную модель, – подтверждает Дмитрий Журавлев, группа анализа данных Eastwind. – Для создания и улучшения метрик важно с разных сторон смотреть на проблему.

– Главные компетенции рождаются при решении промышленных задач. Нельзя пройти курсы, почитать теорию, вдохновиться модой и стать успешным big data аналитиком, – объясняет Андрей Плющенко. – С сырой историей работать всегда сложнее, чем с готовыми фичами, которые дают на конкурсах. В каждой компании – свои специфические задачи, к решению которых нужно подходить индивидуально. Нужно приготовиться, что в работе с big data нет шаблона. Поэтому, после освоения базы, вам придется постоянно совершенствоваться. Но будет интересно.

Data engineer или разработчик в сфере big data

Суть работы:

– Мы занимаемся структурным обеспечением группы аналитиков. Другими словами, делаем так, чтобы им было проще работать с большими объемами данных, с кластерными и операционными системами, – рассказывает Шерзод Гапиров, руководитель группы разработки в отделе аналитики Eastwind. – В идеале, аналитики не должны углубляться в программирование. Им это не особо интересно и отвлекает от основного – построения моделей и работы с вычислениями.

– Разработчики в big data – это саппорт аналитикам, – дополняет Сергей Сычев, разработчик в отделе аналитики Eastwind. – Мы оптимизируем рутинные процессы, разрабатываем приложения для работы с данными. Решаем технические задачи, вроде шифрования информации. Так как область новая, зачастую нам приходится изобретать какие-то «костыли», писать новые скрипты и сразу вводить в работу.

Бэкграунд и технологии:

– В отдел аналитики мы берем людей из любой области разработки, — делится Шерзод Гапиров. – Важно, чтобы был хороший опыт программирования, понимание реляционных баз данных и работы систем – Linux, Hadoop. Еще хорошо бы знать языки java и scala. Если такая база есть, специфике big data мы обучаем с нуля.

– У нас есть кластер Cloudera, в его стеке – Oozie, HDFS, Spark. Во фронтенде мы используем React, – перечисляет технологии Сергей Сычев. – Но самое главное, в работе нашей группы – постоянно следить за новинками, внедрять их, быть на волне. Способность к обучению в big data разработке я бы поставил выше всего.

Важно для успеха:

– Наш человек – технарь. Тот, кто любит покрутить гаечки или разобрать технику, чтобы понять, как она работает, — говорит Шерзод Гапиров. – Чтобы преуспеть в этом, нужно просто проявлять упорство. Со стороны Big Data кажется сложной и возвышенной областью, потому что люди мало с ней знакомы. По факту, когда разберешься и вникнешь – big data разработка становится обычной инженерной работой и не отличается от любого другого программирования.

Профессии около big data

Рассказывая о специальностях отрасли, нельзя не упомянуть некоторые «вспомогательные» профессии. Это люди, которые напрямую не работают с большими данными, но тесно связаны с развитием многих аналитических платформ. Это тот случай, когда вы не математик и не технарь, но все-таки можете похвастаться, что крутитесь в сфере Big data. ;)

Дизайнер интерфейсов. Этот человек упаковывает все сложные вычисления и технологии в простую форму.Особенность создания интерфейсов аналитических платформ – большое количество параметров данных. Дизайнер делает так, чтобы пользователь по ту сторону экрана мог легко во всем разобраться и запускал собственные исследования без глубокого погружения в предметную область big data.

«Для создания интерфейсов к аналитическим платформам нужно разбираться в web-разработке, UX-дизайне и обладать чувством прекрасного, – объясняет Александр Иноземцев, руководитель группы веб-интерфейсов в Eastwind. – Нужно уметь поставить себя на место человека, который будет пользоваться интерфейсом, и сделать процесс управления максимально удобным и простым для него».

Продакт-менеджер. Этот человек продвигает аналитическую платформу в живой бизнес-среде: участвует во внедрении, развивает систему по потребностям заказчика и требованиям рынка. Он должен хорошо разбираться в продукте и быть связующим звеном между разработчиками и компанией.

«Для нашего технического отдела – я менеджер, который работает с клиентом. А клиенты часто считают меня технарем, — рассказывает Александр Павлов, менеджер продукта Eastwind Social Analytics. – Это отражает особенность профессии менеджера big data продукта: быть в равной степени погруженным в коммерческие нужды и технические возможности, понимать логику исследований данных и быть первым объективным тестировщиком UI».

Где учиться, чтобы взяли на работу

Если вы не передумали погружаться в Big Data, и готовы разбираться в теме: поищите подходящие программы на Coursera, послушайте, что рассказывают в Школе анализа данных от Яндекс и рассмотрите курсы от Open Data Science. Также сейчас ведут онлайн-курсы многие зарубежные университеты: например, введение в big data от Калифорнийского Berkeley или введение в data science от Массачусетского института технологий. Этот вариант подойдет, если ваш английский выше технического. Есть магистерские программы и в российских ВУЗах.

«Мы берем людей после таких курсов. Их большой плюс в том, что они уже понимают специфику отрасли, – говорит Андрей Плющенко, руководитель группы анализа данных в Eastwind. – На собеседовании я обычно задаю базовые вопросы по machine learning. Например, что такое классификация, регрессия и кластеризация? Или: что сделать, чтобы не переобучиться? Есть и вопросы с подвохом, но даже если человек на них не ответил – не значит, что его не возьмут. Намного важнее, чтобы специалист понимал, что сейчас он на старте, и был готов к прокачке.Почему глупо требовать большой опыт в этой области? На Урале сильная математическая и программистская школа, а вот применить свои знания ребятам, которые решили стать аналитиками данных – почти негде. Даже Яндекс сократил своих местных дата сайнтистов. Поэтому многие уезжают в Москву, более амбициозные – за рубеж. В Екатеринбурге мы – одни из немногих, у кого есть полноценный аналитический отдел».

Big data – работа «что надо»?

Мы выяснили, что в отрасли больших данных нет ничего магического и, при желании, – туда не так трудно попасть, как кажется. Потребуются лишь способности к математике, логике и программированию. А еще умение творить, видеть задачи под разным углом и понимать людей и бизнес одновременно. Ну и в идеале – нужно быть терпеливым, настойчивым, всегда готовым к новому и проходить сквозь стены. Ой, последнее – лишнее. :)

В общем, берем свои слова насчет «не так трудно» обратно. Уровень сложности зависит исключительно от ваших индивидуальных способностей и желаний. Примеряйте на себя профессии, проверяйте свои скилы и ищите то, что вам подходит. Нашли? Тогда спасибо за внимание и добро пожаловать в Big Data

Что такое Big data: собрали всё самое важное о больших данных

Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой: Rusbase объясняет на пальцах для тех, кто немного отстал от жизни.

Что такое Big data

Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также: Как зарождалась эра Big data

Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.

Big data — простыми словами

В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также: Мир Big data в 8 терминах

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные — лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также: Big data: анализ и структурирование

Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Data Mining;
  • Краудсорсинг;
  • Смешение и интеграция данных;
  • Машинное обучение;
  • Искусственные нейронные сети;
  • Распознавание образов;
  • Прогнозная аналитика;
  • Имитационное моделирование;
  • Пространственный анализ;
  • Статистический анализ;
  • Визуализация аналитических данных.

Технологии:

Читайте также: Big data: семантический анализ данных и машинное обучение

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

  1. Volume — величина физического объёма.
  2. Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety — возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.

Читайте также: «Большие данные дают конкурентное преимущество, поэтому не все хотят о них рассказывать»

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Цукерберг рекомендует:  Таймер обратного отсчета

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Рынок Big data в России

В 2020 году мировой доход на рынке big data должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

Читайте также: Как устроен рынок Big data в России

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. Следите за Big Data Conference в Telegram, на Facebook и «ВКонтакте».

Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2020 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Читайте также: Кто делает Big data в России?

«Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

«Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

Big data в бизнесе

Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали.

Читайте также: Как заставить большие данные работать на ваш бизнес

Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

Читайте также: 6 современных тенденций в финансовом секторе

Чтобы оптимизировать бизнес-процессы,«Сургутнефтегаз» воспользовался платформой данных и приложений «in-memory» под названием SAP HANA, которая помогает в ведении бизнеса в реальном времени. Платформа автоматизирует учёт продукции, расчёт цен, обеспечивает сотрудников информацией и экономит аппаратные ресурсы. Как большие данные перевернули бизнес других предприятий — вы можете прочитать здесь.

Big data в маркетинге

Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основываясь на модели RTB-аукциона.

Читайте также: Чем полезны большие данные для рекламного бизнеса?

Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.

Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.

Читайте также: Большие данные должны приносить практическую пользу бизнесу – или умереть

Биг дата изменит мир?

От технологий нам не спрятаться, не скрыться. Big data уже меняет мир, потихоньку просачиваясь в наши города, дома, квартиры и гаджеты. Как быстро технология захватит планету — сказать сложно. Одно понятно точно — держись моды или умри в отстое, как говорил Боб Келсо в сериале «Клиника».

А что вам интересно было бы узнать о больших данных? Пишите в комментариях :)

Материалы по теме:

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

О программировании, алгоритмах и не только

Жена посылает мужа-программиста в магазин и говорит, купи батон колбасы, а если будут яйца — возьми десяток. Он в магазине: У Вас яйца есть? -Есть -Тогда дайте десять батонов колбасы..

Pages

Thursday, May 3, 2012

Kaggle.com мы третьи!

И вот, наконец, закончилось мое первое соревнование в kaggle.com с неожиданным для меня результатом: третье место. Это, пожалуй, были самые лучшие два месяца с точки зрения изучения data mining-а и я постараюсь в ближайшее время поделиться своими находками.

Цель соревнования заключалась в том, чтобы предсказать цену бондов (или облигаций, если совсем по-русски) на основе некоторых данных, среди которых: цены последних 10 сделок, объемы сделок, типы сделок, тип бонда, и некая загадочная curve_based_price посчитанная компанией организатором и учитывающая множество фундаментальных факторов, но при этом абсолютно неопределенная для участников соревнования. Вот пример поведения цен и этой загадочной curve_based_price взятый из презентации организаторов.

Сложности добавляла низкая ликвидность на рынке бондов. Некоторые контракты не торговались неделями и, понятно, что ни о каком High Frequency Trading тут и речи идти не может.

Моя первая идея была использовать random forest, благо что и пример организаторов использовал его и в целом было понятно что при такой неопределенности данных эта модель должна как-минимум работать неплохо. Поэтому, первым, что я сделал, это нормализовал цены относительно curve_based_price так, чтобы избавиться насовсем от абсолютных значений в долларах США. Это простое изменение в тот момент подняло меня на 5-ую строчку в рейтинге и мотивировало на дальнейшие исследования. Следующим существенным изменением было разбить тренировочные данные на несколько множеств (по типу сделки и по типу бонда). Основной эффект этого разбиения заключался в том, что эффективное время обучения random forest на большом множестве данных упало многократно. Это изменение подняло меня на первое место где я и находился около месяца. За это время успев получить приглашение от организаторов и посетить Stanford Conference of Quantitative Finance.

А дальше был творческий кризис, я пробовал добавлять различные предикторы, пробовал оптимизировать модель, удалять outliers и даже переписал реализацию random forest на Java надеясь что оптимизировав функцию оценки смогу получить лучший результат. Но тщетно, некоторые изменения давали мне небольшое улучшение, но большинство не влияли на результат либо влияли негативно. Постепенно участники стали формировать команды и я потерял свое первое место и рисковал оказаться в районе 5-го места в финале. Что было бы весьма обидно ведь денежный приз дается только за первые три места. Но в последние три дня нам удалось объединить усилия с участником VikP, посчитать арифметическое среднее наших моделей и выйти на третье место.

Немного разочаровало то, что модели победителей это просто смесь большого количества не самых лучших индивидуальных моделей. Т.е. рецепт победы в общем случае прост: натренируйте кучу разных моделей а потом с помощью линейной регресси найдите оптимальную комбинацию. Такой подход мне кажется немного ущербным. Ведь в основе часто лежат модели типа random forest и GBM которые уже сами по себе являются ансамблями большого числа еще более слабых моделей. Но, видимо, в настоящее время, этот подход является лучшим из известного, достаточно например посмотреть на описания решений победителей промежуточных туров Heritage Health Prize.

Что такое Big Data (большие данные) в маркетинге: проблемы, алгоритмы, методы анализа

Большие данные (Big Data) — довольно распространенное понятие в IT и интернет-маркетинге. По сути, определение термина лежит на поверхности: «большие данные» означает управление и анализ очень больших объемов данных. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине больших объемов.

Содержание

Big Data — что это такое?

Цифровые технологии присутствуют во всех областях жизни человека. Объем записываемых в мировые хранилища данных ежесекундно растет, а это означает, что такими же темпами должны изменяться условия хранения информации и появляться новые возможности для наращивания ее объема.

Эксперты в области IT высказывают мнение, что расширение Big Data и ускорение темпа роста стало объективной реальностью. Ежесекундно гигантские объемы контента генерируют такие источники, как социальные сети, информационные сайты, файлообменники — и это лишь сотая часть поставщиков.

Согласно исследованию IDC Digital Universe, в ближайшие пять лет объем данных на планете вырастет до 40 зеттабайтов, то есть к 2020 году на каждого живущего на Земле человека будет приходиться по 5200 Гб.

Рост Big Data к 2020 году, прогноз IDC Digital Universe от 2012 года Источник:www.emc.com.

Известно, что основной поток информации генерируют не люди. Источником служат роботы, находящиеся в постоянном взаимодействии друг с другом. Это приборы для мониторинга, сенсоры, системы наблюдения, операционные системы персональных устройств, смартфоны, интеллектуальные системы, датчики и прочее. Все они задают бешеный темп роста объема данных, что приводит к появлению потребности наращивать количество рабочих серверов (и реальных, и виртуальных) — как следствие, расширять и внедрять новые data-центры.

По сути, большие данные — довольно условное и относительное понятие. Самое распространенное его определение — это набор информации, по объему превосходящей жесткий диск одного персонального устройства и не поддающейся обработке классическими инструментами, применяемыми для меньших объемов.

Наглядная иллюстрация роста объемов с 1986 до 2007 годов. Источник: www.martinhilbert.net.

Технология Big Data — что это? Обобщенно говоря, технологию обработки больших данных можно свести к трем основным направлениям, решающим три типа задач:

  • Хранение и перевод поступаемой информации в гигабайты, терабайты и зеттабайты для их хранения, обработки и практического применения.
  • Структурирование разрозненного контента: текстов, фотографий, видео, аудио и всех иных видов данных.
  • Анализ Big Data и внедрение различных способов обработки неструктурированной информации, создание различных аналитических отчетов.

В сущности, применение Big Data подразумевает все направления работы с огромным объемом самой разрозненной информации, постоянно обновляемой и разбросанной по разным источникам. Цель предельна проста — максимальная эффективность работы, внедрение новых продуктов и рост конкурентоспособности.

Проблема Big Data

Проблемы системы Big Data можно свести к трем основным группам: объем, скорость обработки, неструктурированность. Это три V — Volume, Velocity и Variety.

Хранение больших объемов информации требует специальных условий, и это вопрос пространства и возможностей. Скорость связана не только с возможным замедлением и «торможением», вызываемом старыми методами обработок, это еще и вопрос интерактивности: чем быстрее процесс, тем больше отдача, тем продуктивнее результат.

Проблема неоднородности и неструктурированности возникает по причине разрозненности источников, форматов и качества. Чтобы объединить данные и эффективно их обрабатывать, требуется не только работа по приведению их в пригодный для работы вид, но и определенные аналитические инструменты (системы).

Но это еще не все. Существует проблема предела «величины» данных. Ее трудно установить, а значит трудно предугадать, какие технологии и сколько финансовых вливаний потребуется для дальнейших разработок. Однако для конкретных объемов данных (терабайт, к примеру) уже применяются действующие инструменты обработки, которые к тому же и активно развиваются.

Существует проблема, связанная с отсутствием четких принципов работы с таким объемом данных. Неоднородность потоков только усугубляет ситуацию. Каким образом подходить к их применимости, чтобы вынести из них что-то ценное? Здесь требуется разработка такого направления, как новые методы анализа Big Data, чтобы этот поток стал полезным источником информации. Возможно, согласно утверждениям представителей университетов США (Нью-Йоркского, Вашингтонского и Калифорнийского), сегодня пришло время ввести и развивать новую дисциплину — науку о Big Data.

Собственно, это и является главной причиной отсрочки внедрения в компании проектов Big Data (если не брать во внимание еще один фактор — довольно высокую стоимость).

Подбор данных для обработки и алгоритм анализа может стать не меньшей проблемой, так как отсутствует понимание, какие данные следует собирать и хранить, а какие можно игнорировать. Становится очевидной еще одна «болевая точка» отрасли — нехватка профессиональных специалистов, которым можно было бы доверить глубинный анализ, создание отчетов для решения бизнес-задач и как следствие извлечение прибыли (возврат инвестиций) из Big Data.

Еще одна проблема Big Data носит этический характер. А именно: чем сбор данных (особенно без ведома пользователя) отличается от нарушения границ частной жизни? Так, информация, сохраняемая в поисковых системах Google и Яндекс, позволяет им постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные программы.

Поисковики записывают каждый клик пользователя в Интернете, им известен его IP-адрес, геолокация, интересы, онлайн-покупки, личные данные, почтовые сообщения и прочее, что, к примеру, позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в Интернете. При этом согласия на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Здесь можно затронуть дргую проблему — обеспечение безопасности хранения и использования данных. Например, сведения о возможных покупателях и их история переходов на сайтах интернет-магазинов однозначно применимы для решения многих бизнес-задач. Но безопасна ли аналитическая платформа, которой потребители в автоматическом режиме (просто потому, что зашли на сайт) передают свои данные, — это вызывает множество споров. Современную вирусную активность и хакерские атаки не сдерживают даже супер-защищенные серверы правительственных спецслужб.

История больших данных

Сами по себе алгоритмы Big Data возникли при внедрении первых высокопроизводительных серверов (мэйнфреймов), обладающих достаточными ресурсами для оперативной обработки информации и пригодных для компьютерных вычислений и для дальнейшего анализа..

Сам термин Big Data впервые был озвучен в 2008 году на страницах спецвыпуска журнала Nature в статье главного редактора Клиффорда Линча. Этот номер издания был посвящен взрывному росту глобальных объемов данных и их роли в науке.

Специалисты утверждают, что большими данными допустимо называть любые потоки информации объемом более 100 Гб в сутки.

Однако в последние 2-3 года ученые отмечают, что термин Big Data стал лишком популяризирован, его употребляют практически везде, где упоминаются потоки данных, и как следствие он стал восприниматься слишком обобщенно и размыто. Виной тому не совсем сведущие журналисты и малоопытные предприниматели, которые попусту злоупотребляют данным понятием. По мнению западных экспертов, термин давно дискредитировал себя и пришло время от него отказаться.

Сегодня мировое сообщество вновь заговорило о больших данных. Причины — в неизменном росте объемов информации и отсутствии какой-либо структуры в ней. Предпринимателей и ученых волнуют вопросы качественной интерпретации данных, разработки инструментов для работы с ними и развитие технологий хранения. Этому способствует внедрение и активное использованию облачных моделей хранения и вычислений.

Big Data в маркетинге

Информация – это главный аспект успешного прогнозирования роста и составления маркетинговой стратегии в умелых руках маркетолога. Анализ больших данных давно и успешно применяется для определения: целевой аудитории, интересов, спроса, активности потребителей. Таким образом, Big Data является точнейшим инструментом маркетолога для предсказания будущего компании.

К примеру, анализ больших данных позволяет выводить рекламу (на основе известной модели RTB-аукциона — Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

  • лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете;
  • оценивать уровень удовлетворенности клиентов;
  • понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям;
  • находить и внедрять новые способы, увеличивающие доверие клиентов;
  • создавать проекты, пользующиеся спросом.

Например, сервис Google.trends очень точно укажет маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Достаточно сопоставить эти сведения со статистическими данными собственного сайта и можно составить качественный план по распределению рекламного бюджета с указанием месяца и региона.

Вместо заключения

Сегодня, в пик высоких технологий и огромных потоков информации, у компаний появилось гораздо больше возможностей для достижения превосходных показателей в ведении бизнеса благодаря использованию Big Data.

Все лгут. Поисковики, Big Data и Интернет знают о вас всё. Конспект. Введение. Кто больше врет про секс? Как карта расизма США обьясняет победу Трампа? Google предсказал победу Трампа?

Все лгут. Поисковики, Big Data и Интернет знают о вас всё. Конспект. Введение. Сет Стивенс-Давидовиц.
Кто больше врет про секс? Мужчины ил женщины?

Как карта расизма США обьясняет победу Трампа.

Цукерберг рекомендует:  Php - несколько версий php

Google предсказал победу Трампа?

Вступление . Некогда философы мечтали о «микроскопе для мозга».

Я работал экспериментальным психологом.

Человеческие мысли – сложносоставное явление. В отличие от Вуди Аллена, который сводит «Войну и мир» к паре предложений, мы не просто думаем: «Это история о нескольких русских». Эта книга – о совершенно новом способе изучения сознания.

Большие данные, полученные в результате интернет-поиска и других онлайн-исследований дают удивительную возможность по-новому взглянуть на психику человека. Уединившись со своей клавиатурой, люди делают довольно странные признания.

я был в шоке от того, как в интернете раскрывается человеческая сексуальность – в том числе меня поразило открытие, что каждый месяц определенное количество женщин ищет «трахание плюшевых игрушек». Никакой эксперимент с использованием времени реакции, расширения зрачка или функциональной нейромедицины не смог бы никогда вскрыть этот факт.

Книга «Все лгут» обязательно понравится всем. Стивенс-Давидовиц с его неутомимым любопытством и терпением указывает новый путь для общественных наук XXI века. При наличии такого бесконечно увлекательного окна в мир человеческих страстей кому будет нужен энцефалоскоп?

Стивен Пинкер. Доктор наук, преподаватель MIT, автор книги «Чистый лист. Природа человека. Кто и почему отказывается признавать ее сегодня», 2020 г.

Предисловие. Контуры революции

По результатам республиканских предварительных выборов 2020 года эксперты пришли к выводу, что у Дональда Трампа нет никаких шансов, поскольку он оскорбил все возможные меньшинства. Однако были факты, указывавшие на то, что на самом деле Трамп может выиграть как предварительные партийные, так и всеобщие выборы. И эти подсказки можно было найти в интернете.

Google Trends — появление этого приложения в 2009 году прошло практически незамеченным. Оно позволяет пользователям определить, насколько часто то или иное слово или фраза появлялись в разных местах и в разное время. Ранние версии программы даже включали шутливое предостережение о том, что «не стоит писать докторскую диссертацию», опираясь на такие данные, что сразу же побудило меня написать диссертацию на их основе. Следы, которые мы оставляем, выискивая крупицы знаний в интернете, чрезвычайно показательны.

Другими словами, люди, ищущие информацию, сами являются источником информации.

Я набрал свое имя. «Мы сожалеем, – ответил мне Google Trends. – Не хватает поискового объема, чтобы показать результаты». Так я узнал, что Google Trends предоставляет данные только тогда, когда достаточно много людей выполняет один и тот же поиск.

Могущество и власть Google заключается в том, что люди рассказывают гигантской поисковой системе то, что они не могли бы сказать никому другому.

Пример, секс (к этой теме я вернусь позднее и рассмотрю ее более подробно). По данным опроса, когда речь идет о гетеросексуальном контакте, женщины говорят, что они занимаются сексом в среднем пятьдесят пять раз в год, в шестнадцати процентах случаев используя презерватив. Это дает около 1,1 миллиарда презервативов в год. Но, по утверждению гетеросексуальныхмужчин, ежегодно используется1,6 миллиарда презервативов. По определению эти цифры должны совпадать. Так кто же говорит правду – мужчины или женщины?

Как оказалось – ни те, ни другие. По данным компании Nielsen, которая отслеживает поведение потребителей, ежегодно продается менее 600 миллионов презервативов. Так что лгут и те и другие; единственное различие в том, насколько сильно.

Ложь на самом деле очень широко распространена.

По результатам поиска в Google мы обнаружим гораздо более правдоподобную картину. Больше всего жалоб на отсутствие секса в браке. Поисковый запрос «брак без секса» делается в три с половиной раза чаще, чем запрос «несчастливый брак», и в восемь раз чаще, чем «брак без любви». Даже неженатые пары довольно часто жалуются на то, что они не занимаются сексом. Поисковый запрос «отношения без секса» уступает только запросам тех, кто ищет «жесткий секс».

Поисковик Google позволил нам увидеть картину Америки, которая разительно отличается от той пострасовой утопии, которую показали результаты опросов.

Какая же мотивация была у американцев, осуществлявших поиск со словом «ниггер»? большинство подобных поисков включают фразы «тупые ниггеры» и «я ненавижу ниггеров».

Множество американцев в уединении, находясь дома, делают шокирующе расистские запросы.

В первую ночь после выборов Обамы, в некоторых штатах поисков по запросам «ниггер-президент» было намного больше, чем по запросам «первый черный президент».

Темная сторона и неприязнь, которые не были выявлены традиционными методами, стали вполне очевидны после анализа поисковых запросов, которые делали люди.

В 2012 году я зналДональда Трампа в основном как бизнесмена и ведущего реалити-шоу.Все эти неприглядные поисковые запросы нетрудно связать с успехом кандидата, который, используя злобные нападки на иммигрантов, разжигая неприязнь и нетерпимость, часто играл на худших человеческих проявлениях.

анализ поиска в Google помог составить новую карту локализации расизма в США, и эта карта выглядела совершенно иначе, чем мы себе представляли. Четыре года спустя эта карта окажется довольно значимой при объяснении политического успеха Трампа.

Наши исследования показывают, что человек со значительно большей вероятностью поставит имя кандидата, которого он поддерживает, первым в поисковом запросе, содержащем имена обоих кандидатов.

Так что же, Google предсказал победу Трампа?

в интернете можно было найти много свидетельств того, что у Трампа было больше шансов стать президентом, чем получалось на основании данных, собранных во время опросов.

обнаружили, что в ключевых штатах на Среднем Западе, в которых Клинтон надеялась одержать победу, намного больше поисковых запросов выстраивались как «Трамп – Клинтон», чем как «Клинтон – Трамп». Действительно, Трамп во многом обязан своим избранием тому, что он значительно превзошел там результаты своих показателей по опросам.

Но ключевой подсказкой , которая помогла обнаружить основные признаки того, что Трампа может ждать успех – был скрытый расизм. Анализ поисковых запросов в Google выявил озлобление и нетерпимость у значительного числа американцев, которые эксперты не замечали в течение многих лет. Эти данные показали, что мы жили в обществе, совершенно отличном от того, которое представляли нам ученые и журналисты, опираясь на опросы.

Люди часто лгут – и себе, и другим.

Скрытый расизм, который повредил Бараку Обаме, помог Дональду Трампу.

Трампа поддержали те области, жители которых сделали большинство поисковых запросов в Google со словом «ниггер».

Психические растройства, сексология, насилие над детьми, аборты, реклама, религия, здоровье – довольно серьезные темы. И набор данных Google позволяет взглянуть на них совершенно по-другому.

Есть и другие золотоносные цифровые жилы. Я скачал всю Википедию, покопался в профилях Facebook и прошерстил Stormfront. Кроме того, PornHub, один из крупнейших порнографических сайтов интернета, дал мне свои полные данные по анонимному поиску и просмотрам видео, которые совершали люди со всего мира. я глубоко погрузился в то, что сейчас называют большими данными.

Мы переживаем взрывной рост количества и качества различных видов доступной информации.

Так почему же именно большие данные обладают такой огромной мощью?

Новые данные способны радикально расширить наше понимание человеческой природы. Они открывают нам в человеческом сообществе многое из того, что было скрыто и могут стать нашими современными микроскопом или телескопом, и полученная ими информация, возможно, приведет к важнейшим, даже революционным открытиям.

Как загрузить статистику из рекламных систем в Google BigQuery

В еЛаме мы используем большое количество платных рекламных каналов. Кроме традиционных Яндекс.Директа, Google AdWords, Facebook, «ВКонтакте», MyTarget, мы можем покупать платные посты в партнерских группах во «ВКонтакте» или делать другие платные размещения.

Чтобы корректно анализировать эффективность рекламы, нам необходимо все расходы агрегировать в одной системе и строить отчеты в едином стиле. Казалось бы, можно просто настроить импорт расходов в Google Analytics, используя OWOX BI Pipeline. Но нам этот вариант не подходит по нескольким причинам:

  • в настройке отчетов мы будем ограничены стандартным функционалом Google Analytics;
  • из-за сэмплирования данных в Google Analytics в наших отчетах за период больше 10-14 дней будут показываться неточные значения;
  • для единичных размещений нет возможности указать расход в рамках utm_campaign;

Для сбора несэмплированных данных Google Analytics у нас настроен OWOX BI Streaming в Google BigQuery. Для его настройки нужно установить на сайте дополнительные теги, и данные будут автоматически отправляться с фронтенда сайта на сервера OWOX и BigQuery параллельно с отправкой данных на сервера Google Analytics.

Таким образом, в нашем проекте BigQuery мы получаем данные обо всех посещениях, событиях и конверсиях на сайте. Если мы загрузим туда также расходы на платную рекламу, то сможем анализировать всё в одном месте. О его возможностях и старте работы с ним я рассказывал раньше.

1. Загрузка данных из Google AdWords

В документации Google есть стандартный скрипт для экспорта данных в BigQuery, который нужно загрузить в ваш аккаунт AdWords. Скопируйте его себе в текстовый редактор и измените ряд полей:

  • BIGQUERY_PROJECT_ID — идентификатор проекта в BigQuery, который можно узнать в консоли Google Cloud Platform, например, ‘linear-theater-******’
  • BIGQUERY_DATASET_ID — набор данных, например ‘advertising_systems’;
  • TRUNCATE_EXISTING_TABLES — укажите ‘true’, чтобы перезаписывать данные по расходам;
  • DEFAULT_DATE_RANGE — период, за который будут экспортироваться данные, например ‘20200401,20201231’ (можно указать дату из будущего). Другие допустимые варианты DateRange можно посмотреть в справке. Началом периода я рекомендую указать дату 1-2 месяца назад от текущего дня — в этот период на стороне AdWords еще могут происходить корректировки. А скрипт для более ранних периодов лучше выполнить один раз, а результаты скопировать в отдельную таблицу BigQuery, например, ‘adwords_cache’.
  • REPORTS — содержит список отчетов, которые будут выгружаться. Примеры отчетов, которые используем мы:

//статистика с разбивкой по кампаниям
CONDITIONS: ‘WHERE Impressions > 0’,
FIELDS: <'CampaignId' : 'STRING',
‘CampaignName’ : ‘STRING’,
‘Date’ : ‘STRING’,
‘Impressions’ : ‘INTEGER’,
‘Clicks’ : ‘INTEGER’,
‘Cost’ : ‘FLOAT’
>
>

//статистика с разбивкой по поисковым фразам
CONDITIONS: ‘WHERE Impressions > 0 AND AdNetworkType1=SEARCH’,
FIELDS: <'CampaignId' : 'STRING',
‘CampaignName’ : ‘STRING’,
‘Criteria’ : ‘STRING’,
‘Cost’ : ‘FLOAT’,
‘Impressions’ : ‘INTEGER’,
‘Clicks’ : ‘INTEGER’,
‘Date’ : ‘STRING’
>
>

//статистика с разбивкой по объявлениям в КМС (удаленные объявления не попадают в отчет)
CONDITIONS: ‘WHERE Impressions > 0 AND AdNetworkType1=CONTENT’,
FIELDS: <'CampaignId' : 'STRING',
‘CampaignName’ : ‘STRING’,
‘AdType’ : ‘STRING’,
‘Headline’ : ‘STRING’,
‘HeadlinePart1’ : ‘STRING’,
‘HeadlinePart2’ : ‘STRING’,
‘ImageCreativeName’ : ‘STRING’,
‘Cost’ : ‘FLOAT’,
‘Impressions’ : ‘INTEGER’,
‘Clicks’ : ‘INTEGER’,
‘Date’ : ‘STRING’
>
>

//статистика с разбивкой по удаленным объявлениям в КМС (при внесении изменений в объявление в AdWords система его удаляет и создает новое)
CONDITIONS: ‘WHERE Impressions > 0 AND AdNetworkType1=CONTENT AND Status=DISABLED’,
FIELDS: <'CampaignId' : 'STRING',
‘CampaignName’ : ‘STRING’,
‘AdType’ : ‘STRING’,
‘Headline’ : ‘STRING’,
‘HeadlinePart1’ : ‘STRING’,
‘HeadlinePart2’ : ‘STRING’,
‘ImageCreativeName’ : ‘STRING’,
‘Cost’ : ‘FLOAT’,
‘Impressions’ : ‘INTEGER’,
‘Clicks’ : ‘INTEGER’,
‘Date’ : ‘STRING’
>
>

Все доступные отчеты можно посмотреть по этой ссылке. Также есть скрипт для MCC аккаунта.

Если нам нужен только один отчет по кампаниям, то REPORTS будет выглядеть так:

RECIPIENT_EMAILS — email, на который будут приходить уведомления.

Полученный скрипт нужно добавить в аккаунт AdWords -> Массовые операции -> Скрипты.

Задержка обновления статистики в AdWords может составлять до трех часов, поэтому ежедневное выполнение скрипта рекомендуется запланировать на 3 часа утра или позже. Будут доступны данные до вчерашнего дня включительно.

Если все прошло успешно, то после первого выполнения скрипта в BigQuery должна появиться таблица advertising_systems.CAMPAIGN_PERFORMANCE_REPORT, как на скриншоте ниже. Она будет содержать статистику по кампаниям по дням. Следует помнить, что расход в AdWords не включает НДС.

2. Загрузка данных из Яндекс.Директа

Для загрузки данных из Яндекс.Директа мы используем библиотеку ryandexdirect на языке R, разработанную Алексеем Селезневым, Head of Analytics Department at Netpeak. Скрипт выполняется ежедневно на локальном компьютере по расписанию и загружает данные до вчерашнего дня включительно. Итак, порядок действий:

2.1) Установите актуальную версию языка R и R Studio. Инсталлируйте пакеты ’devtools’, ’bitops’, ’ryandexdirect,’bigrquery’’. Подробности в статье Алексея.

2.2) Получите токен для доступа к Директу через R, используя команду yadirGetToken().

2.3) Скрипт на языке R для получения данных из Директа и их записи в BigQuery будет иметь вид:

print(Sys.time())
library(ryandexdirect)
library(bigrquery)
setwd(«C:/work/Dropbox/R»)

ya_token update 2020-01-22
Альтернативный вариант загрузки расходов из рекламного кабинета Facebook без использования R рассматривается в статье Загрузка статистики из «ВКонтакте» и Facebook в Google BigQuery.

С рекламной платформой Facebook будем работать также используя R библиотеку rfacebookstat Алексея Селезнева.

3.1) Будем считать, что у вас установлен R и библиотеки из пункта про Яндекс.Директ. Установите дополнительно пакеты ‘rfacebookstat’ и ‘zoo’.

3.2) Создайте приложение в Facebook, как написано в статье Алексея. Получите краткосрочный токен для работы, затем измените его на долгосрочный.

3.3) Скрипт для выгрузки расходов по дням будет иметь вид:

print(Sys.time())
library(rfacebookstat)
library(bigrquery)
library(zoo)
setwd(«C:/work/Dropbox/R»)

fb_token update 2020-01-22
R-библиотека rvkstat была обновлена, и теперь с ее помощью можно выгружать статистику из рекламного кабинета. Подробнее: Загрузка статистики из «ВКонтакте» и Facebook в Google BigQuery.

У Алексея Селезнева есть R-библиотека rvkstat, но она выгружает только данные о посетителях сообществ «ВКонтакте» по дням, в разрезе возрастных групп, пола и геолокации посетителей. Нам же нужна статистика из рекламного кабинета. Мы будем выгружать ее вручную через экспорт статистики в CSV-файл. «ВКонтакте» отдает информацию в кодировке ‘cp-1251’. Если в названиях ваших кампаний используется кириллица, не забудьте перекодировать файл в текстовом редакторе в UTF-8.

Выгрузку мы делаем каждый понедельник за прошлую неделю и дописываем новые данные вручную в общий файл vk.csv, содержащий статистику за все периоды в следующем виде:

Затем вручную загружаем файл vk.csv в BigQuery в таблицу advertising_systems.vk. Способы загрузки данных описаны в вводной статье про BigQuery.

5. Загрузка данных из MyTarget

Алексей Селезнев подготовил R-библиотеку rmytarget, аналогичную ryandexdirect и rfacebookstat, которая помогает получить список клиентов агентств из аккаунта MyTarget, список и общие параметры рекламных кампаний по каждому из проектов, а также детальную статистику по кампаниям за каждый день. Не будем занимать место в статье переписыванием справки, в ней всё описано достаточно понятно.

Стоит добавить, мы не используем автоматический экспорт из MyTarget по двум причинам:

  • в одной кампании MyTarget можно указать только одну utm-метку, то есть по сути одна кампания MyTarget будет эквивалентна одному объявлению в других рекламных системах. Это создает дополнительные сложности со сбором и трактовкой данных;
  • бюджеты в этой системе у нас совсем небольшие, и часто рекламу мы отключаем полностью.

Кроме того, чем сложней система, тем больше ошибок, поэтому расходы из MyTarget мы указываем вручную — об этом ниже.

6. Единичные размещения

Статистику по нерегулярным ручным размещениям будем самостоятельно заполнять в обычном файле Google Spreadsheets, как на скриншоте ниже. Документ должен содержать:

  • utm_channel — рекламный канал;
  • name — название кампании;
  • month — месяц;
  • impressions — количество показов в этой кампании за отчетный период (если неизвестно — 0);
  • clicks — количество кликов аналогично показам;
  • cost — стоимость размещения.

Для загрузки данных в BigQuery будем использовать бесплатный плагин для браузера OWOX BI BigQuery Reports. Название таблицы — advertising_systems.manually.

7. Построение отчетов

Итак, в BigQuery есть пять таблиц, содержащих расходы на платные каналы трафика (для простоты не будем учитывать возможные таблицы за прошлые периоды):

  • advertising_systems.CAMPAIGN_PERFORMANCE_REPORT (AdWords),
  • advertising_systems.direct,
  • advertising_systems.facebook,
  • advertising_systems.vk,
  • advertising_systems.manually.

Для анализа, у вас в BigQuery должны быть загружены данные о конверсиях пользователей, возможно их платежи, звонки и любая другая необходимая информация. Мы возьмем простейший случай, и посчитаем регистрации на сайте (событие Google Analytics), которые передаются с помощью OWOX BI Streaming в Google BigQuery.

Чтобы сеансы и конверсии в Google Analytics соотнеслись с кампаниями в статистике расходов, рекламные ссылки должны быть размечены UTM-метками (кроме объявлений в AdWords, где используется автопометка). Название кампании в рекламной системе должно совпадать с utm_campaign в ссылке. Для Яндекс.Директа можно использовать автоматическую UTM-разметку в еЛаме. В Facebook, «ВКонтакте», MyTarget и любых нерегулярных размещениях utm-метки прописываем вручную в рекламных системах.

SQL-запрос для построения отчетности по месяцам вы можете скачать по ссылке. Это упрощенный для наглядности пример. SQL-запрос зависит от структуры данных и может быть иным. Его можно дополнять платежами клиентов, разбивать данные по неделям вместо месяцев, разбить кампании по типам, привязать к ID кампаний вместо названий, добавить дополнительные конверсии и т. д. Детальный разбор построения отчетов выходит за рамки темы этой статьи.

Фрагмент SQL-запроса для формирования отчета по платным каналам:

SQL-запрос можно выполнять прямо в BigQuery — отчет будет в виде таблицы. Или же строить отчет в Google Spreadsheets с помощью OWOX BI BigQuery Reports (он будет выполнятся по запросу с сервера OWOX), причем отчет можно поставить на ежедневное обновление по расписанию.

Фрагмент полученного из BigQuery отчета по анализу платных каналов:

Обычно мы создаем дополнительный лист-отчет в Google Spreadsheets, на котором располагаем элементы в необходимой последовательности, а данные являются ссылками на лист-таблицу с результатом выполнения SQL-запроса из BigQuery. Для визуализации можно воспользоваться стандартными диаграммами в Google Spreadsheets, Google DataStudio, Redash или другими инструментами.

Заключение

Настроив загрузку данных о работе и расходах на рекламу, мы храним всю статистику по рекламным кампаниям в одном месте и можем строить или визуализировать отчетность по нашему усмотрению. БОльшая часть статистики из систем контекстной рекламы загружается ежедневно автоматически. Отчеты тоже обновляются автоматически ежедневно, а мы избавились от многих рутинных операций.

Недостаток описанных методов заключается в том, что статистика собирается на уровне кампании. Поэтому для детального анализа групп объявлений за небольшие промежутки времени мы используем импорт расходов в Google Analytics OWOX BI Pipeline и стандартные отчеты аналитической системы.

Понравилась статья? Поделиться с друзьями:
Все языки программирования для начинающих