Big Data знакомство с одной из самых сексапильных IT-специальностей 21 века


Содержание

BIG DATA ЗНАКОМСТВО С ОДНОЙ ИЗ САМЫХ СЕКСАПИЛЬНЫХ IT СПЕЦИАЛЬНОСТЕЙ 21 ВЕКА GEEKBRAINS

Слушать

Длительность: 1 ч, 32 мин и 46 сек

Размер: 122.09 MB

Битрейт: 192 Kbps

What Is Hadoop Sql Comparison

Алексей Натекин Мифы Big Data И Machine Learning

El Big Data En 3 Minutos

Nasscom Big Data Analytics Summit 2020 Session I Opening Keynote

Top 5 Programming Languages To Learn In 2020 To Get A Job Without A College Degree

What Is Big Data Computerphile

Основы Sql 1 Введение

Big Data Tools And Technologies Big Data Tools Tutorial Big Data Training Simplilearn

Основы Локальных Сетей Lan Ethernet

1 Природа Информации 1 Информация И Числа В Компьютере Программирование С Нуля

How To Become A Big Data Engineer Big Data Engineer Career Path Salary And Skills Edureka

What Is Big Data And How Does It Work

Уникальный Мастер Класс Мгновенный Анализ Данных С Помощью Excel Олег Видякин

Using Mysql To Handle Large Amounts Of Data

Apache Spark On Kubernetes Anirudh Ramanathan Tim Chen

What Is Big Data Analytics

Machine Learning Tutorial 5 Big Data Data Warehouse Hadoop Federation

Bigdata Лекция 2 Python

Lecture on Computer Science

C Урок 0 Установка Code Blocks Создание Проекта

Аналитика Big Data Что Это Такое И Как Сюда Попасть

Образовательный портал GeekBrains


Сейчас скачивают

Tarkan Vs Filip Kirkorov 2

Big Data Знакомство С Одной Из Самых Сексапильных It Специальностей 21 Века Geekbrains

Dr Kucho Belmondo Rulez 2 0

Fnati Nightmare Before Disney Episode 2 Fnati Nbd Wiki Is Up

Gachalife Outfit Ideas Girls 1

Lego Наборы И Самоделки Самолёт Airbus A319

Leziprod Мы Два Океана

Vanello Planet Synth Spacesynth

Moros Y Cristianos 2001 En Crevillente 2

Full Lucunya Ceramah Ustadz Akri Patrio Haul Ke 7 K H Zainuddin Mz April 2020

Тюнинг Москвич 412 Tuning Moskvich 412

Бек Борбиев Кыргызстан

Боги Арены Гильгамеш Ios 55

Insane Delta Pokemon Find Pokemon Insurgence Let S Play Episode 7

Saturday Lunch Hour Service 17Th March 2020

Team Fortress 2 Скаут Шпион

Ты Красивая И Кайфовая

Jodha Akbar Hindi Serial Full Episode 179 Zee Tv Show

Big Data: знакомство с одной из самых сексапильных IT-специальностей 21 века

QR-код с URL-адресом:

Ссылка на страницу с видео:

HTML-ссылка на страницу с видео:

Код для вставки плеера:

Комментарии к этому видео:

Последние комментарии на сайте

ЛУЧШИЕ ВИДЕО КВАЙ И ЛАЙК 2020 | ПРИКОЛЫ Kwai и Likee Самые Няшные и Прикольные Видео
⇒ «Очень смешное видео. Захожу сюда часто для того чтобы, прикольными и смешными видеороликами поднять себе настроение. Данное видео пересмотрел несколько раз и каждый раз смотрел его с интересом как в первый раз). Особенно понравились видео про типы. »
Добавлено — 13.11.2020 КАССИРШИ — Серия 1 / Мелодрама
⇒ «Идея сериала мало чем отличается от остальных российских фильмов: вечные несчастные поиски любви с оптимистичным концом сериала. К слову сказать, это меня и привлекает в такого рода фильмах: заранее известно, что у героев все наладится, они . »
Добавлено — 13.11.2020 Одноногий дебошир разнес в Рязани продуктовый магазин. Видео — Россия 24
⇒ «Происшествие действительно крайне ужасное, и жестокое, мужчина вместо того попросить помощи у сотрудников магазина, начал устраивать концерт на публику. Начал крушить все вокруг, крушить тот товар, которые работники складываю всю ночь. Чтоб утром . »
Добавлено — 13.11.2020 Топ10 СУХАРИКОВ!
⇒ «Раньше любила всякие сухарики. Сейчас зубы порастеряла с годами, люблю те, что помягче и потоньше из серии «лайт». Обычно выбираю их из белого хлеба, но вот некоторые вкусы нравятся лишь с ржаными сухариками. Из вкусов выделяю как раз семгу с сыро. »
Добавлено — 13.11.2020 СЕРИАЛ ВЫЖИВАНИЕ БОМЖА В РОССИИ 5 ЧАСОВ / МАЙНКРАФТ от БОМЖИКА АИДА
⇒ «Круто»
Добавлено — 13.11.2020


Смотрите и скачивайте видео из YouTube в высоком качестве.

Big Data Знакомство С Одной Из Самых Сексапильных It Специальностей 21 Века Geekbrains — скачать mp3

Слушать

Длительность: 1 ч, 32 мин и 46 сек

Размер: 122.09 MB

Битрейт: 192 Kbps

What Is Hadoop Sql Comparison

Алексей Натекин Мифы Big Data И Machine Learning

El Big Data En 3 Minutos

Nasscom Big Data Analytics Summit 2020 Session I Opening Keynote

Top 5 Programming Languages To Learn In 2020 To Get A Job Without A College Degree

What Is Big Data Computerphile

Основы Sql 1 Введение

Big Data Tools And Technologies Big Data Tools Tutorial Big Data Training Simplilearn

Основы Локальных Сетей Lan Ethernet

1 Природа Информации 1 Информация И Числа В Компьютере Программирование С Нуля

How To Become A Big Data Engineer Big Data Engineer Career Path Salary And Skills Edureka

What Is Big Data And How Does It Work

Уникальный Мастер Класс Мгновенный Анализ Данных С Помощью Excel Олег Видякин

Using Mysql To Handle Large Amounts Of Data

Apache Spark On Kubernetes Anirudh Ramanathan Tim Chen

What Is Big Data Analytics

Machine Learning Tutorial 5 Big Data Data Warehouse Hadoop Federation

Bigdata Лекция 2 Python

Lecture on Computer Science

C Урок 0 Установка Code Blocks Создание Проекта

Аналитика Big Data Что Это Такое И Как Сюда Попасть


Образовательный портал GeekBrains

Сейчас скачивают

Big Data Знакомство С Одной Из Самых Сексапильных It Специальностей 21 Века Geekbrains

Todd Rundgren Bang The Drum All Day 1983

Zara Larsson Lush Life Kalervo Remix

Катя Nova Пофiгу

George Clanton Live At Lodge Room 1 26 2020

Conta Google Samsung Android 9 0 Sem Pc J4 J6 A8 A10 A20 A30 A50 A70

Л Сергеев Гнездо Глухаря 22 10 2020 3 Отделение

Lirik Soni Soni Ost Mohabbatein

Oppo Reno 2 Full Specs Revealed

Jake Hill Murderers Regret Lyrics

Mudhoney Make It Now Again

Doctor Who Soundtrack The Master Vainglorious

Дуъо Барои Хифз Аз Шайтон Дуа Против Шайтана Дунёи Ислом

Традиционная Смена Юные Дарования Забайкалья Завершила Свою Работу

Как Ухаживать За Губами Или Бальзам Для Губ Pro Botanic Компании Tiande

Kenya From The Air

Diwali Dhanteres Mein Kitchen Ka Kya Naya Saman Diwali Shopping 2020

Learning Curve Theory

Сейчас слушают

Toy Teenager Starcrawler

Down To The Bone Scooter

You Re Not The Only One Sam Fender

Евген Дорогами Судьбы

Cage The Elephant Dance Dance


Outta Control Feat Pitbull Baby Bash

Детские Сны Звезда Academy Красивая Колыбельная

Luke Christopher Hathaway

Legend Spencer Ludwig

Злата Кудинова Ты Теперь Далеко

Maruv Drunk Groove Kolya Funk Mephisto Extended Mix

Я Не Могу Иначе Валентина Толкунова Эстрадно Симфонический Оркестр Центрального Телевидения И Всесоюзного Радио Александра Пахмутова

Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века [GeekBrains]

Смотреть видео Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века [GeekBrains] онлайн, скачать видео.

105 | 11
Образовательный портал GeekBrains | 3 год. назад

Начни карьеру с бесплатного курса «Основы программирования» https://goo.gl/jTP4nP

Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века.

На вебинаре мы в увлекательной и доступной форме познакомимся с невероятной Вселенной анализа данных и искусственного интеллекта.

Мы увидим, что происходит, когда в пространствах огромной размерности компьютер оказывается сильнее человека, когда эксперты пасуют перед машиной.

Попытаемся разобраться, почему журналисты иногда называют анализ данных одной из самых сексапильных специальностей нового века.

Вместе мы дадим ответы на следующие вопросы:
— можно ли научить компьютер предсказывать будущую цену вина лучше, чем это делает эксперт?
— могут ли машины предугадывать решения Верхового суда?
— как набрать лучших футболистов в команду?
— как с помощью компьютера узнать основные факторы риска для здоровья?

Мы познакомимся с основными задачами, стоящими перед специалистами в области анализа данных. Узнаем, как научить компьютер учиться и делать выводы. Поговорим о различных задачах обучения и об арсенале средств, используемых при работе с данными.

Цукерберг рекомендует:  Yii2 - YII2 framework Профессиональная разработка на веб

И в итоге решим одну из задач анализа данных в прямом эфире: всего за несколько минут мы напишем программу, способную предсказывать тип раковой опухоли.

Аудитория: программисты, аналитики, алгоритмисты, статистики, менеджеры. Уровень слушателей: начинающий.

Подписывайся на наш канал и смотри новые видео первым: https://www.youtube.com/progliveru

Проходи бесплатные курсы: https://goo.gl/4gG8TL
Выбери профессию: https://goo.gl/WSdYSE
Смотри вебинары: https://goo.gl/bBVKcb
Читай статьи: https://goo.gl/XfJNqc
Проверяй знания: https://goo.gl/gqKSsw

ВКонтакте https://vk.com/geekbrainsru
Facebook https://www.facebook.com/geekbrains.ru
Одноклассники https://ok.ru/geekbrains
Telegram https://t.me/geekbrains_ru
Instagram https://www.instagram.com/geekbrains.ru/

#bigdata #geekbrains #программирование #курсыпрограммирования

Big Data: знакомство с одной из самых сексапильных IT-специальностей 21 века

Анализ данных (Big Data) одна из самых сексапильных IT специальностей 21 века — вебинар
слайды: www.slideshare.net/igorkleiner5/ss-53223569

На вебинаре мы в увлекательной и доступной форме познакомимся с невероятной Вселенной анализа данных и искусственного интеллекта.

Мы увидим, что происходит, когда в пространствах огромной размерности компьютер оказывается сильнее человека, когда эксперты пасуют перед машиной.


Попытаемся разобраться, почему журналисты иногда называют анализ данных одной из самых сексапильных специальностей нового века.

Вместе мы дадим ответы на следующие вопросы:

— можно ли научить компьютер предсказывать будущую цену вина лучше, чем это делает эксперт?
— могут ли машины предугадывать решения Верхового суда?
— как набрать лучших футболистов в команду?
— как с помощью компьютера узнать основные факторы риска для здоровья?

Мы познакомимся с основными задачами, стоящими перед специалистами в области анализа данных. Узнаем, как научить компьютер учиться и делать выводы. Поговорим о различных задачах обучения и об арсенале средств, используемых при работе с данными.

И в итоге решим одну из задач анализа данных в прямом эфире: всего за несколько минут мы напишем программу, способную предсказывать тип раковой опухоли.

Аудитория: программисты, аналитики, алгоритмисты, статистики, менеджеры.

От Идеи к Успешному Проекту

Mentoring * Coaching * Consulting

Анализ данных (Big Data) одна из самых сексапильных IT специальностей 21 века

Несколько лет назад Игорь провел популярный вебинар где он рассказал о анализе данных. Прошло 3 года, но вебинар не утратил своей актуальности.

Comments are closed.

От читателей и учеников

Итак. Мы прошли курс по созданию сайтов с помощью CMS с открытым кодом.
Курс оказался очень практичным и действенным. Мы последовательно шли к нашей цели. Особенно понравился раздел, где мы рассматривали, как и где выбирать себе Платформу для работы.

Профессии Big Data: кто здесь работает и как сюда попасть

Экскурс: больше data science

Наука о данных ведет свою историю с 1966 года. Именно тогда в Париже появился Комитет по данным для науки и техники при Международном научном совете. Однако, долгое время выражение «data science» можно было услышать только в узких кругах статистиков и ученых. Лишь в начале 2000-х термин стал общепризнанным в Америке и Европе, а с появлением и распространением хайпа вокруг Big Data традиционная наука о данных получила новое дыхание.

Внезапно аналитики стали нужны всем: бизнесу и государству, интернету и сельскому хозяйству. В 2011 году McKinsey подливает масла в огонь: по их предсказаниям, к 2020 году только в США потребуется больше 400 тысяч аналитиков данных. Где же их столько взять? В 2013 году университеты запускают магистратуру по data science, а бизнес-школы плодят курсы для Big Data специалистов.

В России происходит все то же самое, но чуть медленнее. На сегодняшний день количество вакансий, связанных с big data, на hh.ru переваливает за тысячу. При этом, отрасль остается новой и загадочной: большие данные притягивают специалистов и одновременно отпугивают. Сегодня будем развеивать страхи и изгонять жаждущих легких денег. Если вы до сих пор думаете, что работа с big data – это нечто, связанное со сверхспособностями и единорогами, приготовьтесь к погружению в реальность.

Big data профессии по полочкам

Добро пожаловать в отдел социальной аналитики Eastwind. Здесь наши коллеги создают и развивают платформу Social Analytics. Этот продукт помогает телеком-операторам и бизнесу собирать сырые неструктурированные данные и преобразовывать их в инсайты о клиентах. За удобными юзер интерфейсами и результатами кейсов, скрывается большой труд ребят из отдела социальной аналитики.

Заметим, что в зависимости от страны, компании и специфики бизнеса профессии подобного отдела могут называться по-разному. Некоторые (больше принято на зарубежном рынке) дробят функции big data специалистов и получают узконаправленных экспертов. Но в общем, все профессии, тесно связанные с Big Data, можно разделить на два основных направления: анализ данных и разработка.

В соответствующих рабочих группах Eastwind мы попросили рассказать: в чем суть работы аналитиков и разработчиков отдела, какие технологии они используют, с каким бэкграундом люди обычно приходят в big data и что нужно специалистам для успеха в этой индустрии.

Data scienist или аналитик big data

Суть работы:

– Человек продуцирует много фиксируемых событий. Например, у операторов это звонки и трафик, у банков – транзакции, в ритейле – посещения и покупки. Мы выявляем закономерности в этих данных, чтобы использовать их для бизнеса, – рассказывает Андрей Плющенко, руководитель группы анализа данных в Eastwind. – Работаем с сырой информационной историей. Из необработанных данных нам нужно убрать мусор и оставить то, что позволит лучше охарактеризовать людей, предсказать их поведение. Все это помогает бизнесу понять: какой товар или услуга вероятнее всего заинтересуют клиента. А также: когда это произойдет, стоит ли предоставлять ему кредит доверия и так далее. В нашей группе мы строим поведенческие модели, тестируем их и настраиваем алгоритмы machine learning – все кодим на python.

Бэкграунд и технологии:

– Обычно в анализ больших данных приходят математики. Я сам математик, –продолжает Андрей. – Также нужно разбираться в программировании, понимать, что такое big data в принципе, а главное – быть творческим человеком. Нам ведь постоянно приходится что-то придумывать, генерировать идеи, искать инсайты. Если говорить о технологиях, то для работы достаточно знать python, что-нибудь о распределенных вычислениях и устройстве кластеров данных.


– Я пришла в big data из java-разработки, – делится Ольга Анненкова, группа анализа данных Eastwind. – Просто плавно перешла из одной группы в другую, вместе со своими задачами. Сейчас сама разработка стала более аналитической. Сложность нашей работы в том, что постоянно появляются новые продукты, нам нужно очень быстро внедрять их и разбираться, как они работают, несмотря на баги. Интересно, потому что мы работаем с настоящими конфиденциальными данными и можем видеть результат своих вычислений и верность предсказаний в реальной жизни. Аналитика big data – это труд программиста, математика и исследователя в одной специальности.

Важно для успеха:

– Чтобы работать в анализе больших данных, нужно иметь скилы из разных областей, – добавляет Михаил Чернышев, группа анализа данных Eastwind. – Уметь делать визуализации, обладать фантазией и терпением. Не факт, что модель, которую ты придумаешь, сработает с первого раза.

– Самое сложное и начинается, когда тебе нужно тюнинговать созданную модель, – подтверждает Дмитрий Журавлев, группа анализа данных Eastwind. – Для создания и улучшения метрик важно с разных сторон смотреть на проблему.

– Главные компетенции рождаются при решении промышленных задач. Нельзя пройти курсы, почитать теорию, вдохновиться модой и стать успешным big data аналитиком, – объясняет Андрей Плющенко. – С сырой историей работать всегда сложнее, чем с готовыми фичами, которые дают на конкурсах. В каждой компании – свои специфические задачи, к решению которых нужно подходить индивидуально. Нужно приготовиться, что в работе с big data нет шаблона. Поэтому, после освоения базы, вам придется постоянно совершенствоваться. Но будет интересно.

Data engineer или разработчик в сфере big data

Суть работы:

– Мы занимаемся структурным обеспечением группы аналитиков. Другими словами, делаем так, чтобы им было проще работать с большими объемами данных, с кластерными и операционными системами, – рассказывает Шерзод Гапиров, руководитель группы разработки в отделе аналитики Eastwind. – В идеале, аналитики не должны углубляться в программирование. Им это не особо интересно и отвлекает от основного – построения моделей и работы с вычислениями.

– Разработчики в big data – это саппорт аналитикам, – дополняет Сергей Сычев, разработчик в отделе аналитики Eastwind. – Мы оптимизируем рутинные процессы, разрабатываем приложения для работы с данными. Решаем технические задачи, вроде шифрования информации. Так как область новая, зачастую нам приходится изобретать какие-то «костыли», писать новые скрипты и сразу вводить в работу.

Бэкграунд и технологии:

– В отдел аналитики мы берем людей из любой области разработки, — делится Шерзод Гапиров. – Важно, чтобы был хороший опыт программирования, понимание реляционных баз данных и работы систем – Linux, Hadoop. Еще хорошо бы знать языки java и scala. Если такая база есть, специфике big data мы обучаем с нуля.

– У нас есть кластер Cloudera, в его стеке – Oozie, HDFS, Spark. Во фронтенде мы используем React, – перечисляет технологии Сергей Сычев. – Но самое главное, в работе нашей группы – постоянно следить за новинками, внедрять их, быть на волне. Способность к обучению в big data разработке я бы поставил выше всего.

Важно для успеха:

– Наш человек – технарь. Тот, кто любит покрутить гаечки или разобрать технику, чтобы понять, как она работает, — говорит Шерзод Гапиров. – Чтобы преуспеть в этом, нужно просто проявлять упорство. Со стороны Big Data кажется сложной и возвышенной областью, потому что люди мало с ней знакомы. По факту, когда разберешься и вникнешь – big data разработка становится обычной инженерной работой и не отличается от любого другого программирования.

Цукерберг рекомендует:  Директива safe_mode = on, mkdir и решение проблем создания папок на сервере

Профессии около big data

Рассказывая о специальностях отрасли, нельзя не упомянуть некоторые «вспомогательные» профессии. Это люди, которые напрямую не работают с большими данными, но тесно связаны с развитием многих аналитических платформ. Это тот случай, когда вы не математик и не технарь, но все-таки можете похвастаться, что крутитесь в сфере Big data. ;)

Дизайнер интерфейсов. Этот человек упаковывает все сложные вычисления и технологии в простую форму.Особенность создания интерфейсов аналитических платформ – большое количество параметров данных. Дизайнер делает так, чтобы пользователь по ту сторону экрана мог легко во всем разобраться и запускал собственные исследования без глубокого погружения в предметную область big data.

«Для создания интерфейсов к аналитическим платформам нужно разбираться в web-разработке, UX-дизайне и обладать чувством прекрасного, – объясняет Александр Иноземцев, руководитель группы веб-интерфейсов в Eastwind. – Нужно уметь поставить себя на место человека, который будет пользоваться интерфейсом, и сделать процесс управления максимально удобным и простым для него».

Продакт-менеджер. Этот человек продвигает аналитическую платформу в живой бизнес-среде: участвует во внедрении, развивает систему по потребностям заказчика и требованиям рынка. Он должен хорошо разбираться в продукте и быть связующим звеном между разработчиками и компанией.

«Для нашего технического отдела – я менеджер, который работает с клиентом. А клиенты часто считают меня технарем, — рассказывает Александр Павлов, менеджер продукта Eastwind Social Analytics. – Это отражает особенность профессии менеджера big data продукта: быть в равной степени погруженным в коммерческие нужды и технические возможности, понимать логику исследований данных и быть первым объективным тестировщиком UI».

Где учиться, чтобы взяли на работу

Если вы не передумали погружаться в Big Data, и готовы разбираться в теме: поищите подходящие программы на Coursera, послушайте, что рассказывают в Школе анализа данных от Яндекс и рассмотрите курсы от Open Data Science. Также сейчас ведут онлайн-курсы многие зарубежные университеты: например, введение в big data от Калифорнийского Berkeley или введение в data science от Массачусетского института технологий. Этот вариант подойдет, если ваш английский выше технического. Есть магистерские программы и в российских ВУЗах.

«Мы берем людей после таких курсов. Их большой плюс в том, что они уже понимают специфику отрасли, – говорит Андрей Плющенко, руководитель группы анализа данных в Eastwind. – На собеседовании я обычно задаю базовые вопросы по machine learning. Например, что такое классификация, регрессия и кластеризация? Или: что сделать, чтобы не переобучиться? Есть и вопросы с подвохом, но даже если человек на них не ответил – не значит, что его не возьмут. Намного важнее, чтобы специалист понимал, что сейчас он на старте, и был готов к прокачке.Почему глупо требовать большой опыт в этой области? На Урале сильная математическая и программистская школа, а вот применить свои знания ребятам, которые решили стать аналитиками данных – почти негде. Даже Яндекс сократил своих местных дата сайнтистов. Поэтому многие уезжают в Москву, более амбициозные – за рубеж. В Екатеринбурге мы – одни из немногих, у кого есть полноценный аналитический отдел».

Big data – работа «что надо»?

Мы выяснили, что в отрасли больших данных нет ничего магического и, при желании, – туда не так трудно попасть, как кажется. Потребуются лишь способности к математике, логике и программированию. А еще умение творить, видеть задачи под разным углом и понимать людей и бизнес одновременно. Ну и в идеале – нужно быть терпеливым, настойчивым, всегда готовым к новому и проходить сквозь стены. Ой, последнее – лишнее. :)

В общем, берем свои слова насчет «не так трудно» обратно. Уровень сложности зависит исключительно от ваших индивидуальных способностей и желаний. Примеряйте на себя профессии, проверяйте свои скилы и ищите то, что вам подходит. Нашли? Тогда спасибо за внимание и добро пожаловать в Big Data


Ваш персональный курс по Big Data

После публикации нескольких статей по Big Data и Машинному обучению, ко мне пришло немало писем от читателей с вопросами. За последние несколько месяцев мне удалось помочь многим людям сделать быстрый старт, некоторые из них — уже решают прикладные задачи и делают успехи. А кто-то уже устроился на работу и занимается решением реальных задач. Моя цель — чтобы вокруг меня были умные люди, с которыми в том числе и я смогу работать в дальнейшем. Поэтому я хочу помочь тем, кто действительно хочет научиться решать настоящие задачи на практике. В сети присутствует большое количество мануалов о том, как стать ученым по данным (Data Scientist). В свое время я прошел все, что там есть. Однако, на практике порой нужны совсем другие знания. О том, какие именно навыки нужны — я расскажу в сегодняшней статье и постараюсь ответить на все Ваши вопросы.

Если загуглить «How to become a Data Scientist», можно наткнуться на множество картинок вроде этой или этой. В целом, все, что там написано — действительно так. Но, изучив все это, не гарантируется, что вас ждет успех в решении реальных задач на практике. В целом, можно пойти путем, изложенным на изображениях выше — а именно, учиться самостоятельно, после чего пойти и решать реальные задачи. Можно поступить иначе — пойти получить специальное образование. В свое время мне довелось пройти и тот и другой путь — и курсы Coursera, и Школу Анализа Данных и множество других курсов в ВУЗе, в том числе по компьютерному зрению, анализу веб-графов, Large Scale Machine Learning и др. Мне повезло учиться у лучших преподавателей — и пройти лучшие курсы, какие только есть. Но только после того, как я начал применять полученные знания на практике, пришло понимание, что в курсах зачастую не уделяется должное внимание практическим проблемам, либо они не усваиваются до тех пор, пока сам на них не наткнешься. Поэтому, я постараюсь изложить набор минимальных навыков, которых будет достаточно для того, чтобы как можно скорее начать решать задачи на практике.

Станьте отличным математиком

Да, это наверное самое важное — математическое мышление, которое надо развивать в себе постоянно с младших лет. Для тех, кто, возможно это упустил, стоит начать с курсов по Дискретной математике — это полезно вообще для всех людей, которые работают в IT. На этом основаны все доказательства и рассуждения в дальнейших курсах. Рекомендую пройти курс Александра Борисовича Дайняка, который когда-то я слушал очно. Этого должно быть достаточно. Здесь важно набрать навыки работы с дискретными обьектами.

После того, как вы научитесь оперировать дискретными обьектами, рекомендуется познакомиться с построением эффективных алгоритмов — для этого достаточно пройти небольшой курс по алгоритмам, вроде курса ШАДа или прочитав обзор известных алгоритмов на e-maxx.ru — довольно популярный сайт среди участников ACM. Здесь достаточно понимать, как реализовавывать алгоритмы эффективно, а также знать типичные структуры данных и случаи, когда их использовать.

После того, как ваш мозг научился оперировать с дисретными обьектами, а также развилось алгоритмическое мышление вам необходимо научиться мыслить в терминах теории вероятности. Для этого я рекомендую (заодно освежив знания в области дискретной математики) пройти курс моего научного руководителя Андрея Михайловича Райгородского, который умеет обьянять сложные вещи «на пальцах». Здесь важно научиться оперировать в терминах теории вероятности и знать основные понятия математической статистики.

В целом, этого хоть и мало, но на практике достаточно для того, чтобы иметь дело с дискретными обьектами и оперировать вероятностными величинами. Еще неплохо иметь представление о линейной алгебре, но, как правило, в курсах машинного обучения есть введения в необходимые разделы. Добавив к этому хорошие навыки программирования, можно стать неплохим разработчиком.

Научитесь писать код

Для того, чтобы стать хорошим разработчиком, конечно необходимо знать языки программирования и иметь опыт написания хорошего промышленного кода. Для ученого по данным достаточно знания, как правило, скриптовых языков, такие вещи, как шаблоны или классы, обработка исключений, как правило — не нужны, поэтому в них углубляться не стоит. Вместо этого неплохо знать хотя бы один скриптовый язык, ориентированный на научные и статистические вычисления. Наиболее популярные из них — это Python и R. Существует достаточно много хороший онлайн курсов по обоим языкам. Например, вот этот по Python или вот этот по R — в них даются базовые знания, достаточные для специалиста по данным. Здесь в первую очередь важно научиться работать с манипулированием данными — это 80% работы ученого по данным.

Пройдите основные курсы по машинному обучению

После того, как вы обрели хорошую математическую культуру и получили навыки программирования — самое время начать изучать машинное обучение. Я настоятельно рекомендую начать с курса Andrew Ng — т.к. этот курс остается до сих пор наилучшим введением в предмет. Конечно, в курсе проспускаются важные распространенные алгоритмы, вроде деревьев — но на практике, теоретических знаний, полученных в этом курсе вам будет достаточно для решения большинства задач. После этого настоятельно рекомендуется начать как можно скорее решать задачи на Kaggle — а именно, начать с задач из раздела Knowledge — в них есть хорошие Tutorials, в которых разбираются задачи — именно они нацелены на быстрый старт для новичков. Уже после этого можно подробнее познакомиться с оставшимися разделами машинного обучения и пройти полностью курс К.В.Воронцова по машинному обучению. Здесь важно получить целостное представление о задачах, которые могут возникать на практике, методах их решения и научиться реализовывать свои идеи на практике. Важно также добавить, что большинство алгоритмов машинного обучения уже реализовано в библиотеках, таких как scikit-learn для Python. Введение в Scikit-Learn я публиковал ранее.

Цукерберг рекомендует:  Капча с использованием jQuery

Практикуйтесь в построении алгоритмов

Участвуйте как можно больше в соревнованиях по машинному обучению — решайте как простые классические задачи, так и задачи в неклассической постановке, когда, например, нет обучающей выборки. Это необходимо для того, чтобы вы набрались различных методик и трюков, которые используются в задачах и помогают значительно увеличить качество полученных алгоритмов. О некоторых практически важных трюках я рассказывал ранее здесь и здесь.

После этого, вы уже, как правило готовы к построению хороших алгоритмов и к участию в денежных соревнованиях Kaggle, однако, пока ваши возможности ограничиваются работой с небольшими данными, которые помещаются в оперативной памяти вашей машины. Для того, чтобы иметь возможность работать с большими данными необходимо познакомиться с моделью вычислений Map-Reduce и инструментами, применяемыми для работы с большими данными

Познакомьтесь с большими данными

После того, как вы научились строить хорошие модели — необходимо научиться работать с большими данными. В первую очередь нужно познакомиться с методами хранения больших данных, а именно с файловой системой HDFS, которая входит в стек Hadoop, а также с моделью вычислений Map-Reduce. После этого необходимо познакомиться с остальными компонентами из стека Hadoop — а именно, как устроена YARN, как работает планировщик Oozie, как устроена NoSQL базы данных, такие как Cassandra и HBase. Как данные импортируются в кластер с помощью Apache Flume и Apache Sqoop. В сети пока еще мало курсов по этим разделам, наиболее полным справочником остается книга Hadoop: The Definitive Guide. Здесь важно понять особенности взаимодействия всех компонент Hadoop, а также способы хранения и вычислений на больших данных.

Познакомьтесь с современными инструментами

После изучения стека технологий Hadoop, вам необходимо познакомиться с фреймворками, которые используются парадигму Map-Reduce и с прочими инструментами, которые использутся для вычислений на больших данных. Часть из этих инструментов я описывал уже ранее. А именно — познакомьтесь с набирающем в последнее время популярность Apache Spark, который мы уже рассматривали здесь, здесь и здесь. Помимо этого рекомендуется познакомиться с альтернативными инструментами, работать с которыми вы можете даже не имея кластера — это инструмент, позволяющий строить линейные модели (обучая их в онлайн-режиме, не помещая обучающую выборку в оперативную память) Vowpal Wabbit, обзор которого мы делали ранее. Также, важно изучить простые инструменты из стека Hadoop — Hive и Pig, которые используются для несложных операций с данными в кластере. Здесь важно научиться реализовывать необходимые вам алгоритмы машинного обучения, как вы это делали ранее с помощью Python. Отличием является то, что теперь вы работаете с большими данными с помощью другой модели вычислений.

Изучите Real-Time инструменты обработки больших данных и вопросы архитектуры

Зачастую хочется строить системы, которые принимают решения в реальном времени. В отличие от работы с накопленными данными, здесь существует своя терминология и модель вычислений. Рекомендуется познакомиться с инструментами Apache Storm, который исходит из предположения, что единица обрабатываемой информации — это транзакция, и Apache Spark Streaming — в котором заложена идея о том, чтобы производить обработку данных мелкими кусками (batch‘ами). После этого у любого читателя возникнет вопрос — как выглядит архитектура кластера, в которой часть поступающих данных обрабатывается в режиме онлайн, а часть — накапливается для последующей обработки, как эти две компоненты взаимодействуют между собой и какие инструменты используются в каждом на каждом этапе хранения и обработки данных. Для этого я рекомендую познакомиться с так называемой лямбда-архитектурой, которая достаточно подробно описана на этом ресурсе. Здесь важно понимать, что на каждом этапе происходит данными, как они преобразуются, как они хранятся и как над ними происходят вычисления.

Итак, мы рассмотрели далеко не все знания и навыки, которые требуются для того, чтобы понимать, как на практике работать с Big Data. Но часто в реальных задачах на практике возникает множество трудностей, с которыми приходится работать. Например, элементарно может отсутствовать обучающая выборка или часть данных может быть известна с некоторой точностью. Когда же дело касается реально огромных массивов данных — то тут зачастую начинаются в том числе и технические трудности и важно знать не только методы машинного обучения, но и их эффективную реализацию. Более того, еще только появляются и развиваются инструменты, которые позволяют обрабатывать данные в оперативной памяти и часто нужно очень постараться, чтобы правильно их закэшировать, либо известная проблема мелких файлов того же Apache Spark — со всем этим приходится иметь дело на практике!

Напишите мне Ваши вопросы

Повторюсь, что публикуя статьи на хабре, я преследую цель подготовки людей для работы в Big Data, для того, чтобы в последствии с ними работать. За последние несколько месяцев мне удалось помочь многим людям сделать быстрый старт. Поэтому, я очень хочу с Вами познакомиться и ответить на текущие вопросы, помочь начать решать задачи или помочь с решением уже существующих. Дальше я буду наблюдать за вашим прогрессом (если Вы не против) и помогать, если это будет необходимо. Лучших людей я выберу и буду персонально готовить на протяжении ближайших нескольких месяцев, после чего, возможно, у меня к ним будут интересные предложения!

Не знаю, сколько писем придет на почту, сразу лишь скажу — что отвечать буду поздно вечером, либо ночью, т.к. днем я работаю). Постараюсь ответить на столько писем, насколько смогу.

Помимо цели обучения людей, я также хочу показать, что методы обработки «Big Data», про которые так любят рассказывать маркетологи, не являются «волшебной палочкой», с помощью которой можно творить чудеса. Я постараюсь показать, какие задачи сейчас решаются хорошо, какие возможно решить при желании, а какие — пока еще решать тяжело. После Ваших вопросов я напишу большой пост, в котором опубликую развернутые ответы. Давайте вместе развивать Data Science, потому что настоящих специалистов сейчас очень не хватает, а дорогих курсов хоть отбавляй.

Поэтому, все те, кто хотел бы научиться решать задачи, независимо от Вашего уровня подготовки — напишите мне на почту (al.krot.kav@gmail.com) письмо с темой Big Data, указав:

  • Информацию о себе: как вас зовут, чем занимаетесь, где работаете/учитесь
  • Ваш опыт: что пытались учить сами, что получилось/не получилось
  • Цели, которых хотите достичь: самый важный пункт — без этого письмо читать не буду)
  • Ваш непосредственный вопрос, если таковой уже есть


Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века [GeekBrains]

Смотреть видео Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века [GeekBrains] онлайн, скачать видео.

105 | 11
Образовательный портал GeekBrains | 3 год. назад

Начни карьеру с бесплатного курса «Основы программирования» https://goo.gl/jTP4nP

Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века.

На вебинаре мы в увлекательной и доступной форме познакомимся с невероятной Вселенной анализа данных и искусственного интеллекта.

Мы увидим, что происходит, когда в пространствах огромной размерности компьютер оказывается сильнее человека, когда эксперты пасуют перед машиной.

Попытаемся разобраться, почему журналисты иногда называют анализ данных одной из самых сексапильных специальностей нового века.

Вместе мы дадим ответы на следующие вопросы:
— можно ли научить компьютер предсказывать будущую цену вина лучше, чем это делает эксперт?
— могут ли машины предугадывать решения Верхового суда?
— как набрать лучших футболистов в команду?
— как с помощью компьютера узнать основные факторы риска для здоровья?

Мы познакомимся с основными задачами, стоящими перед специалистами в области анализа данных. Узнаем, как научить компьютер учиться и делать выводы. Поговорим о различных задачах обучения и об арсенале средств, используемых при работе с данными.

И в итоге решим одну из задач анализа данных в прямом эфире: всего за несколько минут мы напишем программу, способную предсказывать тип раковой опухоли.

Аудитория: программисты, аналитики, алгоритмисты, статистики, менеджеры. Уровень слушателей: начинающий.

Подписывайся на наш канал и смотри новые видео первым: https://www.youtube.com/progliveru

Проходи бесплатные курсы: https://goo.gl/4gG8TL
Выбери профессию: https://goo.gl/WSdYSE
Смотри вебинары: https://goo.gl/bBVKcb
Читай статьи: https://goo.gl/XfJNqc
Проверяй знания: https://goo.gl/gqKSsw

ВКонтакте https://vk.com/geekbrainsru
Facebook https://www.facebook.com/geekbrains.ru
Одноклассники https://ok.ru/geekbrains
Telegram https://t.me/geekbrains_ru
Instagram https://www.instagram.com/geekbrains.ru/

#bigdata #geekbrains #программирование #курсыпрограммирования

Big Data: знакомство с одной из самых сексапильных IT-специальностей 21 века

Анализ данных (Big Data) одна из самых сексапильных IT специальностей 21 века — вебинар
слайды: www.slideshare.net/igorkleiner5/ss-53223569

На вебинаре мы в увлекательной и доступной форме познакомимся с невероятной Вселенной анализа данных и искусственного интеллекта.

Мы увидим, что происходит, когда в пространствах огромной размерности компьютер оказывается сильнее человека, когда эксперты пасуют перед машиной.

Попытаемся разобраться, почему журналисты иногда называют анализ данных одной из самых сексапильных специальностей нового века.

Вместе мы дадим ответы на следующие вопросы:

— можно ли научить компьютер предсказывать будущую цену вина лучше, чем это делает эксперт?
— могут ли машины предугадывать решения Верхового суда?
— как набрать лучших футболистов в команду?
— как с помощью компьютера узнать основные факторы риска для здоровья?

Мы познакомимся с основными задачами, стоящими перед специалистами в области анализа данных. Узнаем, как научить компьютер учиться и делать выводы. Поговорим о различных задачах обучения и об арсенале средств, используемых при работе с данными.

И в итоге решим одну из задач анализа данных в прямом эфире: всего за несколько минут мы напишем программу, способную предсказывать тип раковой опухоли.

Аудитория: программисты, аналитики, алгоритмисты, статистики, менеджеры.

Понравилась статья? Поделиться с друзьями:
Все языки программирования для начинающих