Data science — Математика для Data Science


Содержание

Как работать в Data Science без ученой степени

Размышления и рекомендации от Data Scientist Джейсона Юнга

Введение

Привет, я хочу рассказать вам, как стать Data Scientist, не имея диплома (или просто бесплатно). По иронии судьбы, у меня есть диплом, и он даже имеет отношение к Data Science (Магистерская программа в Северо-Западном университете). Но до этого я работал бухгалтером в Deloitte. Странно, да? Я был далек от Data Science и всего технического. Мне приходилось много изучать онлайн самостоятельно после работы и даже во время магистратуры, чтобы догнать однокурсников, так как я пришел не из технической сферы. Как человек, прошедший через все это, могу с уверенностью сказать, что обучение в университете очень помогает, но совсем не обязательно. Мне кажется, раз я побывал по обе стороны — и диплом получил, и онлайн учился — я смогу дать вам особый взгляд. Получение магистерской степени в Data Science — хороший и быстрый способ попасть в эту сферу, но, к счастью, вовсе не единственный, особенно, если вы не хотите тратить $60–90 тысяч на обучение. Однако от вас потребуется строгая самодисциплина.

Если кто-то спросит меня, как попасть в Data Science, этот пост будет для них. Надеюсь, что мои советы будут актуальны и полезны; во время моего обучения мне очень помогали эти ресурсы. Прежде, чем мы углубимся в детали, давайте разберемся, что такое Data Science.

Чем занимается Data Scientist?

Пропустите этот пункт, если вы это уже знаете.

Ну, исходя из моего опыта работы Data Scientist в нескольких компаниях вроде GoDaddy, HERE, и GoGo, Data Scientist решает задачи с помощью машинного обучения в Big Data. Несколько примеров: предсказать вероятность отказа клиента от подписки, выявить ошибки в данных, вычислительный специальный анализ гигабайт и терабайт данных, кластеризация клиентов по смысловым группам, аналитика текста при определении тем в расшифровках чатов онлайн поддержки, расчет предполагаемых доходов, и так далее до бесконечности.

Как Data Scientist вам придется продираться через множество разных проблем. Чтобы быть компетентным, нужно иметь хорошее знание математики, статистики и программирования. Вам нужно знать, когда и какие именно техники и алгоритмы использовать в зависимости от проблемы и имеющихся данных. Ну и наконец, вам часто придется представлять результаты использования соответствующих методов руководителям и другим людям, не связанным с этой сферой.

Кроме того, как Data Scientist вам нужно будет постоянно учиться и подстраиваться. Так как эта сфера очень быстро развивается, важно всегда держать руку на пульсе и быть в курсе новых методик. Даже сейчас я трачу много времени на обучение.

Что нужно, чтобы стать data scientist (без траты средств)

Тебя привлекает работа в Data Science? Замечательно. Мы живем в прекрасное время, когда все можно изучать бесплатно. Я пытался сосредоточиться на бесплатных или дешевых вариантах — кто не любит бесплатные штуки? Просто это требует усидчивости и упорства. Я разделю весь процесс на три этапа.

Не забывайте, что есть и другие прекрасные ресурсы помимо тех, что я упомяну ниже. Но сам я пользовался именно этими.

1 этап: детство

Чтобы быть хорошим Data Scientist, нужно разбираться в программировании, статистике и математике. Я советую посмотреть как минимум это:

  • Университетский курс введения в computer science (в моем случае это был С++).
  • Менее сложные университетские курсы по математике: такие как многовариантные исчисления, дифференциальные уравнения, линеарная алгебра. Это очень поможет вам понимать элементарные математические процессы в глубинном обучении, например, обратное распространение и матричные операции.
  • Университетский курс введения в статистику и вероятности поможет разобраться с R.

Прелесть в том, что проходить их можно не только в университете. Чтобы прокачать эти скилы онлайн, я рекомендую:

  • Математика: Многовариантные исчисления, дифференциальные уравнения, линейная алгебра от Khan Academy.
  • Статистика: Статистика в R и введение в Data Science: Специализация по Data Science от Университета Джонса Хопкинса на Coursera.
  • Python: CodeAcademy.com для общего программирования в Python.

Примеры того, на что способны Data Science, можно посмотреть на Kaggle.com, где ребята изучают и соревнуются в Data Science-проектах. Кроме того, на DataCamp.com есть практические пособия по множеству тем в Data Science — и на R, и на Python.

К концу 1 этапа вы должны хорошо разбираться в простых техниках машинного обучения вроде логистической/линеарной регрессии, деревьев решений на R или на Python. Вообще, я советую выучить и R, и Python. Конечно, в большинстве случаев я использую Python, но знать полезно оба, чтобы применять их в зависимости от проблемы, которую нужно решить.

2 этап: отрочество

Сейчас вы уже должны лучше разбираться в Data Science и статистических методах. На 2 этапе вам уже хочется пойти дальше и получше разобраться с машинным обучением. Я понял, что онлайн-ресурсы типа Coursera обычно не охватывают тему так же глубоко, как курсы университетского уровня. К счастью, Stanford’s AI Lab выкладывает много классных онлайн-курсов. Так что вы можете смотреть лекции мирового уровня, комментарии к ним и еще много материалов по теме абсолютно бесплатно. Поэтому советую по возможности смотреть курсы на Coursera и Стэндфордские лекции одновременно. Например, DeepLearning.ai на Coursera очень хорош для понимания практической стороны глубинного обучения, а курс Stanford’s CS231n Computer Vision
— рассматривает все гораздо глубже.

На этом этапе пройдите курсы:

  • Машинное обучение: Andrew Ng’s Machine Learning Course на Coursera. Я прошел этот курс, но не стал платить за сертификат, потому что домашняя работа не подразумевала использование Python или R. Но он все равно очень полезен для понимания основ машинного обучения.
  • Машинное обучение: Stanford CS229 Machine Learning Course. Это старые, но все еще очень актуальные лекции Эндрю Ына.
  • Текстовая аналитика: Прикладной анализ текстов с Python на Coursera. Я не проходил этот курс, но как Data Scientist вам очень желательно обладать навыками текстовой аналитики и обработки естественного языка (Natural Language Processing, NLP).
  • PySpark: Введение в PySpark от DataCamp. PySpark это Python-версия Spark фреймворка для распределенной обработки данных. Проще говоря, он позволяет вам использовать Python с Very Large Data Bases (VLDB). Я пользуюсь им как минимум раз в неделю.
  • Deep Learning: Курс DeepLearning.ai от Andrew Ng на Coursera. Я оплатил сертификат, потому что там очень хорошая домашка. Это не очень дорого, так что я бы рекомендовал заплатить.
  • Компьютерное зрение: Курс Стэндфорда CS231n: Сверточные нейронные сети для визуального распознавания.
  • Обработка естественного языка (NLP): Курс Стэндфорда CS224n: Глубокое Обучение в Обработке Естественного Языка.

Повторюсь, есть и другие ресурсы типа DataCamp, Udacity, edX, and fast.ai, на которых можно найти информацию по множеству тем.

3 этап: юность

На этом этапе вам нужно готовиться к собеседованиям и продолжать изучать новые и углубляться в уже знакомые темы. Если вы чувствуете себя уверенно со всеми темами 2 этапа, то, думаю, вы уже готовы для подачи заявления на невысокие должности. Хотя есть еще несколько моментов, чрезвычайно важных для успешного прохождения собеседования.

Во-первых, личные проекты. Если вы учитесь на программе Data Science, большая часть курсов посвящена выполнению проектов по машинному обучению — они хороши и для практики навыков, и для иллюстрации ваших способностей работодателю. Поэтому я очень советую попробовать себя в сторонних проектах. Самый простой путь — Kaggle. Еще, даже если этого нет в требованиях, не помешает иметь на Github примеры ваших кодов и проектов, чтобы показать их вашему будущему начальству.

Во-вторых, скорее всего вам будут задавать вопросы по SQL. Когда я только начинал работать в GoDaddy, я мало что знал о SQL. К собеседованию я немного полистал W3Schools.com, CodeAcademy и погуглил частые вопросы на собеседованиях по SQL. Зависит от компании но, знания по машинному обучению и программированию в любом случае ценятся больше, чем SQL. Этому довольно легко научиться на работе. Здесь Leetcode.com можно потренироваться в SQL и программировании.


Ну и наконец, к завершению этого этапа вы должны обладать необходимыми знаниями, чтобы разбираться в самых разных темах машинного обучения. На чем именно сосредоточиться — будь это RNN, CNN, NLP или что угодно еще — только ваше дело. Что касается меня, сейчас я пытаюсь разобраться в обучении с подкреплением (reinforcement learning).

Заключение

Это был мой первый пост на Medium и я очень надеюсь, что он был вам полезен. Я постарался сосредоточиться на курсах, которые можно пройти, а не на конкретных инструментах или Python/R библиотеках, которые нужно знать, потому что в этих курсах о них так или иначе расскажут.

Если вы хотите посмотреть примеры кодов в машинном обучении, зайдите на мой репозиторий Github, в который я регулярно выкладываю все новое, что узнаю. Я планирую и дальше выкладывать новости о проектах, над которыми работаю, и вообще рандомные мысли на Medium!

Базовая математика для анализа данных

Хорошему специалисту по анализу данных без базовой математики никуда (а дата-исследователю тем более). Поэтому предлагаем вашему вниманию основные темы/моменты/аспекты основ математики, которые следует знать/подтянуть специалисту по анализу данных.

Основы математического анализа

  1. Функции и их свойства.
  2. Предел функции (основные представления).
  3. Производная функции (+ её геометрический и механический смысл).
  4. Производная сложной функции.
  5. Экстремумы функции. Выпуклость функции.
  6. Частные производные и градиент.
  7. Градиент в задачах оптимизации.
  8. Производная по направлению.
  9. Касательная плоскость и линейное приближение.

Основы линейной алгебры

  1. Векторное пространство.
  2. Линейная независимость.
  3. Норма и скалярное произведение векторов.
  4. Определение матрицы. Операции над матрицами.
  5. Ранг и определитель матрицы.
  6. Системы линейных уравнений.
  7. Типы матриц.
  8. Собственные вектора и собственные значения.
  9. Матричные разложения (спектральное, сингулярное).
  10. Приближение матрицей меньшего ранга.
  11. Сингулярное разложение и низкоранговое приближение.

Методы оптимизации

  1. Оптимизация негладких функций (+ проблема локальных минимумов).
  2. Метод имитации отжига.
  3. Генетические алгоритмы. Алгоритм дифференциальной эволюции.
  4. Метод Нелдера-Мида.

Теория вероятностей и математическая статистика

  1. Определение вероятности. Свойства вероятности.
  2. Условные вероятности. Формула полной вероятности. Формулы Байеса.
  3. Дискретные случайные величины.
  4. Непрерывные случайные величины.
  5. Оценка распределения по выборке. Статистики.
  6. Характеристики распределений.
  7. Важные статистики (выборочные среднее, медиана, мода, дисперсия, интерквартильный размах).
  8. Центральная предельная теорема.
  9. Доверительные интервалы.

Эту базовую математику можно изучить, например, на Coursera в рамках специализации «Машинное обучение и анализ данных» (на русском языке) или поискать материалы в доступных (и уважаемых) учебниках по математическому анализу, линейной алгебре, методам оптимизации, ТВиМС. Много материала доступно в интернете, в том числе и на Википедии с необходимыми ссылками на более подробный материал.

Программа «Математика для анализа данных»

Для решения многих прикладных задач, с которыми сталкиваются аналитики, разработчики, и другие специалисты по Computer Science, требуются хорошие знания высшей математики. Программа «Математика для анализа данных» познакомит вас с базовыми определениями и понятиями математического анализа, линейной алгебры, теории вероятностей, статистики и дискретной математики. Курс ориентирован на слушателей, которые хотят подготовиться к дальнейшему изучению программ по анализу данных, так и восстановить знания. Программа предполагает много практических заданий и домашней работы для подкрепления теоретического материала.

Преподаватели

Александр Рубцов
Научный сотрудник Международной лаборатории теоретической информатики, Департамента больших данных и информационного поиска факультета компьютерных наук НИУ ВШЭ.
Кандидат физико-математических наук.
Окончил МФТИ по специальности «Прикладная математика и физика».

Леонид Иосипой
Младший научный сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных факультета компьютерных наук НИУ ВШЭ.
Младший научный сотрудник Лаборатории математических методов предсказательного моделирования ИППИ РАН (с 2015 года).
Окончил механико-математический факультет МГУ им. В.М. Ломоносова по специальности «Математика».

Область научных интересов: теория вероятностей и математическая статистика (теория случайных матриц, стохастические алгоритмы, анализ данных) .


Антон Савостьянов
Преподаватель Департамента больших данных и информационного поиска факультета компьютерных наук НИУ ВШЭ.
Окончил факультет компьютерных наук НИУ ВШЭ по специальности «Прикладная математика и информатика».
Лауреат стипендии имени Ильи Сегаловича. Лауреат премии «Золотая Вышка» – 2020 в номинации «Серебряный птенец».

Основные темы программы

  • Анализ: функции от одной переменной. Функции от одной переменной, их свойства, графики и преобразования. Предел последовательности и предел функции. Непрерывность функций. Производная, геометрический смысл производной. Связь значения производной и возрастания (убывания) функции. Локальные и глобальные экстремумы функций одной переменной. Выпуклость графика функции. Исследование функций одной переменной. Построение эскизов графиков. О-большое и о-малое. Числовые ряды. Приближение функции многочленами Тейлора. Первообразная и неопределенный интеграл. Определенный интеграл, формула Ньютона-Лейбница и вычисление площадей.

  • Анализ: функции от нескольких переменных. Кривые и вектор-функции. Функции от двух переменных и их графики. Линии уровня. Предел функции нескольких переменных и непрерывность. Частные производные. Производная по направлению и градиент. Нахождение экстремумов функции. Касательная плоскость, линейная аппроксимация функции. Условный экстремум. Ряд Тейлора для функции от двух переменных. Двойные интегралы и вычисление объемов. Метод градиентного спуска.
  • Линейная алгебра: векторные пространства и системы однородных линейных уравнений. Векторные пространства. Примеры. Матрицы и действия над матрицами. Ранг и определитель. Решение систем линейных уравнений. Метод Гаусса. Линейная независимость, базис и размерность векторного пространства. Подпространства и способы их задать. Сумма и пересечение подпространств.
  • Линейная алгебра: линейные операторы, ЖНФ, билинейные и квадртаичные формы. Матрица перехода от одного базиса к другому. Операторы и матрицы операторов. Ядро и образ линейного отображения. Комплексные числа. Собственные векторы и собственные значения линейного оператора. Диагонализуемые и недиагонализуемые операторы. Диагонализуемые матрицы операторов. Жорданова клетка и жорданова нормальная форма матрицы. Возведение матриц в степень. Билинейные и квадратичные формы и их матрицы. Скалярное произведение.
  • Линейная алгебра: ортогонализция, МНК, SVD. Ортогональное дополнение и процесс ортогонализации. Метод наименьших квадратов. Спектральное и сингулярное разложение.
  • Введение в теорию вероятностей I. Модели случайного выбора и элементы комбинаторного анализа. Дискретное вероятностное пространство. Примеры распределений: бернуллиевское, биномиальное, пуассоновское. Условная вероятность. Формула полной вероятности. Формула Байеса. Числовые характеристики распределений: математическое ожидание, дисперсия и моменты старших порядков. Независимость событий и случайных величин. Числовые характеристики зависимости случайных величин.
  • Введение в теорию вероятностей II. Абсолютно непрерывные случайные величины. Плотность распределения вероятностей. Функции от случайных величин. Примеры распределений: равномерное, нормальное, экспоненциальное, Коши. Их характеристики и свойства. Многомерные распределения. Совместное и маргинальное распределения.
  • Аналитический аппарат теории вероятностей и предельные теоремы. Неравенства Чебышёва и Маркова. Некоторые виды сходимости случайных величин. Центральная предельная теорема. Закон больших чисел. Оценка скорости сходимости в центральной предельной теореме — теорема Берри-Эссеена.
  • Математическая статистика I. Задачи математической статистики. Выборка и эмпирическая функция распределения. Оценки и их свойства. Построение оценок: метод моментов и метод максимального правдоподобия. Доверительные интервалы. Бутстрэп.
  • Математическая статистика II. Статистическая проверка гипотез. Вероятности ошибок I и II рода. Наиболее мощный критерий. Метод наименьших квадратов. Линейная регрессия.
  • Некоторые приложения. Суммы независимых случайных величин и концентрация меры. Суб-гауссовские и суб-экспоненциальные случайные величины. Неравенства Хеффдинга и Бернштейна. Снижение размерности данных (вложение Джонсона-Линденштрауса).Случайные графы: граф Эрдеша-Реньи (концентрация степеней вершин и связность) и Stochastic Block Model (Spectral Clustering).
  • Введение в дискретную математику. О сновные определения: компоненты связности, циклы, клики, раскраски, изоморфизмы. Способы представления графов, кратчайшие пути в графах, компоненты связности, их поиск, обходы графов, кластеризация на графах.

Начальные требования

Законченное высшее или среднее специальное образование, студенты старших курсов.

Расписание занятий

Старт занятий в мае 2020.

Вторник (19:00-22:00) и суббота (15:00-18:00).

академических часов, в том числе 68 часов аудиторной работы

Какие навыки нужны специалисту по Data Science

Что нужно знать, чтобы анализировать данные — рассказывают преподаватели школы SkillFactory.

Что такое Data Science

В конце июня 2020 года Google выпустила обновление для своего сервиса «Карты». В новой версии приложение научилось предсказывать задержки в движении общественного транспорта даже тогда, когда у него нет доступа к данным текущего местоположения автобусов. Алгоритм рассчитывает время на дорогу с учётом всех факторов: пробок, расположения остановок, выделенных полос. Среди прочего для построения моделей специалисты использовали снимки из Google Street View.

Предсказание скорости движения общественного транспорта — один из примеров того, как бизнесу и пользователям помогает data science.

Наука о данных — обширная сфера, которая сочетает несколько смежных дисциплин. Это программирование, математика и статистика, бизнес-аналитика и машинное обучение.

Специалисты в этой сфере, аналитики данных, работают с большими массивами данных, извлекая из них полезную информацию. Результат даёт ответы на множество вопросов: например, почему один менеджер заключил больше сделок, сколько единиц товара нужно закупить в следующем квартале и какой компонент лекарства улучшит самочувствие пациента. Для решения некоторых задач специалисты разрабатывают алгоритмы, которые способны генерировать результат без участия человека.

По данным HeadHunter, специалисты в анализе данных в 2020 году получали в России от 130 до 300 тысяч рублей в зависимости от опыта.

Спрос на аналитиков данных увеличивается каждый год: только с 2020 года по 2020 он вырос в два раза. При этом доля вакансий для кандидатов с опытом работы меньше года на четверть выше, чем в целом по ИТ-рынку.

В чём нужно разбираться

Требования к подготовке и уровню профессиональных навыков зависят от того, в какой компании предстоит работать специалисту. Например, в крупных корпорациях аналитику данных важно разбираться в математике и статистике. Маркетплейсам и медиакомпаниям нужны эксперты в разработке рекомендательных систем, а в крупном ритейле — в разработке машинного зрения.

Преподаватели школы SkillFactory изучили вакансии в области Data Science на российском и зарубежном рынке и составили список навыков и областей знаний, которые понадобятся успешному специалисту:

Программирование

Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.

Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.

У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.


Мы готовы учить людей с нулевым уровнем знаний в программировании. Специально для них мы проводим десять дополнительных вебинаров в рамках курса: пять по вводному блоку и пять по основному. Согласно нашему опросу около трети студентов никогда не программировали, столько же — программировали в школе. Остальные — это люди с каким-то опытом, но матёрых разработчиков среди них мало, чаще всего это люди, которые изучали другие языки программирования.

На курсе мы изучаем базовые алгоритмические конструкции, структуры данных, работу со строками, работу с датами и функции. Начинаем с введения в Python: изучаем кнопки, пишем программу «Hello World». Если студент будет прикладывать хотя бы 40% усилий от своего максимума и вовремя будет давать обратную связь, то изучение даже с нуля не займет много времени. На изучение базового Python понадобится от 2-3 недель до полугода, если заниматься раз в неделю.

Второй этап — знакомство с библиотекой Pandas, которая нужна для сбора, очистки и анализа данных. Это займёт от 1-2 недель если уделять занятиям целый рабочий день и иметь базовые навыки программирования. Нужно быть готовым продолжить обучение после курса: библиотека большая, в ней много функций и настроек, которые нельзя выучить сразу.

Полезные материалы для изучения Python

Pythontutor.ru — хороший бесплатный учебник на русском языке. Это базовая книга, где рассматриваются все основные структуры данных, а ещё много заданий на каждую тему.

  • CS50 на русском (Гарвардский курс по основам программирования) — первые лекции стоит посмотреть всем, кто начинает изучать программирование.
  • Pythonworld.ru — блог, где подробно объяснены основные вопросы программирования и разных методов.
  • Pythonicway.com — похож на предыдущий сайт.
  • Анализ

    Основа работы аналитика данных — работа с данными. В том числе с теми, которые можно «скормить» разработанному алгоритму.

    Вокруг огромное количество данных, современное человечество генерирует их с невероятной скоростью каждый день. Эти данные нужно уметь собирать, хранить, приводить в приемлемый для анализа или машинного обучения вид — очищать, форматировать и определять, что именно можно узнать из этих данных.

    Анализ данных тесно связан с использованием профильных библиотек для Python и с пониманием математических и статистических основ анализа данных. Важно уметь находить в них закономерности и понимать цели и задачи бизнеса.

    Математика и статистика

    Заниматься Data Science можно и без глубоких знаний в фундаментальной математике: современные библиотеки содержат огромное количество готовых решений. С их помощью можно анализировать данные и обучать алгоритмы не вдаваясь в математические подробности. Но только до первой по-настоящему сложной или нетипичной задачи.

    Разобраться с ними можно только если аналитик данных действительно понимает, как работают все строчки кода «под капотом» с точки зрения математики и статистики. Поэтому крупные компании на собеседованиях часто проверяют уровень знаний соискателя в этих областях.

    В чём нужно разбираться специалисту:

    Линейная алгебра — основы работы с векторным и матричным представлением данных.

  • Математический анализ — для оптимизации моделей и алгоритмов, понимания, где можно «докрутить» модель, чтобы она работала лучше и быстрее.
  • Теория вероятности и статистика — для многих алгоритмов машинного обучения, проведения анализа данных и адекватного проведения a/b-тестов. Помогает оценить, насколько вообще можно полагаться на имеющиеся данные, как работать с выбросами в данных, которые могут испортить всю достоверность информации.
  • Использование NumPy и других библиотек Python для вычислений и построения моделей. Для математических и статистических вычислений и преобразований уже повсеместно используют возможности Python, а для работы с машинным обучением знание этих инструментов необходимо.
  • Для изучения Data Science необходимо базовое знание школьного курса по математике. Не на уровне 80 баллов ЕГЭ — достаточно знать, что такое квадратичные уравнения и как они решаются, как умножаются скобки. Важно разбираться в технических моментах.

    На курсе по Data Science в SkillFactory изучение математики состоит из трёх блоков: основы линейной алгебры, матанализ и теория вероятности и статистика. Студентам не придётся доказывать теоремы или как-то углубляться в основы. Например, блок про матанализ — это скорее рассказ про математику, из которого становится понятно, что математики умеют сегодня и как этим можно пользоваться.

    Полезные материалы по математике

    «(Не)совершенная случайность» Леонарда Млодинова.


  • «Гарри Поттер и методы рационального мышления» Элиезера Юдковского.
  • «Голая статистика» Чарльза Уилана.
  • Серия «Образовательная манга».
  • YouTube-канал 3blue1brown.
  • Машинное обучение и глубокое обучение

    Обучение нейросетей — один из подразделов машинного обучения, в котором, в свою очередь, выделяется глубокое обучение. Сложная система терминологии связана с тем, что область развивалась десятилетиями до того, как очередные прорывы в методах сделали её по-настоящему популярной — подобласти выделялись постепенно. Сейчас, когда речь идет об обучении нейросетей, чаще всего подразумевают методы глубокого обучения.

    Машинное обучение — огромная самостоятельная область, но лишь часть науки о данных. В ней можно развиваться практически бесконечно — новые методы появляются каждый год. Если раньше Deep Learning был условно единой областью знаний, то сегодня входящие в него подобласти — компьютерное зрение, работа с естественным языком, обучение с подкреплением, генеративно-состязательные сети и другие методы, — выделяются в самостоятельные сферы специализации. Это направление растёт невероятно быстро, заставляя специалистов постоянно поддерживать свой уровень знаний, чтобы успевать за рынком.

    Путь от нуля до первых результатов в машинном обучении занимает от шести месяцев до года. С опытом в программировании — быстрее. Область машинного обучения уже получила набор инструментов, с помощью которых можно быстро создавать рабочие модели. Проблема лишь в написании обертки вокруг модели и написании той части кода, которая отвечает за предобработку данных. Поэтому специалистам нужен опыт, а опыт нарабатывается только работой.

    На курсе по Data Science в SkillFactory я отвечаю за три блока: введение в машинное обучение, предобработка данных и метрики. В первом блоке я рассказываю, что умеют делать машины, а что нет. Во втором блоке мы учимся решать проблему плохих данных или неполных данных. Третий блок учит проверять, работает ли модель машинного обучения и как её улучшить.

    Полезные материалы по машинному обучению

    Thecode.media — очень простая вводная статья для тех, кто не знаком с темой.

    Coursera.org — курс Machine Learning от Andrew Ng на Coursera.

    Книга «Создаем нейронную сеть» Тарика Рашида.

    Data Engineering

    Данные обладают структурой в аналитическом, информационном и даже физическом смысле — их нужно где-то хранить, поддерживать доступность и устойчивость, организовывать архитектуру. Например, Нью-Йоркская фондовая биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

    Организовать работу с данными, измеряемыми в сотнях и тысячах терабайт, непросто. Для взаимодействия с ними есть свои подходы, концепции и инструменты.

    Организацией сбора, хранения и доступа к данным занимаются информационные инженеры. Аналитику данных придётся либо общаться с ними на одном языке, либо — особенно в небольших компаниях — самому выполнять функции дата инженера.

    Полезные материалы

    • Почитать немного о Big Data простым языком можно здесь.
    • Data Science from Scratch.
    • Big Data.

    Data Science в продакшн

    В конечном итоге все знания и инструменты нужны для того, чтобы применять их в интересах бизнеса. Здесь важны два навыка:

    Умение определять, какие именно инструменты нужны для решения конкретной задачи: где внедрить машинное обучение, а где построить базу данных и внедрить SQL-запросы.

  • Продуктовый взгляд на свою работу: умение общаться и налаживать контакты с коллегами, аргументировать свою точку зрения, управлять процессами в своей работе и команде.

  • Чтобы стать специалистом в data science, нужно освоить много навыков в самых разных областях. Это посильная задача: каждую сферу можно осваивать и углублять постепенно.

    Будущим аналитикам данных нужна самоорганизация и целеустремленность, чтобы освоить такой объём знаний. Придётся ориентироваться в потоках информации, не потеряться в порядке изучения, найти самые актуальные методы и принципы, а самое главное — разобраться, почему что-то работает не так, и найти достаточное поле для практики.

    Для тех, кто не боится вызовов и хочет освоить востребованную специальность, в Skillfactory разработали курс по Data Science. Он спроектирован в соответствии с запросами рынка в сотрудничестве с практиками data science из российских компаний.

    Весь материал подобран и организован так, чтобы студенты постепенно осваивали необходимые навыки и отрабатывали их на большом количестве практических заданий — на тренажёрах, аналитических кейсах, создании алгоритмов машинного обучения и в соревнованиях.

    Комплексная и продуманная программа дополняется сильным сообществом, в котором состоят студенты разных потоков, кураторы, менторы и наставники. Каждый из них выполняет свою роль: одни помогают с техническими и организационными вопросами, другие поясняют правильность выполнения учебных задач, третьи отвечают на вопросы о реалиях сферы data science, мотивируют продолжать учебу и развивают своих подопечных.

    В рамках курсах вам будет предложено решить несколько кейсов, которые основаны на реальных задачах бизнеса. Вы сможете поработать в команде с другими студентами, прокачать навыки, полученные в курсе и получить успешных проект для вашего портфолио. Эта возможность сделает вас востребованным специалистом на рынке сразу после завершения программы.

    На SkillFactory вы можете получить бесплатный двухнедельный доступ к курсу Data Science. А для тех читателей, кто захочет продолжить, есть промокод на скидку 25%: VC-25

    OTUS приглашает на бесплатный урок «Математика для Data Science: из junior в senior»

    10 октября в 20:00 мск OTUS приглашает на бесплатный пробный урок «Математика для Data Science: из junior в senior» в рамках базового и продвинутого курсов математики. Чтобы попасть в группу с welcome-скидкой прямо сейчас, пройдите вступительный тест.

    На вебинаре участники:

    • подробно разберут, каким математическим аппаратом должен владеть middle/senior Data Scientist;
    • рассмотрят, какие разделы математики нужно подтянуть для работы над рекомендательными системами, решения задачи регрессии, AB-тестирования, CV или NLP и пр.;
    • обсудят, нужно ли уметь интегрировать;
    • вспомнят оптимизацию функции многих переменных, обсудят, где и как она применяется.

    Вебинар проведёт Пётр Лукьянченко (преподаватель ВШЭ по высшей математике с опытом более 10 лет, работал в Lamoda на должности Team Lead Analytics). Не упустите возможности задать ему все интересующие вопросы!

    Otus запустил курсы по математике для Data Science

    Редактор рубрик «Возможности», «Календарь» и «Образование»

    Образовательная платформа Otus запустила курсы по математике для Data Scientist — базовый и продвинутый.

    Базовый курс рассчитан на тех, кто только начинает карьеру в сфере машинного обучения и обладает только школьными знаниями в математике. Студенты изучат азы математического анализа, линейной алгебры, теории вероятности и математической статистики.

    Занятия начнутся 30 октября и продлятся четыре месяца. Обучение проходит в онлайн-формате, дважды в неделю.

    Чтобы пройти продвинутый курс математики, нужно быть знакомым с высшей математикой. Студенты курса пройдут углубленное изучение линейной алгебры, математического анализа и теории вероятностей. Также обучение включает кейсы от практикующих Data Scientists и программирование на Python.

    Обучение начнется 25 октября и также будет длиться четыре месяца.

    Занятия по обоим курсам ведет Петр Лукьяненко, преподаватель ВШЭ по высшей математике, бывший Team Lead Analytics в Lamoda.

    Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

    Математика для Data Science. Продвинутый курс (Часть 1)

    Математика для Data Science. Продвинутый курс

    Best Practice по изучению математического аппарата, необходимого для успешной карьеры в Data Science.

    Обычно математику в вузах преподают в отрыве от реальных задач, где она в дальнейшем будет применяться. Мы пошли по другому пути. Каждый модуль профессионального курса сбалансирован математической теорией и практическими примерами, которые взяты из реальных кейсов. Вы будете решать задачу регрессии, проводить АБ-тестирование, работать над рекомендательной системой, использовать метод опорных векторов.

    Для кого этот курс?
    Для поступления нужно быть знакомым с основами математического анализа, линейной алгебры и теории вероятности. Курс подойдет всем, кто хочет развиваться в сфере Data Science. Он поможет вам освоить весь необходимый математический аппарат для решения задач на позиции Middle/Senior Data Scientist.

    Зачем учить математику?
    Профессия Data Scientist становится одной из самых перспективных и востребованных в IT. Средняя зарплата специалистов Data Science в России вдвое выше, чем у специалистов других IT-направлений — 190 тыс. руб. Основная сложность профессии — высокие требования к знаниям высшей математики. Уверенное владение математическим аппаратом позволяет повысить уровень компетенций и вырасти в профессиональном плане.

    Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

    Пошаговая инструкция для тех, кто не знает, с чего начать

    Про­фес­сию Data Sci­en­tist се­год­ня ча­сто на­зы­ва­ют од­ной из са­мых пер­спек­тив­ных и мод­ных. Он­лайн-кур­сы и уни­вер­си­те­ты пред­ла­га­ют все боль­ше про­грамм обу­че­ния этой спе­ци­аль­но­сти, и но­вич­кам не все­гда по­нят­но, с чего на­чать и как вы­брать са­мый эф­фек­тив­ный путь. Ру­ко­во­ди­тель фа­куль­те­та Data Sci­ence он­лайн-уни­вер­си­те­та «Нето­ло­гия» Еле­на Ге­ра­си­мо­ва спе­ци­аль­но для «Цеха» со­ста­ви­ла по­дроб­ный пу­те­во­ди­тель по миру на­у­ки о дан­ных. В ма­те­ри­а­ле вы най­де­те объ­яс­не­ния глав­ных тер­ми­нов, по­ша­го­вую ин­струк­цию для тех, кто толь­ко вхо­дит в про­фес­сию, а та­к­же спи­сок по­лез­ной ли­те­ра­ту­ры по каж­дой теме.


    О чем речь

    Data Sci­ence — де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших ре­ше­ний на их ос­но­ве. Рань­ше по­доб­ны­ми за­да­ча­ми за­ни­ма­лись спе­ци­а­ли­сты по ма­те­ма­ти­ке и ста­ти­сти­ке. За­тем на по­мощь при­шел ис­кус­ствен­ный ин­тел­лект, что поз­во­ли­ло вклю­чить в ме­то­ды ана­ли­за оп­ти­ми­за­цию и ин­фор­ма­ти­ку. Этот но­вый под­ход ока­зал­ся на­мно­го эф­фек­тив­ней.

    Как стро­ит­ся про­цесс? Все на­чи­на­ет­ся со сбо­ра боль­ших мас­си­вов струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных и их пре­об­ра­зо­ва­ния в удоб­ный для вос­при­я­тия фор­мат. Даль­ше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и ана­ли­ти­че­ские ме­то­ды — ма­шин­но­го и глу­бо­ко­го обу­че­ния, ве­ро­ят­ност­ный ана­лиз и про­гноз­ные мо­де­ли, ней­рон­ные сети и их при­ме­не­ние для ре­ше­ния ак­ту­аль­ных за­дач.

    Пять глав­ных тер­ми­нов, ко­то­рые нуж­но за­пом­нить

    Ис­кус­ствен­ный ин­тел­лект, ма­шин­ное обу­че­ние, глу­бо­кое обу­че­ние и на­у­ка о дан­ных — ос­нов­ные и са­мые по­пу­ляр­ные тер­ми­ны. Они близ­ки, но не эк­ви­ва­лент­ны друг дру­гу. На стар­те важ­но разо­брать­ся, чем они от­ли­ча­ют­ся.

    Ис­кус­ствен­ный ин­тел­лект (Ar­ti­fi­cial In­tel­li­gence) — об­ласть, по­свя­щен­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, ра­бо­та­ю­щих и дей­ству­ю­щих как люди. Ее воз­ник­но­ве­ние свя­за­но с по­яв­ле­ни­ем ма­шин Ала­на Тью­рин­га в 1936 году. Несмот­ря на дол­гую ис­то­рию раз­ви­тия, ис­кус­ствен­ный ин­тел­лект пока не спо­со­бен пол­но­стью за­ме­нить че­ло­ве­ка в боль­шин­стве об­ла­стей. А кон­ку­рен­ция ИИ с лю­дь­ми в шах­ма­тах и шиф­ро­ва­ние дан­ных — две сто­ро­ны од­ной ме­да­ли.

    Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние ин­стру­мен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учи­те­ля — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.

    Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее про­дви­ну­тый или быст­рый ана­лиз, и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся неко­то­рым ко­ли­че­ством скры­тых сло­ев ней­ро­нов в сети, ко­то­рые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.

    Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­е­мом ча­сто неструк­ту­ри­ро­ван­ных дан­ных. Спе­ци­фи­ка сфе­ры — это ин­стру­мен­ты и си­сте­мы, спо­соб­ные вы­дер­жи­вать вы­со­кие на­груз­ки.

    На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыс­лом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Спе­ци­а­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые ме­то­ды ма­шин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

    Где при­ме­ня­ет­ся Data Sci­ence

    • об­на­ру­же­ние ано­ма­лий, на­при­мер, ненор­маль­ное по­ве­де­ние кли­ен­та, мо­шен­ни­че­ства;

    • пер­со­на­ли­зи­ро­ван­ный мар­ке­тинг — элек­трон­ные рас­сыл­ки, ре­тар­ге­тинг, си­сте­мы ре­ко­мен­да­ций;

    • ко­ли­че­ствен­ные про­гно­зы — по­ка­за­те­ли эф­фек­тив­но­сти, ка­че­ство ре­клам­ных кам­па­ний и дру­гих ме­ро­при­я­тий;

    • ско­рин­го­вые си­сте­мы — об­ра­бот­ка боль­ших объ­е­мов дан­ных, по­мощь в при­ня­тии ре­ше­ний, на­при­мер, о предо­став­ле­нии кре­ди­та;

    • ба­зо­вое вза­и­мо­дей­ствие с кли­ен­том — стан­дарт­ные от­ве­ты в ча­тах, го­ло­со­вые по­мощ­ни­ки, сор­ти­ров­ка пи­сем по пап­кам.

    Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

    Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и вы­бор ме­то­дов их по­лу­че­ния.

    Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

    Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние пред­по­ло­же­ний.

    Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­грам­мы.

    Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.

    Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

    Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за ме­сяц или даже год. При­дет­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пы­тать­ся вновь.

    Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

    Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фун­да­мен­таль­ный курс по тео­рии ве­ро­ят­но­стей (ма­те­ма­ти­че­ский ана­лиз как необ­хо­ди­мый ин­стру­мент в тео­рии ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

    Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы ана­ли­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обу­че­нии без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

    «Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в уни­вер­си­те­те оста­лось мно­го про­бе­лов. Клас­си­че­ские раз­де­лы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах ма­те­ма­ти­че­ской ста­ти­сти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вы­чис­ле­ни­я­ми.

    «Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о ма­те­ма­ти­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных се­тей.

    «Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с ос­нов­ны­ми прин­ци­па­ми.

    Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Sci­ence. Кру­тое и нескуч­ное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

    Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять цен­траль­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет ге­не­раль­ные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, со­дер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

    Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

    Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, зна­ко­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

    Шаг 2. Про­грам­ми­ро­ва­ние

    Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми про­грам­ми­ро­ва­ния. Вы мо­же­те немно­го упро­стить себе за­да­чу: нач­ни­те изу­чать один язык и со­сре­до­точь­тесь на всех ню­ан­сах его син­так­си­са.

    При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для но­вич­ков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рын­ке тру­да.

    «Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: прак­ти­че­ское ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить прак­ти­че­ские за­да­ния из нее.

    Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му син­так­си­су.

    Dataquest по­мо­жет осво­ить син­так­сис.

    По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с ос­нов­ны­ми биб­лио­те­ка­ми:

    Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

    Об­ра­бот­ка есте­ствен­но­го язы­ка:

    Web scrap­ing (Ра­бо­та с web):

    Шаг 3. Ма­шин­ное обу­че­ние

    Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для вы­пол­не­ния опре­де­лен­ных за­дач. По­это­му ма­шин­ное обу­че­ние име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой об­ла­сти, но пре­жде все­го бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

    Пер­вый шаг в изу­че­нии ма­шин­но­го обу­че­ния — зна­ком­ство с тре­мя его ос­нов­ны­ми фор­ма­ми.

    1) Обу­че­ние с учи­те­лем — наи­бо­лее раз­ви­тая фор­ма ма­шин­но­го обу­че­ния. Идея в том, что­бы на ос­но­ве ис­то­ри­че­ских дан­ных, для ко­то­рых нам из­вест­ны «пра­виль­ные» зна­че­ния (це­ле­вые мет­ки), по­стро­ить функ­цию, пред­ска­зы­ва­ю­щую це­ле­вые мет­ки для но­вых дан­ных. Ис­то­ри­че­ские дан­ные про­мар­ки­ро­ва­ны. Мар­ки­ров­ка (от­не­се­ние к ка­ко­му-либо клас­су) озна­ча­ет, что у вас есть осо­бое вы­ход­ное зна­че­ние для каж­дой стро­ки дан­ных. В этом и за­клю­ча­ет­ся суть ал­го­рит­ма.

    2) Обу­че­ние без учи­те­ля. У нас нет про­мар­ки­ро­ван­ных пе­ре­мен­ных, а есть мно­го необ­ра­бо­тан­ных дан­ных. Это поз­во­ля­ет иден­ти­фи­ци­ро­вать то, что на­зы­ва­ет­ся за­ко­но­мер­но­стя­ми в ис­то­ри­че­ских вход­ных дан­ных, а та­к­же сде­лать ин­те­рес­ные вы­во­ды из об­щей пер­спек­ти­вы. Итак, вы­ход­ные дан­ные здесь от­сут­ству­ют, есть толь­ко шаб­лон, ви­ди­мый в некон­тро­ли­ру­е­мом на­бо­ре вход­ных дан­ных. Пре­лесть обу­че­ния без учи­те­ля в том, что оно под­да­ет­ся мно­го­чис­лен­ным ком­би­на­ци­ям шаб­ло­нов, по­это­му та­кие ал­го­рит­мы слож­нее.

    3) Обу­че­ние с под­креп­ле­ни­ем при­ме­ня­ет­ся, ко­гда у вас есть ал­го­ритм с при­ме­ра­ми, в ко­то­рых от­сут­ству­ет мар­ки­ров­ка, как при некон­тро­ли­ру­е­мом обу­че­нии. Од­на­ко вы мо­же­те до­пол­нить при­мер по­ло­жи­тель­ны­ми или от­ри­ца­тель­ны­ми от­кли­ка­ми в со­от­вет­ствии с ре­ше­ни­я­ми, пред­ла­га­е­мы­ми ал­го­рит­мом. Обу­че­ние с под­креп­ле­ни­ем свя­за­но с при­ло­же­ни­я­ми, для ко­то­рых ал­го­ритм дол­жен при­ни­мать ре­ше­ния, име­ю­щие по­след­ствия. Это по­хо­же на обу­че­ние ме­то­дом проб и оши­бок. Ин­те­рес­ный при­мер обу­че­ния с под­креп­ле­ни­ем — ко­гда ком­пью­те­ры учат­ся са­мо­сто­я­тель­но иг­рать в ви­део­иг­ры.

    Ви­зу­а­ли­за­ция в ма­шин­ном обу­че­нии. От­лич­ная ви­зу­а­ли­за­ция, ко­то­рая по­мо­жет по­нять, как ис­поль­зу­ет­ся ма­шин­ное обу­че­ние.

    Шаг 4. Data Min­ing (Ана­лиз дан­ных) и ви­зу­а­ли­за­ция дан­ных

    Data Min­ing — важ­ный ис­сле­до­ва­тель­ский про­цесс. Он вклю­ча­ет ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную ин­фор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для об­лег­че­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных со­кра­тить рас­хо­ды и уве­ли­чить до­ход.

    Что по­чи­тать и по­смот­реть:

    Как ра­бо­та­ет ана­лиз дан­ных. От­лич­ное ви­део с до­ход­чи­вым объ­яс­не­ни­ем ана­ли­за дан­ных.

    «Ра­бо­та убор­щи­ка дан­ных» — глав­ное пре­пят­ствие для ана­ли­за» — ин­те­рес­ная ста­тья, в ко­то­рой по­дроб­но рас­смат­ри­ва­ет­ся важ­ность ана­ли­за дан­ных в об­ла­сти Data Sci­ence.

    Шаг 5. Прак­ти­че­ский опыт

    За­ни­мать­ся ис­клю­чи­тель­но тео­ри­ей не очень ин­те­рес­но, важ­но по­про­бо­вать свои силы на прак­ти­ке. Вот несколь­ко хо­ро­ших ва­ри­ан­тов для это­го.

    Ис­поль­зуй­те Kag­gle. Здесь про­хо­дят со­рев­но­ва­ния по ана­ли­зу дан­ных. Су­ще­ству­ет боль­шое ко­ли­че­ство от­кры­тых мас­си­вов дан­ных, ко­то­рые мож­но ана­ли­зи­ро­вать и пуб­ли­ко­вать свои ре­зуль­та­ты. Кро­ме того, вы мо­же­те смот­реть скрип­ты, опуб­ли­ко­ван­ные дру­ги­ми участ­ни­ка­ми и учить­ся на успеш­ном опы­те.

    Шаг 6. Под­твер­жде­ние ква­ли­фи­ка­ции

    По­сле того, как вы изу­чи­те все, что необ­хо­ди­мо для ана­ли­за дан­ных, и по­про­бу­е­те свои силы в от­кры­тых со­рев­но­ва­ни­ях, на­чи­най­те ис­кать ра­бо­ту. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции.

    • рас­ши­рен­ный про­филь на Kag­gle, где есть си­сте­ма ран­гов. Вы мо­же­те прой­ти путь от но­вич­ка до гросс­мей­сте­ра. За успеш­ное уча­стие в кон­кур­сах, пуб­ли­ка­цию скрип­тов и об­суж­де­ния вы по­лу­ча­е­те бал­лы, ко­то­рые уве­ли­чи­ва­ют ваш рей­тинг. Кро­ме того, на сай­те от­ме­че­но, в ка­ких со­рев­но­ва­ни­ях вы участ­во­ва­ли и ка­ко­вы ваши ре­зуль­та­ты.
    • про­грам­мы ана­ли­за дан­ных мож­но пуб­ли­ко­вать на GitHub или дру­гих от­кры­тых ре­по­зи­то­ри­ях, то­гда все же­ла­ю­щие мо­гут озна­ко­мить­ся с ними. В том чис­ле и ра­бо­то­да­тель, ко­то­рый про­во­дит с вами со­бе­се­до­ва­ние.

    По­след­ний со­вет: не будь­те ко­пи­ей ко­пий, най­ди­те свой путь. Лю­бой мо­жет стать Data Sci­en­tist. В том чис­ле са­мо­сто­я­тель­но. В сво­бод­ном до­сту­пе есть все необ­хо­ди­мое: он­лайн-кур­сы, кни­ги, со­рев­но­ва­ния для прак­ти­ки. Но не сто­ит при­хо­дить в сфе­ру толь­ко из-за моды. Что мы слы­шим о Data Sci­ence: это кру­то, это са­мая при­вле­ка­тель­ная ра­бо­та XXI века. Если это ос­нов­ной сти­мул для вас, его вряд ли хва­тит на­дол­го. Что­бы до­бить­ся успе­ха, важ­но по­лу­чать удо­воль­ствие от про­цес­са.

    Математика для Data Science. Новый курс от OTUS

    Всем привет, сегодня хотим поговорить о запуске нового курса «Математика для Data Science», а точнее целой серии курсов, подробнее об этом в нашей публикации.

    Не все, учась в школе, понимают, как в жизни им пригодится математика. Самый распространенный ответ – считать деньги, но не все рождаются крутыми финансистами. Это понимают и учителя математики, поэтому часто преподают через пень-колоду. И вот человек школу закончил, зачем нужна математика, так и не понял, но деньги считать (и свои, и чужие) научился, посчитал и захотел работать в IT, например, в сфере машинного обучения, чтобы зарабатывать немало. Тут-то и стало ясно, для чего нужна математика! Но школа, как и институт, уже давно прошли.

    Бывает и обратная ситуация: человек с детства понимал, для чего нужна математика, даже закончил вышмат, посчитал среднюю зарплату учёного-математика и понял, что где-то свернул не туда. В поисках прикладной сферы со знанием хорошего математического аппарата человек наткнулся на такую крутую и востребованную сферу, как Data Science.

    Все это предисловие, а сейчас к делу.

    В октябре OTUS запускает курсы для людей, попавших во все эти ситуации:

    • для тех, кто только сейчас осознал, что математика нужна для работы в сфере машинного обучения,
    • для тех, кто это понял давно, но наткнулся на преподавателя в вузе, который это не понимал и хорошо преподавать не хотел,
    • для тех, кто уже закончил вышмат и захотел получать немного больше денег, чем ученый-математик.

    Базовый курс математики для Data Science рассчитан на тех, кто только сейчас решил развиваться в сфере машинного обучения, и столкнулся с тем, что школьных знаний по математике для этого совершенно недостаточно. В этот курс входит классический джентельменский набор математических знаний, необходимых для дальнейшего совершенствования в сфере машинного обучения: это азы математического анализа, линейной алгебры, теории вероятности и математической статистики. Именно эти основные разделы качественно и грамотно будут объяснены будущим IT-специалистам, ведь курс читает преподаватель с 10-летним стажем. По окончании базового курса математики вы будете готовы к изучению машинного обучения.

    Для тех, кто изучал высшую математику в вузе, OTUS открыл набор на продвинутый курс математики для Data Science. Если во фразе «применение производных для апкросимации значении функций» вы понимаете все слова, а не только предлоги, а словосочетание «операции над матрицами» вызывает у вас воспоминания о парах в институте, а не о фильме про Нео, то этот курс для вас. Пропустив самые азы, преподаватель будет давать только те профессиональные знания, которые пригодятся для будущей работы в Data Science: углубленное изучение линейной алгебры, математического анализа и теории вероятностей. Этот курс – не сухая математика, а реальные кейсы от продвинутых Data Scientist-ов, а также программирование на Python.

    Для поступления на курс продвинутой математики необходимо пройти тестирование, результаты которого продемонстрируют вашу готовность к обучению. Подробнее об этом курсе расскажет Пётр Лукьянченко, преподаватель, который знает о Data Science всё и даже больше:

    Если вы все еще сомневаетесь, какой курс вам выбрать, 10 октября в 20:00 пройдет бесплатный открытый вебинар «Математика для Data Science: на пути к Senior». Это реальное онлайн занятие с преподавателем по курсу математики, в ходе которого можно будет задать свои вопросы, посмотреть, как вообще ведутся уроки в OTUS, а также разобрать реальные математические кейсы. 10 октября Петр Лукьянченко расскажет, каким математическим аппаратом должен обладать middle/senior Data Scientist и какие знания необходимы для работы над рекомендательными системами, решения задачи регрессии, AB-тестирования, CV или NLP, а также поможет вам вспомнить оптимизацию функции многих переменных.

    Для тех, кто точно решил совершенствоваться в сфере машинного обучения и изучать для этого математику, OTUS объединил описанные выше курсы, а также добавил к ним курс по Machine Learning. Мы предлагаем различные комбинации покупки данных курсов с хорошей скидкой: вы можете приобрести любой из курсов по математике для Data Science (базовый или продвинутый), а также, например, курс по Machine Learning. Знаний получите больше, а заплатите – меньше. Более подробную информацию о акциях можно посмотреть на сайте или позвонить нам по телефону +74991106165.

    Благодаря OTUS, у каждого человека появилась реальная возможность развиваться в сфере машинного обучения, даже не обладая необходимым количеством знаний в области математики.

    Преподаватели с огромным стажем работы именно в Data Science научат всему необходимому, а HR специалисты OTUS расскажут, как грамотно составить резюме. OTUS сотрудничает с крупнейшими IT-компаниями, с полным списком которых можно ознакомиться тут, и все они с большим энтузиазмом относятся к трудоустройству в штат выпускников OTUS. После окончания обучения Вы получите знания, которых будет достаточно для трудоустройства в крупнейшие компании с достойной оплатой труда.

    Не стесняйтесь задавать вопросы и до встречи на курсах!

    Математика для Data Science. Продвинутый курс.

    Описание

    Что даст вам этот курс:
    • Полный набор знаний для успешной работы в Data Science
    • Обучение математике на реальных кейсах
    • Много практики и живого общения с преподавателями

    Каждый модуль профессионального курса сбалансирован математической теорией и практическими примерами, которые взяты из реальных кейсов. Вы будете решать задачу регрессии, проводить АБ-тестирование, работать над рекомендательной системой, использовать метод опорных векторов.

    Для кого этот курс?
    Курс подойдет всем, кто хочет развиваться в сфере Data Science на позиции Middle/Senior Data Scientist.

    Зачем учить математику?
    Профессия Data Scientist становится одной из самых перспективных и востребованных в IT. Средняя зарплата специалистов Data Science в России вдвое выше, чем у специалистов других IT-направлений — 190 тыс. руб. Уверенное владение математическим аппаратом позволяет повысить уровень компетенций и вырасти в профессиональном плане.

    Цукерберг рекомендует:  Delphi - Аналог record (Delphi) в Python
    Понравилась статья? Поделиться с друзьями:
    Все языки программирования для начинающих