Data-science — Работа в сфере data science


Содержание

Как стать экспертом в Data Science: пошаговый план обучения

Мало кто может предсказывать события до ста процентов верно. Но дата-сайнтисты научились. А мы нашли последние тренды Data Science и составили план для тех, кто хочет глубоко изучить эту область.

Выбор языка

Сейчас в науке о данных используются два основных языка: Python и R. Язык R применяется для сложных финансовых анализов и научных исследований, потому его глубокое изучение можно отложить на потом.

На начальном этапе можно остановиться на изучении основ:

  • нюансы работы RStudio;
  • библиотеки Rcmdr, rattle и Deducer;
  • типы данных контейнеров, векторы и первичные типы данных;
  • factors, структуры и матрицы.

Быстро разобраться в теории языка R поможет сайт Quick-R.

Python популярен больше: на нём проще научиться писать код и для него написано множество пакетов визуализации данных, машинного обучения, обработки естественного языка и сложного анализа данных.

Что важно освоить в Python:

  • функции, классы, объекты;
  • структуры данных;
  • базовые алгоритмы и библиотеки;
  • качественную отладку и тестирование кода;
  • Jupyter Notebook;
  • Git.

Чтобы освоить базовые понятия Python, у вас уйдёт примерно 4-6 недель при условии, что вы будете тратить на изучение 2-3 часа в день.

Где можно освоить: в Skillfactory.

Библиотеки для Python

NumPy

NumPy — библиотека научных вычислений. От неё зависит почти каждый пакет Python для Data Science или Machine Learning: SciPy (Scientific Python), Matplotlib, Scikit-learn.

NumPy помогает выполнять математические и логические операции: например, в ней содержатся полезные функции для n-массивов и матриц. А ещё библиотека поддерживает многомерные массивы и высокоуровневые математические функции для работы с ними.

Зачем нужно знать математику? Почему компьютер не может сам всё посчитать?

Часто методы машинного обучения используют матрицы для хранения и обработки входных данных. Матрицы, векторные пространства и линейные уравнения — всё это линейная алгебра.

Чтобы понимать, как работают методы машинного обучения, нужно хорошо знать математику. Поэтому будет лучше пройти весь курс алгебры целиком: самостоятельно или с наставниками.

Кроме того, математика и математический анализ важны для оптимизации процессов. Зная их, проще улучшать быстроту и точность работы моделей машинного обучения.

Что важно освоить:

  • основу линейной алгебры: линейные комбинации, зависимость и независимость, векторные точки и векторное произведение, матричные преобразования, матричное умножение,
  • обратные функции;
  • массивы;
  • обработку математических выражений и статических данных;
    визуализации через Matplotlib, Seaborn или Plotly.

Где можно подтянуть знания по NumPy: официальная документация.

Где можно подтянуть знания по алгебре: Calculus (глава 11), курс по математике для Data Science.

Pandas

Pandas — библиотека с открытым исходным кодом, построенная на NumPy. Она позволяет выполнять быстрый анализ, очистку и подготовку данных. Такой своеобразный Excel для Python.
Библиотека хорошо умеет работать с данными из разных источников: листов Excel, файлов CSV, SQL, веб-страниц.

Что важно освоить:

  • чтение и запись множества различных форматов данных;
  • выбор подмножеств данных;
  • поиск и заполнение недостающих данных;
  • применение операций к независимым группам в данных;
  • преобразование данных в разные формы;
  • объединение нескольких наборов данных вместе;
  • расширенную функциональность временных рядов.

Где можно подтянуть знания по Pandas: Pydata.

Базы данных и сбор информации

Если вы уже знакомы с Python, Pandas и NumPy, можете приступать к изучению работы с базами данных и парсингу информации.

Несмотря на то, что NoSQL и Hadoop уже пустили корни в науку о данных, важно уметь писать и выполнять сложные запросы на SQL.

Часто необработанные данные — от электронных медицинских карт до истории транзакций клиентов — находятся в организованных коллекциях таблиц, которые называются реляционными базами данных. Чтобы быть хорошим специалистом по данным, нужно знать, как обрабатывать и извлекать данные из этих баз данных.

  • добавлять, удалять и извлекать данные из баз данных;
  • выполнять аналитические функции и преобразовывать структуры баз данных;
  • PostgreSQL;
  • MySQL;
  • SQL Server.

Хорошо структурированный курс по работе с SQL можно пройти здесь: SkillFactory.

Парсинг информации

  • уметь использовать методы find и find_all в парсинге страниц с помощью Beautiful Soup;
  • понять, как работает перебор элементов и сохранение переменных в Python;
  • работать с get-запросами и взаимодействовать с API.

Алгоритмы

Быть программистом без знания алгоритмов страшно, а Data Scientist’ом — опасно. Так что если вы уже освоили Python, Pandas, NumPy, SQL и API, пора учиться применять эти технологии для исследований.

Скорость работы хорошего специалиста часто зависит от трёх факторов: от поставленного вопроса, объёма данных и выбранного алгоритма.

Потому на этом этапе важно понять алгоритмы и структуры данных Беллмана-Форда, Дейкстры, двоичного поиска (и двоичные деревья как инструмент), поиска в глубину и ширину.

Машинное обучение и нейронные сети

Пора применять полученные навыки к решению реальных задач. До этого этапа важно знать математику: поиск, очистку и подготовку данных, построение моделей с точки зрения математики и статистики, их оптимизацию средствами матанализа — вот это всё.

Реальные задачи чаще всего решаются с помощью серьёзных библиотек вроде TensorFlow и Keras.

  • предобработку данных,
  • линейную и логистическую регрессию,
  • кластеризацию и обучение без учителей,
  • анализ временных рядов,
  • деревья принятия решений,
  • рекомендательные системы.

Дополнительно закрепить знания о машинном обучении можно здесь: Машинное обучение от Эндрю Ына.

Заключение

Стать экспертом в Data Science непросто: приходится изучать множество инструментов и быть гибким, чтобы вовремя узнавать о трендах.

Хорошая стратегия — получить базу по Data Science на фундаментальном курсе, а новые инструменты и технологии изучать, решая практические задачи на работе.

Как работать в Data Science без ученой степени

Размышления и рекомендации от Data Scientist Джейсона Юнга

Введение

Привет, я хочу рассказать вам, как стать Data Scientist, не имея диплома (или просто бесплатно). По иронии судьбы, у меня есть диплом, и он даже имеет отношение к Data Science (Магистерская программа в Северо-Западном университете). Но до этого я работал бухгалтером в Deloitte. Странно, да? Я был далек от Data Science и всего технического. Мне приходилось много изучать онлайн самостоятельно после работы и даже во время магистратуры, чтобы догнать однокурсников, так как я пришел не из технической сферы. Как человек, прошедший через все это, могу с уверенностью сказать, что обучение в университете очень помогает, но совсем не обязательно. Мне кажется, раз я побывал по обе стороны — и диплом получил, и онлайн учился — я смогу дать вам особый взгляд. Получение магистерской степени в Data Science — хороший и быстрый способ попасть в эту сферу, но, к счастью, вовсе не единственный, особенно, если вы не хотите тратить $60–90 тысяч на обучение. Однако от вас потребуется строгая самодисциплина.

Если кто-то спросит меня, как попасть в Data Science, этот пост будет для них. Надеюсь, что мои советы будут актуальны и полезны; во время моего обучения мне очень помогали эти ресурсы. Прежде, чем мы углубимся в детали, давайте разберемся, что такое Data Science.

Чем занимается Data Scientist?

Пропустите этот пункт, если вы это уже знаете.

Ну, исходя из моего опыта работы Data Scientist в нескольких компаниях вроде GoDaddy, HERE, и GoGo, Data Scientist решает задачи с помощью машинного обучения в Big Data. Несколько примеров: предсказать вероятность отказа клиента от подписки, выявить ошибки в данных, вычислительный специальный анализ гигабайт и терабайт данных, кластеризация клиентов по смысловым группам, аналитика текста при определении тем в расшифровках чатов онлайн поддержки, расчет предполагаемых доходов, и так далее до бесконечности.

Как Data Scientist вам придется продираться через множество разных проблем. Чтобы быть компетентным, нужно иметь хорошее знание математики, статистики и программирования. Вам нужно знать, когда и какие именно техники и алгоритмы использовать в зависимости от проблемы и имеющихся данных. Ну и наконец, вам часто придется представлять результаты использования соответствующих методов руководителям и другим людям, не связанным с этой сферой.

Кроме того, как Data Scientist вам нужно будет постоянно учиться и подстраиваться. Так как эта сфера очень быстро развивается, важно всегда держать руку на пульсе и быть в курсе новых методик. Даже сейчас я трачу много времени на обучение.

Что нужно, чтобы стать data scientist (без траты средств)

Тебя привлекает работа в Data Science? Замечательно. Мы живем в прекрасное время, когда все можно изучать бесплатно. Я пытался сосредоточиться на бесплатных или дешевых вариантах — кто не любит бесплатные штуки? Просто это требует усидчивости и упорства. Я разделю весь процесс на три этапа.

Не забывайте, что есть и другие прекрасные ресурсы помимо тех, что я упомяну ниже. Но сам я пользовался именно этими.

1 этап: детство

Чтобы быть хорошим Data Scientist, нужно разбираться в программировании, статистике и математике. Я советую посмотреть как минимум это:

  • Университетский курс введения в computer science (в моем случае это был С++).
  • Менее сложные университетские курсы по математике: такие как многовариантные исчисления, дифференциальные уравнения, линеарная алгебра. Это очень поможет вам понимать элементарные математические процессы в глубинном обучении, например, обратное распространение и матричные операции.
  • Университетский курс введения в статистику и вероятности поможет разобраться с R.

Прелесть в том, что проходить их можно не только в университете. Чтобы прокачать эти скилы онлайн, я рекомендую:

  • Математика: Многовариантные исчисления, дифференциальные уравнения, линейная алгебра от Khan Academy.
  • Статистика: Статистика в R и введение в Data Science: Специализация по Data Science от Университета Джонса Хопкинса на Coursera.
  • Python: CodeAcademy.com для общего программирования в Python.

Примеры того, на что способны Data Science, можно посмотреть на Kaggle.com, где ребята изучают и соревнуются в Data Science-проектах. Кроме того, на DataCamp.com есть практические пособия по множеству тем в Data Science — и на R, и на Python.

К концу 1 этапа вы должны хорошо разбираться в простых техниках машинного обучения вроде логистической/линеарной регрессии, деревьев решений на R или на Python. Вообще, я советую выучить и R, и Python. Конечно, в большинстве случаев я использую Python, но знать полезно оба, чтобы применять их в зависимости от проблемы, которую нужно решить.

2 этап: отрочество

Сейчас вы уже должны лучше разбираться в Data Science и статистических методах. На 2 этапе вам уже хочется пойти дальше и получше разобраться с машинным обучением. Я понял, что онлайн-ресурсы типа Coursera обычно не охватывают тему так же глубоко, как курсы университетского уровня. К счастью, Stanford’s AI Lab выкладывает много классных онлайн-курсов. Так что вы можете смотреть лекции мирового уровня, комментарии к ним и еще много материалов по теме абсолютно бесплатно. Поэтому советую по возможности смотреть курсы на Coursera и Стэндфордские лекции одновременно. Например, DeepLearning.ai на Coursera очень хорош для понимания практической стороны глубинного обучения, а курс Stanford’s CS231n Computer Vision
— рассматривает все гораздо глубже.

На этом этапе пройдите курсы:

  • Машинное обучение: Andrew Ng’s Machine Learning Course на Coursera. Я прошел этот курс, но не стал платить за сертификат, потому что домашняя работа не подразумевала использование Python или R. Но он все равно очень полезен для понимания основ машинного обучения.
  • Машинное обучение: Stanford CS229 Machine Learning Course. Это старые, но все еще очень актуальные лекции Эндрю Ына.
  • Текстовая аналитика: Прикладной анализ текстов с Python на Coursera. Я не проходил этот курс, но как Data Scientist вам очень желательно обладать навыками текстовой аналитики и обработки естественного языка (Natural Language Processing, NLP).
  • PySpark: Введение в PySpark от DataCamp. PySpark это Python-версия Spark фреймворка для распределенной обработки данных. Проще говоря, он позволяет вам использовать Python с Very Large Data Bases (VLDB). Я пользуюсь им как минимум раз в неделю.
  • Deep Learning: Курс DeepLearning.ai от Andrew Ng на Coursera. Я оплатил сертификат, потому что там очень хорошая домашка. Это не очень дорого, так что я бы рекомендовал заплатить.
  • Компьютерное зрение: Курс Стэндфорда CS231n: Сверточные нейронные сети для визуального распознавания.
  • Обработка естественного языка (NLP): Курс Стэндфорда CS224n: Глубокое Обучение в Обработке Естественного Языка.

Повторюсь, есть и другие ресурсы типа DataCamp, Udacity, edX, and fast.ai, на которых можно найти информацию по множеству тем.

3 этап: юность

На этом этапе вам нужно готовиться к собеседованиям и продолжать изучать новые и углубляться в уже знакомые темы. Если вы чувствуете себя уверенно со всеми темами 2 этапа, то, думаю, вы уже готовы для подачи заявления на невысокие должности. Хотя есть еще несколько моментов, чрезвычайно важных для успешного прохождения собеседования.

Цукерберг рекомендует:  Json - swift типы для struct

Во-первых, личные проекты. Если вы учитесь на программе Data Science, большая часть курсов посвящена выполнению проектов по машинному обучению — они хороши и для практики навыков, и для иллюстрации ваших способностей работодателю. Поэтому я очень советую попробовать себя в сторонних проектах. Самый простой путь — Kaggle. Еще, даже если этого нет в требованиях, не помешает иметь на Github примеры ваших кодов и проектов, чтобы показать их вашему будущему начальству.

Во-вторых, скорее всего вам будут задавать вопросы по SQL. Когда я только начинал работать в GoDaddy, я мало что знал о SQL. К собеседованию я немного полистал W3Schools.com, CodeAcademy и погуглил частые вопросы на собеседованиях по SQL. Зависит от компании но, знания по машинному обучению и программированию в любом случае ценятся больше, чем SQL. Этому довольно легко научиться на работе. Здесь Leetcode.com можно потренироваться в SQL и программировании.

Ну и наконец, к завершению этого этапа вы должны обладать необходимыми знаниями, чтобы разбираться в самых разных темах машинного обучения. На чем именно сосредоточиться — будь это RNN, CNN, NLP или что угодно еще — только ваше дело. Что касается меня, сейчас я пытаюсь разобраться в обучении с подкреплением (reinforcement learning).

Заключение

Это был мой первый пост на Medium и я очень надеюсь, что он был вам полезен. Я постарался сосредоточиться на курсах, которые можно пройти, а не на конкретных инструментах или Python/R библиотеках, которые нужно знать, потому что в этих курсах о них так или иначе расскажут.

Если вы хотите посмотреть примеры кодов в машинном обучении, зайдите на мой репозиторий Github, в который я регулярно выкладываю все новое, что узнаю. Я планирую и дальше выкладывать новости о проектах, над которыми работаю, и вообще рандомные мысли на Medium!

Как эффективно начать карьеру в Data Science?

Итак, у меня есть огромное желание связать свою деятельность с Data Science в области финансов, и я хотел бы получить совет от опытных людей, как можно сделать это наиболее эффективно.

Про бэкграунд коротко:

  • высшее инженерное, но так получилось, не буду вдаваться в детали, что уже достаточно долго и, надо сказать, достаточно успешно я занимаюсь UI/UX дизайном
  • есть небольшой опыт в написании web-приложений (Backbone + MarionetteJS, RequireJS)
  • есть опыт написания расширений для Chrome на Angular
  • в универе познакомился с Asm, C/C++, C#, Java, JS, PHP, Lisp (нет, это не опечатка), а также с разработкой под Android и iOS
  • знаю английский

Относительно недавно я всё-таки решился сменить карьеру и составил для себя список необходимых минимальных навыков, чтобы получить первую работу:

  1. Python (+ SciPy, NumPy, Pandas);
  2. Проштудировать матан, линейку, тервер и статистику;
  3. Сделать пару небольших проектов, чтобы ходить на собесы не с голым задом, извиняюсь.



Уже недели три как я максимально погрузился в чтение Лутца, и в штудирование математики.

Был бы рад, если бы кто-то из этой сферы помог мне скорректировать план, если необходимо, и, возможно, дал бы совет, как двигаться наиболее эффективно. Хочется приступить к реальной работе в максимально короткие сроки.

Важное примечание: первая цель — устроиться на такую работу, с которой я смог бы оплачивать минимальную жизнь в столице. А поскольку я прекрасно знаю, сколько там стоит жизнь регионала, поэтому отталкиваюсь от суммы 60к/мес. Хочу понять, что мне для этого необходимо сделать и какими знаниями обладать.

Благодарю всех, кто дочитал, и надеюсь услышать что-то конструктивное.

Карьера в Data Science: что нужно знать и кем работать

Все слышали, что будущее за Data Science, но не все до конца понимают, что это вообще такое. Мы постарались в общих чертах объяснить, как применяется Data Science, кем работать в этой области и можно ли начать карьеру дата сайентиста с нуля. Изучайте!

Что такое Data Science

Data Science — это набор методов для анализа данных и поиска оптимальных решений на их основе. Некоторые ошибочно думают, что Big Data и Data Science — это одно и то же, но это не так: дата сайентисты могут работать не только с большими массивами данных (Big Data), но и с маленькими данными.

Data Science включает в себя сбор, хранение и обработку данных, а также поиск данных, которые будут полезны для конкретной задачи. Не все данные можно хранить и обрабатывать единым способом — к некоторым данным нужен особый подход из-за их объема или уникального типа. Придумать как к ним подступиться — тоже задача дата сайентиста.

После сбора данных наступает этап анализа. Data Scientists изучают имеющиеся данные, визуализируют их, ищут закономерности, составляют гипотезы и формируют решения на основе всей информации.

Специалисты по Data Science используют методы машинного обучения и Big Data — облачные вычисления, инструменты создания виртуальной среды разработки и многое другое.

«Умение собирать данные, обрабатывать их и визуализировать, понимать их значение и извлекать из них ценность — чрезвычайно важный навык ближайшего десятилетия», — Хэл Вэриан, главный экономист Google и профессор Калифорнийского университета.

Как применяется Data Science

Благодаря Data Science и технологиям искусственного интеллекта, можно больше узнать о том, что предпочитает человек и создавать более персонализированный продукт. Например, проанализировав звонки абонента, можно предложить ему выгодный тариф для междугородних звонков — человек останется доволен сэкономленными деньгами, а бизнес — лояльным клиентом.

Анализ демографии жителей конкретного района позволит понять, какой бизнес сможет занять в нем свою нишу. Изучение поведения пользователей в интернете подскажет, какой контент будет интересен и в какое время его лучше опубликовать, чтобы получить наибольший охват.

Data Science можно применять не только в бизнесе. Полиция Лос-Анджелеса смогла сократить число краж на 33%, благодаря анализу вероятности совершения преступлений. Крупная железнодорожная компания США, Union Pacific Railroad, обрабатывает данные о состоянии колес и железнодорожного полотна. Это помогло им снизить число схождений составов с рельсов на 75%.

Какие есть профессии в Data Science

  • Аналитик — анализирует метрики, проводит эксперименты, строит прогнозы;
  • Разработчик баз данных — обеспечивает работоспособность баз данных;
  • Архитектор баз данных — проектирует хранение данных;
  • BI-специалист — занимается визуализацией информации и созданием интерактивных дашбордов;
  • Data Engineer — отвечает за извлечение, преобразование, загрузку данных и их обработку;
  • Data scientist — разрабатывает продукт, основанный на данных;
  • ML Engineer — разрабатывает и отвечает за развитие Data Driven продуктов.

Проще всего стать Data scientist, если до этого вы занимались разработкой или аналитикой. Программисты, веб-аналитики, product manager могут переквалифицироваться в аналитиков данных, а бухгалтеры и маркетологи в BI-аналитиков.

Какие знания и навыки нужны для работы в Data Science

  • Математика — если хорошо разбираетесь в этой науке, вам будет проще влиться в Data Science. В любом случае, без математических знаний не обойтись;
  • Технический английский — большинство годных материалов по изучению Data Science выходят на английском языке, поэтому «ай донт андестенд» не пройдет. Для начала можете изучить основные термины и их значение;
  • Статистика — для входа в сферу понадобятся хотя бы базовые знания статистики. Рекомендуем изучить все доступные бесплатные материалы на Coursera или аналогичных ресурсах;
  • Программирование — речь, в основном, о языке Python, R и SAS. Базовые навыки программирования можно приобрести и самостоятельно, например, с помощью бесплатных курсов и платформ;
  • Работа с базами данных — чтобы мыслить в контексте данных, нужно понимать, как работают базы реляционных данных.

В зависимости от специализации также требуются знания электронных таблиц и инструментов доступа и обработки данных (СУБД, хранилища данных, SQL, ETL), а также Power BI, Tableau, инструментов OLAP и майнинга.

Можно ли начать карьеру в Data Science с нуля

Скорее нет, чем да. Учиться по ходу дела не получится — нужно понимать, как все устроено. Идеально, если у вас уже есть технический бэкграунд и вы не будете с нуля вникать в статистику, анализ и программирование, без которых не обойтись в Data Science.

Войти в сферу Data Science довольно трудно из-за объема необходимых знаний, но оно того стоит — помимо невероятно интересной работы, сферу отличают большие зарплаты и кадровый спрос, превышающий предложение.

В конце 2020 года портал Superjob на основе опять-таки данных выяснил, что спрос на аналитиков данных будет только расти. Средний заработок по Москве у таких специалистов 140-150 тыс. рублей, но часто зарплата доходит и до 250 тыс. рублей.

Самостоятельно с нуля разобраться в Data Science очень сложно. Для начала можно изучить бесплатные курсы, почитать доступные книги об анализе данных, а уже потом задуматься о прохождении серьезной подготовки.

Дорога в Data Science глазами новичка

Что такое Data Science?

В 21 веке информация повсюду. Вы буквально не можете жить, не оставляя вокруг себя информационный след. Зашли вы утром в ВК поставить пару лаек или купили в магазине пармезан, информация об этом сохранилась в огромных базах данных. А вдруг эта информация может быть полезна? Может быть, покупая один продукт, люди часто покупают и другой — тогда имеет смысл поставить эти полки рядом (или наоборот — в разных концах магазина). А может быть, скрытые закономерности есть в научных данных? Какие существуют наиболее эффективные алгоритмы их обработки? Можно ли, анализируя данные с фотографий или видео, научить компьютер узнавать на них объекты? Этим и многим другим может заниматься data scientist

Почему появился этот пост

Мне довелось пройти Летнюю школу по анализу данных от ТГУ (Томск). На ней я надеялся получить структурированные знания с нуля о том, что такое анализ данных и машинное обучение, базовые знания для них. Коротко говоря, оказалось, что эта школа не совсем для новичков (как бы это ни позиционировалось в рекламе). Вот, что записано в моём блокноте на самой первой лекции:

Для первого дня сложно
Плюх в океан знаний
Я утонул

К концу школы структурированных знаний я так и не получил. Спикеры были очень разные и говорили на совсем разные темы. Зато какие были спикеры! Лекции нам читали (а некоторые и вели практику) люди из Яндекс, Сколтеха, IBM и томской IT-компании Rubius. Пусть я так и не узнал базовых вещей, а блокнот исписан терминами на погуглить. Зато, я увидел отличные примеры того, как можно применять анализ данных в самых разных областях: науке, индустрии и бизнесе. Базовые знания можно получить и самостоятельно, но понять, как можно их применять получается не всегда (отсюда работники Макдоналдс с красным дипломом). Школа явно показала пробелы в знаниях, которые необходимо заполнить

Об этом и данный пост. Здесь вы найдёте пошаговый план, как его видит человек, стоящий в начале этого пути. К каждой теме, которую следует изучить, будет прилагаться ссылка на курс. План рассчитан на людей без базы. Под базой я понимаю знание высшей математики и наличие навыков программирования. Для людей, обладающих этим, могу порекомендовать эту статью и специализацию по машинному обучению на Coursera. А также, буду благодарен за совет новичку. Итак, начнём!

0. Математический анализ

Если у вас нет высшего образования, пройти этот курс нужно обязательно. За алгоритмами машинного обучения и нейронных сетей скрывается в первую очередь математика. Если вам непонятны такие слова, как определитель матрицы или частная производная, начать следует именно отсюда. Если вы понимаете эти термины (или хотя бы знаете, где про них прочитать, чтобы вспомнить), этот пункт можно пропустить

1. Математическая статистика

В анализе данных без этой дисциплины никуда. Вот список курсов, которые обеспечат вам уверенное знание предмета:

•Курс «Основы статистики» на Stepik — отлично подойдёт для начала. Есть также продолжения курса, будет полезно пройти и их

•Курс «Математическая статистика» на Stepik — поможет закрепить полученные знания с помощью достаточного количества практики

•Курс «Статистические методы в гуманитарных исследованиях» на Coursera — пусть вас не отталкивает название, курс подойдёт для всех. Преподаватель потрясающий, так что будет понятно даже гуманитариям. Главное преимущество этого курса — параллельно идёт обучение работе в программах STATISTICA и R

2. Дискретная математика

Знание этого предмета не является обязательным, пункт можно пропустить. Но всё же, вы часто будете встречать некоторые термины как, например, графы. Для уверенного обращения с ними рекомендуется изучить эту тему. Тем же, кого интересует научная сторона Data science и разработка алгоритмов — этот пункт строго обязателен

3. Программирование на Python

Python и R будут вашими основными инструментами для работы. С R вы познакомитесь в курсе статистики, здесь же изучите второй язык

4. Машинное обучение

Время переходить непосредственно к той области, которой хотите заниматься! В этом поможет классический курс от Andrew Ng (Стэнфордский университет) на Coursera. Курс на английском. Если вы его не знаете, можно поискать переводы курса, но рекомендуется начать изучать и язык

5. Получение опыта на Kaggle

Платформа для соревнований по машинному обучению поставит перед вами реальные задачи, а также позволит посмотреть на решения опытных людей. Лучшее место для начала применения своих знаний!

6. Дальнейшее обучение, собеседования

Полистайте список вакансий, подумайте, чего ещё вам не хватает и торопитесь получить работу мечты!

Больше постов про учёбу, IT и науку — в моём паблике ВК. Там же есть эта статья в более текстовом виде. Буду благодарен за советы и желаю всем удачи!

Как искать работу начинающим Data Scientists?

В этой статье мы опишем все базовые вещи, которые надо знать и к чему надо готовиться при поиске работы для Data Scientist. Особенно, если вы junior.

Оглавление:

  • Предварительная подготовка
  • Резюме
  • Стратегия поиска
  • Собеседование
  • К чему быть готовым, если вы переходите в DS из другой отрасли
  • Что спрашивают на собеседованиях

Предварительная подготовка

Задача: решить, каким аналитиком вы станете.

Это важно для того, чтобы развиваться в профессии наилучшим образом, а также для увеличения своего дохода.

Что делать?

  • Прокачивайте свой профессиональный нетворк.
  • Вступайте в профессиональные онлайн-сообщества (группы в ТГ, Slack, ФБ, Open data science).
  • Следите за лидерами проф. сообщества и их активностями.
  • Принимайте участие в проф. соревнованиях (например, на Kaggle), индивидуально и, если возможно, в группе.
  • Приходите и участвуйте в митапах, хакатонах и встречах аналитиков.
  • Соглашайтесь на профильные стажировки.
  • Пробуйте много разных вещей, чтобы иметь возможность выбора.
Цукерберг рекомендует:  Offline.js – сообщаем пользователя о потери подключения к Интернету

Результат:

  1. Вы поймете, что ваше, а что нет. После многих проб и исследований важно остановиться и сфокусироваться на чем-то одном.
  2. Вы повысите свой проф. уровень и сможете больше заинтересовать работодателей.
  3. Есть шанс, что вас начнут узнавать в проф. тусовке и это тоже положительно скажется на вашей карьере.
  4. Вы будете узнавать о важных событиях, мероприятиях и вакансиях(!).

Резюме

Цель резюме: презентация вашего опыта и навыков так, чтобы привлечь внимание классных работодателей.

Что делать?

Начинайте писать резюме сразу же, прямо сейчас. Даже, если у вас нет проф. опыта. Прочитайте нашу статью «Что писать, а что не писать в резюме, если вы начинающий Data Scientist?»

Что еще писать в резюме?

  • Записывайте все профильное: участие в хакатонах, митапах, статьи, доклады и т.д. Пожалуйста, не стесняйтесь и отмечайте все, что может иметь отношение к профессии. Вплоть до упоминяния тем профильных курсовых и дипломных проектов, студенческих публикаций.
  • Указывайте информацию об обучении в профильных школах и курсах (Нетология, ШАД и пр.). Даже если вы не закончили ШАД, все равно упомяните про это обучение в резюме.
  • Запишите даже скромный опыт, например, бесплатную стажировку или студенческие проекты.
  • Помните, что ваше резюме может оценивать, как профи в data science, так и не опытный рекрутер. Используйте в резюме как спец. термины, так и понятные рекрутеру слова.
  • Расскажите коротко, почему вам интересна профессия и что конкретно в профессии вам интересно.

Стратегии поиска

Задача: использовать все возможности для трудоустройства в компанию-мечты.

Что делать?

  • Сформируйте список компаний/проектов, в которых вам хотелось бы поработать. Пополняйте этот список. Найдите, где вы можете следить за новыми вакансиями в этих проектах. Следите и откликайтесь.
  • Найдите, кто является Head of Analysts или Head of Data Science из вашего списка желаемых компаний-работодателей. Отыщите их на ФБ и подпишитесь, чтобы следить за появляющимися вакансиями. В последнее время работодатели все чаще публикуют свои вакансии на ФБ, в личных профилях.
  • Внимательно изучите публичную информацию о том, как внутри компании устроена аналитика, с какими задачами там работают, какие подходы предпочитают. После этого, постучитесь в личку к Руководителю аналитики этой компании и расскажите про себя.
  • Лайфхак: когда нашли, кто является главой аналитики в той компании, которая вам интересна, проверьте, не преподает ли он где-нибудь. Если преподает, запишитесь к нему на курсы и постарайтесь быть в числе лучших учеников. Это сильно повысит ваши шансы на стажировку в компании.
  • Подпишитесь на профильные ТГ-каналы с вакансиями для аналитиков (например: https://t.me/foranalysts). Следите за вакансиями на Open data science.
  • Не игнорируйте работные сайты (hh.ru, moikrug, geekjob.ru), там могут быть интересные стажерские вакансии.
  • Обязательно оставляйте свое резюме на всех профессиональных курсах, на которых вы учитесь. К таким школам приходят работодатели, которым интересны начинающие аналитики.
  • Если вы еще учитесь, следите за объявлениями для выпускников ВУЗов.
  • Напишите в своих соц.сетях о том, что вы ищите работу. Расскажите это всем, кого хорошо знаете (идеально, если человек из профессии). Делайте это, даже если ищите временную работу. Никогда не знаешь, где повезет и откуда прилетит классная вакансия.

Собеседование

Цель: подготовиться и успешно пройти собеседование в компанию-мечты.


Соглашайтесь на любую возможность пройти собеседование.
Ходите на все собеседования, по возможности, очно. Не инициируйте дистанционное общение сами.

  • Вы потренируетесь рассказывать о себе и своем опыте.
  • Узнаете, что стандартно спрашивают работодатели и научитесь отвечать на эти вопросы.
  • Изучите разные компании и узнаете, как там все устроено внутри в плане задач по аналитике.
  • Познакомитесь с нанимающими менеджерами. Это вам пригодится в будущем. Рынок очень узкий и вы еще можете пересечься в других компаниях, митапах, семинарах, чатах и т.д.
  • Обязательно послушайте наш подкаст про поиск работы в США, там много хороших рекомендаций о важности тренировочных собеседований и навыке самопрезентации.

Делайте все тестовые задания!

  • Это дает возможность профессионально прокачаться.
  • Некоторые тесты вы можете использовать в качестве портфолио.
  • Или даже частично использовать их для собеседований в других компаниях.

Что смотрят на тестовом для Junior Data Scientists?

  • Смотрят на то, как написан код.
  • На аккуратность оформления (чтобы было понятно другому человеку).
  • На сделанные выводы и логичность этих выводов.
  • На общую коммуникацию в процессе решения задачи. Например, смотрят, на то: Задаете ли вы вопросы? Гуглите ли перед тем, как их задавать? Оцениваете ли сроки адекватно? Выдерживаете ли сроки?

Перед собеседованием

  • Соберите предварительно информацию о компании. Чем она занимается? На чем зарабатывает? Где используется аналитика? И т.д.
  • попробуйте узнать, как проходят собеседования. Некоторые компании открыто про это пишут. Поспрашивайте знакомых и друзей тех, кто сейчас работает или ранее работал. Спросите рекрутера, как лучше подготовиться.

На самом собеседовании
Продемонстрируйте интерес, задайте вопросы.

  • То, какие вопросы вы задаете, демонстрирует вашу мотивацию и то, что на самом деле вам важно. Например, можно спросить, о том: когда мне повысят ЗП?А можно спросить: с какими технологиями работаете? Какие задачи нужно решать?

Этические правила

  • Не опаздывайте.
  • Оденьтесь опрятно.
  • Предупредите работодателя, если нужно перенести собеседование.

Работа data scientist, вакансии data scientist

1-20 из 4154 результатов

Получать новые вакансии на почту

Expert Data Scientist

200 000 — 400 000 руб.

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Analyst / Data Scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data scientist (CV)

AROUND, Группа компаний

120 000 — 140 000 руб.

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

Рюмин Евгений Геннадьевич

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

data scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

70 000 — 90 000 руб.

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Аналитик-разработчик ( Data scientist)

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data scientist (Computer vision)

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

Полезная ли была для вас вакансия?

Пожалуйста, опишите проблему

Data Scientist

Proficiency in R, SAS, SPSS or other statistical package

Advanced knowledge of statistical and data mining techniques (regression, decision trees, clustering, neural networks, etc.)

Кто такой дата-сайентист

В послед­нее вре­мя на слу­ху два тер­ми­на: биг дата и дата-саенс. Сего­дня — что это такое и зачем нуж­но.

Большие данные

Нач­нём с про­сто­го — big data, или «боль­шие дан­ные». Это мод­ный тер­мин, обо­зна­ча­ю­щий огром­ные мас­си­вы дан­ных, кото­рые накап­ли­ва­ют­ся в каких-то боль­ших систе­мах.

Напри­мер, чело­век в Москве совер­ша­ет 5-6 поку­пок по кар­те в день, это око­ло 2 тысяч поку­пок в год. В стране таких людей, допу­стим, 80 мил­ли­о­нов. За год это 160 мил­ли­ар­дов поку­пок. Дан­ные об этих покуп­ках — биг дата.
В бан­ках какой-то стра­ны каж­дый день совер­ша­ют­ся сот­ни тысяч опе­ра­ций: пла­те­жи, пере­во­ды, воз­вра­ты и так далее. Дан­ные о них хра­нят­ся в цен­траль­ном бан­ке стра­ны — это биг дата.
Ещё биг дата: дан­ные о звон­ках и смс у мобиль­но­го опе­ра­то­ра; дан­ные о пас­са­жи­ро­по­то­ке на обще­ствен­ном транс­пор­те; свя­зи меж­ду людь­ми в соц­се­тях, их лай­ки и пред­по­чте­ния; посе­щён­ные сай­ты; дан­ные о покуп­ках в кон­крет­ном мага­зине (кото­рые хра­нят­ся в их кас­се); дан­ные с шаго­ме­ров и тайм-трекеров; ска­чан­ные при­ло­же­ния; откры­тые вами фай­лы и про­грам­мы… Коро­че, любой боль­шой мас­сив дан­ных.

Поче­му появил­ся такой тер­мин: в кон­це девя­но­стых ком­па­нии в США ста­ли пони­мать, что сидят на доволь­но боль­ших мас­си­вах дан­ных, с кото­ры­ми непо­нят­но что делать. И чем даль­ше — тем этих дан­ных боль­ше.

Рань­ше дан­ные были, услов­но гово­ря, по кре­дит­ным кар­там, теле­фон­ным сче­там и из про­филь­ных госу­дар­ствен­ных ведомств; а теперь чем даль­ше — тем боль­ше все­го счи­та­ет­ся. Супер­мар­ке­ты научи­лись вести сверх­точ­ный учёт скла­да и про­даж. Поли­ция научи­лась с высо­кой точ­но­стью сле­дить за маши­на­ми на доро­ге. Появи­лись смарт­фо­ны, и вооб­ще вся чело­ве­че­ская жизнь ста­ла оциф­ро­вы­вать­ся.

И вот — дан­ные вро­де есть, а что с ними делать? Тут на сце­ну выхо­дит дата-сайенс — дис­ци­пли­на о боль­ших дан­ных.

Минут­ка зануд­ства. Все зна­ют, что пра­виль­но гово­рить «биг дэй­та», пото­му что имен­но так про­из­но­сят носи­те­ли язы­ка. Но в рус­ском язы­ке этот тер­мин при­жил­ся с побук­вен­ной транс­ли­те­ра­ци­ей — как напи­са­но, так и чита­ем. Поэто­му — дата. Кста­ти, с сай­ен­ти­ста­ми тако­го не про­изо­шло — они зву­чат так же, как в ори­ги­на­ле.

Дата-сайенс

Дата-сайентисты — люди, кото­рые зани­ма­ют­ся боль­ши­ми дан­ны­ми: нахо­дят зако­но­мер­но­сти и дела­ют на их осно­ве полез­ные для сво­ей ком­па­нии выво­ды.

Напри­мер, мы — управ­ля­ю­щая ком­па­ния мага­зи­на «Пятё­роч­ка». В каком-то рай­оне у нас откры­то три мага­зи­на. Мы можем попро­сить дата-сайентиста про­ана­ли­зи­ро­вать тран­зак­ции в наших мага­зи­нах и сде­лать про­гноз, мож­но ли какие-то из них закрыть, сохра­нив общую выруч­ку на преж­нем уровне.

Или мы хотим открыть кофей­ню. У нас есть дан­ные об обще­ствен­ном транс­пор­те горо­да, о поло­же­нии кофе­ен в горо­де и сто­и­мо­сти арен­ды в раз­ных домах. Мы можем попро­сить дата-сайентиста пред­ска­зать, где в горо­де не хва­та­ет кофе­ен отно­си­тель­но пас­са­жир­ских пото­ков.

Допу­стим, мы мобиль­ный опе­ра­тор. Мы хотим сде­лать тариф «Юный хай­по­жор» для юных люби­те­лей отве­дать хай­па. Мы отда­ём нашу кли­ент­скую базу и дан­ные о пове­де­нии кли­ен­тов дата-сайентисту, и тот счи­та­ет нам эко­но­ми­ку буду­ще­го тари­фа и потен­ци­аль­ный объ­ём рын­ка, а так­же помо­га­ет выде­лить самых голод­ных до хай­па людей.

Ино­гда эти ребя­та помо­га­ют с управ­ле­ни­ем в ком­па­ни­ях: они на осно­ве дан­ных пишут отчё­ты, кото­рые пока­зы­ва­ют сла­бые места на про­из­вод­стве и дают реко­мен­да­ции по их устра­не­нию. Или отве­ча­ют на вопро­сы из серии «Поче­му наши мене­дже­ры так мало про­да­ют?» или «Где сто­ять продавцу-консультанту, что­бы к нему обра­ща­лись чаще все­го?».

Что знают и умеют дата-сайентисты

Вот началь­ный спи­сок навы­ков, зна­ний и уме­ний, кото­рые нуж­ны любо­му дата-сайентисту для стар­та в рабо­те.

Мате­ма­ти­че­ская логи­ка, линей­ная алгеб­ра и выс­шая мате­ма­ти­ка. Без это­го не полу­чит­ся постро­ить модель, най­ти зако­но­мер­но­сти или пред­ска­зать что-то новое.


Есть те, кто гово­рит, что это всё не нуж­но, и глав­ное — писать код и кра­си­во делать отчё­ты, но они лука­вят. Что­бы обу­чить ней­рон­ку, нуж­на мате­ма­ти­ка и фор­му­лы; что­бы най­ти зако­но­мер­но­сти в дан­ных — нуж­на мате­ма­ти­ка и ста­ти­сти­ка; что­бы сде­лать отчёт на осно­ве боль­шой выбор­ки дан­ных — ну, вы поня­ли. Мате­ма­ти­ка рулит.

Зна­ние машин­но­го обу­че­ния. Рабо­та дата-сайентиста — ана­лиз дан­ных огром­но­го раз­ме­ра, и вруч­ную это сде­лать нере­аль­но. Что­бы было про­ще, они пору­ча­ют это ком­пью­те­рам. Пору­чить такую зада­чу — зна­чит настро­ить гото­вую ней­ро­сеть или обу­чить свою. Пору­чить про­грам­ми­сту обыч­но это нель­зя — слиш­ком мно­го нуж­но будет объ­яс­нить и про­кон­тро­ли­ро­вать.

Про­грам­ми­ро­ва­ние на Python и R. Мы уже писа­ли, что Python — иде­аль­ный язык для машин­но­го обу­че­ния и ней­ро­се­тей. На нём мож­но быст­ро напи­сать любую модель для пер­во­на­чаль­ной оцен­ки гипо­те­зы, поис­ка общих дан­ных или про­стой ана­ли­ти­ки.

R — язык про­грам­ми­ро­ва­ния для ста­ти­че­ско­го ана­ли­за. Если вам нуж­но при­ки­нуть, как лай­ки на стра­ни­це зави­сят от коли­че­ства про­смот­ров или до како­го места чита­тель гаран­ти­ро­ван­но доли­сты­ва­ет ста­тью (что­бы поста­вить туда бан­нер), — R вам помо­жет. Но если вы не зна­е­те мате­ма­ти­ку — не помо­жет.

Уме­ние полу­чать и визу­а­ли­зи­ро­вать дан­ные. Не всем дата-сайентистам везёт настоль­ко, что они сра­зу полу­ча­ют гото­вые набо­ры дан­ных для обра­бот­ки. Чаще все­го они сами долж­ны выяс­нить, где, отку­да, как и сколь­ко брать дан­ных. Здесь обыч­ные про­грам­ми­сты им уже могут помочь — спар­сить сайт, выка­чать боль­шую базу дан­ных или настро­ить сбор ста­ти­сти­ки на сер­ве­ре.

Вто­рой важ­ный навык в этой про­фес­сии — уме­ние нагляд­но пока­зать резуль­та­ты рабо­ты. Какой толк в гра­фи­ках, если никто, кро­ме авто­ра, не пони­ма­ет, что там нари­со­ва­но? Зада­ча дата-сайентиста — пред­ста­вить дан­ные нагляд­ным обра­зом, что­бы зри­те­лю было лег­че сде­лать нуж­ный вывод.

Как это выглядит в жизни

Дата-сайентист в совре­мен­ном пони­ма­нии — очень моло­дая про­фес­сия. Ком­па­нии уже поня­ли, что эти ребя­та помо­гут им зара­бо­тать или сэко­но­мить мил­ли­о­ны дол­ла­ров, поэто­му они созда­ют для них новые отде­лы и рабо­чие места.

С дру­гой сто­ро­ны, такой набор зна­ний — ред­кость, поэто­му дата-сайентистов сей­час на рын­ке очень мало: гораз­до мень­ше, чем пред­ло­же­ний о рабо­те. Имен­но поэто­му у них такие высо­кие зар­пла­ты — ком­па­нии сами борют­ся за то, что­бы нанять тако­го спе­ци­а­ли­ста.

Так как это направ­ле­ние толь­ко раз­ви­ва­ет­ся, у мно­гих про­грам­ми­стов есть шанс попасть туда и рабо­тать ана­ли­ти­ком. Для это­го нуж­но про­ка­чи­вать уме­ние писать код, мате­ма­ти­ку и ста­ти­сти­ку. Если вы всё это уже зна­е­те и уме­е­те — може­те попро­бо­вать себя в «про­фес­сии буду­ще­го».

В «Яндекс-практикуме» есть курс для ана­ли­ти­ков — это нача­ло пути дата-сайентиста. Мож­но попро­бо­вать бес­плат­ный урок и посмот­реть, как вам — понра­вит­ся или нет.

Специалист по data science: специализация и работа

Мы живем в век информации, и ее количество растет очень быстро. Объем информации, которую потребляет современный человек за год, вскоре может оказаться больше, чем у наших предков за всю жизнь. Данные, с которыми мы сегодня имеем дело, это не только книги, фильмы и web-страницы. Есть огромное количество данных, скрытых от конечного пользователя: ими оперируют компании. Это, например:

  • история транзакций в банках;
  • данные о местоположении и маршрутах всех машин в таксопарке;
  • данные о наблюдении за звездами и планетами в обсерватории;
  • данные с камер, установленных на улицах города для наблюдения за автомобилями
  • и многое, многое другое.

Умение правильно работать с этими данными позволяет предложить вам именно тот товар, который вы хотите, рассчитать оптимальную цену на перевозку в такси, отбраковать деталь на ранних этапах производства и в общем – сделать бизнес более эффективным.

Все больше компаний осознают этот тренд и создают у себя подразделения, специализирующиеся на данных. Также появляются новые молодые компании, работающие конкретно с данными. Так как область эта очень молодая и в вузах еще только-только начинают появляться соответствующие специализации – все это приводит к существенному недостатку специалистов на рынке, росту зарплат в области. А это, несомненно, делает профессию специалиста по работе с данными еще привлекательней.

Цукерберг рекомендует:  Книжная полка маркетолога что советуют профессионалы

Специализации Data Science

Можно выделить 3 основных направления, по которым можно развиваться в области обработки данных:

  • Data Engineer
  • Data Scientist
  • Data Manager

Рассмотрим каждое из них подробнее.

Data Engineer

Инженер – это тот, кто спроектирует такую систему обработки данных, которая сможет переварить петабайты данных и не лопнуть. Он знает все современные технологии и подходы в области обработки данных: MapReduce, Hadoop, Spark, Aerospike, Redis, Storm и т.д.

Data Scientist

Data Scientist умеет находить закономерности в больших массивах данных, хорошо знает область машинного обучения, уверенно владеет такими инструментами, как R, Weka, Python + Scikit-Learn + Pandas. Именно Data Scientist умеет извлекать из данных максимальную пользу и проектировать алгоритмы, которые будут давать ответы на нужные вопросы.

Область Data Science сама по себе довольно широкая, и в ней можно выделить еще несколько специализаций:

  • «Классический» Data Mining – позволяет решать такие задачи, как кредитный скоринг, прогнозировать вероятность брака при производстве, рассчитывать вероятность клика пользователем по баннеру.
  • Text Mining – позволяет находить закономерности в тексте, автоматически определять его тематику, понимать по посту в социальной сети – был он окрашен позитивно или негативно.
  • Обработка изображений – позволяет находить образы на фото, распознавать текст на картинке, определять, есть ли у пациента рак, на основе анализа рентгеновского снимка – и многое другое. Именно в этой области сейчас правят бал нейросети и глубокое обучение.
  • Обработка аудиосигнала – в последнее время мы все привыкли говорить «OK, Google, что идет в кино?».
  • Рекомендательные системы – задачи из этой области позволяют подобрать для пользователя фильм, книгу или товар, которые максимально соответствуют его интересам.

Data Manager

Специалист, в задачи которого не входит непосредственная разработка продукта. Однако он обязан представлять себе область, чтобы грамотно управлять проектом.

Он должен знать, что можно сделать при помощи современных технологий, а что – нельзя, уверенно владеть терминологией предметной области, а также иметь хороший навыки в техниках управления проектами (agile, SCRUM, экстремальное программирование и им подобных).

Работа в сфере Data Science

Разберем различные типы компаний и особенности работы в них.

Крупные интернет-компании. Именно интернет-компании стоят на передовой технологий, разрабатывают новые продукты и двигают индустрию вперед. В этих компаниях вы всегда найдете коллег, у которых будет больше опыта, чем у вас – и у них будет, чему поучиться.

Тут всегда отличные условия – белая зарплата, хорошая медстраховка, уютный офис, всяческие плюшки типа бесплатного питания и помощи в приобретении жилья. Ключевые сотрудники часто могут рассчитывать на опцион, реализация которого может принести существенную прибавку к зарплате.

Но самый главный минус работы в крупных компаниях – это их размер: работа, которую выполняете конкретно вы, может быть незаметна в масштабах всей компании (особенно в начале). Для кого-то это может быть существенно – хочется понимать собственную важность.

Исследовательские подразделения крупных компаний. Сюда можно отнести банки, аудиторские компании «большой четверки», телеком-операторов, крупные ритейл-сети.

В таких компаниях работе с данными в последнее время уделяют много внимания. Поскольку, как правило, они пока находятся в начале пути – вполне вероятно, что вы получите очень большой и ответственный кусок работы. Поэтому ваш вклад может быть заметен, несмотря на размер «махин».

Минусы: в таких компаниях, как правило, очень сильна внутренняя бюрократия, и вам будет довольно тяжело согласовывать и внедрять новые технологии. По моей оценке, отделы по работе с данными в таких местах, скорее, подходят для опытных специалистов.

Условия тут, как и в крупных интернет-компаниях, хорошие: белая зарплата, страховка и различные дополнительные приятности.

Стартапы в области обработки данных. Таких стартапов сейчас довольно много, и они также ищут сотрудников. При работе в стартапе вы будете делать очень существенную и важную часть работы. Если приходите среди первых сотрудников – можно претендовать на опцион или даже долю в компании.

К минусам можно отнести нестабильность (у стартапа могут внезапно закончиться деньги), зарплата будет зачастую серая – и, как правило, прелести вроде бесплатных обедов и помощи при покупке жилья недоступны. Зато в стартапе максимально быстро можно получить глубокие знания, а в случае успеха – еще и хорошо заработать.

Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

Пошаговая инструкция для тех, кто не знает, с чего начать

Про­фес­сию Data Sci­en­tist се­год­ня ча­сто на­зы­ва­ют од­ной из са­мых пер­спек­тив­ных и мод­ных. Он­лайн-кур­сы и уни­вер­си­те­ты пред­ла­га­ют все боль­ше про­грамм обу­че­ния этой спе­ци­аль­но­сти, и но­вич­кам не все­гда по­нят­но, с чего на­чать и как вы­брать са­мый эф­фек­тив­ный путь. Ру­ко­во­ди­тель фа­куль­те­та Data Sci­ence он­лайн-уни­вер­си­те­та «Нето­ло­гия» Еле­на Ге­ра­си­мо­ва спе­ци­аль­но для «Цеха» со­ста­ви­ла по­дроб­ный пу­те­во­ди­тель по миру на­у­ки о дан­ных. В ма­те­ри­а­ле вы най­де­те объ­яс­не­ния глав­ных тер­ми­нов, по­ша­го­вую ин­струк­цию для тех, кто толь­ко вхо­дит в про­фес­сию, а та­к­же спи­сок по­лез­ной ли­те­ра­ту­ры по каж­дой теме.

О чем речь

Data Sci­ence — де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших ре­ше­ний на их ос­но­ве. Рань­ше по­доб­ны­ми за­да­ча­ми за­ни­ма­лись спе­ци­а­ли­сты по ма­те­ма­ти­ке и ста­ти­сти­ке. За­тем на по­мощь при­шел ис­кус­ствен­ный ин­тел­лект, что поз­во­ли­ло вклю­чить в ме­то­ды ана­ли­за оп­ти­ми­за­цию и ин­фор­ма­ти­ку. Этот но­вый под­ход ока­зал­ся на­мно­го эф­фек­тив­ней.

Как стро­ит­ся про­цесс? Все на­чи­на­ет­ся со сбо­ра боль­ших мас­си­вов струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных и их пре­об­ра­зо­ва­ния в удоб­ный для вос­при­я­тия фор­мат. Даль­ше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и ана­ли­ти­че­ские ме­то­ды — ма­шин­но­го и глу­бо­ко­го обу­че­ния, ве­ро­ят­ност­ный ана­лиз и про­гноз­ные мо­де­ли, ней­рон­ные сети и их при­ме­не­ние для ре­ше­ния ак­ту­аль­ных за­дач.

Пять глав­ных тер­ми­нов, ко­то­рые нуж­но за­пом­нить

Ис­кус­ствен­ный ин­тел­лект, ма­шин­ное обу­че­ние, глу­бо­кое обу­че­ние и на­у­ка о дан­ных — ос­нов­ные и са­мые по­пу­ляр­ные тер­ми­ны. Они близ­ки, но не эк­ви­ва­лент­ны друг дру­гу. На стар­те важ­но разо­брать­ся, чем они от­ли­ча­ют­ся.

Ис­кус­ствен­ный ин­тел­лект (Ar­ti­fi­cial In­tel­li­gence) — об­ласть, по­свя­щен­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, ра­бо­та­ю­щих и дей­ству­ю­щих как люди. Ее воз­ник­но­ве­ние свя­за­но с по­яв­ле­ни­ем ма­шин Ала­на Тью­рин­га в 1936 году. Несмот­ря на дол­гую ис­то­рию раз­ви­тия, ис­кус­ствен­ный ин­тел­лект пока не спо­со­бен пол­но­стью за­ме­нить че­ло­ве­ка в боль­шин­стве об­ла­стей. А кон­ку­рен­ция ИИ с лю­дь­ми в шах­ма­тах и шиф­ро­ва­ние дан­ных — две сто­ро­ны од­ной ме­да­ли.

Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние ин­стру­мен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учи­те­ля — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.

Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее про­дви­ну­тый или быст­рый ана­лиз, и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся неко­то­рым ко­ли­че­ством скры­тых сло­ев ней­ро­нов в сети, ко­то­рые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.

Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­е­мом ча­сто неструк­ту­ри­ро­ван­ных дан­ных. Спе­ци­фи­ка сфе­ры — это ин­стру­мен­ты и си­сте­мы, спо­соб­ные вы­дер­жи­вать вы­со­кие на­груз­ки.

На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыс­лом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Спе­ци­а­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые ме­то­ды ма­шин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

Где при­ме­ня­ет­ся Data Sci­ence

• об­на­ру­же­ние ано­ма­лий, на­при­мер, ненор­маль­ное по­ве­де­ние кли­ен­та, мо­шен­ни­че­ства;

• пер­со­на­ли­зи­ро­ван­ный мар­ке­тинг — элек­трон­ные рас­сыл­ки, ре­тар­ге­тинг, си­сте­мы ре­ко­мен­да­ций;

• ко­ли­че­ствен­ные про­гно­зы — по­ка­за­те­ли эф­фек­тив­но­сти, ка­че­ство ре­клам­ных кам­па­ний и дру­гих ме­ро­при­я­тий;

• ско­рин­го­вые си­сте­мы — об­ра­бот­ка боль­ших объ­е­мов дан­ных, по­мощь в при­ня­тии ре­ше­ний, на­при­мер, о предо­став­ле­нии кре­ди­та;

• ба­зо­вое вза­и­мо­дей­ствие с кли­ен­том — стан­дарт­ные от­ве­ты в ча­тах, го­ло­со­вые по­мощ­ни­ки, сор­ти­ров­ка пи­сем по пап­кам.

Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и вы­бор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние пред­по­ло­же­ний.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.

Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за ме­сяц или даже год. При­дет­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пы­тать­ся вновь.

Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фун­да­мен­таль­ный курс по тео­рии ве­ро­ят­но­стей (ма­те­ма­ти­че­ский ана­лиз как необ­хо­ди­мый ин­стру­мент в тео­рии ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы ана­ли­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обу­че­нии без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

«Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в уни­вер­си­те­те оста­лось мно­го про­бе­лов. Клас­си­че­ские раз­де­лы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах ма­те­ма­ти­че­ской ста­ти­сти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вы­чис­ле­ни­я­ми.

«Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о ма­те­ма­ти­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных се­тей.

«Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с ос­нов­ны­ми прин­ци­па­ми.

Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Sci­ence. Кру­тое и нескуч­ное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять цен­траль­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет ге­не­раль­ные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, со­дер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, зна­ко­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

Шаг 2. Про­грам­ми­ро­ва­ние

Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми про­грам­ми­ро­ва­ния. Вы мо­же­те немно­го упро­стить себе за­да­чу: нач­ни­те изу­чать один язык и со­сре­до­точь­тесь на всех ню­ан­сах его син­так­си­са.

При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для но­вич­ков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рын­ке тру­да.

«Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: прак­ти­че­ское ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить прак­ти­че­ские за­да­ния из нее.

Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му син­так­си­су.

Dataquest по­мо­жет осво­ить син­так­сис.

По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с ос­нов­ны­ми биб­лио­те­ка­ми:

Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

Об­ра­бот­ка есте­ствен­но­го язы­ка:

Web scrap­ing (Ра­бо­та с web):

Шаг 3. Ма­шин­ное обу­че­ние

Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для вы­пол­не­ния опре­де­лен­ных за­дач. По­это­му ма­шин­ное обу­че­ние име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой об­ла­сти, но пре­жде все­го бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

Пер­вый шаг в изу­че­нии ма­шин­но­го обу­че­ния — зна­ком­ство с тре­мя его ос­нов­ны­ми фор­ма­ми.

1) Обу­че­ние с учи­те­лем — наи­бо­лее раз­ви­тая фор­ма ма­шин­но­го обу­че­ния. Идея в том, что­бы на ос­но­ве ис­то­ри­че­ских дан­ных, для ко­то­рых нам из­вест­ны «пра­виль­ные» зна­че­ния (це­ле­вые мет­ки), по­стро­ить функ­цию, пред­ска­зы­ва­ю­щую це­ле­вые мет­ки для но­вых дан­ных. Ис­то­ри­че­ские дан­ные про­мар­ки­ро­ва­ны. Мар­ки­ров­ка (от­не­се­ние к ка­ко­му-либо клас­су) озна­ча­ет, что у вас есть осо­бое вы­ход­ное зна­че­ние для каж­дой стро­ки дан­ных. В этом и за­клю­ча­ет­ся суть ал­го­рит­ма.

2) Обу­че­ние без учи­те­ля. У нас нет про­мар­ки­ро­ван­ных пе­ре­мен­ных, а есть мно­го необ­ра­бо­тан­ных дан­ных. Это поз­во­ля­ет иден­ти­фи­ци­ро­вать то, что на­зы­ва­ет­ся за­ко­но­мер­но­стя­ми в ис­то­ри­че­ских вход­ных дан­ных, а та­к­же сде­лать ин­те­рес­ные вы­во­ды из об­щей пер­спек­ти­вы. Итак, вы­ход­ные дан­ные здесь от­сут­ству­ют, есть толь­ко шаб­лон, ви­ди­мый в некон­тро­ли­ру­е­мом на­бо­ре вход­ных дан­ных. Пре­лесть обу­че­ния без учи­те­ля в том, что оно под­да­ет­ся мно­го­чис­лен­ным ком­би­на­ци­ям шаб­ло­нов, по­это­му та­кие ал­го­рит­мы слож­нее.

3) Обу­че­ние с под­креп­ле­ни­ем при­ме­ня­ет­ся, ко­гда у вас есть ал­го­ритм с при­ме­ра­ми, в ко­то­рых от­сут­ству­ет мар­ки­ров­ка, как при некон­тро­ли­ру­е­мом обу­че­нии. Од­на­ко вы мо­же­те до­пол­нить при­мер по­ло­жи­тель­ны­ми или от­ри­ца­тель­ны­ми от­кли­ка­ми в со­от­вет­ствии с ре­ше­ни­я­ми, пред­ла­га­е­мы­ми ал­го­рит­мом. Обу­че­ние с под­креп­ле­ни­ем свя­за­но с при­ло­же­ни­я­ми, для ко­то­рых ал­го­ритм дол­жен при­ни­мать ре­ше­ния, име­ю­щие по­след­ствия. Это по­хо­же на обу­че­ние ме­то­дом проб и оши­бок. Ин­те­рес­ный при­мер обу­че­ния с под­креп­ле­ни­ем — ко­гда ком­пью­те­ры учат­ся са­мо­сто­я­тель­но иг­рать в ви­део­иг­ры.

Ви­зу­а­ли­за­ция в ма­шин­ном обу­че­нии. От­лич­ная ви­зу­а­ли­за­ция, ко­то­рая по­мо­жет по­нять, как ис­поль­зу­ет­ся ма­шин­ное обу­че­ние.

Шаг 4. Data Min­ing (Ана­лиз дан­ных) и ви­зу­а­ли­за­ция дан­ных

Data Min­ing — важ­ный ис­сле­до­ва­тель­ский про­цесс. Он вклю­ча­ет ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную ин­фор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для об­лег­че­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных со­кра­тить рас­хо­ды и уве­ли­чить до­ход.

Что по­чи­тать и по­смот­реть:

Как ра­бо­та­ет ана­лиз дан­ных. От­лич­ное ви­део с до­ход­чи­вым объ­яс­не­ни­ем ана­ли­за дан­ных.

«Ра­бо­та убор­щи­ка дан­ных» — глав­ное пре­пят­ствие для ана­ли­за» — ин­те­рес­ная ста­тья, в ко­то­рой по­дроб­но рас­смат­ри­ва­ет­ся важ­ность ана­ли­за дан­ных в об­ла­сти Data Sci­ence.

Шаг 5. Прак­ти­че­ский опыт

За­ни­мать­ся ис­клю­чи­тель­но тео­ри­ей не очень ин­те­рес­но, важ­но по­про­бо­вать свои силы на прак­ти­ке. Вот несколь­ко хо­ро­ших ва­ри­ан­тов для это­го.

Ис­поль­зуй­те Kag­gle. Здесь про­хо­дят со­рев­но­ва­ния по ана­ли­зу дан­ных. Су­ще­ству­ет боль­шое ко­ли­че­ство от­кры­тых мас­си­вов дан­ных, ко­то­рые мож­но ана­ли­зи­ро­вать и пуб­ли­ко­вать свои ре­зуль­та­ты. Кро­ме того, вы мо­же­те смот­реть скрип­ты, опуб­ли­ко­ван­ные дру­ги­ми участ­ни­ка­ми и учить­ся на успеш­ном опы­те.

Шаг 6. Под­твер­жде­ние ква­ли­фи­ка­ции

По­сле того, как вы изу­чи­те все, что необ­хо­ди­мо для ана­ли­за дан­ных, и по­про­бу­е­те свои силы в от­кры­тых со­рев­но­ва­ни­ях, на­чи­най­те ис­кать ра­бо­ту. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции.

  • рас­ши­рен­ный про­филь на Kag­gle, где есть си­сте­ма ран­гов. Вы мо­же­те прой­ти путь от но­вич­ка до гросс­мей­сте­ра. За успеш­ное уча­стие в кон­кур­сах, пуб­ли­ка­цию скрип­тов и об­суж­де­ния вы по­лу­ча­е­те бал­лы, ко­то­рые уве­ли­чи­ва­ют ваш рей­тинг. Кро­ме того, на сай­те от­ме­че­но, в ка­ких со­рев­но­ва­ни­ях вы участ­во­ва­ли и ка­ко­вы ваши ре­зуль­та­ты.
  • про­грам­мы ана­ли­за дан­ных мож­но пуб­ли­ко­вать на GitHub или дру­гих от­кры­тых ре­по­зи­то­ри­ях, то­гда все же­ла­ю­щие мо­гут озна­ко­мить­ся с ними. В том чис­ле и ра­бо­то­да­тель, ко­то­рый про­во­дит с вами со­бе­се­до­ва­ние.

По­след­ний со­вет: не будь­те ко­пи­ей ко­пий, най­ди­те свой путь. Лю­бой мо­жет стать Data Sci­en­tist. В том чис­ле са­мо­сто­я­тель­но. В сво­бод­ном до­сту­пе есть все необ­хо­ди­мое: он­лайн-кур­сы, кни­ги, со­рев­но­ва­ния для прак­ти­ки. Но не сто­ит при­хо­дить в сфе­ру толь­ко из-за моды. Что мы слы­шим о Data Sci­ence: это кру­то, это са­мая при­вле­ка­тель­ная ра­бо­та XXI века. Если это ос­нов­ной сти­мул для вас, его вряд ли хва­тит на­дол­го. Что­бы до­бить­ся успе­ха, важ­но по­лу­чать удо­воль­ствие от про­цес­са.

Понравилась статья? Поделиться с друзьями:
Все языки программирования для начинающих