Data Science научный подход к данным


Содержание

Почему Data Scientist сексуальнее,
чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй — возможно более важный с практической точки зрения — чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

Содержание

Обращение к Сети с запросами «data science vs. business intelligence» и «data scientist vs. BI analyst» позволяет обнаружить великое множество ответов на них. Однако, не удовлетворившись ими, попробуем расширить это множество собственными ответами, построенными на основе «пирамидальной модели» DIKW, объединяющей данные, информацию, знания и глубокое познание или истину (data, information, knowledge, wisdom).

Отличия между Data science и BI

Data science и BI различаются по конечному результату, полученному характерными для них методами работы с данными. Для BI результирующим продуктом является информация, а для data science таким продуктом служат знания. Общим же является то, что как информация, так и знания извлекаются из данных с участием человека и предназначены для передачи другому человеку.

Поэтому в обоих случаях решающую роль играют специалисты. Без их интеллекта и умения в общем случае такая трансформация невозможна. В ограниченном количестве приложений информация, но, подчеркнем, отнюдь не знание, может быть получена средствами искусственного интеллекта.

Второй фактор, определяющий различия – полнота используемых данных. Любые данные, в конечном счете, являются отражением окружающего мира, но эти отражения могут различаться по полноте представления. В BI используются только структурированные цифровые данные, дающие весьма ограниченную картину окружающего мира, а в data science могут быть использованы любые данные, достаточные для отражения картины окружающего мира с любой требуемой полнотой.

Прообраз Data scientist

Эдвардс Деминг — «отец» японского экономического чуда, эксперт в области менеджмента и статистики (1900 – 1993) — одним из первых адаптировал статистические методы для оценки эффективности производства, поэтому его нередко называют первообразом data scientist.

Деминг оставил после себя большое научное наследие и еще удивительный набор афоризмов. Среди них есть и посвященные данным. Его мнение о данных раскрывают, например, следующие мысли:

  • «Без данных вы всего лишь еще один человек со своим мнением» (Without data you’re just another person with an opinion)
  • «Самые важные вещи не могут быть измерены» (The most important things cannot be measured)
  • «Самые необходимые для управления цифры были и останутся неизвестными» (The most important figures that one needs for management are unknown or unknowable)

Эволюция BI и возникновение Data science

Те, кто занимается бизнесом, понимают под данными не биты и байты, записанные на носители, а готовые к использованию цифровые показатели, помещенные в хранилища данных. Именно так на протяжении многих лет интерпретируют данные последователи Эдвардса Деминга. С такими данными работают статистики и специалисты по количественному анализу (quantitative analysts), их еще называют quants.

Есть множество определений BI, среди них:

  • BI — это не продукт и не система. Скорее всего, это некоторое архитектурное сооружение или набор взаимосвязанных средств, а также приложений, поддерживающих принятие решений и баз данных, которые обеспечивают бизнес-сообществу простой доступ к бизнес-данным.
  • Область действия BI-приложений, поддерживающих принятие решений, распространяется на различные действия, связанные с прогнозированием, анализом бизнес-процессов, подготовкой балансовых отчетов.

Суть их одна — системы BI предназначены для перевода данных из формы, понятной машине, в такое представление, которое позволяет человеку извлечь из них максимум полезной информации.

В процессе эволюции BI сменилось три поколения:

  • Поколение Business Intelligence 1.0 требовало участия высоко квалифицированных специалистов, использующих сложные инструменты, работающих на больших машинах в режиме клиент-сервер. Обычно генерация отчетов осуществлялась на ежемесячной базе.
  • Поколение Business Intelligence 2.0 открыло возможность для работы прикладных специалистов (data explorers). Оперативность возросла до недельного или даже дневного уровня и, появились ограниченные возможности для прогнозирования.
  • Поколение Business Intelligence 3.0 продолжило процесс демократизации. Теперь в роли пользователя смогли выступать разные сотрудники, от бухгалтерии до менеджеров уровня С (CEO. CFO …). Скорость подготовки отчетов приблизилась к реальному времени.

В конце девяностых, когда возникла проблема взрывного роста данных (data deluge), увеличилось разнообразие хранимых данных и заметно улучшились технологии для агрегирования, анализа и подготовки отчетов на основании разнородных источников, возникло направление, получившее название New Business Intelligence (NBI). Его создатели стремились объединить управление знаниями (Knowledge Management, KM) и BI.

В начале 2000-х будущее BI виделось так, как показано на рисунке ниже.

Но это предполагаемое развитие видоизменилось с появлением того, что называют Большими данными, для которых характерны не только гигантские объемы, но и существенно большее разнообразие. И вот тогда появилось то, что назвали Data science. Это направление стало ответом на появление Больших данных.

Под общим зонтиком объединяются разнообразные процессы, служащие для извлечения, сбора и переработки больших объемов самых разных данных. Подчеркнем, что data science – не «наука о данных», как написано в русскоязычной Википедии. Данные не являются предметом этой науки, поэтому называть data science синонимом предложенной Петером Науром науки datalogy совершенно ошибочно. В то же время о data science справедливо говорить как о науке, в том смысле что она представляет собой комплекс научных методов для извлечения знания из данных.

Поэтому на русский язык data science, возможно, стоило бы переводить как «наука работы с данными» или «научные методы работы с данными». Следовательно, задача, решаемая теми, кто занимается data science, состоит в извлечении знаний с использованием методов, объединенных под общим названием data mining, в объединении статистики и других методов анализа данных с целью понимания того, что содержат в себе данные.

С инструментальной позиции комплекс существенно шире и глубже с научной точки зрения, чем инструменты для BI. Он включает разнообразные статистические пакеты, SQL, Hadoop, языки R, Python, Perl и другие.

В качестве примечания к иллюстрации следует отметить, что информационная наука – это самостоятельная дисциплина, наука об информации, точнее наука изучающая анализ, сбор, классификацию, манипулирование, хранение, поиск, движение, распространение и защиту информации. Ее не следует путать с информатикой или математической теорией информации.

Особое место занимают поддерживающие data science технологии data engineering или иначе data wrangling и data munging. Так называют процесс подготовки сырых данных для выполнения последующей аналитики над ними, преобразование сырых данных, хранящихся в любых произвольных форматах, в требуемые для аналитических приложений.

Несмотря на новизну технологий, стоящих за data engineering, их экономическое значение уже сейчас высоко оценивается и постоянно растет. Поскольку цена хранения и обработки неуклонно снижается, а стоимость труда аналитиков, напротив, неуклонно растет — возникла острая необходимость оптимизировать труд специалистов data scientist.

Почему Data scientist сексуальнее, чем BI analyst

Широкая публика прониклась огромным интересом к едва возникшей специальности в 2012 году, особенно после того как она была названа «The Sexiest Job of the 21st Century», то есть самой привлекательной работой нынешнего века. Это цитата из статьи в Harward Business Rewiew Томаса Давенпорта, одного из наиболее признанных экспертов по части data science [1] .

Возник невероятный спрос на data scientist, такой, что поневоле на память приходит дивный грузинский фильм «Голубые горы», где идиот-чиновник Важа Зазаевич требует себе «парочку хороших маркшейдеров», не понимая смысла этой профессии. Теперь же в дефиците data scientist и их труд оплачивается в полтора-два раза выше, чем старых-добрых business intelligence analyst.

Свято место пусто не бывает, обучением по профилю data scientist немедленно занялись сотни, если не тысячи университетов. Кому же не хочется стать The Sexiest? Однако опытные профессионалы выражают сомнение в возможности «выучить» студента на data scientist за несколько лет, поскольку этот вид деятельности требует целого комплекса знаний и умений.

Одних курсов по R и/или Python, изучения тех или иных инструментов совершенно недостаточно для приобретения полноценной квалификации «настоящий эксперт по данным» (perfect data scientist). Квалификационные требования к data scientist представлены в детализированная версии популярной трехзвенной диаграммы Венна.

Глядя на рисунок, не сложно понять, что никакое учебное заведение не может вложить в студента весь требуемый комплекс знаний. Получить его можно только годами целенаправленной самостоятельной работы.

Обладая всеми этими знаниями и навыками, используя множество универсальных и специализированных инструментов и разнообразные, по большей части неструктурированные источники данных, data scientist должен предоставить руководящему составу высшего звена (С-level) содержательные ответы о том, что происходит сейчас и чего можно ожидать в будущем. Он на равных участвует в выработке решений.

Недавно перечень C-level пополнился должностями Chief data officer (CDO), Chief analytics officer (CAO) и Chief data science officer (CDSO). На этом фоне задача специалиста в области BI скромнее и более традиционна. Он должен, используя прежде всего исторические структурированные данные из хранилищ данных и известные инструменты для корпоративного анализа, создать отчеты о том, что произошло к настоящему моменту. Он предоставляет информацию для лиц, принимающих решения.

Главное различие между двумя специальностями заключается в том, что data scientist должен понимать, как и что нужно делать, в то время как эксперт в BI способен предоставить объективную картину от прошлого до текущего момента.

Чтобы точнее определить различия в этих двух видах деятельности, возвратимся к модели DIKW (см. подробнее). С этой точки зрения суть деятельности data scientist состоит в превращении сырых данных в знания, с использованием разнообразных аналитических методов в сочетании с собственной компетенцией в определенной области. А эксперт в business intelligence лишь преобразует данные в доступную для лиц, принимающих решение, информацию в форме отчетов и инфографики.

Это две принципиально разные специальности, они различается по используемым технологиям, по уровню погружения в предметную область, но главное по тому как они могут передавать результаты своей работы клиенту.

Со способами передача информации все более или менее ясно, обычно используются разнообразные виды отчетов, включающие тексты, инфографику и разнообразные приемы современной интерактивной визуализации.

С передачей знания дело обстоит сложнее. По состоянию на 2020 год можно говорить о двух возможных техниках. Одна строится на выдвижении и обсуждении гипотез (Hypothesis-driven thinking). Опора на гипотезы, как и научный метод, оправдывают употребление слова наука в названии data science.

Практически все существующие научные знания исторически складывались по одной и той же схеме. Сначала выдвигаются первые гипотезы, в процессе обсуждения выясняется, что большая часть из них ошибочна, потом появляются альтернативные гипотезы и в конце концов скалываются объективные знания.

Data scientist действует по той же схеме, его функции заключаются не в работе с данными, а в выдвижении бизнес-гипотез и отборе самых достоверных. Используя имеющиеся данные, он должен прийти к обоснованному умозаключению.

Для передачи знаний заказчику data scientist может использовать и второй прием, который называют data storytelling, то есть рассказ о данных. Рассказ оказывается самым эффективным средством для передачи знаний и для перехода от знаний к действию.

В рассказе, как показано на рисунке, сочетаются основные компоненты data storytelling. Объединяя повествование с данными, можно объяснить то, как в данных отражен внешний мир, что происходит, какие идеи и суждения представляют наибольшую ценность. Чтобы та или иная идея была должным образом оценена, она должна быть помещена в полноценный контекст и соответственно прокомментирована.

Добавление визуализации к данным улучшает передачу знаний. Люди могут увидеть то, что им в словесной или табличной форме недоступно. Сочетание повествования с графикой обеспечивает вовлеченность, получается примерно такой же эффект присутствия, как в кино.

Первые шаги в популяризации публичных выступлений для передачи знаний были сделаны на конференции TED (Technology, Entertainment, Design), проводимой с конца девяностых годов XX века. На нее приезжают для того, чтобы в доступной форме рассказать о серьезном. По оценкам ученых из Стэнфорда в повествовательной форме знания лучше запоминаются. Введен специальный показатель «запоминаемость» (memorability). Содержание рассказа обычно запоминают до 63% аудитории, а приведенные статистические данные менее 5%.

Неслучайно еще в 2009 году главный экономист Google Хал Вариан сказал:

Критически важными являются способности взять данные, понять их, переработать, визуализировать и передать другим. Эти умения станут важнейшими в ближайшие десятилетия

Подводя итог, следует сказать, что BI и data science можно представить как два полюса на общей оси технологий работы с данными. На одном полюсе из данных извлекается информация, на другом – знания. Как во многих случаях в жизни — граница между ними носит размытый характер.

Как стать экспертом в Data Science: пошаговый план обучения

Мало кто может предсказывать события до ста процентов верно. Но дата-сайнтисты научились. А мы нашли последние тренды Data Science и составили план для тех, кто хочет глубоко изучить эту область.

Выбор языка

Сейчас в науке о данных используются два основных языка: Python и R. Язык R применяется для сложных финансовых анализов и научных исследований, потому его глубокое изучение можно отложить на потом.

На начальном этапе можно остановиться на изучении основ:

  • нюансы работы RStudio;
  • библиотеки Rcmdr, rattle и Deducer;
  • типы данных контейнеров, векторы и первичные типы данных;
  • factors, структуры и матрицы.

Быстро разобраться в теории языка R поможет сайт Quick-R.

Python популярен больше: на нём проще научиться писать код и для него написано множество пакетов визуализации данных, машинного обучения, обработки естественного языка и сложного анализа данных.

Что важно освоить в Python:

  • функции, классы, объекты;
  • структуры данных;
  • базовые алгоритмы и библиотеки;
  • качественную отладку и тестирование кода;
  • Jupyter Notebook;
  • Git.

Чтобы освоить базовые понятия Python, у вас уйдёт примерно 4-6 недель при условии, что вы будете тратить на изучение 2-3 часа в день.

Где можно освоить: в Skillfactory.

Библиотеки для Python

NumPy

NumPy — библиотека научных вычислений. От неё зависит почти каждый пакет Python для Data Science или Machine Learning: SciPy (Scientific Python), Matplotlib, Scikit-learn.

NumPy помогает выполнять математические и логические операции: например, в ней содержатся полезные функции для n-массивов и матриц. А ещё библиотека поддерживает многомерные массивы и высокоуровневые математические функции для работы с ними.

Зачем нужно знать математику? Почему компьютер не может сам всё посчитать?

Часто методы машинного обучения используют матрицы для хранения и обработки входных данных. Матрицы, векторные пространства и линейные уравнения — всё это линейная алгебра.

Чтобы понимать, как работают методы машинного обучения, нужно хорошо знать математику. Поэтому будет лучше пройти весь курс алгебры целиком: самостоятельно или с наставниками.

Кроме того, математика и математический анализ важны для оптимизации процессов. Зная их, проще улучшать быстроту и точность работы моделей машинного обучения.

Что важно освоить:

  • основу линейной алгебры: линейные комбинации, зависимость и независимость, векторные точки и векторное произведение, матричные преобразования, матричное умножение,
  • обратные функции;
  • массивы;
  • обработку математических выражений и статических данных;
    визуализации через Matplotlib, Seaborn или Plotly.

Где можно подтянуть знания по NumPy: официальная документация.

Где можно подтянуть знания по алгебре: Calculus (глава 11), курс по математике для Data Science.

Pandas

Pandas — библиотека с открытым исходным кодом, построенная на NumPy. Она позволяет выполнять быстрый анализ, очистку и подготовку данных. Такой своеобразный Excel для Python.
Библиотека хорошо умеет работать с данными из разных источников: листов Excel, файлов CSV, SQL, веб-страниц.

Что важно освоить:

  • чтение и запись множества различных форматов данных;
  • выбор подмножеств данных;
  • поиск и заполнение недостающих данных;
  • применение операций к независимым группам в данных;
  • преобразование данных в разные формы;
  • объединение нескольких наборов данных вместе;
  • расширенную функциональность временных рядов.

Где можно подтянуть знания по Pandas: Pydata.

Базы данных и сбор информации

Если вы уже знакомы с Python, Pandas и NumPy, можете приступать к изучению работы с базами данных и парсингу информации.

Несмотря на то, что NoSQL и Hadoop уже пустили корни в науку о данных, важно уметь писать и выполнять сложные запросы на SQL.

Часто необработанные данные — от электронных медицинских карт до истории транзакций клиентов — находятся в организованных коллекциях таблиц, которые называются реляционными базами данных. Чтобы быть хорошим специалистом по данным, нужно знать, как обрабатывать и извлекать данные из этих баз данных.

  • добавлять, удалять и извлекать данные из баз данных;
  • выполнять аналитические функции и преобразовывать структуры баз данных;
  • PostgreSQL;
  • MySQL;
  • SQL Server.

Хорошо структурированный курс по работе с SQL можно пройти здесь: SkillFactory.

Парсинг информации

  • уметь использовать методы find и find_all в парсинге страниц с помощью Beautiful Soup;
  • понять, как работает перебор элементов и сохранение переменных в Python;
  • работать с get-запросами и взаимодействовать с API.

Алгоритмы

Быть программистом без знания алгоритмов страшно, а Data Scientist’ом — опасно. Так что если вы уже освоили Python, Pandas, NumPy, SQL и API, пора учиться применять эти технологии для исследований.

Скорость работы хорошего специалиста часто зависит от трёх факторов: от поставленного вопроса, объёма данных и выбранного алгоритма.

Потому на этом этапе важно понять алгоритмы и структуры данных Беллмана-Форда, Дейкстры, двоичного поиска (и двоичные деревья как инструмент), поиска в глубину и ширину.

Машинное обучение и нейронные сети

Пора применять полученные навыки к решению реальных задач. До этого этапа важно знать математику: поиск, очистку и подготовку данных, построение моделей с точки зрения математики и статистики, их оптимизацию средствами матанализа — вот это всё.

Реальные задачи чаще всего решаются с помощью серьёзных библиотек вроде TensorFlow и Keras.

  • предобработку данных,
  • линейную и логистическую регрессию,
  • кластеризацию и обучение без учителей,
  • анализ временных рядов,
  • деревья принятия решений,
  • рекомендательные системы.

Дополнительно закрепить знания о машинном обучении можно здесь: Машинное обучение от Эндрю Ына.

Заключение

Стать экспертом в Data Science непросто: приходится изучать множество инструментов и быть гибким, чтобы вовремя узнавать о трендах.

Хорошая стратегия — получить базу по Data Science на фундаментальном курсе, а новые инструменты и технологии изучать, решая практические задачи на работе.

Как Data science помогает вести бизнес и определять редкие заболевания — в докладах экспертов на Women in Data Science

Перенять опыт успешных женщин, предложить необходимые связи в индустрии и сплотить сообществос такими целями на протяжение уже нескольких лет проходит международная конференция Women in Data Science (WiDS). Идея зародилась в Стэнфордском университете, а сейчас мероприятие проходит в более чем 150 местах по всему миру. Девятого марта конференция прошла и в Петербурге: в Высшей школе экономики выступили эксперты индустрии из Яндекса, Biocad и других компаний. Мы записали главное.

Конференция Women in Data Science

Как Data Science помогает бизнесу принимать правильные решения

Елена Чернышева, Яндекс

Как устроена работа аналитика в Яндексе? Однозначный ответ дать невозможно: деятельность специалистов очень различается в зависимости от масштаба подразделения и спецификации конечного продукта. Сам Яндекс состоит из различных маленьких компаний, среди которых Яндекс.Еда, Яндекс.Такси, Яндекс.Недвижимость. Все они — отдельные бизнес-юниты со своими правилами игры. Многие ожидают, что в Яндексе налажена общая инфраструктура, но на самом деле ее почти не замечаешь. За пять лет я проработала в нескольких подразделениях, и они сильно отличаются друг от друга.

К примеру, начинала я в Яндекс.Справочнике. Это специальный сервис, который собирает данные об организациях. Главное условие работы для составителей — хоть как-то узнать о существовании организации (допустим, по адресу), а остальное мы соберем и аккумулируем из различных источников. Допустим, Яндекс узнал, что по такому адресу есть Высшая школа экономики. Колл-центр сюда звонит и узнает, чем она занимается более подробно. Отдельный алгоритм идет в сеть и узнает сайт этой организации. Отдельно мы направляем сотрудника, который фотографирует здание организации с улицы. В итоге у нас складывается карточка организации благодаря данным из различных источников.

Чем у нас занималась отдельная команда аналитиков? В первую очередь разрабатывала метрики для различных алгоритмов. К примеру, в течение полугода наши специалисты искали правильную метрику для удобной кластеризации, чтобы организации не дублировали друг друга.

Абсолютно по-другому построена работа с аналитикой в подразделении Яндекса, отвечающего за поисковую систему: там работают около 2000 человек, все они программисты и аналитики. Последние часто выступают в роли менеджеров, которые рассчитывают новые метрики и думают, как улучшить существующие.

С чем может столкнуться молодой специалист, если пойдет искать работу в подобной большой компании? Возможно, в компании уже будет работать подобный отдел с проверенными механизмами и построенной схемой работы, а возможно, и нет. Руководители таких организаций часто не понимают ценность аналитики данных. Они считают, что готовый алгоритм должен давать готовое решение, и ожидают чудо.

Мой совет — начинайте работу в компаниях с уже сформировавшейся культурой, чтобы посмотреть, как это устроено и за какие деньги можно получить первый результат от работы. Так вы сразу увидите, каким эффектом обладает исследование данных. Возьмем к примеру компанию Amazon. Сейчас у них 2,6 миллиардов визитов в месяц, а конверсия в покупку — 9 %. Если у сайта вырастет конверсия, он заработает дополнительные 52 миллиона долларов. Следовательно, Amazon’у сейчас очень выгодно взять специалистов по data science.

Работая аналитиком данных в большой компании, вы будете заниматься узкой задачей, которая приведет к небольшой прибыли и наладит отдельную работу сервиса. Например, специалисты в Яндекс.Такси недавно вывели алгоритм, который помогает водителям быстрее добраться с работы домой. За час до конца работы они оповещают систему, и она подбирает им маршруты, близкие к дому.

С одной стороны, вы погрузитесь глубоко в технологии и сможете делать исследование узкой сферы, с другой – будете далеки от бизнеса и продукта.

Абсолютно другая ситуация при работе в маленькой компании. Ваш спектр задач невероятно расширится: модель для бизнеса, метрики, исследование пользователей, больше задач на моделирование и на прогнозирование. Будете максимально приближены к продукту и сможете влиять на все важные решения, которые принимаются в компании.

Вообще, организации часто не понимают, как принимать решения на основе данных. Ценная характеристика data science – это не отчеты с дашбордами и мониторингом, а инструменты прогнозирования и моделирования. Они как раз помогают бизнесу рассчитать, как быстрее добиться цели.

На новом рабочем месте не позволяйте людям говорить, что вам делать, так как их представления могут быть устаревшими. Это вы должны объяснять людям, как ваши инструменты им помогут.

Как анализ данных компанию захватывал

Екатерина Гудкова, Biocad

Biocad — это международная инновационная биотехнологическая компания полного цикла. То есть мы проводим исследования, разрабатываем лекарственные препараты, самостоятельно выводим их на рынок и занимаемся логистикой перевозок в аптеки. Полный цикл накладывает определенную специфику на то, кто и как работает в компании. В первую очередь, людей очень много — более 2000, и больше половины занимается либо моделированием лекарственных средств, либо поиском белковых соединений и путей их взаимодействия, либо прогнозированием работы препаратов в теле животного и человека. Естественно, в компании много современных лабораторий и нового оборудования, которое генерирует свежие данные каждую секунду.

Как представлен IT-отдел? Мы скорее помогаем остальной компании в вопросах доставки препарата конечному потребителю и занимаемся непосредственно тремя задачами. Во-первых, вычислительной биологией. С помощью компьютеров мы можем смоделировать взаимодействие молекул с телом человеком и обойтись без тестов.

С самого начала отдел продаж и маркетинга говорит, на каком рынке препаратов мы хотим выпустить продукт. Дальше подключаются исследователи, которые смотрят, что за болезнь, какие можно найти решения. Онкологические препараты тяжело моделируются: они часто отторгаются организмом, и это не всегда просто предвидеть. Когда есть решение, нужно подобрать молекулу, которая обезвредит заболевание и полностью уничтожит. В самом начале мы не знаем точно, что это будет за молекула, но в мире существует ограниченное количество веществ. Дальше моделируем и смотрим, как будут взаимодействовать белковые соединения между собой.

Следующей задачей мы поставили прогнозирование синтетической реакции. Мы принялись за обучение некоего цифрового химика, который определяет, как пойдет реакция, сколько она будет стоить, каким будет результат. Уже на протяжении нескольких лет он помогает компании экономить деньги.

И тут мы поняли: ведь можно пользоваться подобной системой и для помощи другим отделам. Те же HR-специалисты, которые и занимаются поиском новых сотрудников, и следят, чтобы работники не уходили и пользовались базой знаний для последовательного развития. Анализ данных можно использовать в любом направлении работы компании.

Цукерберг рекомендует:  С # - C#. Странный баг при сравнении массивов

Просто так взять и начать делать машинное обучение крайне глупо. Поэтому первым шагом был чистый анализ данных с мониторингом. К примеру, как работает производство? Как часто выходит из строя определенное оборудование? Как быстро коробки с сырьем переправляется из одного отделения компании в другое?

Интересные метрики нужны специалистам HR, чтобы ответить на важный вопрос: как определить, что человек выгорел и пора с ним поговорить? По этой причине почти все компании, начавшие анализ данных, начинают крутить метрики, связанные с общекорпоративными показателями: как работает человек, на кого он похож, когда уходит с рабочего места.

Тут важно оговорить один момент: нет смысла просто так за чем-то следить. Всегда должно быть определенная отметка, когда стоит начать что-то делать. В остальное время можно в принципе и не смотреть на показатели.

С появлением всех многочисленных дашбордов встает момент работы со спамом. У меня огромное количество показателей, и я не могу тратить на них весь день. Тут два момента работы с анализом данных: это либо некий ситуационный центр (я реагирую только тогда, когда показатели выше определенной точки — остальное время меня не интересует), либо я накапливаю аналитику, чтобы потом посмотреть, как было, и выдвинуть некие гипотезы постфактум.

Сейчас в Biocad мы реализуем идею электронного персонального помощника. Дело в том, что с нашими темпами роста и набором новых сотрудников сервисное подразделение не может себе позволить такой же рост, это невыгодно для компании. Соответственно, для того, чтобы поддерживать новичков необходимой юридической или финансовой информацией, нужно создавать ботов, которые будут отвечать на типичные вопросы.

Сюда же закладывается не только сервисная поддержка, но и понимание о том, что мы должны обеспечивать сотрудника только необходимым контентом. Потому что информации много, и ее нужно подстраивать под каждого отдельного сотрудника.

Перспективы применения машинного обучения в здравоохранении будущего

Варвара Цурко, старший научный сотрудник ИПУ РАН и старший data scientist в компании IQVIA

Сейчас машинное обучение проникает во все области нашей жизни. И распознавание речи, и машинный перевод, и распознавание изображений. А медицина — это наука, которая сама по себе очень зависит от данных: в зависимости от принятой информации специалист ставит человеку определенный диагноз и прописывает определенное лечение. Врачей можно сравнить алгоритмами — они обучаются на историях болезни пациента. Чем больше пациентов у врача, чем лучше память и чем лучше он умеет обобщать и искать в данных скрытые закономерности, тем больше мы ему доверяем.

Но в чем-то машина выиграет — в отличие от человека, она сможет работать с большими данными. К примеру, проанализирует все истории болезни с определенным заболеванием и выделит признаки.

Поэтому сейчас мы говорим о новом цифровом здравоохранении. Я условно могу поделить его на четыре главных направления. Во-первых, это здоровый образ жизни — различные приложения и девайсы мониторят наши действия и предлагают обратную связь. К примеру, они рекомендуют время ухода ко сну, отслеживают количество потребленных калорий, а в будущем смогут определять уровень стресса по пульсу, движениям или голосу.

Второе направление работы машинного обучения в здравоохранении — это мониторинг симптомов, когда человек заботится о своем самочувствии и не хочет пропустить условный «сигнал тревоги». Современные тенденции направлены на то, чтобы встраивать биосенсоры в смартфоны и умные часы, которые могут снимать электрокардиограмму и сообщать владельцу о случаях отклонения от нормы. Кроме того, встроенные в часы акселерометр и гироскоп определяют падение человека. Если он после падения не двигается более 60 секунд, то устройство вызывает помощь. Классификация электрокардиограммы, определение аномалий и факта падения — все это задачи анализа данных.

Кроме того, благодаря функциям распознавания изображений появились мобильные приложения, которые сохраняют историю изображений сфотографированных родинок и сообщают о случаях отклонения от нормы.

Мониторинг симптомов может перейти и к диагностике. Это третье направление работы машинного обучения — сбор и обработка полезной информации для врача. К примеру, существует операция шунтирования сосуда при атеросклерозе артерий. Она известна очень большим процентом рецидивов: спустя полгода атеросклероз у больного возникает снова. Анализ данных о пациенте уже сейчас помогает предсказать отдаленный исход операции до или сразу после проведенной операции для проведения нового лечения. Если прогноз отрицательный, операцию откладывают или проводят более продолжительную реабилитацию.

Машинное обучение также может помочь диагностировать редкое заболевание. Алгоритм, обученный на всей доступной выборке больных редким болезнью, сможет поставить диагноз лучше врача. Проблема только с несбалансированной выборкой: людей с отрицательным диагнозом во много раз больше, чем с положительным. Ее можно решить либо предварительной обработкой данных (удаление из выборки случайных объектов большого класса или искусственная генерация объектов меньшего класса в окрестности реальных объектов) или алгоритмическим подходом (назначение равных штрафов за ошибки классификации объектов меньшего класса).

Четвертое направление — это проведение медицинских исследований. Раньше, чтобы набрать 10 000 пациентов, нужно было около года и 50 медицинских центров. Сейчас достаточно установить приложение, которое само соберет необходимые данные, запишет в систему и проанализирует результаты. С 2015 года через приложение mPower удалось собрать самую большую за всю историю выборку 10 000 пациентов для исследования болезни Паркинсона. 93 % из них никогда не принимали участия в подобных акциях.

После всего этого естественным образом встает вопрос: а почему нас все еще лечат люди, а не машины? Ответов несколько:

  • пока машину не научили применять интуицию. Исследований много, а на дополнительное обследование надо отправлять очень точечно;
  • проблема сбора данных: большое количество различных заболеваний, для классификации которых нужны различные признаки;
  • этические проблемы: во всех ли случаях человек должен знать о наличии у него заболевания и о тяжести формы? Можно ли доверить принятие важных решений машине?
  • проблема определения областей использования: с диагностикой каких заболеваний лучше справится машина, а с какими — живой врач?

Подходы к анализу данных (Data Analysis Approaches)

Чтобы просмотреть это видео, включите JavaScript и используйте веб-браузер, который поддерживает видео в формате HTML5


Введение в биоинформатику

Half Faded Star

Курс «Введение в биоинформатику» адресован тем, кто хочет получить расширенное представление о том, что такое биоинформатика и как она помогает биологам и медикам в их работе. The course is aimed at those who would like to have a better idea of what bioinformatics is and how it helps biologists and medical scientists in research and clinical work.

Рецензии

Half Faded Star

Первая неделя нашего курса посвящена основным концепциям геномной биоинформатики. Вы узнаете об истории этой дисциплины, основных методах и алгоритмах. Также вас ждет знакомство с реальной лабораторной работой — мы расскажем, как выделяется ДНК и откуда берутся данные, с которыми нам предстоит работать в дальнейшем.
The first week of our course covers the basic concepts of genome bioinformatics. You will learn about the history of this discipline, the main methods and algorithms. Also you will familiarize yourself with actual laboratory work — we will explain how DNA is extracted and where the sequencing data comes from.

Преподаватели

Alla L Lap >Professor, Department of Cytology and Histology

Николай Вяххи

Павел Добрынин

Михаил Райко

Екатерина Черняева

Текст видео

[ЗВУК] Сборка генома — не единственная технология, которая позволяет изучать геномы организмов. Подход ресиквенсинг, или перечитывание, позволяет характеризовать генетические вариации штаммов или популяций. Этот подход возможно использовать, например, для анализа бактерий или архей, равно как и более длинных геномов, то есть более крупных организмов, в том случае, если существует референсный геном, то есть хорошо прочитаный геном близкого родственника. Этот подход помогает лучше понять структуру бактериальных сообществ, функцию генов в бактерии, находящейся в различных селективных условиях или мутагенизированных штаммов, то есть выравнивание ваших прочтений против референсного генома покажет отличие одного от другого и области, в которых эти отличия находятся. Следующий этап — аннотация генома. Это процесс интерпретации сиквенсных данных с использованием биологической информации. Что же записано в нашем геноме? Какова же биологическая информация, которая там имеется? Для этого нам нужно определить, какие есть гены, и начинаем мы с того, что определяем их физическое начало и конец. Этот процесс называется gene prediction, или предсказание генов, то есть определение на последовательности ДНК кодирующих и некодирующих областей. Для этого используются разные методы и разные методы для кодирующих и некодирующих областей генома. Ab initio и подход, основанный на гомологии, используется для белок-кодирующих областей. Анализ tRNA, rRNA и sRNA — для некодирующих частей генома. Как же происходят предсказания генов? Сначала идентифицируются общие мотивы в известных генах, затем строится компьютерная модель, которая аккуратно описывает эти общие мотивы. Затем построенная модель используется для сканирования неохарактеризованных последовательностей, чтобы найти области, которые похожи на области, используемые в модели. И затем осуществляется тестирование и валидация полученных предсказаний. К статистическим, или ab initio, методам, используя статистические свойства ДНК для определения генов, относятся такие популярные компьютерные программы как GLIMMER, он в основном используется для прокариотических геномов, GeneMark, который используется как для прокариотических, так и эукариотических геномов, и ряд других программ. Программы, использующие метод гомологии, основан на сравнении последовательности ДНК с известными белковыми структурами или на схожести известных генов, и к ним относятся такие популярные программы как TBLASTN, TBLASTX, Procrustes и GeneWise. Аннотация геномов включает в себя структурную аннотацию, то есть определение геномных элементов, таких как открытая рамка считывания и их координаты на геноме, структура гена, кодирующие области, расположение регуляторных мотивов. А также функциональную аннотацию, то есть определение биологической информации и ее принадлежность к генетическим элементам, что включает в себя биохимическую функцию, биологическую функцию, регуляцию и экспрессию генов. Гены никогда не работают в изоляции. Наоборот, они вовлечены в большое количество взаимодействий. Биологические пути определены как серия таких взаимодействий между молекулами в клетке, которые ведут к образованию определенных продуктов или изменений в клетке. Такие пути приводят к сборке новых молекул, таких как жиры и белки. Они также могут способствовать включению и выключению генов. Анализ биологических путей сводит воедино всю информацию предсказанных генов, для того чтобы ответить на вопросы на клеточном уровне или на уровне целого организма. Он помогает интерпретировать данные в контексте биологических процессов и связей, приводит к анализу компонентов альтернативных путей, также позволяет проверить правильность аннотации генов, а также определяет метаболические и физиологические возможности организмов. Результаты биологических экспериментов, а также сопутствующего анализа нужно где-то хранить. Этой цели служит база данных, то есть организованные коллекции данных. Их на данный момент создано великое множество, служат они разным целям и задачам. Я привожу лишь очень короткий список баз данных, которые полезны в рамках этого курса и которые содержат информацию о геномах, о сиквенсе и структуре, и моделях белков, также информацию о разнообразных РНК и метаболитных путях. Биоинформатика нашла свое применение в огромном количестве областей знаний: это и микробиология, и разные области медицины, развитие новых лекарственных препаратов, изучение антибиотической устойчивости, эволюционные исследования, биотехнологии, изучение изменений климатических условий, создание альтернативных источников энергии, судебно- медицинская экспертиза и так далее. У каждой из этих областей есть свои специфические задачи, и для их решения требуются новые биоинформатические подходы и специфические программные продукты. Итак, биоинформатика — это биология и медицина, статистика и математика, программирование и алгоритмы, базы данных и онлайн-приложения. Об этом обо всем будет более подробно рассказано далее в нашем курсе. А пока я благодарю вас за то, что вы оставались со мной до конца этой лекции. До новых встреч! [ЗВУК]

Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

Пошаговая инструкция для тех, кто не знает, с чего начать

Про­фес­сию Data Sci­en­tist се­год­ня ча­сто на­зы­ва­ют од­ной из са­мых пер­спек­тив­ных и мод­ных. Он­лайн-кур­сы и уни­вер­си­те­ты пред­ла­га­ют все боль­ше про­грамм обу­че­ния этой спе­ци­аль­но­сти, и но­вич­кам не все­гда по­нят­но, с чего на­чать и как вы­брать са­мый эф­фек­тив­ный путь. Ру­ко­во­ди­тель фа­куль­те­та Data Sci­ence он­лайн-уни­вер­си­те­та «Нето­ло­гия» Еле­на Ге­ра­си­мо­ва спе­ци­аль­но для «Цеха» со­ста­ви­ла по­дроб­ный пу­те­во­ди­тель по миру на­у­ки о дан­ных. В ма­те­ри­а­ле вы най­де­те объ­яс­не­ния глав­ных тер­ми­нов, по­ша­го­вую ин­струк­цию для тех, кто толь­ко вхо­дит в про­фес­сию, а та­к­же спи­сок по­лез­ной ли­те­ра­ту­ры по каж­дой теме.

О чем речь

Data Sci­ence — де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших ре­ше­ний на их ос­но­ве. Рань­ше по­доб­ны­ми за­да­ча­ми за­ни­ма­лись спе­ци­а­ли­сты по ма­те­ма­ти­ке и ста­ти­сти­ке. За­тем на по­мощь при­шел ис­кус­ствен­ный ин­тел­лект, что поз­во­ли­ло вклю­чить в ме­то­ды ана­ли­за оп­ти­ми­за­цию и ин­фор­ма­ти­ку. Этот но­вый под­ход ока­зал­ся на­мно­го эф­фек­тив­ней.

Как стро­ит­ся про­цесс? Все на­чи­на­ет­ся со сбо­ра боль­ших мас­си­вов струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных и их пре­об­ра­зо­ва­ния в удоб­ный для вос­при­я­тия фор­мат. Даль­ше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и ана­ли­ти­че­ские ме­то­ды — ма­шин­но­го и глу­бо­ко­го обу­че­ния, ве­ро­ят­ност­ный ана­лиз и про­гноз­ные мо­де­ли, ней­рон­ные сети и их при­ме­не­ние для ре­ше­ния ак­ту­аль­ных за­дач.

Пять глав­ных тер­ми­нов, ко­то­рые нуж­но за­пом­нить

Ис­кус­ствен­ный ин­тел­лект, ма­шин­ное обу­че­ние, глу­бо­кое обу­че­ние и на­у­ка о дан­ных — ос­нов­ные и са­мые по­пу­ляр­ные тер­ми­ны. Они близ­ки, но не эк­ви­ва­лент­ны друг дру­гу. На стар­те важ­но разо­брать­ся, чем они от­ли­ча­ют­ся.

Ис­кус­ствен­ный ин­тел­лект (Ar­ti­fi­cial In­tel­li­gence) — об­ласть, по­свя­щен­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, ра­бо­та­ю­щих и дей­ству­ю­щих как люди. Ее воз­ник­но­ве­ние свя­за­но с по­яв­ле­ни­ем ма­шин Ала­на Тью­рин­га в 1936 году. Несмот­ря на дол­гую ис­то­рию раз­ви­тия, ис­кус­ствен­ный ин­тел­лект пока не спо­со­бен пол­но­стью за­ме­нить че­ло­ве­ка в боль­шин­стве об­ла­стей. А кон­ку­рен­ция ИИ с лю­дь­ми в шах­ма­тах и шиф­ро­ва­ние дан­ных — две сто­ро­ны од­ной ме­да­ли.

Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние ин­стру­мен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учи­те­ля — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.

Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее про­дви­ну­тый или быст­рый ана­лиз, и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся неко­то­рым ко­ли­че­ством скры­тых сло­ев ней­ро­нов в сети, ко­то­рые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.

Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­е­мом ча­сто неструк­ту­ри­ро­ван­ных дан­ных. Спе­ци­фи­ка сфе­ры — это ин­стру­мен­ты и си­сте­мы, спо­соб­ные вы­дер­жи­вать вы­со­кие на­груз­ки.

На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыс­лом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Спе­ци­а­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые ме­то­ды ма­шин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

Где при­ме­ня­ет­ся Data Sci­ence

• об­на­ру­же­ние ано­ма­лий, на­при­мер, ненор­маль­ное по­ве­де­ние кли­ен­та, мо­шен­ни­че­ства;

• пер­со­на­ли­зи­ро­ван­ный мар­ке­тинг — элек­трон­ные рас­сыл­ки, ре­тар­ге­тинг, си­сте­мы ре­ко­мен­да­ций;

• ко­ли­че­ствен­ные про­гно­зы — по­ка­за­те­ли эф­фек­тив­но­сти, ка­че­ство ре­клам­ных кам­па­ний и дру­гих ме­ро­при­я­тий;

• ско­рин­го­вые си­сте­мы — об­ра­бот­ка боль­ших объ­е­мов дан­ных, по­мощь в при­ня­тии ре­ше­ний, на­при­мер, о предо­став­ле­нии кре­ди­та;

• ба­зо­вое вза­и­мо­дей­ствие с кли­ен­том — стан­дарт­ные от­ве­ты в ча­тах, го­ло­со­вые по­мощ­ни­ки, сор­ти­ров­ка пи­сем по пап­кам.

Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и вы­бор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние пред­по­ло­же­ний.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.

Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за ме­сяц или даже год. При­дет­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пы­тать­ся вновь.

Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фун­да­мен­таль­ный курс по тео­рии ве­ро­ят­но­стей (ма­те­ма­ти­че­ский ана­лиз как необ­хо­ди­мый ин­стру­мент в тео­рии ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы ана­ли­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обу­че­нии без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

«Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в уни­вер­си­те­те оста­лось мно­го про­бе­лов. Клас­си­че­ские раз­де­лы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах ма­те­ма­ти­че­ской ста­ти­сти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вы­чис­ле­ни­я­ми.

«Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о ма­те­ма­ти­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных се­тей.

«Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с ос­нов­ны­ми прин­ци­па­ми.

Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Sci­ence. Кру­тое и нескуч­ное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять цен­траль­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет ге­не­раль­ные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, со­дер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, зна­ко­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

Шаг 2. Про­грам­ми­ро­ва­ние

Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми про­грам­ми­ро­ва­ния. Вы мо­же­те немно­го упро­стить себе за­да­чу: нач­ни­те изу­чать один язык и со­сре­до­точь­тесь на всех ню­ан­сах его син­так­си­са.

При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для но­вич­ков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рын­ке тру­да.

«Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: прак­ти­че­ское ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить прак­ти­че­ские за­да­ния из нее.

Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му син­так­си­су.

Dataquest по­мо­жет осво­ить син­так­сис.

По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с ос­нов­ны­ми биб­лио­те­ка­ми:

Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

Об­ра­бот­ка есте­ствен­но­го язы­ка:

Web scrap­ing (Ра­бо­та с web):

Шаг 3. Ма­шин­ное обу­че­ние

Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для вы­пол­не­ния опре­де­лен­ных за­дач. По­это­му ма­шин­ное обу­че­ние име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой об­ла­сти, но пре­жде все­го бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

Пер­вый шаг в изу­че­нии ма­шин­но­го обу­че­ния — зна­ком­ство с тре­мя его ос­нов­ны­ми фор­ма­ми.

1) Обу­че­ние с учи­те­лем — наи­бо­лее раз­ви­тая фор­ма ма­шин­но­го обу­че­ния. Идея в том, что­бы на ос­но­ве ис­то­ри­че­ских дан­ных, для ко­то­рых нам из­вест­ны «пра­виль­ные» зна­че­ния (це­ле­вые мет­ки), по­стро­ить функ­цию, пред­ска­зы­ва­ю­щую це­ле­вые мет­ки для но­вых дан­ных. Ис­то­ри­че­ские дан­ные про­мар­ки­ро­ва­ны. Мар­ки­ров­ка (от­не­се­ние к ка­ко­му-либо клас­су) озна­ча­ет, что у вас есть осо­бое вы­ход­ное зна­че­ние для каж­дой стро­ки дан­ных. В этом и за­клю­ча­ет­ся суть ал­го­рит­ма.

2) Обу­че­ние без учи­те­ля. У нас нет про­мар­ки­ро­ван­ных пе­ре­мен­ных, а есть мно­го необ­ра­бо­тан­ных дан­ных. Это поз­во­ля­ет иден­ти­фи­ци­ро­вать то, что на­зы­ва­ет­ся за­ко­но­мер­но­стя­ми в ис­то­ри­че­ских вход­ных дан­ных, а та­к­же сде­лать ин­те­рес­ные вы­во­ды из об­щей пер­спек­ти­вы. Итак, вы­ход­ные дан­ные здесь от­сут­ству­ют, есть толь­ко шаб­лон, ви­ди­мый в некон­тро­ли­ру­е­мом на­бо­ре вход­ных дан­ных. Пре­лесть обу­че­ния без учи­те­ля в том, что оно под­да­ет­ся мно­го­чис­лен­ным ком­би­на­ци­ям шаб­ло­нов, по­это­му та­кие ал­го­рит­мы слож­нее.

3) Обу­че­ние с под­креп­ле­ни­ем при­ме­ня­ет­ся, ко­гда у вас есть ал­го­ритм с при­ме­ра­ми, в ко­то­рых от­сут­ству­ет мар­ки­ров­ка, как при некон­тро­ли­ру­е­мом обу­че­нии. Од­на­ко вы мо­же­те до­пол­нить при­мер по­ло­жи­тель­ны­ми или от­ри­ца­тель­ны­ми от­кли­ка­ми в со­от­вет­ствии с ре­ше­ни­я­ми, пред­ла­га­е­мы­ми ал­го­рит­мом. Обу­че­ние с под­креп­ле­ни­ем свя­за­но с при­ло­же­ни­я­ми, для ко­то­рых ал­го­ритм дол­жен при­ни­мать ре­ше­ния, име­ю­щие по­след­ствия. Это по­хо­же на обу­че­ние ме­то­дом проб и оши­бок. Ин­те­рес­ный при­мер обу­че­ния с под­креп­ле­ни­ем — ко­гда ком­пью­те­ры учат­ся са­мо­сто­я­тель­но иг­рать в ви­део­иг­ры.

Ви­зу­а­ли­за­ция в ма­шин­ном обу­че­нии. От­лич­ная ви­зу­а­ли­за­ция, ко­то­рая по­мо­жет по­нять, как ис­поль­зу­ет­ся ма­шин­ное обу­че­ние.

Шаг 4. Data Min­ing (Ана­лиз дан­ных) и ви­зу­а­ли­за­ция дан­ных

Data Min­ing — важ­ный ис­сле­до­ва­тель­ский про­цесс. Он вклю­ча­ет ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную ин­фор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для об­лег­че­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных со­кра­тить рас­хо­ды и уве­ли­чить до­ход.

Что по­чи­тать и по­смот­реть:

Как ра­бо­та­ет ана­лиз дан­ных. От­лич­ное ви­део с до­ход­чи­вым объ­яс­не­ни­ем ана­ли­за дан­ных.

«Ра­бо­та убор­щи­ка дан­ных» — глав­ное пре­пят­ствие для ана­ли­за» — ин­те­рес­ная ста­тья, в ко­то­рой по­дроб­но рас­смат­ри­ва­ет­ся важ­ность ана­ли­за дан­ных в об­ла­сти Data Sci­ence.

Шаг 5. Прак­ти­че­ский опыт

За­ни­мать­ся ис­клю­чи­тель­но тео­ри­ей не очень ин­те­рес­но, важ­но по­про­бо­вать свои силы на прак­ти­ке. Вот несколь­ко хо­ро­ших ва­ри­ан­тов для это­го.

Ис­поль­зуй­те Kag­gle. Здесь про­хо­дят со­рев­но­ва­ния по ана­ли­зу дан­ных. Су­ще­ству­ет боль­шое ко­ли­че­ство от­кры­тых мас­си­вов дан­ных, ко­то­рые мож­но ана­ли­зи­ро­вать и пуб­ли­ко­вать свои ре­зуль­та­ты. Кро­ме того, вы мо­же­те смот­реть скрип­ты, опуб­ли­ко­ван­ные дру­ги­ми участ­ни­ка­ми и учить­ся на успеш­ном опы­те.

Шаг 6. Под­твер­жде­ние ква­ли­фи­ка­ции

По­сле того, как вы изу­чи­те все, что необ­хо­ди­мо для ана­ли­за дан­ных, и по­про­бу­е­те свои силы в от­кры­тых со­рев­но­ва­ни­ях, на­чи­най­те ис­кать ра­бо­ту. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции.

  • рас­ши­рен­ный про­филь на Kag­gle, где есть си­сте­ма ран­гов. Вы мо­же­те прой­ти путь от но­вич­ка до гросс­мей­сте­ра. За успеш­ное уча­стие в кон­кур­сах, пуб­ли­ка­цию скрип­тов и об­суж­де­ния вы по­лу­ча­е­те бал­лы, ко­то­рые уве­ли­чи­ва­ют ваш рей­тинг. Кро­ме того, на сай­те от­ме­че­но, в ка­ких со­рев­но­ва­ни­ях вы участ­во­ва­ли и ка­ко­вы ваши ре­зуль­та­ты.
  • про­грам­мы ана­ли­за дан­ных мож­но пуб­ли­ко­вать на GitHub или дру­гих от­кры­тых ре­по­зи­то­ри­ях, то­гда все же­ла­ю­щие мо­гут озна­ко­мить­ся с ними. В том чис­ле и ра­бо­то­да­тель, ко­то­рый про­во­дит с вами со­бе­се­до­ва­ние.

По­след­ний со­вет: не будь­те ко­пи­ей ко­пий, най­ди­те свой путь. Лю­бой мо­жет стать Data Sci­en­tist. В том чис­ле са­мо­сто­я­тель­но. В сво­бод­ном до­сту­пе есть все необ­хо­ди­мое: он­лайн-кур­сы, кни­ги, со­рев­но­ва­ния для прак­ти­ки. Но не сто­ит при­хо­дить в сфе­ру толь­ко из-за моды. Что мы слы­шим о Data Sci­ence: это кру­то, это са­мая при­вле­ка­тель­ная ра­бо­та XXI века. Если это ос­нов­ной сти­мул для вас, его вряд ли хва­тит на­дол­го. Что­бы до­бить­ся успе­ха, важ­но по­лу­чать удо­воль­ствие от про­цес­са.

Мини-курс «Data Science в бизнесе» от McKinsey

Мини-курс «Data Science в бизнесе»

В ходе четырех лекций команда консультантов и партнеров McKinsey поделится своим опытом и расскажет, как с помощью больших данных менять бизнес-модели и процессы в четырех индустриях: ритейле, телеком-отрасли, транспортном секторе и банкинге.

Какие задачи компании из этих отраслей решают с помощью Data Science и как зарабатывают с помощью анализа данных? Консультанты покажут на реальных примерах, как технологии становятся неотъемлемой частью современного бизнеса, разберут кейсы из реальных практик и проектов McKinsey.

Расписание:

9 октября 19.00 – Data Science in Retail — Денис Емельянцев (младший партнер), Сергей Кондратюк (менеджер проектов) —R304

23 октября 19.00 – Data Science in Logistics – Александр Громов (младший партнер)- R304

6 ноября 19.00 – Data Science in Telecom – Дмитрий Устинов (менеджер проектов), Наталья Костенко (дата-сайентист)- R304

20 ноября 19.00 – Data Science in Banking – Олег Корнышев (руководитель Data Science), Егор Сачко (дата-сайентист)- R304

Как работать с Big Data, не нанимая в штат специалиста по data science

Как работать с Big Data, не нанимая в штат специалиста по data science

Большие данные становятся ключевым компонентом стратегии успешного бизнеса. Проекты Big Data требуют серьезных капитальных вложений. Набирающий популярность феномен citizen data science упрощает данный процесс. Он про то, как использовать потенциал своих сотрудников с максимальной отдачей, привлекая их для решения задач предсказательной аналитики.

Big Data и перспективы умного бизнеса

Про роль Big Data в организации современных стратегий бизнеса написаны сотни статей. Согласно последним опросам , 59% компаний по всему миру в 2020 году применяют технологии анализа больших данных в своей работе. В 2015 году их было 17%. Почти 80% руководителей предприятий считают Big Data важным компонентом построения умного бизнеса. Наибольший процент использования подобных технологий показали компании, связанные с телекоммуникациями, страхованием и рекламой.

Вариантов применения Big Data и построения на их основе решений по оптимизации бизнес-процессов множество: от персональных рекомендаций клиентам в области электронной коммерции, автоматизированного поиска сотрудников до улучшения работы производственных линий.

В России проекты больших данных успешно внедряют Новолипецкий металлургический комбинат, СИБУР и группа компаний «Русагро». Технологии помогают решать задачи сервисного обслуживания оборудования, оптимизации расходов сырья, настройки режимов работы систем производства.

Понятно, что позволить себе внедрение Big Data могут далеко не все. Средняя стоимость проекта оценивается в 7,5 млн. долларов. Основные статьи затрат – платформы хранения и обработки данных, средства интеграции, инструменты анализа и интерпретации.

Одно из главных препятствий на пути внедрения Big Data – дефицит высококлассных специалистов в области data science. Кто-то же должен вести и поддерживать проекты больших данных, данные необходимо готовить и приводить к правильному формату.

Citizen data science: демократизация больших данных

Оказывается, использовать Big Data для решения насущных задач бизнеса можно и не прибегая к услугам дорогостоящих специалистов по data science. В последнее время компании все чаще берут на вооружение стратегию citizen data science , когда анализом больших данных на предприятии занимаются сотрудники внутри отдельных подразделений без специального образования.

По сути, речь идет о демократизации больших данных, вернее даже «коммунизации». Поскольку подобный феномен явно противоречит классической теории формирования организационной структуры управления. Он, скорее, совпадает с тем, как видел дальнейшее развитие трудовых отношений Карл Маркс – в преодолении разрыва между физическим (выполнение повторяемых операций) и умственным трудом.

Сам термин citizen data science в 2020 году запустил Gartner для описания возможностей, которые небольшие компании могут извлечь из больших данных без привлечения специалистов по business intelligence , создания сложных систем аналитики, своими силами, с помощью доступных сервисов и приложений.

В 2020 году аналитики Gartner пришли к выводу, что спрос на «гражданских» дата-сайентистов будет расти в 5 раз быстрее, чем на специалистов с профильным образованием и навыками в этой области.

Американский ритейлер Sears недавно наделил 400 сотрудников дополнительными функциями для проведения операций по сегментации клиентов на основе больших данных. Раньше подобной работой занимались в компании специалисты по data science с докторской степенью. В результате были сэкономлены сотни тысяч долларов.

Прежде всего, само использование Big Data подразумевает наличие в компании этих самых больших данных и переориентацию от прогнозирования, основанного на традиционных статистических моделях, к предсказательной (predictive) аналитике с применением машинного обучения и AI.

Существующие приложения для анализа производственной цепочки и цепочки поставок предприятия помогают отслеживать кучу полезных индикаторов – от временных затрат до наличия востребованных позиций товаров на складе. Есть задачи, которые подобные инструменты не в состоянии решить.

Для примера возьмем транспортную компанию. Интуитивно руководитель кадрового отдела понимает, что водители меняются с определенной периодичностью. Каждый раз приходится тратить время, чтобы найти им замену, что ведет к простою техники и финансовым потерям. Инструменты предиктивной аналитики способны переводить все это в цифры, следовательно, оптимизировать затраты.

На рынке представлены инструменты автоматизированной аналитики, которые позволяют людям без специальных знаний извлекать полезную информацию из Big Data. Например, в Envision применяют программный пакет Sisense, который выдает предупреждения о статистически важных изменениях в заданных метриках.

Наивно думать, что гражданские дата-сайентисты способны полностью заменить специалистов по data science. Сегодня это, скорее, дополнение к масштабным проектам крупных компаний в данной области. Они помогают заполнить пробел между желанием иметь полную картину происходящего и ограниченными возможностями, беря на себя ряд задач, связанных с аналитикой больших данных:

  • ручной ввод информации в ситуации, когда эти операции нет возможности быстро автоматизировать;
  • просмотр наборов данных на предмет ошибок;
  • техническая поддержка аналитических инструментов;
  • тестирование и проверка полученных результатов.
Цукерберг рекомендует:  Делаем мега меню.

Как организовать работу с Big Data в компании

Работа с данными и статистическими моделями – не очень привлекательное занятие для большинства людей. Если человек интересуется этим направлением, вероятней всего, он станет профессиональным специалистом по data science. Для того чтобы привлечь часть своих сотрудников к работе с Big Data потребуется мотивация и минимальное обучение.

Блог Syncsort предлагает к реализации следующую стратегию.

1. Сделайте рабочие данные открытыми, когда это позволяют соображения безопасности.

Наборы данных, в принципе, может просматривать любой сотрудник внутри компании. Многие же с интересом изучают движение биржевых индексов, не имея брокерских счетов. Возможно, знакомство со статистическими показателями работы организации даст стимул рядовым работникам работать над их улучшением.

2. Обучайте.

Нет смысла тренировать каждого сотрудника пользоваться Hadoop или писать R-скрипты. Можно просто выложить в открытый доступ обучающие материалы и видео, как работают применяемые в компании инструменты анализа данных.

3. Позаботьтесь о мотивации.

Стимулы могут быть как материальные, в виде денежных поощрений, так и нематериальные. Полезно объяснять цели и задачи, которые реализуются с помощью проекта.

4. Обновите политику управления данными.

Это не противоречит первому пункту. Если вы предоставляете доступ непрофессионалам к операциям с данными, необходимо убедиться, что они будут использованы по назначению.

5. Сделайте операции с данными проще.

Работа с данными и аналитикой в любом случае подразумевает наличие определенных навыков. Операции с данными можно облегчить для обычных сотрудников, если упорядочит весь процесс. Здесь на помощь приходят инструменты автоматизации.

Citizen data science – это возможность применять в бизнесе инструменты аналитики Big Data, не дожидаясь пока появятся средства для найма специалиста по дата-сайенс и реализации масштабного проекта.

В будущем успех компаний будет зависеть от умения извлекать максимум пользы из всего массива имеющейся информации. Но научный подход требует слишком много времени и ресурсов. Более эффективно – использовать потенциал собственных сотрудников и готовые инструменты и приложения для предсказательной аналитики.

Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

Пошаговая инструкция для тех, кто не знает, с чего начать

Про­фес­сию Data Sci­en­tist се­год­ня ча­сто на­зы­ва­ют од­ной из са­мых пер­спек­тив­ных и мод­ных. Он­лайн-кур­сы и уни­вер­си­те­ты пред­ла­га­ют все боль­ше про­грамм обу­че­ния этой спе­ци­аль­но­сти, и но­вич­кам не все­гда по­нят­но, с чего на­чать и как вы­брать са­мый эф­фек­тив­ный путь. Ру­ко­во­ди­тель фа­куль­те­та Data Sci­ence он­лайн-уни­вер­си­те­та «Нето­ло­гия» Еле­на Ге­ра­си­мо­ва спе­ци­аль­но для «Цеха» со­ста­ви­ла по­дроб­ный пу­те­во­ди­тель по миру на­у­ки о дан­ных. В ма­те­ри­а­ле вы най­де­те объ­яс­не­ния глав­ных тер­ми­нов, по­ша­го­вую ин­струк­цию для тех, кто толь­ко вхо­дит в про­фес­сию, а та­к­же спи­сок по­лез­ной ли­те­ра­ту­ры по каж­дой теме.

О чем речь

Data Sci­ence — де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших ре­ше­ний на их ос­но­ве. Рань­ше по­доб­ны­ми за­да­ча­ми за­ни­ма­лись спе­ци­а­ли­сты по ма­те­ма­ти­ке и ста­ти­сти­ке. За­тем на по­мощь при­шел ис­кус­ствен­ный ин­тел­лект, что поз­во­ли­ло вклю­чить в ме­то­ды ана­ли­за оп­ти­ми­за­цию и ин­фор­ма­ти­ку. Этот но­вый под­ход ока­зал­ся на­мно­го эф­фек­тив­ней.

Как стро­ит­ся про­цесс? Все на­чи­на­ет­ся со сбо­ра боль­ших мас­си­вов струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных и их пре­об­ра­зо­ва­ния в удоб­ный для вос­при­я­тия фор­мат. Даль­ше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и ана­ли­ти­че­ские ме­то­ды — ма­шин­но­го и глу­бо­ко­го обу­че­ния, ве­ро­ят­ност­ный ана­лиз и про­гноз­ные мо­де­ли, ней­рон­ные сети и их при­ме­не­ние для ре­ше­ния ак­ту­аль­ных за­дач.

Пять глав­ных тер­ми­нов, ко­то­рые нуж­но за­пом­нить

Ис­кус­ствен­ный ин­тел­лект, ма­шин­ное обу­че­ние, глу­бо­кое обу­че­ние и на­у­ка о дан­ных — ос­нов­ные и са­мые по­пу­ляр­ные тер­ми­ны. Они близ­ки, но не эк­ви­ва­лент­ны друг дру­гу. На стар­те важ­но разо­брать­ся, чем они от­ли­ча­ют­ся.

Ис­кус­ствен­ный ин­тел­лект (Ar­ti­fi­cial In­tel­li­gence) — об­ласть, по­свя­щен­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, ра­бо­та­ю­щих и дей­ству­ю­щих как люди. Ее воз­ник­но­ве­ние свя­за­но с по­яв­ле­ни­ем ма­шин Ала­на Тью­рин­га в 1936 году. Несмот­ря на дол­гую ис­то­рию раз­ви­тия, ис­кус­ствен­ный ин­тел­лект пока не спо­со­бен пол­но­стью за­ме­нить че­ло­ве­ка в боль­шин­стве об­ла­стей. А кон­ку­рен­ция ИИ с лю­дь­ми в шах­ма­тах и шиф­ро­ва­ние дан­ных — две сто­ро­ны од­ной ме­да­ли.

Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние ин­стру­мен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учи­те­ля — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.

Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее про­дви­ну­тый или быст­рый ана­лиз, и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся неко­то­рым ко­ли­че­ством скры­тых сло­ев ней­ро­нов в сети, ко­то­рые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.

Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­е­мом ча­сто неструк­ту­ри­ро­ван­ных дан­ных. Спе­ци­фи­ка сфе­ры — это ин­стру­мен­ты и си­сте­мы, спо­соб­ные вы­дер­жи­вать вы­со­кие на­груз­ки.

На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыс­лом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Спе­ци­а­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые ме­то­ды ма­шин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

Где при­ме­ня­ет­ся Data Sci­ence

• об­на­ру­же­ние ано­ма­лий, на­при­мер, ненор­маль­ное по­ве­де­ние кли­ен­та, мо­шен­ни­че­ства;

• пер­со­на­ли­зи­ро­ван­ный мар­ке­тинг — элек­трон­ные рас­сыл­ки, ре­тар­ге­тинг, си­сте­мы ре­ко­мен­да­ций;

• ко­ли­че­ствен­ные про­гно­зы — по­ка­за­те­ли эф­фек­тив­но­сти, ка­че­ство ре­клам­ных кам­па­ний и дру­гих ме­ро­при­я­тий;

• ско­рин­го­вые си­сте­мы — об­ра­бот­ка боль­ших объ­е­мов дан­ных, по­мощь в при­ня­тии ре­ше­ний, на­при­мер, о предо­став­ле­нии кре­ди­та;

• ба­зо­вое вза­и­мо­дей­ствие с кли­ен­том — стан­дарт­ные от­ве­ты в ча­тах, го­ло­со­вые по­мощ­ни­ки, сор­ти­ров­ка пи­сем по пап­кам.

Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и вы­бор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние пред­по­ло­же­ний.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.

Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за ме­сяц или даже год. При­дет­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пы­тать­ся вновь.

Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фун­да­мен­таль­ный курс по тео­рии ве­ро­ят­но­стей (ма­те­ма­ти­че­ский ана­лиз как необ­хо­ди­мый ин­стру­мент в тео­рии ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы ана­ли­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обу­че­нии без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

«Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в уни­вер­си­те­те оста­лось мно­го про­бе­лов. Клас­си­че­ские раз­де­лы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах ма­те­ма­ти­че­ской ста­ти­сти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вы­чис­ле­ни­я­ми.


«Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о ма­те­ма­ти­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных се­тей.

«Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с ос­нов­ны­ми прин­ци­па­ми.

Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Sci­ence. Кру­тое и нескуч­ное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять цен­траль­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет ге­не­раль­ные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, со­дер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, зна­ко­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

Шаг 2. Про­грам­ми­ро­ва­ние

Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми про­грам­ми­ро­ва­ния. Вы мо­же­те немно­го упро­стить себе за­да­чу: нач­ни­те изу­чать один язык и со­сре­до­точь­тесь на всех ню­ан­сах его син­так­си­са.

При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для но­вич­ков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рын­ке тру­да.

«Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: прак­ти­че­ское ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить прак­ти­че­ские за­да­ния из нее.

Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му син­так­си­су.

Dataquest по­мо­жет осво­ить син­так­сис.

По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с ос­нов­ны­ми биб­лио­те­ка­ми:

Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

Об­ра­бот­ка есте­ствен­но­го язы­ка:

Web scrap­ing (Ра­бо­та с web):

Шаг 3. Ма­шин­ное обу­че­ние

Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для вы­пол­не­ния опре­де­лен­ных за­дач. По­это­му ма­шин­ное обу­че­ние име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой об­ла­сти, но пре­жде все­го бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

Пер­вый шаг в изу­че­нии ма­шин­но­го обу­че­ния — зна­ком­ство с тре­мя его ос­нов­ны­ми фор­ма­ми.

1) Обу­че­ние с учи­те­лем — наи­бо­лее раз­ви­тая фор­ма ма­шин­но­го обу­че­ния. Идея в том, что­бы на ос­но­ве ис­то­ри­че­ских дан­ных, для ко­то­рых нам из­вест­ны «пра­виль­ные» зна­че­ния (це­ле­вые мет­ки), по­стро­ить функ­цию, пред­ска­зы­ва­ю­щую це­ле­вые мет­ки для но­вых дан­ных. Ис­то­ри­че­ские дан­ные про­мар­ки­ро­ва­ны. Мар­ки­ров­ка (от­не­се­ние к ка­ко­му-либо клас­су) озна­ча­ет, что у вас есть осо­бое вы­ход­ное зна­че­ние для каж­дой стро­ки дан­ных. В этом и за­клю­ча­ет­ся суть ал­го­рит­ма.

2) Обу­че­ние без учи­те­ля. У нас нет про­мар­ки­ро­ван­ных пе­ре­мен­ных, а есть мно­го необ­ра­бо­тан­ных дан­ных. Это поз­во­ля­ет иден­ти­фи­ци­ро­вать то, что на­зы­ва­ет­ся за­ко­но­мер­но­стя­ми в ис­то­ри­че­ских вход­ных дан­ных, а та­к­же сде­лать ин­те­рес­ные вы­во­ды из об­щей пер­спек­ти­вы. Итак, вы­ход­ные дан­ные здесь от­сут­ству­ют, есть толь­ко шаб­лон, ви­ди­мый в некон­тро­ли­ру­е­мом на­бо­ре вход­ных дан­ных. Пре­лесть обу­че­ния без учи­те­ля в том, что оно под­да­ет­ся мно­го­чис­лен­ным ком­би­на­ци­ям шаб­ло­нов, по­это­му та­кие ал­го­рит­мы слож­нее.

3) Обу­че­ние с под­креп­ле­ни­ем при­ме­ня­ет­ся, ко­гда у вас есть ал­го­ритм с при­ме­ра­ми, в ко­то­рых от­сут­ству­ет мар­ки­ров­ка, как при некон­тро­ли­ру­е­мом обу­че­нии. Од­на­ко вы мо­же­те до­пол­нить при­мер по­ло­жи­тель­ны­ми или от­ри­ца­тель­ны­ми от­кли­ка­ми в со­от­вет­ствии с ре­ше­ни­я­ми, пред­ла­га­е­мы­ми ал­го­рит­мом. Обу­че­ние с под­креп­ле­ни­ем свя­за­но с при­ло­же­ни­я­ми, для ко­то­рых ал­го­ритм дол­жен при­ни­мать ре­ше­ния, име­ю­щие по­след­ствия. Это по­хо­же на обу­че­ние ме­то­дом проб и оши­бок. Ин­те­рес­ный при­мер обу­че­ния с под­креп­ле­ни­ем — ко­гда ком­пью­те­ры учат­ся са­мо­сто­я­тель­но иг­рать в ви­део­иг­ры.

Ви­зу­а­ли­за­ция в ма­шин­ном обу­че­нии. От­лич­ная ви­зу­а­ли­за­ция, ко­то­рая по­мо­жет по­нять, как ис­поль­зу­ет­ся ма­шин­ное обу­че­ние.

Шаг 4. Data Min­ing (Ана­лиз дан­ных) и ви­зу­а­ли­за­ция дан­ных

Data Min­ing — важ­ный ис­сле­до­ва­тель­ский про­цесс. Он вклю­ча­ет ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную ин­фор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для об­лег­че­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных со­кра­тить рас­хо­ды и уве­ли­чить до­ход.

Что по­чи­тать и по­смот­реть:

Как ра­бо­та­ет ана­лиз дан­ных. От­лич­ное ви­део с до­ход­чи­вым объ­яс­не­ни­ем ана­ли­за дан­ных.

«Ра­бо­та убор­щи­ка дан­ных» — глав­ное пре­пят­ствие для ана­ли­за» — ин­те­рес­ная ста­тья, в ко­то­рой по­дроб­но рас­смат­ри­ва­ет­ся важ­ность ана­ли­за дан­ных в об­ла­сти Data Sci­ence.

Шаг 5. Прак­ти­че­ский опыт

За­ни­мать­ся ис­клю­чи­тель­но тео­ри­ей не очень ин­те­рес­но, важ­но по­про­бо­вать свои силы на прак­ти­ке. Вот несколь­ко хо­ро­ших ва­ри­ан­тов для это­го.

Ис­поль­зуй­те Kag­gle. Здесь про­хо­дят со­рев­но­ва­ния по ана­ли­зу дан­ных. Су­ще­ству­ет боль­шое ко­ли­че­ство от­кры­тых мас­си­вов дан­ных, ко­то­рые мож­но ана­ли­зи­ро­вать и пуб­ли­ко­вать свои ре­зуль­та­ты. Кро­ме того, вы мо­же­те смот­реть скрип­ты, опуб­ли­ко­ван­ные дру­ги­ми участ­ни­ка­ми и учить­ся на успеш­ном опы­те.

Шаг 6. Под­твер­жде­ние ква­ли­фи­ка­ции

По­сле того, как вы изу­чи­те все, что необ­хо­ди­мо для ана­ли­за дан­ных, и по­про­бу­е­те свои силы в от­кры­тых со­рев­но­ва­ни­ях, на­чи­най­те ис­кать ра­бо­ту. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции.

  • рас­ши­рен­ный про­филь на Kag­gle, где есть си­сте­ма ран­гов. Вы мо­же­те прой­ти путь от но­вич­ка до гросс­мей­сте­ра. За успеш­ное уча­стие в кон­кур­сах, пуб­ли­ка­цию скрип­тов и об­суж­де­ния вы по­лу­ча­е­те бал­лы, ко­то­рые уве­ли­чи­ва­ют ваш рей­тинг. Кро­ме того, на сай­те от­ме­че­но, в ка­ких со­рев­но­ва­ни­ях вы участ­во­ва­ли и ка­ко­вы ваши ре­зуль­та­ты.
  • про­грам­мы ана­ли­за дан­ных мож­но пуб­ли­ко­вать на GitHub или дру­гих от­кры­тых ре­по­зи­то­ри­ях, то­гда все же­ла­ю­щие мо­гут озна­ко­мить­ся с ними. В том чис­ле и ра­бо­то­да­тель, ко­то­рый про­во­дит с вами со­бе­се­до­ва­ние.

По­след­ний со­вет: не будь­те ко­пи­ей ко­пий, най­ди­те свой путь. Лю­бой мо­жет стать Data Sci­en­tist. В том чис­ле са­мо­сто­я­тель­но. В сво­бод­ном до­сту­пе есть все необ­хо­ди­мое: он­лайн-кур­сы, кни­ги, со­рев­но­ва­ния для прак­ти­ки. Но не сто­ит при­хо­дить в сфе­ру толь­ко из-за моды. Что мы слы­шим о Data Sci­ence: это кру­то, это са­мая при­вле­ка­тель­ная ра­бо­та XXI века. Если это ос­нов­ной сти­мул для вас, его вряд ли хва­тит на­дол­го. Что­бы до­бить­ся успе­ха, важ­но по­лу­чать удо­воль­ствие от про­цес­са.

Data Science: научный подход к данным

Джим Грей, Дэвид Лью, Мария Нието-Сантистебан, Алекс Шейли, Дэвид Девитт, Герд Хебер
Перевод: Сергей Кузнецов
Оригинал: Jim Gray, David T. Liu, Maria Nieto-Santisteban, Alex Szalay, David J. DeWitt, Gerd Heber. Scientific Data Management in the Coming Decade, SIGMOD Record, Vol. 34, No. 4, Dec. 2005

Наука с интенсивной обработкой данных – новая парадигма

Научные инструменты и компьютерное имитационное моделирование порождают громадные объемы данных, для анализа и организации которых требуются новые научные методы. Каждый год объемы данных почти удваиваются. Поскольку новые научные инструменты обладают исключительной точностью, так же быстро улучается качество данных. Для анализа этих данных с целью нахождения тонких эффектов, упущенных в предыдущих исследованиях, требуются алгоритмы, которые одновременно могут работать с огромными наборами данных и обнаруживать при этом очень тонкие эффекты – нужно находить иголки в стоге сена, а также находить сами очень мелкие стога сена, которые остались необнаруженными при предыдущих замерах.

«Сырые» данные, полученные от инструментов и в результате моделирования, обрабатываются конвейерами, которые производят стандартные продукты данных. По терминологии NASA 1 , сырые данные уровня 0 выверяются и исправляются до наборов данных уровня 1, которые комбинируются с другими данными, порождая наборы данных уровня 2. Большая часть аналитической работы происходит с этими наборами данных уровня 2, а в случае обнаружения аномалий производится «спуск» к данным уровня 1.

Мы полагаем, что в науке большинство новых результатов получается, когда данные анализируются новыми способами. Поэтому в этой статье мы концентрируемся на исследовании данных, интерактивном анализе данных и интеграции данных на уровне 2.

Средства анализа данных не поспевают за нашими возможностями собирать и хранить данные. Многие ученые завидуют времени карандаша и бумаги, когда все данные помещались в рабочей тетради, а анализ выполнялся при помощи логарифмической линейки. Тогда все было проще; можно было полностью сконцентрироваться на научных проблемах без потребности одновременно становиться профессионалом в области информационных технологий с опытом использования загадочных компьютерных средств анализа данных.

Наибольшей брешью анализа данных является этот человеко-машинный интерфейс. Как нам вернуть ученому контроль над своими данными? Как нам построить средства анализа, являющиеся интуитивными и усиливающими интеллект ученого, а не обременяющими его. Реальная проблема состоит в создании интеллектуальной рабочей тетради, которая раскрывает данные и облегчает их фиксацию, организацию, анализ, визуализацию и публикацию.

Эта статья посвящается уровню данных и анализа данных внутри такой интеллектуальной рабочей тетради. Мы утверждаем, что эта интеллектуальная рабочая тетрадь будет обращаться к данным, предоставляемым научными центрами, и будет обеспечивать сообщество средства анализа и вычислительными ресурсами для исследования огромных архивов данных.

Новые методы анализа данных

Потребности в инструментальных средствах и вычислительных ресурсах для выполнения научного анализа данных возрастают даже быстрее объема данных. Это является следствием трех явлений. (1) Для многих усложненных алгоритмов для анализа каждого байта требуется большее число команд. (2) Многие алгоритмы анализа являются суперлинейными, часто требуя для обработки N точек данных N2 или N3 времени. И (3) пропускная способность ввода-вывода отстает от емкости запоминающих устройств. В последние десять лет емкость запоминающих устройств увеличилась более чем в 100 раз, а пропускная способность – только в 10 раз.

Эти три фактора – алгоритмическая сложность, нелинейность и ограничения пропускной способности – означают, что анализ выполняется все большее и большее время. Для решения этих проблем ученым потребуются улучшенные алгоритмы анализа, которые смогут работать с исключительно большими наборами данных в приближенном режиме (со временем выполнения, близким к линейному), и им потребуются параллельные алгоритмы, позволяющие использовать для решения проблемы много процессоров и много дисков, что позволит удовлетворить требования к вычислительной мощности и пропускной способности ввода-вывода.

Научные центры

При наличии петабайтных наборов данных требуется новый стиль работы. Сегодня типичный ученый копирует файлы на локальный сервер и оперирует наборами данных с использованием своих собственных ресурсов. Однако все чаще наборы данных являются настолько большими, а прикладные программы – настолько сложными, что гораздо экономичнее переместить программы к данным и передавать только вопросы и ответа, а не перемещать исходные данные и приложения в локальную систему пользователя.

Научные центры данных, обеспечивающие доступ как к данным, так и к приложениям, которые анализируют данные, развиваются как сервисные станции для некоторой научной области. В каждом из этих научных центров производится управление одним или несколькими массивными наборами данных, а также приложениями, обеспечивающими доступ к этим наборам данных, и поддерживается персонал, который понимает данные и постоянно пополняет и совершенствует наборы данных. Это можно видеть на примерах SDSS в Fermilab a , BaBar в SLAC b , BIRN в SDSC c , Entrez-PubMed-GenBank в NCBI d , а также многих других наборов данных. Эти центры объединяются на федеративных началах. Например, у BaBar имеется около 25 партнерских сайтов, а у CERN LHC e ожидается много партнерских сайтов Tier1. Несколько партнерских сайтов имеется у NCBI, а SDSS является частью Международной виртуальной обсерватории f .

Новый стиль работы в этих научных областях состоит в посылке вопросов приложениям, выполняемым в центре данных, и получении ответов, а не в массивном копировании необработанных данных на локальный сервер для дальнейшего анализа. На самом деле, имеется нарастающая тенденция к сохранению в центре данных персонального рабочего пространства (personal workspace, MyDB) и размещению в нем ответов. Это минимизирует перемещение данных и способствует сотрудничеству группы ученых, производящих совместный анализ. Эти персональные рабочие пространства также служат развитию коллаборации разных групп аналитиков данных. В долговременной перспективе персональные рабочие пространства в центре данных могли бы помогать публикации данных – как научных результатов экспериментов или исследований, так и программ, использованных для их получения – в публичных базах данных, доступных только для чтения.

Многие ученые предпочтут выполнять свою аналитическую работу в центрах данных, поскольку это избавит их от необходимости управлять локальным хозяйством данных и компьютеров. Некоторые ученые могут доставлять небольшие фрагменты данных «домой» для локальной обработки, анализа и визуализации – но будет иметься возможность делать все это в центре данных, используя персональное рабочее пространство.

Если ученый желает сопоставить данные из двух разных рабочих центров, нет другого варианта, кроме как переместить часть данных из одного места в другое. Если это становится общепринятым, эти два центра данных, вероятно, образуют федерацию, чтобы обеспечивать взаимное резервное копирование, поскольку трафик передачи данных будет оправдывать затраты на это копирование.

Для работы с петабайтными наборами данных потребуется 1000-10000 дисков и тысячи вычислительных узлов. В каждый момент времени некоторые диски и узлы будут находиться в неработоспособном состоянии. В таких системах должен иметься механизм, предотвращающий потерю данных и обеспечивающий доступность даже в условиях неполной конфигурации – требуется система самовосстановления. В этом обсуждении предполагается реплицирование данных центра данных в различных географических местоположениях. Географическая репликация обеспечивает доступность данных и предотвращает их потери. Внутри центра данных избыточность можно комбинировать с разумной стратегией разделения для защиты от сбоя на уровне котроллера или сервера. При двойном сохранении данных для обеспечения избыточности можно использовать разные организации копий (например, пространственное разделение в одной копии и разделение по времени – в другой) для повышения производительности системы. Поврежденные данные должны автоматически восстанавливаться на основе избыточных копий без прерывания доступа к базе данных, во многом подобно тому, что сегодня делается в дисковых массивах RA >Во всех этих сценариях постулируются простой доступ к данным, взаимообмен и интеграция. Чтобы это было возможно, данные должны быть самоописываемыми. Эти самоописания, или метаданные находятся в центре всех этих сценариев; они обеспечивают понимание данных общими инструментальными средствами и людьми.

Метаданные делают возможным доступ к данным

Матаданные – это описательная информация о данных, которая объясняет измеряемые атрибуты, их имена, единицы измерения, точность, формат данных и, в идеале, намного больше. Наиболее важно то, что метаданные включают информацию о происхождении данных, описывающую, как измерялись, получались или вычислялись данные.

Если данные должны анализироваться с помощью общих инструментальных средств, то эти средства должны «понимать» данные. Вы не можете просто предоставить инструменту набор байт и ожидать, что ему удастся понять, что означают эти данные. Инструменту понадобятся метаданные.

В качестве простого примера рассмотрим некоторый файл. Вы ничего не можете сказать про него – это может быть все, что угодно. Но если вам скажут, что это JPEG, то вы будете знать, что это растровое изображение в формате JPEG. Файлы JPEG начинаются с заголовка, который описывает структуру файла, а часто сообщает и модель фотокамеры, время и программу, сгенерировавшую снимок. Многим программам известно, как читать файлы JPEG, а также как производить новые файлы JPEG, которые включают метаданные, описывающие характеристики нового изображения. Аналогичные роли играют музыкальные файлы MP3 и файлы документов PDF – у каждого из них имеется стандартный формат, каждый содержит некоторые метаданные, и для каждого имеется набор приложений для обработки и генерации файлов данного класса.

Если ученым требуется читать данные, собранные другими учеными, то эти данные должны тщательно документироваться и публиковаться в формах, допускающих простой доступ и автоматическое манипулирование. В идеальном мире имелись бы мощные инструментальные средства, облегчающие фиксацию, организацию, анализ, визуализацию и публикацию данных. Эти средства осуществляли бы интеллектуальный анализ данных (data mining) и обучались бы на основе этих данных (machine learning), и было бы нетрудно создавать скрипты, описывающие потоки работ по анализу данных. Для автоматизации этих средств существенно наличие хороших метаданных. Сохранение и пополнение этих данных в процессе обработке (происхождение данных) составят основное преимущество инструментальных средств следующего поколения.

Все данные, порождаемые из научных продуктов, также должны тщательно документироваться и публиковаться в формах, допускающих простой доступ. В идеале, многие из этих метаданных должны были бы генерироваться автоматически и управляться в составе потока работ, снижая интеллектуальную нагрузку на ученого.

Семантическая конвергенция: числа в объекты

Многие научные данные представляются в форме числовых массивов, генерируемых инструментами или моделями. Выявлены простые и удобные модели данных для представления таких массивов и связей между ними. Эти модели данных могут также представлять происхождение данных и другие метаданные путем включения в файлы комментирующего текста, определений данных и таблиц данных. Хорошими примерами таких стандартов являются HDF, NetCDF и FITS. Каждый из них включает библиотеку, которая инкапсулирует файлы и обеспечивает плаформенно-независимый способ чтения подмассивов, а также создания и обновления файлов. Каждый из этих стандартов дает ученым возможность простого обмена данными. Поверх стандартов построены общие средства анализа и визуализации соответствующих высокоуровневых форматов файлов.

В то время как в коммерческом мире придерживаются стандартов реляционной модели данных и SQL, в научном сообществе ни один стандарт или инструмент не набрал аналогичной критической массы. Ведется много параллельных и конкурирующих работ по созданию таких инструментальных средств – по меньшей мере, по одной для каждой дисциплины. Обмен данными вне каждой группы является проблематичным. Поскольку обмен данным между научными дисциплинами становится все более важным, в следующем десятилетии, вероятно, появится общий, подобный HDF формат и пакет для всех наук.

В каждой дисциплине появляются определения общей терминологии (измерения и единицы измерений). Мы наиболее близко знакомы со словарем Universal Content Descriptors (UCD) астрономического сообщества, в котором определяется около тысячи астрофизических измерений, единиц измерения и понятий. Почти в каждой дисциплине ведет работа по созданию аналогичной онтологии (называемой также управляемым словарем). Это значительно облегчит построение инструментальных средств, поскольку общее согласие относительно этих понятий может помочь при разработке средств анализа. В дополнение к стандартизации, пригодные для использования компьютерами онтологии помогут построить Semantic Web: приложения станут совместимыми на семантическом уровне, а не только синтаксически совместимыми, как это возможно при использовании текущего поколения Web-сервисов на основе типизированных интерфейсов. Однако пройдет некоторое время, прежде чем появятся и будут интегрированы со средствами анализа данных высокопроизводительные процессоры онтологий общего назначения.

С другой стороны, у пользователей баз данных имеется хорошая возможность прототипирования таких приложений: схема базы данных, не являясь полной онтологией, может быть ценным фрагментом онтологии. Для реализации элементарной семантической алгебры может использоваться SQL. Интеграция XML в современных системах управления базами данных (СУБД) открывает двери для существующих стандартов RDF и OWL. Визуализация или, еще лучше, визуальное исследование представляют собой простые примеры приложений, успех которых определяется возможностью отображения вопроса, сформулированного в концептуальной среде онтологии предметной области, в запрос(ы) сервера анализа (мета)данных. В настоящее время целевым «языком ассемблера», пригодного для использования в этом процессе трансляции, является гибрид SQL и XQuery.

Метаданные делают возможной независимость данных

Разделение данных и программ является искусственным – никто не может увидеть данные без использования программ, и большинство программ управляется данными. Поэтому парадоксальным фактом является то, что сообщество управления данными уже 40 лет пытается достичь нечто, называемое независимостью данных – явное отделение программ от данных. В системах баз данных обеспечиваются два вида независимости данных, называемые физической независимостью данных и логической независимостью данных.

У физической независимости данных имеется много различных форм. Однако во всех случаях целью является возможность изменения организации физических данных без нарушения работоспособности любой прикладной программы, зависящей от старого формата данных. Одним из примеров физической независимости данных является возможность системы баз данных разделить строки некоторой таблицы между несколькими дисками и/или несколькими узлами кластера без потребности модификации какого-либо приложения. Другим важным примером физической независимости данных является отображение полей каждой строки реляционной таблицы на разные диски. Хотя в системе баз данных каждая строка может отображаться на непрерывный контейнер хранения (например, запись) одной дисковой страницы, возможен также вариант, когда крупные атрибуты таблицы, обращения к которым происходят не очень часто (соответствующие большим текстовым объектам, изображениям JPEG или многомерным массивам), хранятся в отдельных контейнерах разных дисковых страниц и/или разных томов для максимизации общей производительности системы. И снова подобные оптимизации физического хранения данных реализуются таким образом, чтобы быть совершенно прозрачными для прикладных программ, за исключением, возможно, изменения их производительности. В качестве аналога из научной области можно рассмотреть прикладную программу, в которой используется структура языка C для описания записей данных на диске, и физическая организация этих записей изменяется без потребности в переписывании и даже перекомпиляции прикладной программы (или любого другого приложения, обращающегося к тем же данным). При допущении применения таких методов физическая независимость данных позволяет добиться повышения производительности за счет распараллеливания, достигаемого путем реорганизации данных – без дополнительных усилий или с небольшими усилиями со стороны ученых.

В современных системах баз данных также обеспечивается логическая независимость данных, которая изолирует программу от изменений в логической организации базы данных – позволяя разработчиками добавлять и удалять в базе данных связи и информацию. В то время как физическая независимость данных используется для сокрытия изменений в физической организации данных, логическая независимость данных скрывает изменения в логической организации данных. Логическая независимость данных обычно поддерживается с использованием представлений (view). Представление определяет виртуальную таблицу, специфицируемую с использованием SQL-запроса над одной или несколькими базовыми таблицами и/или представлениями. Представления служат нескольким целям, включая повышение уровня безопасности (путем сокрытия атрибутов от приложений и пользователей, не обладающих истинной потребностью доступа к этим атрибутам) и улучшение производительности (путем материализации представлений, определенных с использованием сложных SQL-запросов над очень большими таблицами). Но, прежде всего, представления используются для обеспечения корректного функционирования старых программ даже при реорганизации используемой ими баз данных. Например, рассмотрим программу, корректное выполнение которой зависит от некоторой таблицы T, которую администратор желает реорганизовать путем вертикального разделения на две части, сохраняемые в таблицах T’ и T». Для сохранения работоспособности приложений, зависящих от T, администратор может определить над T’ и T» представление, соответствующее исходному определению таблицы T, что позволит старым программам продолжать корректно функционировать.

Цукерберг рекомендует:  Javascript - Не удаляется атрибут у свойства объекта

Кроме того, данные эволюционизируют. Системы переходят от использования кодировки EBCDIC к ASCII, а затем к Unicode, от проприетарных форматов плавающих чисел к формату IEEE, от марок к евро, от восьмисимвольных имен в кодировке ASCII к тысячесимвольным именам в кодировке Unicode. Важно обеспечить выполнение этих изменений таким образом, чтобы не разрушить миллионы строк существующих программ, для которых желательно видеть эти данные по-старому. Для решения этих проблем используются представления, динамически транслирующие данные в соответствующие форматы (производя преобразования между символьными и числовыми видами, между почтовыми кодами, состоящими из шести и девяти цифр, между длинными и короткими именами, и скрывая от старых программ новую информацию). Проблема двухтысячного года (преобразование двухсимвольного формата года в четырехсимвольный формат) продемонстрировала большинству организаций важность независимости данных.

Для реализации и логической, и физической независимости данных в системах баз данных используется схема. В схеме базы данных сохраняются все метаданные, включая определения таблиц и представлений, а также информация о существующих индексах и о том, как таблицы отображаются на тома внешней памяти (и узлы в среде параллельных баз данных). Для независимости данных важно отделить данные и метаданные от программ, манипулирующих этими данными. В противном случае другие программы, по существу, не могли бы найти эти метаданные, что, в свою очередь, не позволило бы нескольким программам совместно использовать общую базу данных.

Разделение программ и данных совершенствуется в объектно-ориентированном подходе. Классы данных, инкапсулирующие методы, обеспечивают независимость данных и существенно облегчают эволюцию данных без затрагивания программ. Так что эти идеи все еще развиваются. Но ключевая идея этого раздела состоит в том, что для обеспечения независимости данных существенным является наличие явного и стандартного уровня доступа к данным с четкими метаданными и явным доступом к данным.

Доступ к данными, ориентированный на множества, обеспечивает параллелизм

Как отмечалось ранее, ученые часто начинают работу с использования массивов данных, полученных от приборов или моделей. Часто эти массивы сопровождаются табличными данными, описывающими экспериментальную установку, параметры моделирования или условия окружающей среды. Данные также сопровождаются документами, разъясняющими эти данные.

Эти массивы являются аргументами многих операций, которые производят новые массивы, но, в конце концов, массивы подвергаются процедуре выделения признаков (feature extraction), которая производит объекты, являющиеся основой дальнейшего анализа. Например, необработанные астрономические данные преобразуются в объекты-каталоги звезд и галактик. Данные, поступающие из прибора для измерения скорости течения воды, преобразуются в данные временных рядов о скорости потока и качестве воды, масс-спектрограммы сыворотки крови преобразуются в записи, описывающие концентрацию пептида и белка, и необработанные данные физики высоких энергий преобразуются в события.

Большинство научных исследований включает изучение и интеллектуальный анализ (data mining) этих объектно-ориентированных табличных наборов данных. Научные форматы файлов HDF, NetCDF и FITS могут представлять табличные данные, но они обеспечивают лишь минимальные инструментальные средства для поиска в табличных данных и их анализа. Основная цель этих стандартов и инструментов состоит в том, чтобы обеспечить возможность размещения таблиц и подмассивов в адресном пространстве программных сред Fortran/C/Java/Python, в которых можно манипулировать данными с использованием языка программирования.

Этот процедурный анализ данных на основе Fortran/C/Java/Python в режиме «файл за файлом» приближается к критической точке. Лавина данных порождает миллиарды файлов и триллионы событий. В подходе, ориентированном на файлы, постулируется, что файлы объединяются в каталоги. Каталог объединяет все данные от некоторого инструмента, или данные за некоторый месяц, или данные из некоторого региона, или из данные некоторой лаборатории. Со временем каталоги становятся иерархическими. В этой модели анализ данных производится путем поиска всех уместных файлов – открытия каждого файла, извлечения нужных данных и перехода к следующему файлу. Когда все нужные данные накапливаются в памяти (или в промежуточных файлах), программа может начать их анализировать. Выполнение такого анализа в стиле сначала фильтрация, затем анализ с применением традиционных процедурных инструментальных средств происходит все медленнее и медленнее по мере возрастания объема данных. Обычно в каждый момент времени используется один процессор и один диск, и применяются очень грубые методы поиска. Ученым требуется подход с использованием (1) разумных индексов и методов организации данных для сокращения объема поиска; (2) параллельной обработки и доступа к данным для выполнения поиска в огромных наборах данных в пределах секунд; (3) мощных средств анализа, которые можно было бы применить к поднабору анализируемых данных.

Один из подходов состоит в использовании среды параллельного программирования MPI (Message Passing Interface) для написания процедурных программ, которые прогоняют файлы сквозь массив процессоров – каждый узел массива анализирует одну часть иерархии. Это подходит для очень регулярных задач обработки массивов, но кажется не слишком пригодным для непредвиденного анализа табличных данных. В MPI и различных форматах массива файлов отсутствует поддержка методов индексирования, возможно только разделенное последовательное сканирование. В самом MPI отсутствует какое-либо понятие метаданных, кроме имен файлов.

В связи с разрастанием файловых систем до петабайтных архивов с миллиардами файлов научное сообщество должно произвести синтез на основе систем баз данных и файловых систем. Как минимум, иерархия файлов будет заменена базой данных, каталогизирующей атрибуты и происхождение каждого файла. Обработка файлов, ориентированная на множества, сделает имена файлов все более неуместными – анализ будет применяться «ко всем файлам с указанными атрибутами», а не опираться на указываемый список имен или шаблонов имен файлов/каталогов. На самом деле, неуместными могут стать и сами файлы (они представляют собой всего лишь контейнеры данных). Можно считать предвестником этой идеи подход Map-Reduce, впервые предложенный в Google 2 . С нашей точки зрения, ключевым аспектом Map-Reduce является то, что в нем применяются тысячи процессоров и дисков для параллельного исследования больших наборов данных. В этой системе имеется очень простая модель данных, подходящая для обработки в стиле Google, но мы полагаем, что в следующем десятилетии она разовьется в достаточно общую модель.

Сообщество баз данных обеспечивает автоматическое выполнение запросов с распараллеливанием на уровнях процессорной обработки и ввода-вывода в течение более десяти лет. Это автоматическое распараллеливание сегодня дает возможность крупных корпорациям обрабатывать 100-терабайтные набора данных с использованием 1000-процессорных кластеров. Мы полагаем, что многие из этих методов применимы и к научным наборам данных 3 .

Другие полезные возможности баз данных

Системы баз данных приближаются к решению проблемы управления данными петабайтного масштаба, руководствуясь потребностями управлять гигантскими хранилищами информации в коммерческих и правительственных организациях. Эти системы скрывают понятие файла и работают с коллекциями данных. Они могут образовывать федеративные объединения многих различных источников, позволяя программам видеть их как единую коллекцию данных. Они также позволяют программам опираться на любые атрибуты данных.

Системы баз данных обеспечивают очень мощные средства определения данных для специфицирования абстрактных форматов данных и способов организации данных. Они позволяют реплицировать данные, так что их можно организовывать несколькими способами (по времени, по пространственному расположению, по другим атрибутам). Эти методы простираются от простых индексов до материализованных представлений, в которых могут комбинироваться данные из многих источников.

Системы баз данных обеспечивают мощный ассоциативный поиск (поиск по значению, а не по местоположению), а также автоматические параллельные доступ и исполнение, что существенно для анализа петабайтных данных. Они обеспечивают непроцедурный и параллельный поиск данных для быстрого нахождения поднаборов данных, а также много инструментальных средств для автоматического проектирования структур данных и управления ими.

Кроме того, удалось достичь громадного прогресса в анализе данных с использованием кубов данных, и теперь исследования фокусируются на интеграции алгоритмов машинного обучения, которые выводят тенденции, производят кластеризацию данных и обнаруживают аномалии. Все эти средства нацелены на облегчение анализа коммерческих данных, но они равно применимы и к анализу научных данных.

Конец потери соответствия

Традиционные табличные системы баз данных пригодны для анализа объектов (галактик, спектров, белков, событий и т.д.). Но даже в этих случаях поддержка временных рядов, пространственных, текстовых и других типов данных оказывается недостаточной. В системах баз данных традиционно не поддерживается основной научный тип данных – N-мерный массив. В большинстве систем массивы приходится маскировать под blob’ы (binary large objects). Этот набор проблем обычно называют потерей соответствия – имея в виду несоответствие между моделью программирования и возможностями базы данных. Потеря соответствия затрудняет отображение многих научных приложений на традиционные табличные системы баз данных.

Но системы баз данных меняются. Они интегрируются с языками программирования, чтобы обеспечить поддержку объектно-ориентированных баз данных. Это новое поколение объектно-реляционных систем баз данных воспринимает любой тип данных (будь то обычное плавающее число, массив, строка символов или составной объект, такой как XML- или HTML-документ) как инкапсулированный тип, значения которого могут храниться в поле записи. В действительности, эти системы позволяют либо сохранять значение прямо в записи (встроенным образом), либо хранить в записи ссылку на реальное место хранения этого значения (связанным образом). Эта объектная модель с возможностями связывания и встраивания хорошо подходит для интеграции систем баз данных и файловых систем – файлы рассматриваются как связанные объекты. Запросы могут читать и писать эти расширенные типы с использованием тех же методов, что и для обычных типов. На самом деле, мы ожидаем, что в большинстве систем баз данных к набору типов будут добавлены HDF и другие форматы файлов.

Как только вы сможете поместить свои типы и программы внутрь базы данных, вы получите преимущества параллелизма, непроцедурных запросов и независимости данных, присущие традиционным системам баз данных. Мы полагаем, что эта интеграция баз данных, файловых систем и языков программирования будет в будущем ключом к управлению данными и обеспечению доступа к данным в петабайтных системах управления базами данных.

Что неладно с файлами?

Все строится на основе файлов. В HDF используются файлы. В системах баз данных используются файлы. Но в файловых системах отсутствуют метаданные, кроме иерархической структуры каталогов и имен файлов. В них поддерживается модель данных «сделай сам», которой не принесет пользу разрастающийся набор средств анализа данных. В них поддерживаются методы доступа «сделай сам», которые не будут обеспечивать параллельный, ассоциативный, темпоральный или пространственный поиск. В них также отсутствует высокоуровневый язык запросов. Наконец, большинство файловых систем может управлять миллионами файлов, но к тому времени, когда файловая система сможет работать с миллиардами файлов, она станет системой баз данных.

Как вы можете видеть, мы придерживаемся экуменических представлений о том, что такое база данных. Мы рассматриваем NetCDF, HDF, FITS и Google Map-Reduce как зарождающиеся системы баз данных (другие люди могут расценивать их как файловые системы). У них имеется язык схемы (метаданных) для определения метаданных. У них имеются несколько стратегий индексирования и простой язык манипулирования данными. У них имеются зачатки непроцедурного и параллельного программирования. И у них есть набор средств для создания, доступа, поиска и визуализации данных. Так что, с нашей точки зрения, они являются простыми системами баз данных.

Почему ученые не используют базы данных сегодня

Традиционные системы баз данных отстают в поддержке основных научных типов данных, но в них имеется несколько свойств, очень сильно требуемых для выполнения анализа научных данных: анализ на основе непроцедурных запросов, автоматический параллелизм и развитые средства ассоциативного, темпорального и пространственного поиска.

Если вооружиться той дискуссионной точкой зрения, что HDF, NetCDF, FITS и Root g являются зарождающимися системами баз данных, которые обеспечивают метаданные и переносимость, но в которых отсутствует анализ на основе непроцедурных запросов, автоматическое распараллеливание и развитая индексация, то можно увидеть достаточно ясный путь к интеграции этих сообществ.

Некоторые ученые используют базы данных для некоторых работ, но, как правило, большинство ученых базами данных не пользуется. Почему? Почему табличные базы данных настолько успешно используются в коммерческих приложениях и терпят такой провал в большинстве научных приложений? Когда спрашиваешь коллег-ученых, почему они не используют базы данных для управления своими данными, обычно дается один или несколько из следующих ответов:

  • Мы не видим в них никаких преимуществ. Как кажется, издержки на изучение инструментальных средств (определение данных, загрузка данных, запросы) того не стоят.
  • В них не предлагаются хорошие средства визуализации/построения диаграмм.
  • Я могу справиться со своими объемами данных с использованием языка программирования.
  • В них не поддерживаются наши типы данных (массивы, пространственные, текстовые типы и т.д.).
  • В них не поддерживаются наши паттерны доступа (пространственные, темпоральные и т.д.).
  • Мы пробовали с ними работать, но они слишком медленные.
  • Мы пробовали с ними работать, но как только мы загрузили свои данные, мы больше не смогли манипулировать данными с использованием наших стандартных прикладных программ.
  • Для их использования требуется дорогостоящие гуру (администраторы баз данных).

Все эти ответы основываются на опыте и существенных инвестициях. Часто этот опыт приобретался на основе использования устарелых систем (систем баз данных урожая 1990 г.) или чересчур молодых систем (ранней объектно-ориентированной базы данных или ранней версии Postgres или MySQL). Тем не менее, достаточно очевидно, что базы данных должны быть существенно усовершенствованы, прежде чем они заслужат повторного внимания.

Почему обстоятельства теперь изменились

Обстоятельством, которое вынуждает выполнить вторую попытку, является то, что modus operandi (образ действия) «file-ftp» просто не будет работать для петабайтных наборов данных. Требуется некоторый новый способ управления информацией и доступа к ней. Мы утверждаем, что ключом к этому являются метаданные, и что непроцедурный язык манипулирования данными в комбинации с индексированием данных играет основную роль в обеспечении поиска и анализа данных.

Имеется конвергенция файловых систем, систем баз данных и языков программирования. В расширяемых системах баз данных используются объектно-ориентированные приемы из языков программирования, позволяющие определять сложные объекты как естественные типы базы данных. Файлы (или расширенные файлы, подобные HDF) становятся тогда частью базы данных и получают преимущества от параллельного поиска и управления метаданными. Очень вероятно, что эти зарождающиеся системы баз данных в следующем десятилетии будут интегрироваться с «магистральными» системами баз данных, и что некоторые новые разновидности управляемых метаданными систем анализа и управления потоками работ вытеснят как традиционные базы данных, так и научные форматы файлов и сопутствующие им наборы инструментальных средств.

Некоторые намеки на успех

Имеются начальные признаки того, что этот подход является правильным. Один из нас показал, что проводить анализ поверх системы баз данных оказывается несравненно проще и гораздо быстрее, чем на основе подхода, ориентированного на файлы 4 . Ускорение обеспечивается за счет улучшенного индексирования и параллелизма.

Имеется также значительный успех в добавлении определяемых пользователями функций и хранимых процедур к астрономическим базам данных. Проекты MyDB и CasJobs для Sloan Digital Sky Survey обеспечивают хороший пример перемещения программ к базе данных 5 .

В экспериментах проекта BaBar в SLAC производится управление петабайтным хранилищем событийных данных. В системе используется комбинация Oracle для управления некоторыми архивами файлов и физической системы анализа данных Root 6 .

В системе управления потоками работ GridDB 7 роль систем баз данных расширяется на конвейерную обработку, область, традиционно обслуживаемую промежуточным «процессо-центрическим» программным обеспечением 8, 9 . Такое промежуточное программное обеспечение автоматически распараллеливает потоки работ императивных, основанных на файлах программ (написанных, например, на Fortran/C/Python/Java) за счет использования «схемы потока работ», описывающей программы и их зависимости. В Gr >При адаптивном моделировании методом конечных элементов тратится значительное время и требуется работа по программированию на обеспечение ввода, вывода и на установку контрольных точек. Мы (Хебер) используем базу данных для представления крупных моделей конечных элементов h . Исходная модель представляется в базе данных, и в базу данных записывается каждая контрольная точка и каждый шаг анализа. Использование базы данных позволяет осуществлять запросы для определения более совершенных разбиений сетки, а также применять параллельный индексный доступ к модельным данным для управления визуализацией и вычислениями. В каждом коммерческом пакете конечных элементов используется некоторая проприетарная форма «базы данных». Однако у них ограничены область применения, функциональные возможности и масштабируемость, и обычно они скрываются внутри конкретного стека приложений. Каждый исполнитель задания MPI получает из базы данных свой раздел (по запросу) и выгружает в базу данных свои результаты. Объем этих данных на два-четыре порядка больше объема входной сетки, что порождает проблемы с производительностью как в традиционной среде, так и в среде базы данных. Дополнительным преимуществом подхода с применением базы данных является то, что средства визуализации могут отслеживать вычисления и управлять ими путем чтений из базы данных и записи в нее. Наконец, хотя мы фокусировались на возможности баз данных упросить и ускорить получение необработанных модельных данных, мы не можем преуменьшить важность основной характеристики подхода: обеспечение интерфейсов для декларативного анализа данных. Большую часть своего времени ученые посвящают работе именно с такими средствами. Мы надеемся применить аналогичные идеи в некоторых исследованиях турбулентности, выполняемых в Johns Hopkins i .

Заключение

Научные центры, управляющие научными данными и обслуживающие их, возникают вокруг научных инструментов следующего поколения. Прототипами этой тенденции могут служить сообщества Всемирного телескопа j , GenBank и BaBar. Одна группа ученых собирает данные и управляет этими архивами. Более крупная группа ученых исследует эти архивы таким же образом, как предыдущие поколения исследовали свои частные данные. Результаты анализа часто возвращаются в архив и добавляются в общий фонд данных.

Поскольку коллекция данных теперь отделяется от анализа данных, требуются обширные метаданные, описывающие данные в стандартных терминах, чтобы люди и программы могли понимать данные. Наличие хороших метаданных становится основным условием совместного использования данных в разных научных дисциплинах и различных средствах анализа и визуализации данных.

Имеется конвергенция зарождающихся баз данных (HDF, NetCDF, FITS. ), которые фокусируются, прежде всего, на аспектах метаданных и обмена данными, и традиционных систем управления базами данных (SQL и др.), которые ориентированы на управление и анализ сверхбольших наборов данных. Достоинствами традиционных систем являются автоматическое распараллеливание, индексирование и непроцедурный доступ, но от них требуется включение типов данных научного сообщества и обеспечение сосуществования с данными файловых систем. Мы полагаем, что этот синтез станет возможен за счет расширения систем баз данных путем объединения баз данных с языками программирования, чтобы можно было встроить в систему управления данными новый тип или связать систему с новым типом.

Для научного анализа ключевое значение будут иметь три технических достижения: (1) обширные метаданные и стандарты метаданных, которые облегчат обнаружение существования данных, понимание данных людьми и программами и отслеживание происхождения данных; (2) искусные средства анализа, которые позволят ученым легко задавать вопросы и понимать и визуализировать ответы; (3) ориентированный на множества параллельный доступ к данным, который поддерживается новыми индексными схемами и новыми алгоритмами, позволяющими в интерактивном режиме исследовать петабайтные наборы данных.

Целью является интеллектуальная рабочая тетрадь, которая поможет ученым исследовать мировые данные. Центральную роль в обеспечении таких рабочих тетрадей будут играть научные центры данных с вычислительными ресурсами, предназначенными для изучения громадных архивов данных. Поскольку объемы данных исключительно велики, а пропускная способность ввода-вывода недостаточна, для достижения приемлемой производительности существенно перемещение кода к данным. Следовательно, научные центры будут оставаться основными движущими средствами, а федерации, по-видимому, будут играть вторичную роль. Научные центры будут обеспечивать как архивы и исходную инфраструктуру для разработки этих петабайтных архивов, так и алгоритмы и инструментальные средства для их анализа.

7 D. T. Liu and M. J. Franklin, VLDB, 2004

8 M. Litzkow, M. Livny and M. Mutka, Condor – A Hunter of Idle Workstations, International Conference of Distributed Computing Systems, 1988.

9 I. Foster and C. Kesselman, Globus: A Metacomputing Infrastructure Toolkit, Journal of Supercomputer Applications and High Performance Computing, 1997.

a Международный астрономический проект Sloan Digital Sky Survey

b SLAC – Stanford Linear Accelerator Center, BaBar – международный проект в области физики высоких энергий, основанный на использовании детектора BaBar в SLAC.

c SDSC – San Diego Supercomputer Center, BIRN – Biomedical Informatics Research Network

h Мне удалось найти в Internet только одну презентацию, посвященную этой работе.

i На сайте группы из университета Johns Hopkins, специализирующейся на исследованиях турбулентности, пока отсутствует какая-либо информация по этому поводу.

Как работать с Big Data, не нанимая в штат специалиста по data science

Как работать с Big Data, не нанимая в штат специалиста по data science

Большие данные становятся ключевым компонентом стратегии успешного бизнеса. Проекты Big Data требуют серьезных капитальных вложений. Набирающий популярность феномен citizen data science упрощает данный процесс. Он про то, как использовать потенциал своих сотрудников с максимальной отдачей, привлекая их для решения задач предсказательной аналитики.

Big Data и перспективы умного бизнеса

Про роль Big Data в организации современных стратегий бизнеса написаны сотни статей. Согласно последним опросам , 59% компаний по всему миру в 2020 году применяют технологии анализа больших данных в своей работе. В 2015 году их было 17%. Почти 80% руководителей предприятий считают Big Data важным компонентом построения умного бизнеса. Наибольший процент использования подобных технологий показали компании, связанные с телекоммуникациями, страхованием и рекламой.

Вариантов применения Big Data и построения на их основе решений по оптимизации бизнес-процессов множество: от персональных рекомендаций клиентам в области электронной коммерции, автоматизированного поиска сотрудников до улучшения работы производственных линий.

В России проекты больших данных успешно внедряют Новолипецкий металлургический комбинат, СИБУР и группа компаний «Русагро». Технологии помогают решать задачи сервисного обслуживания оборудования, оптимизации расходов сырья, настройки режимов работы систем производства.

Понятно, что позволить себе внедрение Big Data могут далеко не все. Средняя стоимость проекта оценивается в 7,5 млн. долларов. Основные статьи затрат – платформы хранения и обработки данных, средства интеграции, инструменты анализа и интерпретации.

Одно из главных препятствий на пути внедрения Big Data – дефицит высококлассных специалистов в области data science. Кто-то же должен вести и поддерживать проекты больших данных, данные необходимо готовить и приводить к правильному формату.

Citizen data science: демократизация больших данных

Оказывается, использовать Big Data для решения насущных задач бизнеса можно и не прибегая к услугам дорогостоящих специалистов по data science. В последнее время компании все чаще берут на вооружение стратегию citizen data science , когда анализом больших данных на предприятии занимаются сотрудники внутри отдельных подразделений без специального образования.

По сути, речь идет о демократизации больших данных, вернее даже «коммунизации». Поскольку подобный феномен явно противоречит классической теории формирования организационной структуры управления. Он, скорее, совпадает с тем, как видел дальнейшее развитие трудовых отношений Карл Маркс – в преодолении разрыва между физическим (выполнение повторяемых операций) и умственным трудом.

Сам термин citizen data science в 2020 году запустил Gartner для описания возможностей, которые небольшие компании могут извлечь из больших данных без привлечения специалистов по business intelligence , создания сложных систем аналитики, своими силами, с помощью доступных сервисов и приложений.

В 2020 году аналитики Gartner пришли к выводу, что спрос на «гражданских» дата-сайентистов будет расти в 5 раз быстрее, чем на специалистов с профильным образованием и навыками в этой области.

Американский ритейлер Sears недавно наделил 400 сотрудников дополнительными функциями для проведения операций по сегментации клиентов на основе больших данных. Раньше подобной работой занимались в компании специалисты по data science с докторской степенью. В результате были сэкономлены сотни тысяч долларов.

Прежде всего, само использование Big Data подразумевает наличие в компании этих самых больших данных и переориентацию от прогнозирования, основанного на традиционных статистических моделях, к предсказательной (predictive) аналитике с применением машинного обучения и AI.

Существующие приложения для анализа производственной цепочки и цепочки поставок предприятия помогают отслеживать кучу полезных индикаторов – от временных затрат до наличия востребованных позиций товаров на складе. Есть задачи, которые подобные инструменты не в состоянии решить.

Для примера возьмем транспортную компанию. Интуитивно руководитель кадрового отдела понимает, что водители меняются с определенной периодичностью. Каждый раз приходится тратить время, чтобы найти им замену, что ведет к простою техники и финансовым потерям. Инструменты предиктивной аналитики способны переводить все это в цифры, следовательно, оптимизировать затраты.

На рынке представлены инструменты автоматизированной аналитики, которые позволяют людям без специальных знаний извлекать полезную информацию из Big Data. Например, в Envision применяют программный пакет Sisense, который выдает предупреждения о статистически важных изменениях в заданных метриках.

Наивно думать, что гражданские дата-сайентисты способны полностью заменить специалистов по data science. Сегодня это, скорее, дополнение к масштабным проектам крупных компаний в данной области. Они помогают заполнить пробел между желанием иметь полную картину происходящего и ограниченными возможностями, беря на себя ряд задач, связанных с аналитикой больших данных:

  • ручной ввод информации в ситуации, когда эти операции нет возможности быстро автоматизировать;
  • просмотр наборов данных на предмет ошибок;
  • техническая поддержка аналитических инструментов;
  • тестирование и проверка полученных результатов.

Как организовать работу с Big Data в компании

Работа с данными и статистическими моделями – не очень привлекательное занятие для большинства людей. Если человек интересуется этим направлением, вероятней всего, он станет профессиональным специалистом по data science. Для того чтобы привлечь часть своих сотрудников к работе с Big Data потребуется мотивация и минимальное обучение.

Блог Syncsort предлагает к реализации следующую стратегию.

1. Сделайте рабочие данные открытыми, когда это позволяют соображения безопасности.

Наборы данных, в принципе, может просматривать любой сотрудник внутри компании. Многие же с интересом изучают движение биржевых индексов, не имея брокерских счетов. Возможно, знакомство со статистическими показателями работы организации даст стимул рядовым работникам работать над их улучшением.

2. Обучайте.

Нет смысла тренировать каждого сотрудника пользоваться Hadoop или писать R-скрипты. Можно просто выложить в открытый доступ обучающие материалы и видео, как работают применяемые в компании инструменты анализа данных.

3. Позаботьтесь о мотивации.

Стимулы могут быть как материальные, в виде денежных поощрений, так и нематериальные. Полезно объяснять цели и задачи, которые реализуются с помощью проекта.

4. Обновите политику управления данными.

Это не противоречит первому пункту. Если вы предоставляете доступ непрофессионалам к операциям с данными, необходимо убедиться, что они будут использованы по назначению.

5. Сделайте операции с данными проще.

Работа с данными и аналитикой в любом случае подразумевает наличие определенных навыков. Операции с данными можно облегчить для обычных сотрудников, если упорядочит весь процесс. Здесь на помощь приходят инструменты автоматизации.

Citizen data science – это возможность применять в бизнесе инструменты аналитики Big Data, не дожидаясь пока появятся средства для найма специалиста по дата-сайенс и реализации масштабного проекта.

В будущем успех компаний будет зависеть от умения извлекать максимум пользы из всего массива имеющейся информации. Но научный подход требует слишком много времени и ресурсов. Более эффективно – использовать потенциал собственных сотрудников и готовые инструменты и приложения для предсказательной аналитики.

Понравилась статья? Поделиться с друзьями:
Все языки программирования для начинающих