Big Data — большая ответственность, большой стресс и деньги


Содержание

Слишком большие данные

Сам термин «большие данные» появился сравнительно недавно. Google Trends фиксирует начало активного роста частоты использования этого выражения начиная с 2011-2012 годов. Сейчас его не употребляет разве что ленивый. Но успехи Big Data еще впереди.

По прогнозу консалтинговой компании Experian, к 2025 году общемировой объем информации превысит 163 зеттабайт. Практически каждое наше действие, не только финансовые транзакции и платежи по кредитам, но и покупки в магазине (не обязательно интернет), поездки на такси, посты в соцсетях фиксируются и сохраняются. Объем данных, которые могут быть проанализированы и использованы, растет каждый день. Логично, что, обладая таким огромным объемом данных, компании хотят монетизировать и использовать его для собственных целей, говорит Тимофей Костин, глобальный консультант Experian в России и странах СНГ. Но здесь возникает закавыка.

Когда о Big Data только начинали говорить, появилось такое сравнение, что большие данные — как нефть. Оно было очень правильным. В случае с нефтью вы извлекаете прибыль не из того, что она просто у вас есть, а из того, что вы умеете ее добывать и перерабатывать. В этом смысле речь не только о том, что компании должны уметь собирать данные, но также о том, чтобы они могли обрабатывать и извлекать из них прибавочную стоимость. Это не автоматический процесс. Способность накапливать данные еще не означает, что вы умеете их обрабатывать и извлекать из них прибыль, отмечает Леонид Жуков, директор BCG Gamma.

Основная проблема в том, что данные плохо структурированы, что не позволяет применять для анализа традиционные методы, полагает Тимофей Костин. Это привело к появлению новой профессии Data Scientist или специалист по анализу больших данных, напоминает он. Основное отличие этих специалистов от обычных аналитиков — умение обрабатывать и находить связи и закономерности в больших объемах неструктурированных данных и строить модели на их основе.

По словам Костина, правильное использование аналитики Big Data может позволить компаниям получить мощное конкурентное преимущество. Компании, которые умеют это делать, могут увеличить свою прибыль от 5 до 25 процентов, согласен Жуков. Конечно, ситуация сильно зависит от индустрии, уточняет он. Если речь о промышленном производстве, эффект от умелого анализа больших данных может выражаться в снижении затрат на ремонт оборудования, оптимизации производственного процесса и качества производимой продукции, создании цифровой цепочки поставок. Если о ретейле, большие выгоды реально получить от персонификации программ лояльности клиентов.

По мнению Леонида Жукова, проблема эффективного использования больших данных состоит в постановке бизнес-задачи и умении соединить имеющиеся данные с решением этой задачи. «Этих навыков в компаниях пока нет, они еще не развиты и специалистов в этой области знаний сильно не хватает», — констатирует он.

Каждая отрасль находится на разном уровне развития с точки зрения накопления умений работы с большими данными. Интернет, финансы, банки, телеком, торговля идут впереди. За ними следуют промышленность и энергетика. Именно в такой последовательности компании из разных отраслей стоят в рейтинге умений извлекать ценность из больших данных.

«По сути, то, что «Яндекс» сделал несколько лет назад, начав таргетировать, то есть персонифицировать рекламу под конкретных пользователей, сейчас делают магазины со своими программами лояльности: подстраивают скидки под особенности клиентов», — говорит Жуков.

В то же время в тяжелой промышленности или в энергетике все приходится изобретать с нуля, поэтому там все только-только начинается. Но важно, что, учитывая объемы и стоимость производства, самые незначительные изменения в этих отраслях могут дать колоссальный эффект в «абсолютных рублях». Компании это уже поняли. К примеру, в нефтяной отрасли большие данные уже начинают активно использоваться для предиктивного ремонта оборудования и оптимизации добычи нефти; ранее данные применяли в основном в геологоразведке.

Несмотря на огромную популярность Big Data и проектов по ее анализу и использованию, объем доступных данных растет быстрее, чем компании успевают их обработать, проанализировать и применить, констатирует Тимофей Костин. При этом по-прежнему многое из того, что выдается за аналитику Big Data, является применением стандартного аналитического инструментария к пусть и очень большому объему структурированных и подготовленных данных. По мнению Костина, все это позволяет говорить об огромном потенциале Big Data. В ближайшие годы продолжится рост проектов с ее применением, будет расти количество специалистов по ее анализу, будут появляться новые сферы, в которых эти данные будут использованы.

​Волшебная палочка: зачем банкам big data

5 аспектов банковского бизнеса, которые изменятся благодаря большим данным

Технологии больших данных жизненно необходимы современным банкам. Управлять активами, оценивать риски, сохранять и наращивать клиентскую базу — ключевые потребности кредитных организаций нельзя будет удовлетворить, не научившись пользоваться инструментами big data.

По данным консалтинговой компании Alacer, крупнейшие банки США накопили уже 1 эксабайт (10 18 байт) информации. Такой объем данных содержится, например, в 275 млрд аудиозаписей песен в формате mp3.

Не использовать данные и возможности, которые они таят, означало бы отказаться от дальнейшего развития. И банки их активно используют.

Мы рассмотрели пять основных сфер банковской деятельности, которые меняются с наступлением эры больших данных.

Безопасность и противодействие отмыванию денег

С помощью систем обработки данных банк знает о потребительском поведении своих клиентов.

Допустим, клиент N, женатый и с двумя детьми, имеет недвижимость в городе и автомобиль, стабильный личный доход 100 тыс. рублей в месяц, держит накопительный счет и имеет кредитную линию. Банк из истории транcакций знает, сколько N тратит в месяц на еду и одежду, поездки, содержание автомобиля, оплату коммунальных счетов, на развлечения и прочее.

В один прекрасный день N снимает большую часть наличности, закрывает счета и покупает билет в один конец в европейскую страну. Или переводит деньги на другой счет, блокирует карты и перестает проводить привычные транcакции.

Из такого поведения можно сделать два вывода: либо N бросил семью с двумя детьми и пустился в бега, либо доступ к его картам и мобильному банку получили злоумышленники. По статистике, более вероятно второе.

Система безопасности банка, исходя из анализа поведения клиента, тут же подает сигнал тревоги. Специалисты могут принять меры — заморозить транcакции и связаться с N, чтобы выяснить, все ли в порядке.

Если система выявляет аномальное поведение — резкий рост покупательской активности, перевод непривычных сумм на другие счета, вывод средств, — это становится сигналом тревоги. Предупредительные меры можно принять еще до того, как клиент обнаружит кражу кредитной карты и взлом онлайн-банка.

Банк также может сравнивать поведение одного клиента с поведением других, сопоставимых по уровню доходов. Искусственный интеллект со временем составит портрет типичного потребителя для каждой группы клиентов. Исходя из этого шаблона, система сможет предсказывать дальнейшее поведение потребителей и выявлять факторы риска.

Для борьбы с мошенническими сделками и отмыванием денег банки используют алгоритмы машинного обучения и анализ больших данных.

В мае 2020 года HSBC заявил о сотрудничестве с облачным сервисом Google для развертывания интеллектуальной системы противодействия отмыванию денег. У банка порядка 37 млн клиентов в 70 странах мира, и объем данных, которыми оперирует организация, уже превысил 93 петабайт. Представитель HSBC Дэвид Нотт назвал облачное решение Google для работы с большими данными «волшебной палочкой» для управления гигантским массивом информации.

Управление рисками

Это одна из самых благодатных сфер применения больших данных в банковском деле. Управление любым видом рисков — операционных, рыночных, кредитных, правовых — зависит от полноты и объективности информации, которую получают риск-менеджеры. Инструменты big data помогут нарисовать всеобъемлющую картину на любом уровне, будь то благонадежность заемщика или экономическая ситуация в отдельном регионе страны.

До сих пор банки оценивали риски, исходя из текущих данных. В случае анализа кредитных рисков, например, вовсе полагались на сведения, предоставленные заемщиком. Эти сведения не всегда правдивы и уж точно не объективны.

Система оценки рисков, основанная на больших данных, расскажет о потенциальном заемщике куда больше и объективнее. Она учитывает не только кредитную историю клиента, но и активность в соцсетях, тональность его комментариев, предпочтения в покупках и, если надо, поведение в сетевых играх.

Так что завсегдатаю онлайн-казино «Вулкан» вряд ли одобрят необеспеченный заем, даже если его кредитная история до сих пор не вызывала нареканий.

Инвестиционная стратегия банка тоже зависит от оценки рисков в конкретной отрасли и регионе. Благо сегодня уже достаточно много эффективных инструментов, основанных на анализе big data, предназначенных для работы на рынке ценных бумаг.

При этом рынки все активнее обмениваются информацией и становятся взаимозависимыми в своих движениях вверх-вниз. В периоды высокой волатильности банки теперь могут не только быстро подстраиваться под ситуацию, но и предвидеть ее.

Обслуживание клиентов

Для клиента важно, чтобы банк обслуживал его быстро, качественно и внимательно. При этом клиент не терпит никаких проблем и сбоев. Если они случаются, то должны решаться быстро и желательно без его участия.

От этого напрямую зависит лояльность клиента к банку. Ведь если человеку для решения маленькой проблемы нужно потратить полдня и поговорить с тремя операторами кол-центра, то банк лучше поменять.

Компания McKinsey провела опрос американских банков, согласно которому 76% из них используют Big Data для привлечения клиентов, построения лучшего взаимодействия и поддержки лояльности. В то же время, по данным Alacer, 50% клиентов традиционных банков регулярно подумывают о том, чтобы сменить банк.

Анализ клиентских данных позволяет, во-первых, быстро находить и решать проблемы клиента, а во-вторых, предлагать продукты, разработанные «специально для вас».

Комплекс действий специалиста по работе с клиентами, называемый customer service, по сути сводится к выстраиванию эффективного диалога. А лучший собеседник, как известно, тот, кто умеет слушать. Банк, применяющий инструменты анализа клиентских данных, — это собеседник, который многое знает о человеке еще до начала разговора, понимает его проблемы и знает, как их решить. Идеальный собеседник, с которым хочется общаться больше.

Сегодня клиентские данные включают не только внутренние банковские сведения о состоянии счета и истории трансакций, но и внешнюю информацию. Как человек ведет себя в соцсетях. Что ищет в Google. Что покупает в интернет-магазинах (и на что ему не хватает денег). С кем переписывается по e-mail и какую рассылку получает. Куда отправляется на праздники и в отпуск. Чем больше банк знает о своем клиенте, тем более персональным будет клиентское обслуживание.

Создание новых продуктов


Это направление деятельности банков связано с предыдущим. Банки при создании новых кредитных и инвестиционных продуктов все чаще опираются на анализ клиентских данных.

Компания Forrester провела исследование, которое показало, что половина клиентов банков хотят видеть новые предложения и продукты. То есть 50% потребителей готовы брать новые кредиты, рассматривать новые виды вкладов, пользоваться персональными предложениями. Доля таких клиентов становится тем выше, чем они моложе и богаче.

Многие «миллениалы» вообще не хотят иметь ничего общего с обычными стандартизированными предложениями банков. Их интересует индивидуальный подход, желательно оформленный в цифровой среде.

Так называемый углубленный клиентский анализ позволяет банку формировать такие предложения для каждого клиента, угадывать его желания и возможности. Потребительские займы, ипотечные и автокредиты, срочные вклады — с приходом big data все обычные банковские продукты можно настроить под конкретного потребителя.

Инвестиционные консультации

Чтобы давать правильные советы, финансовый консультант должен знать о возможностях/потребностях своего клиента и хорошо разбираться в ситуации на рынках. С помощью инструментов big data банки могут и то и другое.

Банк может быть в курсе таких событий в жизни клиента, как свадьба, рождение ребенка, поступление в университет, переход на новую работу, смена интересов, будь то новое увлечение или решение отправиться в кругосветное путешествие.

Исходя из полученных сведений, для каждого человека формируется предложение. Например, клиенту предлагают начать откладывать на образование, когда его ребенку исполняется 10 лет. А если семья планирует купить дом, банк может заранее предложить им ипотеку для молодых.

С другой стороны, банки активно используют алгоритмы для интеллектуального анализа ситуации на фондовых рынках. Инструменты big data помогают извлекать выгоду как в краткосрочной перспективе, так и в долгосрочных вложениях. Для этого анализируют массивы самых разных неструктурированных данных — от погоды до тональности местных новостей в разных частях света, от уровня безработицы до настроений в соцсетях.

В США крупнейшие инвестиционные банки одними из первых оценили пользу от анализа больших данных. Еще бы, ведь когда речь заходит о повышении прибыльности игры на рынке, алгоритмы big data просто незаменимы. Более того, банки сами стали триггером для роста индустрии анализа данных. Известен случай, когда уволившийся сотрудник одного инвестиционного банка меньше чем за полгода создал популярную программу на основе big data для торговли на бирже.

Не столько «большие», сколько «умные»

Несмотря на явные преимущества, которые дает бигдата-аналитика в банковском бизнесе, сегодня большинство российских кредитных организаций используют во благо лишь ничтожную долю хранящейся у них информации. Только 30 крупнейших банков России заявляют, что внедрили и применяют соответствующие системы.

При этом речь идет уже не столько о больших данных (вскоре вся информация будет подпадать под этот термин), сколько об «умных» данных — тех сведениях, которые потенциально монетизируемы. Их использование станет таким же обязательным условием выживания банка, как достаточность капитала и сбалансированная кредитная политика.

Самые новые технические решения для банков в области больших данных будут представлены в этом году 15 сентября в Москве на Big Data Conference. Это дискуссионное и презентационное мероприятие проводится с 2014 года. Здесь встречаются создатели технологий, представители бизнеса и ученые.

Профессионалы банковской отрасли смогут воочию увидеть, как работают решения на основе big data, и пообщаться с лидерами области Data Science.

Программа конференции разделена на три ключевых трека: бизнес-кейсы, технологические решения и научный семинар. Наиболее интересными для бизнеса будут первые два трека, где рассматриваются уже действующие решения, их применение в практике, а также перспективные технологии, которые уже завтра будут работать в банковской сфере.

Big Data — угроза или благо?

Технологии больших данных дают ответы, но порождают не меньше вопросов. Опасно ли доверять Big Data? Что ждет нас в мире умных систем и точных предсказаний?

В 2011 году консалтинговая фирма McKinsey предрекла цифровой бум — массовое использование аналитики, углубление потребительского опыта, улучшение здравоохранения, страхования. И сумасшедший рост выручки тех компаний, кто первым в своём сегменте решится на использование технологий больших данных.

В 2020 году банки знают о нас больше, чем супруги. Они знают, что мы покупаем и где бываем. Откуда? Из миллиардов транзакций, совершаемых ежесекундно. Они предлагают программы лояльности, чтобы знать ещё больше.

Никакая база данных розничной сети магазинов не сравнится с платёжной информацией банка. Человек ушёл в другое место, но расплачивается той же картой. Банки шлют электронные письма и предлагают купить книгу на любимом сайте или авиабилеты в период наших отпусков — об этом они тоже узнают, когда мы оплачиваем перелет и рассчитываемся вне мест, где обычно тратим деньги.

Самые умные идут дальше. Они предлагают индивидуальную программу лояльности для каждого клиента, которую формируют на основе его личных предпочтений. Ещё немного и, кажется, они будут знать, о чём мы думаем.

Самые хитрые зарабатывают больше. Они заманивают клиентов индивидуальными акциями в магазины-партнеры и берут за это деньги. Ещё немного и, кажется, мы получим из банка SMS «закончилась зубная паста, заскочи в ближайший супермаркет — цена сегодня ниже на 10%».

Хотя, о чём я. Это будет сообщение в WhatsApp с номера вашей жены. Про неё они тоже все знают.

Некоторые банки предлагают одеть фитнес-браслет Jawbone UP и с каждым взмахом руки перечислять на специальный счёт определенную сумму. Чем больше двигаетесь, тем больше откладываете на депозит. Только не забудьте снять браслет перед утренним марафоном, чтобы не остаться к обеду без денег на карте.

Продвинутые страховые компании — Oscar и John Hancock — тоже предлагают клиентам носить фитнес-браслеты. Так они оценивают риски для здоровья на основе данных о пройденном расстоянии, интенсивности и виде нагрузок. Страховщикам это выгодно — когда человек проходит хотя бы 8 тысяч шагов в день, он чувствует себя лучше, реже болеет и, если повезёт, проживёт дольше. Страховая компания выплатит меньше компенсаций и больше заработает.

Big Data — это здорово. Масса информации, которую мы создаём каждый день, совершая покупки, общаясь в социальных сетях, просматривая страницы сайтов и просто гуляя по парку, позволяет узнать, что именно мы хотим сейчас или будем хотеть потом. Эта масса информации ведёт нас за руку в потребительский рай.

Big Data — это великая сила. Как у любой великой силы, у неё есть и тёмная сторона. Давайте взглянем на 3 грани светлого будущего больших данных и узнаем, что скрывается на изнанке.

Мы будем получать только нужное и интересное

Представьте: вы совершаете еженедельную вылазку в супермаркет и не мучаетесь, составляя накануне список покупок. Личный цифровой помощник — Siri или Cortana — анализирует данные о ваших предшествующих походах в магазин и составляет «потребительскую корзину». А затем ведёт по залу, подсвечивая нужные товары в режиме дополненной реальности на полках и витринах. Фантастика? Даже не кажется таковой — эти технические решения доступны уже сегодня, осталось только смешать их в один коктейль.

Маркетинговое агентство OgilvyOne подготовило чудный видеоролик «A Day In Big Data» о том, как новые технологии работы с информацией изменят повседневный быт людей в ближайшем будущем. Нам будут предлагать еду, которую мы хотим, одежду, которая точно понравится, маршруты для прогулок, где будет интересно.

Звучит многообещающе для потребителей. Ещё лучше звучит для экономики, которая на них держится.

Но что делать, если вы не хотите, чтобы о вас знали так много? Или покупая шоколадный маффин в кафе вы автоматически соглашаетесь на «обработку персональных данных и их передачу третьим лицам, в том числе в рекламных целях, на бессрочной основе»?

Важно иметь право и возможность ограничивать поток данных о себе. Это ответственность каждого из нас за то, что сообщил миру.

Мы будем лучше понимать, что и почему происходит

Наличие множества источников информации о событиях и объектах позволяет изучить их с разных сторон. Больше данных — больше шансов построить истинную картину происходящего и понять связь между причинами и следствиями.

Переработав массив информации о продажах в продуктовом магазине, мы поймём, когда приходит больше покупателей и какие овощи разбирают в первую очередь. Узнаем зависимость спроса от времени суток и дня недели. Правильно спланируем поставки товаров на склад и выгрузку на полки в торговом зале.

В интернете кочует миф о руководителях сети супермаркетов Wal-Mart, которые анализировали покупки в своих магазинах. Они соединили данные о держателях карт лояльности (возраст, семейное положение и профессия покупателей) и отчёты кассовых аппаратов (что и когда было продано). Wal-Mart узнал очевидные вещи — тот, кто покупает джин, берет и тоник с лимоном в придачу. Но кое-что оказалось странным: в пятницу вечером молодые мужчины покупали подгузники и… пиво. Когда Wal-Mart переставил пиво ближе к подгузникам, продажи и тех и других взлетели.

Это действительно миф, о его происхождении публике Даниэль Пауэр (Daniel Power) рассказывал тут. Оригинальная история случилась в 1992 году, когда не только о больших данных никто не слышал, но даже о датамайнинге говорили шёпотом. Но этот миф наглядно показывает, как большие данные позволяют совершать удивительные открытия о связи между явлениями. Если бы мифическое руководство Wal-Mart дополнительно использовало сведения о маршрутах передвижения автомобилей своих клиентов (тайком купив её у Tesla) или о геолокационных отметках покупателей на фотографиях шашлыков в Instagram, они бы узнали, что молодые родители брали пиво с собой, когда выезжали с детьми на пикник. Мифический датамайнинг позволил такую закономерность установить, а пиво — продать. Реальный работает точно так же.

При анализе данных важно использовать надежные источники и задавать правильные вопросы. Иначе неизбежен уход в сторону от верного решения из-за опоры на массив нерелевантных данных, неважно насколько большой. Пока информации мало, мы тщательно подходим к её изучению — она просто лучше укладывается в нашем ограниченном сознании. А когда данных станет больше? Будем ли мы достаточно скептичны или под давлением неперевариваемых объёмов информации превратимся в оракулов, гадающих на алтаре программных комплексов?

Важно продолжать сомневаться. Это ответственность тех, кто информацию обрабатывает.


Нас будут лучше охранять

В 2008 году пожарная служба Лондона применила аналитический комплекс, чтобы построить карту вероятности возникновения возгораний и провести профилактические мероприятия, которые путём обычного последовательного обхода всех домов заняли бы 50 лет. Использовалась информация об уровне жизни, образовании и доходах 7,5 миллиона человек в 3,2 миллионах домохозяйств на площади в 1,5 тыс. квадратных километров, о протяжённости и покрытии дорог, уровне преступности и качестве инфраструктуры. Гигантские объёмы с одной стороны, впечатляющий результат с другой.

Представим, что наступило завтра и пожары прогнозируются в реальном времени. Расчёт может выехать только в одно место из двух: в первом вероятность пожара равна 90%, во втором ­— 75%. Пожарные едут по команде системы на самый опасный объект и предотвращают возгорание. Но беда случается и по другому адресу. До эпохи сверхумных машин можно было развести руками — мы не боги, все не предусмотреть. Но что если в пожаре, который технически не был самым опасным, погибли люди? Кто отвечает за решение, спасать людей или нет?

В 2011 году полиция Лос-Анджелеса (L.A.P.D) первой в США применила на практике разработки Калифорнийского университета по прогнозированию мест и вероятности совершения преступлений. Аналитической системе «скормили» полицейские отчёты о 13 миллионах правонарушений за 80 лет. Полиция стала отправлять патрули туда, где с наибольшей вероятностью могли произойти убийства и грабежи. Точность построения карты опасных участков составляла 150×150 метров.

Сегодня система PredPol применяется в полицейских департаментах Лос-Анджелеса, Атланты и Санта-Круза.

Завтра такие программы научатся использовать всю массу информации о гражданах и будут знать заранее не только, где произойдёт преступление, но и кто его совершит. Оставят ли человеку, пусть даже без двух минут преступнику, шанс одуматься в последний момент? Или как в фантастическом фильме «Особое мнение», полиция будет укладывать людей лицом в пол за минуты и часы до самого преступления. Значит ли точный прогноз поведения человека больше, чем его свобода воли?

Важно не нанести вреда новыми знаниями. Это ответственность тех, кому они достанутся.

Станем ли мы уязвимее?

В 2012 году отец школьницы узнал о беременности дочери, увидев скидочные купоны на детскую одежду и кроватку в своём почтовом ящике. Маркетинговая фирма Target переработала данные о покупках людей и разослала листовки тем, кто приобрел набор витаминных и минеральных добавок, фолиевую кислоту и перестал брать противозачаточные таблетки. Хотела ли девушка, чтобы её отец узнал о скором рождении внука, заглянув в почтовый ящик? Хотим ли мы, чтобы о наших интимных переживаниях знал любой продавец магазина?

Представим, что данные о маршрутах передвижения, уровне доходов и образе жизни людей попали к умным преступникам. Они смогут организовать похищение нужного им человека, так как будут знать о нём все: где работает, с кем встречается, чего боится. Уже сейчас уголовники применяют азы социальной инженерии — звонят и представляются другими людьми. Им верят, потому что они произносят знакомые имена и говорят о вещах, которые не могут быть известны посторонним. Сегодня это ещё требует от них усилий и они могут «проколоться» на деталях, которые не смогли выведать.

Что будет, когда преступники смогут узнать о вас всё, в один момент, из одного источника? В результате хакерских атак будет «утекать» так много информации, что станет возможным создание цифровой копии личности.

В британском сериале «Чёрное зеркало» рассказывалась выдуманная история девушки, решившейся на создание копии сознания своего погибшего мужа. Для этого использовали массив информации обо всей его активности в фейсбуке. Вначале с ней разговаривал чат-бот, затем синтезированный голос в телефоне, а в финале — андроид, тёплый на ощупь и выглядевший точь-в-точь как её муж. Что если в будущем кто-то без вашего согласия получит доступ к вашим данным и сделает такого андроида — копию вас, неотличимую от оригинала? Что будет, если эта копия совершит преступление или подпишет при свидетелях дарственную на все ваше имущество, отдав его чужим людям? Как доказать, что это были не вы?

Big Data — не угроза. Big Data — это вызов

Накрывающая нас информационная волна требует сосредоточиться прежде всего на безопасности. Нужно залить крепкий фундамент, а потом уже класть стены, чтобы они не разъехались вместе с почвой. Каждый из нас должен понимать, чем стоит делиться в сети, а чем нет, особенно дети. Каждый бит персональной информации должен быть защищен средствами шифрования, которые не сможет преодолеть школьник после уроков. Будем честны — когда за дело берутся профессионалы, не спасает даже лучшая защита, но от хулиганских выходок мы должны быть защищены. Профессиональных взломщиков нужно сажать тюрьму или заставлять работать на благо общества, а небрежных «операторов персональных данных», выбрасывающих анкеты клиентов в мусорный ящик, привлекать к ответственности.

Опасны ли большие данные? Да, опасны настолько, насколько опасна сама информация не в тех руках. Опасны настолько, насколько опасен бестолковый примат с гранатой. Big Data — это ответственность, которая больше самих данных. Всё будет хорошо, если не давать гранату обезьянам.

Лекция Фонда Егора Гайдара

20 февраля в рамках лекционного проекта Фонда Егора Гайдара состоялось выступление гендиректора SocialDataHub Артура Хачуяна. В ходе лекции господин Хачуян рассказал о том, как личные данные пользователей соцсетей, блогов и форумов могут быть использованы третьими сторонами, а также о том, как можно обезопасить свою информацию. Модератором мероприятия выступил экономический обозреватель Борис Грозовский. Подробности лекции эксперта — в видео “Ъ” и стенограмме доклада.

Спасибо за вступление. Я называю себя профессиональным датавором. Потому что сейчас главный страх всех людей в том, что некие злые корпорации или некое злое государство используют его данные и наживаются на этом. Но хорошая новость в том, что нет единой супермегакорпорации, которая владела бы всей информацией. Да, Uber знает о ваших перемещениях, Сбербанк знает, сколько денег вы тратите на картошку. Но до сих пор нет никого, кто знал бы и то, и то. Мой подход — узнавать такие всевозможные сведения из открытых источников. Поэтому сегодня я расскажу о том, что можно узнать о человеке из открытых источников, с парочкой интересных примеров. А потом мы плавно перейдем к истории о том, как защититься от того, чтобы все эти злые государственные или корпоративные алгоритмы не узнавали ваши секреты и не использовали их в своих целях.

Первое, с чего я начну, это то, что я называю открытыми данными. Потому что терминов очень много. Для меня открытые данные — это все, до чего можно дотянуться без пароля: соцсети, блоги, форумы, приложения для знакомств и так далее. Большие данные в моем личном понимании — это более миллиарда строк, либо более петабайта. Потому что сейчас термин «бигдейт» (big data, большие данные.— “Ъ”) настолько на слуху, что очень сложно понять, что есть что. Поэтому если я говорю «большие данные», я имею в виду именно вот это. Начнем мы с того, как люди представляют большие данные. Большинство представляют их как большое-большое количество чего-то. Но на самом деле все технологии big data основаны на разносторонних данных, и из этих маленьких кусочков собранных данных создается гигантская картина.

Какие еще лекции прочтет Фонд Егора Гайдара

В данном случае это — склеенная пятерочка из фотографий в Instagram. Кстати, задний план на фотографиях в соцсетях большинство людей никогда не проверяют. А это 60–70% всех инсайтов, которые можно получить на человека,— есть ли ремонт в квартире, а это уровень дохода, что видно из окна, всевозможные достопримечательности для определения геолокации. Потом из этого множества маленьких фотографий умный алгоритм может собрать полную картину того, что находится вокруг человека. Так что будете фотографироваться для соцсетей, проверяйте задний план. И никогда не фотографируйте документы. Это сейчас бич. Фотографии паспортов в 2020 году было процентов на 17 больше, чем в прошлом. Причем большинство людей, которые это делают, это мамы или папы маленьких детей, которые только что отправились за границу. Типа: «Смотрите, наш ребеночек получил загранпаспорт».

Все представляют анализ big data как нечто магическое, но на самом деле у этого процесса есть четкая структура: сбор, обогащение и анализ. У меня есть немного статистики, которую я уже миллион раз показывал.

В нашей стране живет некое количество людей, и на всех них есть данные в открытых источниках. Это не обязательно социальные сети. Потому что в социальных сетях у нас 120–130 млн активных пользователей. Про кого-то известны только фамилия и имя, а про кого-то мы или другие злые товарищи знаем все, вплоть до любовницы, машины, квартиры, дохода. Часть этого знания основана на социальных сетях, часть — на открытых источниках типа Федеральной службы судебных приставов. Судебное производство — гигантский кладезь очень неструктурированных знаний, потому что большинство судов выкладывают в открытый доступ описания дел, где в тексте написано: сюда подставить фамилию судьи, или сюда подставить имя прокурора. Но на самом деле там есть и паспорта, и номера паспортов, и имена, фамилии. Перелопатив массив этой информации, можно сделать интересные выводы.

Помимо соцсетей есть так называемый Tor — та часть теневого защищенного интернета, пользователи которого считают, что они недосягаемы ни для злого государства, ни для злых корпораций. Но на самом деле, по крайней мере в крупных городах типа Москвы, Tor и прочий теневой веб давно уже не очень теневой. Потому что есть всевозможные злые провайдеры, которые отслеживают трафик, и «пакеты Яровой» позволяют на основании доступа и анализа верхнего уровня трафика понять как минимум где человек находится. Поэтому — пункт два: если вы делаете что-то плохое, то сидите не просто в «Торе», а в каком-нибудь кафе, желательно — из которого вы собираетесь минут через тридцать уйти.

Второй момент, о котором всегда говорят, когда речь идет об анализе открытых источников, это то, что соцсети — нечто поверхностное, некие виртуальные персонажи, а не реальные люди. По крайней мере, мы всегда так говорим, когда приходит Роскомнадзор и заявляет: вы нарушаете закон о персональных данных. А мы говорим: не факт, что вот этот Артур настоящий. К чему я веду? В электронных источниках есть огромное количество того, что называется фейками. Это дублированные персонажи, люди, которые удаляют свои аккаунты, потому что они хотят сделать что-то плохое или что-то хорошее,— неважно, но им кажется, за ним следят. Они создают таких виртуальных персонажей, копии себя. Но проблема номер один здесь заключается в том, что в этот момент человек думает, что он полностью скрылся от всевидящего ока. На самом деле это не так. И если определенное количество времени следить за определенными пользователями, за тем контентом, который они лайкают, потребляют, смотрят, за тем, какие сайты они посещают, то можно составить представление о человеке, и в тот момент, когда он решит удалить свой настоящий аккаунт и создать искусственный, его можно с большой точностью идентифицировать.

Пример. Есть некий Акбар Джалилов — питерский террорист, который взорвал метро. Не знаю, правда это или неправда,— неважно. В один прекрасный момент он решил удалить свой основной аккаунт и создал в социальной сети второй, дублирующий. Там была другая фамилия, другие инициалы, но контент, который он потреблял, и люди в друзьях остались точно те же. Поэтому идентифицировать его большого труда не составило. А если посмотреть на всю его сеть, его друзей, друзей друзей, то среди всевозможных правых и ультраправых есть очень популярный паттерн поведения. Когда человек ведет определенную активность в интернете, неважно — плохую или хорошую, в один прекрасный момент к нему приходят и говорят: ты себя неправильно ведешь в интернете, за тобой следят, тебе нужно удалить свой аккаунт. Он удаляет свой аккаунт, создает второй, дублирующий, но при этом продолжает вести себя как прежде. Паттерн поведения этого человека не меняется. Поэтому шаг номер три: если вы вдруг решите скрываться от кого-то, первое, что вам нужно делать, это удалить информацию о себе. Отправить во всевозможные «ВКонтакте», Facebook и нам заявление на удаление себя из индекса. Потому что история — это 80–85% всей информации, которая есть о вас. То есть вы можете еще вроде как ничего плохого не сделать, но информация уже есть.

Цукерберг рекомендует:  WordPress Используем радиокнопки для таксономии

Какие еще есть источники, на основании которых элементарно собрать информацию о вас? Это может быть человек, может быть алгоритм, который будет таргетировать на вас рекламу. Самые популярные источники, понятно, соцсети, блоги, форумы и мои любимые невоспетые герои — cian, avito, avto.ru. На них огромное количество населения, которое вроде бы ничего о себе не пишет, но когда женщина продает коляску, она ее продает либо рядом с домом, либо рядом со своей работой, с которой удобно эту коляску забирать. На основании этого объявления элементарными методами, просто немного понаблюдав, можно выяснить, где этот человек работает, либо где он живет.

Какие перспективы построения искусственного интеллекта, работающего по образцу человеческого мозга

Лидером моего интереса в 2020–2020 году был Tinder. Кто не знает, это такое приложение для знакомств. Листаешь влево-вправо мальчиков и девочек, ставишь лайки. Но суть в том, что в этих всевозможных приложениях для знакомств показывается расстояние до человека. Кто более или менее знаком с математикой, знает, что есть нехитрые методы, позволяющие из нескольких разных точек, зная расстояние до человека, определить его местоположение. Понятно, что всевозможные сервисы и социальные сети реальное местоположение никогда не показывают. Они защищают пользователя и указывают плюс-минус пару метров. Где конкретно этот человек находится, понять нельзя. Но средний москвич обновляет свой Tinder около 18 раз в день. Обновляя эту информацию, можно понять, как человек перемещался, где находился.

Однажды мы делали исследование — какое количество аккаунтов в Tinder находится на территории госучреждений. Лидер — Министерство обороны. Там около 30 аккаунтов. А недавно был очень крутой кейс с приложением Strava — это фитнес-трекер. Вы бежите, а он записывает ваш трек. Они сделали крутую вещь — гигантскую тепловую карту всего мира, где чаще всего пользуются этим приложением. И все такие: «Классно! Инфографика! Дата-журналистика!» Но никто, мне кажется, в первый день даже не сообразил, что подсвечено большинство военных баз. Военные бегают, сливают в трекер (приложение для подсчета физической активности и тренировок.— “Ъ”) информацию, и потом на основании этого делается огромное количество расследований. А буквально за два-три месяца до этого Минобороны выпускало серию плакатов на тему: «Солдат, если тебе нечем заняться и ты сидишь в соцсетях, не пали свою геолокацию!» Это на самом деле смешно, но это очень популярная история, потому что геолокация — первое в списке того, что можно узнать о человеке, потому что если судить по тому же закону о персональных данных, вроде как ваш домашний адрес — это ваша персональная информация, и ее никто знать не должен. Например, в соцсетях она в закрытом доступе. Но если взять все ваши публикации, посмотреть, где вы находились, для большинства — реально для 99% — пользователей 80% геоточек — это два кластера: дом и работа. При этом то, что ближе к центру города,— это работа, то, что дальше,— дом. Понятно, что есть исключения, но эти исключения на уровне статистической погрешности.

Я лично, когда заказываю еду домой, всегда заказываю ее в соседний дом. Потому что в Tor и в теневом вебе есть большое количество ресурсов, где всякие крутые хакеры меряются тем, как круто они взломали что-то, выливая семплы каких-то баз данных. Например, приложения для доставки еды или перевозчиков. Их, конечно, можно аккуратненько собирать и там искать секретную информацию о пользователях, но на самом деле так кто-то может и до вашего места жительства добраться. Но это из области небольшой конспирологии.

Что можно узнать? Есть краткий перечень того, что можно узнать из открытых источников. Есть куча всевозможных исследований, где рассказывается, что за 30 лайков можно узнать все о человеке. И это действительно так. Есть какие-то сложно детектируемые слои населения, например студенты. Студента среди серой массы определить сложно. А вот, например, домохозяйки, мои любимые мамы с детьми — одна из самых активных аудиторий. Потому что беременная женщина, у которой есть аккаунт в социальной сети, хотя бы раз делала публикацию. Нет практически ни одной, которая не сделала бы хотя бы один пост типа: «Привет, ребята! Я на третьем месяце». Или: «Ура, мы рожаем!» И это используется всеми подряд. Если тут есть мамы, которым внезапно приходили подарки от каких-нибудь брендов детского питания, знайте, это не случайно. У вас наверняка есть потенциал для привлечения аудитории и несколько алгоритмов.

Еще есть скрытый набор дополнительных параметров. Мои любимые — лайки эротического контента. Вроде как порнография — штука не очень приличная, но на самом деле открывающая огромное количество идей для анализа. Я приведу парочку примеров. Крупнейший порнотрекер в нашей стране — «ВКонтакте». Не знаю уж почему. Но вы можете ради интереса провести эксперимент: если вы смотрите обычные ролики во «ВКонтакте», вам реклама будет показываться каждый восьмой-десятый видеоролик, а если вы смотрите порнографию, то каждый второй-четвертый. Кто-то может сказать, что они делают на этом деньги, но это неважно. Во «ВКонтакте» каждый восьмой пользователь лайкает эротический контент. Не знаю почему. Уже четвертый год задаюсь этим вопросом. Кто-то говорит, что они так просто сохраняют в сохраненное, кто-то — что они случайно что-то нажимают. Но факт есть факт. Если вы соберете большое количество эротического контента и проанализируете его, то это будет в среднем каждый восьмой пользователь.

Какие перспективы у криптовалют

Но, допустим, приходите вы в банк. В банках есть очень крутая зависимость: если мужчина женат и лайкает молодых девушек, значит, он с вероятностью 85% заинтересуется кредитной картой. Нельзя сказать, в чем тут логика — молодая любовница или что-то другое, и очень много банкиров пыталось это объяснить, но реально топ-15 банков эта штуку отрабатывает практически всегда. С этим ничего не сделаешь. А если это страховая компания, то примерно такая же вероятность, что брак распадется и потом будут какие-то санкции. Поэтому эту часть взрослые исследователи обычно не трогают, как-то не очень приятно. Но я отношусь к категории исследователей, которым неважно, какие метрики о человеке используют, главное — чтобы был результат.

Когда, например, кто-то программирует скрипт, который показывает вам в интернет-магазине товары «еще», он тоже пользуется открытыми данными. В каких-то магазинах это происходит от балды, в более продвинутых — «из той же товарной категории», где-то на каждый товар есть сопутствующий. Но на самом деле, если говорить о среднестатистическом магазине женской верхней одежды, то самый элементарный и самый эффективный скрипт будет: 1) погода. У женщин цвет одежды, стиль и фасон зависят от погоды. Если вы — владелец интернет-магазина, можете провести у себя внутри исследование и сопоставить атмосферное давление и количества солнца с тем, какой цвет выбирается; 2) человек заходит в интернет-магазин, авторизуется, как-то себя идентифицирует, и умная машина просматривает быстренько все публикации этого человека, и, как правило, по цветовой гамме можно предложить ему что-то новое.

Есть еще один пример — из серии, как не надо делать и почему у нас люди очень боятся, что за ними следят. Есть у меня друзья, которые держат очень крупную сеть магазинов интимных товаров. Как-то мы с ними проводили эксперимент: они ставили счетчик, предлагали человеку авторизоваться через социальную сеть, в данном случае «ВКонтакте», и через десять секунд после авторизации интернет-магазин полностью подстраивался под интересы пользователя. Вот прямо — эта категория товаров, потому что вы лайкали такое-то видео и состоите в такой-то группе. Знаете, насколько увеличилась вовлеченность? Ни на сколько. Люди закрывали окно и сразу же убегали с этого сайта. И это на самом деле очень плохо, потому что такие истории культивируют страх того, что за всеми следят. А потом они приходят домой, смотрят видео и пишут мне в Facebook: «Вы — сволочи, следите за всеми. Да как так?» Но на самом деле 99% тех метрик, которых мы можем узнать о человеке, основаны на том, что человек сам о себе рассказывает. Когда он приходит, например, к работодателю, а ему работодатель отказывает, почему это происходит? Потому что три с половиной месяца назад он написал «ненавижу свою работу, в жопу всех» и так далее. Но человек, конечно, винит тех, кто собрал эти данные, проанализировал и посчитал метрику. По факту же, если вы хотите сменить работу, просто не пишите такого в соцсети.

А еще в соцсетях есть такая штука — сториз и всевозможные типа удаляемые материалы. То есть ты снял видео, оно повисело и через два-три часа или через день удалилось. Не верьте! Они тоже все сохраняются. По крайней мере, мы сохраняем сториз, и это реально 2–3% из всех государственных запросов — террористы, экстремисты и так далее. Потому что люди, когда снимают быстроудаляемое видео, городят там какую-то чушь, показывают военную базу или еще что-то. Соответственно, это все можно распознать, понять, кто и где, и проанализировать. Возвращаясь к истории питерского террориста. Сам он нам не очень важен, но важно, что у него среди друзей есть некая категория товарищей. Например, был такой Иван. Ивану сказали: «Ты слишком большой экстремист. За тобой скоро придут». Он решил свой аккаунт удалить и создавать новый. Но продолжает общаться с теми же людьми. Не обязательно он будет с ними друзьями. Но в один прекрасный момент он поставит лайк под комментарием или еще что-то — и все, умный алгоритм сразу же сопоставит этих двух товарищей. Для этого не нужны банковские данные этих людей, не нужно взламывать Uber или знать об их перемещениях. Достаточно одной связи. Это все, что касается первой истории о том, что некоторые люди не очень доверяют открытым источникам, потому что там якобы есть фейки.

Раньше люди считали, что если тебя нет в соцсетях, то о тебе нет информации. На самом деле это не так. Соцсети — это такой безумно крутой механизм, в котором есть все. Неважно, кто вы — 95-летняя бабуля с дачи, которая сажает георгины, или еще кто-то. И вот пример — условный человек в один прекрасный момент получает повестку в армию, решает удалить себя из всех открытых источников и просто исчезнуть. Он удаляет соцсети, переезжает в другой город и продолжает вести активную жизнь. Но он забывает, что его друзья тоже ведут некую социальную жизнь, делают с ним фотографии, выкладывают в интернет и что по фотографиям, выложенным другими людьми, этот человек очень легко идентифицируется. Для этого даже не надо обладать какими-то гениальными системами распознавания лиц — сейчас уже Facebook присылает тебе запрос: «Не хотите ли добавить этого человека в друзья?» Эти механизмы всем известны. Если человек уехал в другой город, но посещает мероприятия, у этих мероприятий есть аккаунты в соцсетях, и там по грифам клубов можно понять, где это находится, это вообще не составляет труда. Так что, если у человека нет аккаунта в соцсетях, это не значит, что его самого там тоже нет.

Это примерный объем аудитории среднестатистического пользователя российской соцсети. В него входят сам пользователь, его друзья, друзья друзей, друзья друзей друзей. О чем говорит эта картинка? Сейчас соцсети придумали идиотские механизмы умной ленты, которая якобы должна сделать нашу жизнь лучше, и мы должны видеть интересный контент. Хотя на самом деле это все сделано для увеличения просмотров какой-то рекламы, как мне кажется. Но суть в том, что это увеличило объем аудитории, которой вы можете коснуться. С одной стороны, некий условный блогер Саша может дотянуться до какой-то новой аудитории, а с другой — загребущие ручонки тех, кто анализирует вашу информацию, могут рано или поздно дотянуться до вас. То есть вы есть, вы этот контент распространяете, внезапно он до кого-то дойдет, и этот человек доберется до вас.

Понятно, что у всех алгоритмов есть хорошее применение. Один раз мы делали алгоритм для поиска хозяев животным из приюта по наличию у них квартиры, автомобиля, близости к приюту, предыдущих животных и лояльному отношению к определенным политическим фигурам. Не знаю, как это влияло на животных, но приют так попросил. Но, само собой, у этого есть и плохие применения. Слово «антитерроризм» всегда всех напрягает, потому что у нас, к сожалению, государство иногда прикрывает им какие-то свои действия. Но тем не менее. Если уж говорить про какую-то государственную историю, то есть данные о 100 тыс. самых крупных государственных закупок в нашей стране, которые используют налоговые и все прочие органы для отслеживания плохих активностей.


Небольшое отступление — у неких товарищей была такая работа с налоговой. Налоговая передавала информацию об индивидуальных предпринимателях, у которых есть карточки, привязанные к счету компании. А товарищи анализировали открытые источники этих предпринимателей и понимали, кто машину купил, кто какой-то дорогой товар, и сопоставляли траты с реальной активностью в соцсетях. Много людей погорело. Так вот, в центре галактики данных о госзакупках есть те, кого налоговая называет счастливчиками. Это такие ИП, который внезапно выиграли какой-то тендер на миллиард, а до этого десять лет ничего не делали и после десять лет ничего не делали.

Собственно, они первые кандидаты, к кому кто-то придет и будет общаться. А еще об этом человеке известно ФИО, город, возраст, а они известны обо всех участниках торгов, его можно найти в онлайн-источниках, понять, где он живет, на какой яхте ездит, куда к бабушке ездит отдыхать и так далее. Поэтому: если вы собираетесь совершать экономическое преступление, не фотографируйтесь и не выкладывайте в соцсети.

К сожалению, есть момент, что наше государство не очень использует всевозможные улики, привязанные к открытым источникам. Очень сложно с юридической точки зрения доказать в суде. Но это и неважно. Важно понять, где человек находится, для того, чтобы отправить к нему судебных приставов. Поэтому, что касается прогнозов в этой области, я думаю, что через три-пять лет у нас поменяется часть законодательства, связанная с использованием всех этих цифровых следов именно как улик в судах. Потому что мы давно уже занимались такой очень неприятной историей, как педофилы. Они есть. Их много. Люди об этом не говорят, но тем не менее. Мы давным-давно разрабатывали ботов, которые общаются с ними в сети, узнают какую-то информацию для того, чтобы как-то взаимодействовать с этими людьми и подтвердить их незаконопослушность. Но проблема в том, что с точки зрения нашего законодательства именно в этой узкой проблеме никакие цифровые следы не могут привести к тому, что к человеку придет его тюремный срок. Даже если он выкладывал фото и видео. Нужно, чтобы участковый пришел и схватил за руку. А это очень сложно. Но это не значит, что можно оставлять цифровые следы, и ничего не будет. Это я все к тому, что до любого человека можно добраться. Неважно, кто он — крупное юридическое лицо, физлицо или бабуля, которая сидит где-то на грядках. До бабули, конечно, дотянуться нельзя, у нее наверняка даже аккаунта в «Одноклассниках» нет. Но наверняка когда-нибудь к ней приедет внук и сфотографируется с ней, потому что в 2020 году около 20% фотографий — со своими бабушками. Это был реальный тренд 2020 года. Соответственно, эту связь между ними можно сразу установить. А бабушка — это желтые страницы. Можно понять, где она живет, куда ребенок съездил и так далее. Из этого можно вычленить огромное количество информации.

Какие перспективы внедрения искусственного интеллекта

Как выглядят обычные пользователи для некого алгоритма. В любом срезе обязательно есть какой-то кусочек непонятных товарищей-ботов, которые дружат друг с другом. Они очищают медиапространство. Но есть и всевозможные грустные истории, связанные с социальным терроризмом. В частности, в последние два-три года очень популярный его вид — молодежь выкладывает свои обнаженные фотографии куда-то, а по ним их деанонимизируют. Я не родитель, просто разбираюсь в теме, и в 2020–2020 годах у молодежи панацея — выкладывать свою обнаженку в анонимные паблики. Но вы как люди умные должны понимать, что ничего ни в какие анонимные паблики выкладывать нельзя, потому что все это идентифицируется. Зачастую, кстати, опять-таки по заднему плану на фотографиях. Потому что обычно людям лень делать специальную фотографию для этой группы. Они берут какую-то обычную и обрезают, а все остальное на ней остается. До социального терроризма, конечно, далеко, но у меня лично много таких историй, когда, например, мне ЖКХ не отвечает на звонок, я нахожу главного инженера, его жену, детей в соцсетях и начинаю писать. Закон не запрещает это делать, потому что они госслужащие и ты пытался с ним прокоммуницировать. Это не очень этично — звонить директору в школу детей и говорить, что их папа свет не включает в подъезде. Но мы к этому идем.

Все спрашивают, что будет через пять лет — все будут за всеми следить? Да, так и будет. Но не все за всеми будут следить, как это обычно представляют. На самом деле мы просто придем в состояние тотальной прозрачности, где все будут обо всех знать. Кто занимается околопсихологическими вещами, знает, что есть очень много зарубежных исследований на тему, насколько людям становится сложно врать в современном цифровом мире. Есть очень крутое исследование, к сожалению, не назову автора, в котором изучается феномен людей с определенным психологическим заболеванием, когда постоянно врут. Так вот, за последние пять лет количество таких людей резко уменьшилось. Потому что очень сложно всем врать, когда есть соцсети и все можно подтвердить. С другой стороны, в соцсетях увеличивается количество людей, которые ставят, например, «левые» геометки. И они это делают не потому, что скрываются от кого-то и изменяют свои алгоритмы, а потому, что «я сегодня в Москве, а завтра в Дубаи». Но это к тому, что если вы таким образом решите скрываться от вездесущих алгоритмов, вам это не поможет, потому что вы просто окажетесь статистической погрешностью. Как я уже говорил, практически у всех пользователей 80% точек — это дом, работа, дом, работа и редкие путешествия. Основная проблема всех людей, которые пытаются от кого-то скрыться,— это модель их поведения. То, как они потребляют контент, как они коммуницируют.

У меня также есть несколько наблюдений на тему того, насколько одинаково потребление контента внутри «ВКонтакте» и Facebook. Конкретный инфоповод — открытие парка «Зарядье». Вот модель поведения «ВКонтакте» — много-много точек, они все сгруппированы в маленькие группки, каждая группка — это отдельный инфоповод, большого количества связей между ними нет. Потому что во «ВКонтакте» определенная модель потребления — контент пролетает мимо людей, и они читают только заголовки. «А, Олег Тиньков. » — и уже неважно что. А в Facebook тот же инфоповод среди тех же людей выглядит по-другому — это гигантская куча связанных друг с другом людей, мимо которых не просто пролетел инфоповод, а они месяц это все поднимали, обсуждали, писали гневные комменты, исходили желчью.

А есть группа представителей госорганов, разных пресс-служб и так далее, которые просто у себя вешали новость: «Парк «Зарядье» открылся». И все. И никаких гневных комментариев не получали. Разница моделей поведения между соцсетями и между разными слоями населения где-то большая, а где-то и нет.

Сейчас гигантская проблема больших данных в том, что собирать данные умеют уже все. Этим давно никого не удивишь. Но до сих пор никто не умеет из этого делать правильные выводы. Люди остановились в той точке, где они считают, что чем больше данных, тем точнее будет твой прогноз. Это зачастую так. Но проблема в том, что если ты берешь огромную аудиторию, огромный объем данных, то он просто представляет собой непонятную серую жижу. Очень простой пример. Приходят люди и говорят: «Нас интересуют интересы наших пользователей». У нас есть банк А и банк Б, возьмите и сравните, чем отличаются интересы этих пользователей. Ничем. На любой группе больше 100 тыс. человек большинство параметров одинаковые. Вот что с этим ни делай, но топ групп, на которые люди подписаны, и источники, из которых они потребляют контент, практически одинаковы. Поэтому все уходит в микротаргетинг, микровзаимодействие с конкретными людьми, идентификацию каждого конкретного человека. Поэтому, собственно, нам всем и нужно скрываться — вы гуглите покупку штор, а потом еще неделю в Instagram или Facebook получаете идиотскую рекламу, которая не понимает, что вы уже купили, все произошло. Сфотографируйтесь со шторами.

Кстати, по поводу слежки все всегда рассказывают одну байку: «Я ехал в машине, разговаривал по телефону, навигатор что-то услышал и начал давать рекламу». Может, это, конечно, нам не повезло, но мы проводили такой эксперимент несколько раз. Не сработало. И мне кажется, правильно, потому что если бы «Яндекс-навигатор» в реальном времени анализировал у каждого пользователя его аудио, то дата-центр «Яндекса» был бы размером, наверное, с этот зал, а экономическая эффективность была бы совсем маленькая. Поэтому можете спокойно разговаривать. Проводили мы и другие эксперименты. Делали чистый аккаунт в соцсети, никак не связанный с реальностью, и начинали что-то писать людям. Например, я лично проводил такой эксперимент, писал своему другу: «Давай слетаем в Сыктывкар!» Я даже на карте этот город не покажу, но суть в том, что через пару дней мы начали получать рекламу билетов туда. Аккаунт чистый, ни с кем не взаимодействовал. Поэтому соцсети это тоже видят.

Как блокчейн-технологии могут изменить экономику России

Думаю, ни для кого не секрет, что здесь есть обратная сторона — все всегда считают, что и государство тоже смотрит всю переписку в соцсетях. Вы, конечно, можете мне не верить, но это реально очень сложно. Какому-нибудь рядовому московскому оперуполномоченному получить доступ к личным сообщениям — вообще непосильная задача. Потому что это суды, на разрешение уйдет от семи месяцев до полутора лет. А сами понимаете, за это время мало-мальски грамотный убийца забудет вообще все детали, где он там что в соцсетях писал. Для суда же важно доказать, что вы считаете, что он именно в соцсетях устроил сговор или написал, где труп закопал. В общем, не стоит, наверное, таких вещей бояться, но лучше и не писать. Мало ли что. Было очень много независимых исследований, что «ВКонтакте» не удаляет никакую информацию, как и другие соцсети, но и в паранойю впадать не стоит.

Вы наверняка слушали историю про тот же Tinder, когда одна пользовательница написала туда письмо-запрос и попросила выдать всю информацию, которую хранит о ней приложение. И якобы, как пишут все СМИ, она получила 800 страниц информации о себе. И все такие: «О господи! Приложение для знакомств хранит о тебе 800 страниц информации!» Но на самом деле только один, наверное, журналист из тысячи попросил у нее этот документ посмотреть, а там была просто личная переписка. То есть не количество сексуальных партнеров, не то, с кем она ходила на свидание, в какой одежде, что заказывала, что ела. Ничего такого нет, просто переписка. А из этого сделали историю, что приложение для знакомств вдоль и поперек тебя изучает. Кстати, после этого, если изучать статистику активности Tinder, она очень сильно обвалилась. Потому что люди решили, что нельзя пользоваться приложением, которое столько о тебе узнает.

Тем не менее главный посыл тут в том, что скрыться от камер наблюдения вряд ли получится, но всегда получится обмануть алгоритм. Потому что, какой бы крутой он ни был, какие бы ни были нейросеть, машинное обучение и все эти умные слова, которые любит говорить Герман Греф,— неважно, любой алгоритм основан на взгляде на большинство. Поэтому если вы в один прекрасный момент пойдете домой не прямо, а как-нибудь обойдете, вы нарушите статистику. Приведу пример, который наверняка всем понравится. Есть такие товарищи, которые продают наркотики. Некая компания одно время разрабатывала алгоритм, который покупал наркотики у разных людей и смог их деанонимизировать с помощью Tor. С кем-то он общался, кто-то случайно указывал ник, который где-то засветился пять лет назад на какой-то почте, и связывал их между собой. Задача же была определить, где живут эти люди и куда они ездят делать закладки с наркотиками. Реально у 95% тех, кто этим занимается, одна и та же модель поведения — ехать по диагонали. То есть они считают, что если они живут на «Войковской», но поедут с этой «Войковской» куда-то диагонально, то их вообще невозможно будет отследить. Сделать из этого выводы можно разные. На этом у меня все.

Большие деньги, большие данные, большие перспективы

Big Data открывают банкам новые горизонты и новые задачи, дают возможность привнести в свою деятельность качественно новую аналитику и элементы искусственного интеллекта.

Одним из главных потенциальных потребителей технологий Big Data в России является банковский сектор. Большинство аналитиков полагает, что с каждым годом объемы информации в банковской сфере будут увеличиваться. Это связано с разными факторами — развитием банковских онлайн-сервисов, увеличением числа розничных, кредитных продуктов и так далее. Накопив к текущему моменту в хранилищах данных, да и в самих операционных базах, достаточно много оцифрованной информации о клиентах, транзакциях, внутренней и внешней деятельности, банки заинтересованы в применении алгоритмов для ретроспективного анализа, для изучения текущего состояния и выявления тенденций на будущее.

«Эффект «больших данных», заключается в том, что они собираются и структурируются в различных системах оперативного или аналитического характера, к ним применяются самые разные подходы для очистки, сверки, проверки и стыковки друг с другом, — говорит Артак Оганесян, заместитель генерального директора по развитию бизнеса компании EPAM Systems. — И в итоге это дает банку информацию, полезную для бизнеса».

Анализ в режиме онлайн

С ростом производительности систем хранения «больших данных» банкам открываются недоступные ранее возможности управления бизнесом. Если раньше речь шла в основном о «посмертном» анализе информации, то сейчас системы хранения и анализа позволяют управлять значимыми для бизнеса параметрами практически в режиме, приближенном к реальному времени.

— Например, система управления ликвидностью теперь может работать на уровне отдельных сделок, мгновенно пересчитывая будущий денежный поток, — рассказывает Илья Шулипин, директор департамента по работе с финансовыми институтами компании «SAP СНГ». — Это позволяет ускорить реакцию банка в том числе на внешние изменения и более точно управлять денежными средствами. Стресс-тестирование — еще один пример активной работы с огромными массивами информации, и это дает новое качество в управлении рисками.

БЛАГОДАРЯ ТЕХНОЛОГИЯМ BIG DATA СИСТЕМЫ БЕЗОПАСНОСТИ БАНКА МОГУТ ОПЕРАТИВНО АНАЛИЗИРОВАТЬ КОЛОССАЛЬНЫЕ МАССИВЫ ИНФОРМАЦИИ САМОГО РАЗНОГО ПРОИСХОЖДЕНИЯ

Несмотря на то что в крупных банках базы данных для основных банковских систем (операционный день, процессинг, кредитный модуль и т. д.) занимают по несколько (или даже десятки) терабайт, основное назначение «больших данных» будет заключаться в обеспечении хранения и быстрого поиска графической, аудио- и видеоинформации, считает Александр Горшков, начальник управления банковских технологий компании «Техносерв».

По опыту проектов, реализованных Центром компетенции EPAM по Big Data, технологии «больших данных» в первую очередь используются банками для работы с профилированием клиентов в маркетинговых целях. Второе направление — работа с ликвидностью и рисками. Третье — выявление долгосрочных тенденций по клиентской базе и по конъюнктуре рынка. Далее идут борьба с мошенничеством и махинациями, долгосрочное прогнозирование для высокоуровневого планирования и бюджетирования. Наконец, целью может быть и оптимизация внутрихозяйственной деятельности.

Еще вчера чуть ли не единственной информацией, доступной для анализа, были данные по проводкам — выписки по счетам. Ограниченность этой информации привела к росту спроса на так называемую управленческую отчетность, получаемую методом «раскраски» из транзакционных данных. «Системы управления «большими данными», — рассказывает Илья Шулипин, — снимают ограничения, присущие аналитическим приложениям предыдущего поколения, и позволяют хранить полную информацию по финансовым событиям и их отражению в различных видах учета и анализа. Выдача кредита, погашение долга, выплата процентов, вынос на просрочку — все это может быть одновременно отражено и зафиксировано в виде привычных проводок в соответствии с ПБУ и МСФО или иными правилами учета, учтено с точки зрения достаточности капитала, анализа рисков, утилизации лимитов. Это огромный объем информации, и она необходима банку для точной и своевременной оценки своего текущего состояния».

Недавно SAP представила новое решение для анализа данных о рыночных трендах и потребительских настроениях в режиме реального времени. На базе такого анализа можно разрабатывать новые бизнес-стратегии и принимать обоснованные и взвешенные решения. Для анализа потребительских настроений используются различные источники: сайты социальных сетей, сообщества, вики-ресурсы, блоги… Причем эти данные можно обрабатывать совместно с информацией из систем управления взаимоотношениями с клиентами. Пользователи решения могут оценивать реакцию клиентов с помощью удобных для просмотра представлений, доступных на мобильных устройствах, планшетных или настольных компьютерах, и при необходимости сразу же предпринимать ответные меры.

ДЛЯ БАНКОВ BIG DATA ОСОБЕННО ЭФФЕКТИВНЫ В МАРКЕТИНГЕ И СФЕРЕ ВЗАИМОДЕЙСТВИЯ С ЧАСТНЫМИ КЛИЕНТАМИ

Наиболее ресурсоемкой является графическая, аудио- и видеоинформация. С увеличением числа клиентов растет и число обращений в банки. А это значит, что потребуется больше ресурсов для хранения записей разговоров между клиентами банка и сотрудниками контакт-центров, отсканированных изображений кредитных заявок, различных типов договоров, персональных документов. Увеличивается число видеокамер наблюдения — как в офисах и отделениях банков, так и в устройствах самообслуживания (банкоматах, информационных терминалах и так далее). Основная сложность таких решений не только в хранении получаемой информации, но и в ее анализе и поиске в случае необходимости.

Компактнее и быстрее

По мере роста объемов данных банк неизбежно сталкивается с проблемами их обработки и контроля расходов на хранение и управление ими. Например, оценка эффективности работы совокупности региональных подразделений, филиала, конкретного продукта или услуги по данным за три года обеспечивает гораздо более ясную картину — с более четким представлением долгосрочных тенденций, а также циклических и сезонных моделей, чем такая же оценка, но выполненная с опорой на шестимесячную или еще более краткосрочную статистику. К сожалению, большинство традиционных программных средств с трудом справляются даже с данными, накопленными за шесть месяцев; при этом, как правило, требуется существенное расширение их объема для оптимизации доступа и достижения приемлемого быстродействия.

Вадим Табаков, менеджер по развитию направления «Базы данных и технологии» компании «SAP СНГ», советует использовать сервер Sybase IQ, который оптимизирован для аналитической обработки. В Sybase IQ реализованы эффективные алгоритмы сжатия, которые сокращают потребность в дисковой памяти на 30-85%. Независимые испытания подтвердили, что для хранения одного петабайта необработанных входных данных Sybase IQ требуется всего 160 терабайт физической памяти.

Сравнивая стоимость владения решений для управления «большими данными» от разных производителей, необходимо учитывать стоимость аппаратного обеспечения, необходимого для подобной работы, подчеркивает Илья Шулипин. Следует различать, в каких случаях высокая производительность достигается при помощи совершенствования логики управления данными, а в каких — с помощью дорогостоящего наращивания процессорной мощности. Может оказаться так, что с ростом объемов данных стоимость одних решений будет изменяться незначительно, тогда как другие потребуют немалых инвестиций в аппаратное обеспечение.

— Большие данные, требующие реального времени, будут уходить в in-memory, — уверен Илья Шулипин. — За ними, скорее всего, последуют наиболее критичные для бизнеса приложения, которые также уйдут на базы данных in-memory. Важно отметить, что сейчас на рынке единицы производителей предлагают реальные in-memory-решения, а не «косметически отремонтированные» традиционные базы данных. Однако флагманы рынка уже решают эту проблему: так, SAP в своем активе как раз имеет стопроцентную in-memory-платформу HANA.

Борьба за качество

Серьезная проблема, препятствующая применению систем Big Data в банках, заключается в том, что сегодня практически нет ИТ-решений для финансового сектора, которые гарантированно работают совместно с «большими данными». Для преодоления проблемы интеграторы вынуждены создавать в рамках отдельных проектов своеобразные «испытательные полигоны». Так, например, «Техносерв» проводит совместное тестирование силами поставщиков решений «больших данных», разработчиков специализированных финансовых ИТ-систем, сотрудников банка и специалистов интегратора для получения подтверждения корректности функционирования используемых в банке систем и новых программно-аппаратных решений для работы с «большими данными». Но это начинание, в котором кровно заинтересованы банки, наталкивается на серьезное препятствие: не все производители программного обеспечения для финансового сектора заинтересованы в том, чтобы подтвердить корректность работы своих решений на «больших данных».

Артак Оганесян отмечает проблемы, связанные с качеством и достоверностью данных (особенно информации, поступающей из внешних систем), с возможностью их сверки и стыковки. Источников «больших данных» может быть много, но реальный эффект получается только при агрегировании их в общее информационное хранилище или пространство. Данные в разных системах часто не согласованы, иногда они могут противоречить друг другу. При этом, даже если на этапе загрузки, очистки и выверки эти данные приведены к единому знаменателю, в исходных системах информация все равно может оставаться «грязной». Поэтому банкам придется выстроить работу по исправлению данных в исходных системах.

Курс на клиенто­ориентированность

Применение Big-Data-решений дает банкам серьезные конкурентные преимущества. Возможность оперативно извлекать полезную информацию из больших архивов данных и анализировать ее в разных аспектах позволяет повысить эффективность работы организации в целом и лучше понять поведение клиентов в частности. «Важно, что анализ массивов структурированных и особенно неструктурированных данных с помощью технологий Big Data предоставляет информацию такого качества, которое оптимально для принятия взвешенных решений, — подчеркивает Владимир Колганов, руководитель направления систем хранения данных компании «КРОК». — Причем нередко в условиях жестких ограничений, вплоть до режима реального времени. Поиск оптимальных решений, как правило, основан на предварительном моделировании разных сценариев. Например, можно установить, как изменение бюджета и разных параметров способно отразиться на доходе компании от целевого маркетинга».

BIG DATA ДАЮТ БАНКАМ ВОЗМОЖНОСТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ, О КОТОРЫХ БАНКИ РАНЬШЕ ДАЖЕ НЕ ЗАДУМЫВАЛИСЬ. НАПРИМЕР, РЕАЛИЗОВАТЬ ПРЕДЛОЖЕНИЯ В РЕАЛЬНОМ ВРЕМЕНИ С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИИ О МЕСТОПОЛОЖЕНИИ КЛИЕНТА: КЛИЕНТ, ПРОХОДЯ МИМО МАГАЗИНА, ПОЛУЧАЕТ ОТ СВОЕГО БАНКА УВЕДОМЛЕНИЕ НА ТЕЛЕФОН О ТОМ, ЧТО ИМЕННО СЕГОДНЯ В ЭТОМ МАГАЗИНЕ ДЛЯ НЕГО КАК ДЛЯ ДЕРЖАТЕЛЯ «ЗОЛОТОЙ» КАРТЫ — ДОПОЛНИТЕЛЬНАЯ СКИДКА

Благодаря технологиям Big Data системы безопасности банка (Fraud Control) могут оперативно анализировать колоссальные массивы информации самого разного происхождения (документы, транзакции, логи интернет-порталов и пр.) и эффективно противодействовать мошенничеству. Крупные банки с помощью этой технологии могут рассчитывать риски по своим операциям на рынках ценных бумаг — для миллионов сообщений в секунду с откликом 80 мкс.

Цукерберг рекомендует:  Тест по Photoshop. Начальный уровень

Кроме того, технологии Big Data позволяют банку использовать полуструктурированные данные, чтобы выявить скрытые связи между клиентами. На основе полученной информации определяется уровень их кредитоспособности. Без таких технологий сложно представить себе и геолокационные сервисы, которые определяют местонахождение банковских отделений и банкоматов, интересующих клиентов.


Владимир Колганов отмечает еще одну область применения решений Big Data — анализ соцсетей, позволяющий определить уровень лояльности клиентов банку и его ключевым конкурентам. В сообщениях пользователей social media автоматически выделяются слова-маркеры, характеризующие их отношение к банку. Исследование огромного числа записей с такими словами помогает выявить причины недовольства клиентов и принять меры, оптимальные в сложившейся ситуации.

Александр Горшков приводит пример проекта, реализованного в России сотрудниками «Техносерва» совместно со специалистами HDS в одном из крупных банков, входящих в Топ-10. Решение позволяет автоматизировать процесс заведения и хранения кредитных заявок. Заявки, заполненные и подписанные клиентом, сканируются, клиентский текст автоматически распознается (для организации полнотекстового поиска), после чего осуществляется передача информации в систему работы с «большими данными» для ее дальнейшей обработки и хранения. Передача информации осуществляется в сжатом и зашифрованном виде, что позволяет работать на слабых каналах, обеспечивать ее необходимую конфиденциальность и целостность. В случае неустойчивого канала связи или возникновения ошибки во время передачи данных в реализованном нами решении предусмотрена возможность дозагрузки информации с того места, когда возникла ошибка.

В целом технологии Big Data особенно эффективны в маркетинге и сфере взаимодействия с частными клиентами. Анализ клиентских баз, а также неструктурированной информации из соцсетей и других источников позволяет разрабатывать более сфокусированные маркетинговые предложения, больше соответствовать ожиданиям разных целевых аудиторий, лучше влиять на потребительское поведение клиентов.

— С помощью Big Data финансово-кредитные учреждения могут повысить уровень своей клиентоориентированности, — рассказывает Владимир Колганов. — Например, лучше понять конкретного клиента банку помогает изучение его действий, предшествовавших выполнению определенной операции в онлайн-банке. Какие разделы сайта посетил данный клиент, много ли времени провел на каждой странице — благодаря этой и другой информации банк может составить «портрет» клиента и выстроить более эффективные коммуникации с ним.

Анализируя информацию по клиенту или группе клиентов, можно оперативно построить профиль потенциального заемщика с учетом его полной истории взаимоотношений с банком, в том числе и по закрытым договорам. Более того, этот анализ может включать в себя данные по связанным лицам, учитывать аффилированность. Полная история транзакций, факты недобросовестного поведения, возникновения задолженностей — все это доступно в том числе и для сегментирования клиентской базы. В конечном счете это позволяет банкам совершенствовать свою продуктовую и тарифную политику, повышать прибыльность на отдельного клиента.

В результате реальные и потенциальные клиенты получают большой выбор сервисов и продуктов и чувствуют заинтересованность в себе со стороны банка. А эти факторы, как известно, довольно сильно влияют на отношение к банку в целом.

Big-data банков и телекомов: кто и как внедряет большие данные

Не приведет ли эпоха «больших данных» к ликвидации правительств и спецслужб?

Больши́е да́нные (англ. big data,) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

В широком смысле о «больших данных» говорят, как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий.

В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных); в дальнейшем возникли различные вариации и интерпретации этого признака.

Широкое введение термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 03.09.2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда».

Несмотря на то, что термин вводился в академической среде и прежде всего разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования.

В 2011 году Gartner отметил большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). В это же время прогнозировалось, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов.

С 2013 года большие данные как академический предмет изучаются в появившихся вузовских программах по науке о данных и вычислительным наукам и инженерии.

В 2015 году Gartner исключил большие данные из цикла зрелости новых технологий и прекратил выпускать выходивший в 2011—2014 годы отдельный цикл зрелости технологий больших данных, мотивировав это переходом от этапа шумихи к практическому применению. Технологии, фигурировавшие в выделенном цикле зрелости, по большей части перешли в специальные циклы по продвинутой аналитике и науке о данных, по BI и анализу данных, корпоративному управлению информацией, резидентным вычислениям, информационной инфраструктуре.

Известно, что большие данные существовали задолго до появления самого термина. Поисковики и соцсети изначально строили свои сервисы на технологиях обработки big data. Сегодня к большим данным обратился и традиционный бизнес. Прежде всего, в извлечении знания из накопленных клиентами больших данных, заинтересованы представители зрелых и высококонкурентных рынков, им нужны новые инструменты повышения эффективности. Из 108 компаний, опрошенных в феврале 2015 агентством СNews Analytics, 40 уже приступили к работе с большими данными.

Главными покупателями таких решений остаются банки (24 из 43 респондентов) и телеком-операторы (8 из 12 собеседников СNews). Также технологии обработки больших данных активно используются в онлайн-рекламе и ритейле.

В госсекторе, где технологии big data могут дать взрывной прирост эффективности, они используются относительно слабо. По словам экспертов, среди госструктур обработку big data внедрили Федеральная налоговая служба, аналитический центр правительства России, Пенсионный фонд, правительство Москвы, Фонд обязательного медицинского страхования, Федеральная служба безопасности, Следственный комитет и Служба внешней разведки.

О реальных внедрениях в отечественной медицине речь пока не идет, несмотря на высочайший потенциал.

Основные поставщики инфраструктуры

SAP

Компания SAP была создана пятью бывшими сотрудниками IBM под наименованием нем. Systemanalyse und Programmentwicklung (англ. System Analysis and Program Development, рус. Системный анализ и разработка программ) в городе Вайнхайме. Первый офис фирмы находился в Мангейме.

В октябре 2007 года корпорация за $6,8 млрд купила французскую фирму Business Objects — разработчика программного обеспечения для анализа данных.

В июне 2008 года была приобретена американская компания Visiprise, базирующаяся в городе Альфаретта, штат Джорджия, занимающаяся разработкой программного обеспечения, позволяющего автоматизировать процессы производства и контроля качества промышленным предприятиям.

В мае 2010 года за $5,8 млрд была поглощена компания Sybase — американский производитель программного обеспечения для обработки данных.

В декабре 2011 года за $3,4 млрд была приобретена компания SuccessFactors, предоставляющая приложения по управлению человеческим капиталом по модели SaaS.

Среди поглощений 2012—2013 годов — компании Ariba ($4,3 млрд, глобальная сеть поставщиков) и Kxen (разработчик программного обеспечения для предсказательной аналитики на базе теории Вапника-Червоненкиса).

В России продуктами SAP для работы с большими данными пользуются, например, Федеральная налоговая служба, Пенсионный фонд, банковская группа «Открытие» и энергетический холдинг «Сибирская генерирующая компания». В октябре 2014 года SAP запустила 9-месячный акселератор для стартапов в сфере big data, четыре из них дошли до уровня прототипов.

Oracle

Компания является вторым по объёмам продаж разработчиком программного обеспечения после Microsoft, владея по состоянию на 2014 год долей около 30 % глобального рынка программного обеспечения.

В 2014 году Oracle купила облачную платформу управления большими данными BlueKai, получив ее массивы неструктурированной информации (самые большие на американском рынке).

В линейке вендора — аналитические СУБД Oracle Database, Oracle MySQL и Oracle Essbase, СУБД в оперативной памяти Oracle TimesTen, Oracle Event Processing на базе Hadoop, программно-аппаратные решения Oracle Big Data Appliance, Exadata и Exalytics.

В России продуктами Oracle пользуются, например, ФНС и «Альфа-Банк».

IBM

IBM активно развивает свой аналитический бизнес, который был сформирован на основе двух приобретённых компаний: это купленная в 2008 году за $5 млрд компания Cognos и приобретённая в 2009 году за $1,2 млрд компания SPSS — они и сформировали основной набор программных инструментов для бизнес-анализа и business intelligence. В рамках расширения аналитического бизнеса, в 2014 году IBM объявила об инвестировании $1 млрд в развитие проекта Watson и о создании нового подразделения когнитивных вычислений Watson Business Group, в задачи которого входит разработка и коммерциализация облачных когнитивных (с элементами искусственного интеллекта) сервисов в таких областях, как здравоохранение, финансы, путешествия, телекоммуникации и розничная торговля. В январе 2020 года IBM приобрела примерно за $2 млрд цифровой бизнес компании The Weather Company, который был интегрирован в платформу Watson и другие облачные сервисы компании. А для развития лишь одного облачного медицинского сервиса Watson Health Cloud компания IBM потратила свыше $4 млрд на покупку IT-компаний из сектора здравоохранения, например, в феврале 2020 года IBM приобрела за $2,6 млрд компанию Truven Health Analytics, предлагающую сервисы управления и анализа медицинской информации учреждениям здравоохранения, государственным органам и страховым компаниям.

В начале 2020 года был заключён альянс между компаниями IBM и Salesforce, в рамках которого обе компании будут совместно продвигать инструменты прогнозной аналитики, а к системе IBM Watson будет подключена платформа искусственного интеллекта Salesforce Einstein, которая поможет лучше понимать и использовать генерируемую аналитическую информацию в области продаж.

Крупнейшие потребители решений IBM для больших данных в России — Пенсионный фонд и компания «Вымпелком».

Microsoft

Компания предлагает технологии big data для любого масштаба бизнеса. Небольшим компаниям адресован инструмент Power BI, который входит в Office 365 и встроен в приложение Excel. Сервис включает публичный и корпоративный каталоги данных, новые инструменты поиска информации, интерактивную визуализацию и широкие возможности для совместной работы.

Ряд решений для работы с большими данными доступен пользователям облачной платформы Microsoft Azure. Так, обрабатывать информацию в режиме реального времени помогает Azure Stream Analytics, извлекать сведения из различных источников и управлять потоками данных — Azure Data Factory, а составлять бизнес-прогнозы — инструмент машинного обучения Azure Machine Learning.


Другая платформа Microsoft — SQL Server — позволяет управлять любыми объемами информации в облаке или в собственной инфраструктуре. В SQL Server 2014 реализована технология in-memory OLTP, которая в среднем в 100 раз повышает производительность обработки транзакций за счет выборочного переноса высоконагруженных таблиц в оперативную память.

Teradata

Американская компания специализируется на программно-аппаратных комплексах для обработки и анализа данных. В линейку продуктов для big data входят устройство Teradata Data Warehouse Appliance, платформа Teradata Aster Discovery и аналитическое ПО. Также компания оказывает услуги по анализу больших данных.

В России решения Teradata внедрены у Федеральной налоговой службы, банка «ВТБ24», «Сбербанка» и «Ситибанка».

Pivotal (EMC)

В 2013 году корпорация EMC открыла подразделение Pivotal. Оно занимается обработкой больших данных и поставляет решения PaaS (платформа как услуга) и IТaaS (ИТ как услуга). Для big data компания предлагает базу данных Greenplum, SQL-механизм обработки HAWQ для Hadoop и in-memory СУБД GemFire. В марте корпорация представила озеро данных Federation Business Data Lake.

В России решения EMC используют «Тинькофф-банк» и компания «Тройка Диалог» (ныне Sberbank CIB).

SAS

SAS считается одним из пионеров business intelligence. Компания продает решения для бизнес-аналитики, управления данными и их анализа. Заказчикам SAS предлагает консалтинг, внедрение, обучение и техническую поддержку.

Продукты SAS для big data решают различные типы задач. В линейку входят технологии управления распределенными вычислениями SAS Grid Computing, продукты на базе in-database вычислений и продукты на базе технологии in-memory. К последней группе относятся платформа для интерактивного исследования и визуализации данных SAS Visual Analytics, интерактивная среда для анализа данных SAS In-Memory Statistics, инструмент для создания аналитических моделей SAS Visual Statistics, средство для ускоренного аналитического моделирования SAS Factory Miner, SAS Event Stream Processing Engine для анализа потока событий в режиме реального времени, механизм анализа текста SAS High-Performance Text Mining и другие инструменты.

Продукты компании для работы с большими данными используют «Сбербанк», «Тинькофф-банк», «ЮниКредит Банк», ВТБ24, РЖД и Теле2.

HP Vertica

Для больших данных компания поставляет облачную платформу HP Haven, базу данных HP Vertica Community Edition для бюджетного создания продуктов на основе обработки больших данных, HP Vertica Enterprise Edition — для более масштабных проектов, софт HP Autonomy — для анализа разноформатной информации (видео, аудио, соцсетей).

Технологии НР для big data используются для анализа текстов объявлений Avito, таргетирования рекламы в онлайн-кинотеатре Ivi.ru, анализа поведения клиентов и расчетов в реальном времени в банке «Открытие», автоматизации отчетности в сети «Глория Джинс», ускорения тестирования продуктов в «Связь-банке». Первым российским покупателем аналитической системы HP Vertica стала Yota Networks.

Решения HP Vertica для хранения и анализа больших данных использует Facebook.

Cloudera

Компания из Калифорнии продает наиболее популярный дистрибутив свободно распространяемого фреймворка Hadoop. Полная версия продукта Cloudera Distribution Hadoop включает программные инструменты Cloudera Impala, Cloudera Search, Apache HBase, Accumulo, Spark и Kafka. Аппаратных решений у компании нет. В прошлом году корпорация Intel инвестировала в Cloudera $740 млн.

В России решениями Cloudera пользуются «Сбербанк» и «Тинькофф-банк».

Google

На рынок бизнес-аналитики корпорация вышла в 2012 году, запустив облачный сервис анализа больших данных в режиме реального времени Google BigQuery. Через год его интегрировали в платную версию счетчика Google Analytics Premium. Обновленная версия BigQuery способна анализировать до 100 тысяч строк данных в секунду. Недавно Google представила новую специализированную базу данных Cloud Bigtable, которая подходит для big data лучше предшественницы Cloud Dataflow.

В России решения Google для больших данных можно купить у официальных реселлеров — российского представительства украинской компании OWOX и отечественных агентств iConText, Adventum, «Кокос», AdLabs и i-Media.

По открытым источникам, сервисом BigQuery пользуются «М.Видео», «Юлмарт», «Связной», Ozon.Travel, «Эльдорадо», Onlinetours, Anywayanyday и «Вымпелком».

Amazon Web Services
Компания создана в 2006 году как облачный сервис хранения данных. В последние годы AWS расширяет линейку решений для больших данных. Это NoSQL-база данных Amazon DynamoDB, реляционная СУБД Amazon RDS, сервис анализа потоковых данных в режиме реального времени Amazon Kinesis, петабайтное хранилище данных Amazon Redshift, архив Amazon Glacier. Также AWS предоставляет Hadoop через облачный сервис Amazon Elastic MapReduce.

В рамках специальной программы поддержки AWS дает молодым предпринимателям бесплатный доступ к своим облачным ресурсам. Так что услугами компании пользуются многие российские и зарубежные стартапы. В прошлом году к программе AWS Activate присоединился фонд «Сколково», обеспечив своим резидентам доступ к продуктам Amazon.

Крупные внедрения

«Мегафон»

Оператор начал осваивать технологии обработки big data несколько лет назад. Основная цель компании — оптимизация затрат и улучшение обслуживания абонентов. В прошлом году «Мегафон» договорился с правительством Москвы предоставлять информацию о структуре столичного населения.

В 2013 году «Мегафон» занялся геоаналитикой — изначально для прогнозирования нагрузок на собственную сеть. Сегодня это направление выросло в отдельный сервис анализа пассажироперевозок для транспортных компаний. Приложение показывает объем пассажиропотока, популярные маршруты и раскладку по видам транспорта. В июле оператор начал переговоры с РЖД, предложив ей свое решение для прогнозирования популярных маршрутов. Совместный проект запустится не ранее 2020 года.

Пока направление big data приносит «Мегафону» около 1% выручки. Для работы с массивами больших данных телеком-оператор использует решения на базе платформы Hadoop. Приоритетом в этой работе компания считает конфиденциальность информации о клиентах, поэтому не привлекает к анализу сторонние разработки.

«Билайн»

Телекоммуникационный холдинг «Вымпелком» использует анализ больших данных для мониторинга качества обслуживания клиентов, подбора сервисов и тарифов, борьбы с мошенничеством и спамом, оптимизации работы колл-центра за счет прогнозирования причины обращения и других задач. Разработкой и внедрением решений в сфере big data занимается специальное подразделение. Массивы данных анализируют с помощью Hadoop, IBM SPSS, Apache Spark и Vowpal Wabbit.

В мае прошлого года «Вымпелком» представила пилотный проект «Умное оповещение». Технология позволяет предупреждать людей, находящихся в зоне чрезвычайной ситуации, а также тех, кто туда может попасть.

В конце мая 2015 года оператор запустил пилотный проект по оценке кредитоспособности своих абонентов. К эксперименту подключились около 20 банков. Они получают от «Вымпелкома» обезличенные скоринговые баллы, рассчитанные по платежам за мобильную связь, оплате услуг со счета мобильного оператора и даже данным геолокации.

В части больших данных компания сотрудничала с Генпланом Москвы, Департаментом транспорта Петербурга, а недавно выиграла тендер Департамента информационных технологий Москвы на SMS-информирование москвичей (сумма контракта 78 млн. рублей).

МТС

Решения для анализа больших данных корпорация внедряет с 2011 года. Информация о профиле потребления интернет-трафика, типах используемых устройств, круге общения и покупках абонента позволяет МТС делать абонентам персональные предложения. Статистику передвижений абонентов компания давно использует для прогнозирования нагрузки на сети. Эти же данные сотовый оператор предоставляет правительству Москвы в рамках совместного проекта по развитию городской инфраструктуры. Как ожидается, мобильная геоаналитика поможет властям определиться с размещением новых магистралей и станций метро. С банками МТС провела пилотный проект по скорингу абонентов. Продукт будет готов до конца года, после завершения технического решения по оценке рисков заемщика.

Также с помощью big data компания намерена прогнозировать поведение абонентов, бороться с мошенничеством, разрабатывать предложения на основе таргетинга, улучшать качество покрытия сети, повышать эффективность управления собственной розничной сетью и развивать радиосеть на основе абонентских данных. Для хранения и обработки данных оператор использует Apache Hadoop, Apache Spark, Cloudera Impala, БД Teradata и решения SAS.

Сбербанк

В стратегии банка на 2014-2020 годы говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчета бонусов для сотрудников и других задач.

По данным CNews, Сбербанк применяет Teradata, Cloudera Hadoop, Impala, Zettaset, стек продуктов Apache (Hadoop, HBase, Hive, Mahout, Oozie, Zookeeper, Flume, Solr, Spark и пр.), специализированные базы данных (Neo4j, MongoDB и т.д.) и собственные решения в области data mining, predictive/prescriptive-аналитики, обработки естественного языка.

В организации работает лаборатория по big data. Банк намерен подключить к анализу больше типов своих внутренних данных и задействовать внешние источники (например, данные из соцсетей). В марте Сбербанк купил рекламную платформу Segmento, чтобы использовать ее данные для персонализации предложений своих клиентам и привлечения новых. В июле банк привлек «Яндекс» в качестве консультанта по анализу больших данных.


ВТБ

Банк пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчетности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

За большие данные банк взялся в 2013 году. Он использует эти технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big Data Appliance и фреймворком Hadoop.

Возможности дополнительной монетизации своих массивов данных «Альфа-банк» видит в рекомендательных системах, анализе линейки продуктов и предиктивном анализе поведения клиентов.

Тинькофф-банк

С помощью EMC Greenplum, SAS Visual Analytics и Hadoop банк управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

Банк применяет big data для скоринга, противодействия мошенникам, оперативного получения отчетности, персонализации предложений, доскоринговой проверки репутации потенциальных заемщиков, предоставления информации регуляторам и других задач.

Источник информации: Как устроен рынок big data в России, Анна Соколова, экс-редактор раздела «Технологии» на Rusbase.

Главными покупателями решений больших данных, как уже сказано выше, являются банки и телеком-операторы, т.е. структуры которые накапливают и анализируют данные: о транзакциях, накоплениях, кредитах граждан, их личные и деловые переговоры, электронная переписка. Банки фактически уже национализированы, с ними все просто. Специально для телекомов приняли пакет Яровой, два законопроекта, декларировавшиеся их авторами как имеющие антитеррористическую направленность.

Поправки, вносимые этим набором дополнений в федеральное законодательство, можно условно разделить на следующие части:

  • расширение полномочий правоохранительных органов;
  • новые требования к операторам связи и интернет-проектам;
  • новые требования к перевозчикам-экспедиторам и операторам почтовой связи;
  • усиление регулирования религиозно-миссионерской деятельности

На реализацию требований пакета Яровой потребуются следующие затраты:

  • Почте России — 500 млрд руб. единовременных затрат на закупку необходимого оборудования и ежегодно по 100 млрд руб. на обслуживание этого оборудования и на зарплаты сотрудникам, занятым выполнением требований этого закона;
  • другим операторам почтовой связи и логистическим компаниям — до 180 млрд руб., что приведёт к увеличению стоимости доставки товаров и падению количества покупок в интернет-магазинах на 30—40 %;
  • сотовым операторам —2,2 трлн руб. (эту сумму указывали руководители МТС, Билайн, Мегафона и Теле2), что приведёт к росту стоимости услуг связи для конечных потребителей в 2—3 раза. При этом вся отрасль заработала за 2015 г. около 1,7 трлн руб., а средний ежегодный инвестбюджет у операторов «большой тройки» и «Ростелекома» — около 60—70 млрд рублей.
  • В Mail.Ru Group («ВКонтакте», «Одноклассники») оценили расходы на выполнение законопроекта в 1,2—2 млрд $.

По оценке Эдварда Сноудена, принятие закона обойдётся компаниям в 33 млрд долларов США. После принятия закона акции российских операторов сотовой связи упали в цене: акции МТС упали на 2,5%, МегаФона — на 1%.

Уже после подписания этого закона президентом выяснилось, что оборудования, необходимого для хранения таких гигантских объёмов данных, нет не только в России, но и во всём мире. В связи с этим Путин распорядился запустить собственное производство необходимого аппаратного обеспечения. К 1 сентября 2020 года он также поручил проанализировать возможность, сроки и затраты на организацию производства отечественного оборудования и программного обеспечения, нужного для хранения и обработки данных.

На выполнение требований закона Яровой Билайн в течение 5 лет планировал потратить 45, Мегафон — 35-40, МТС — 60 млрд руб. Агентство Fitch оценивало чистые убытки в 2,5-3,3 % от общей выручки, по сравнению с 2020 годом рост капитальных инвестиций составлял 14-23 %. В июне 2020 года интернет-операторы начали повышение тарифов на 8-10%, которое оправдывали затратами на закупку требуемого по законопроекту оборудования.

Соавтор закона Виктор Озеров среди возможных исполнителей указывал Ростех. Дочерняя структура этой фирмы — Национальный центр информатизации, по данным газеты «Ведомости», предлагала создать единый центр хранения и обработки данных, который бы предоставлял операторам связи «соответствующие услуги». Возможными выгодоприобретателями это издание также называло «Ростелеком», предложивший создать систему хранения данных на базе мощностей, которые сейчас используются поисковиком «Спутник».

Из вышеизложенного можно сделать следующие выводы:

Государство стремится к контролю Big Data в государственных банках напрямую, внедряя в том числе все необходимые программные решения.

Государство и спецслужбы, не имея возможности контролировать интернет и телекомы напрямую, решили переложить государственные функции по сбору и хранению данных на частные телекомы, чтобы с одной стороны подорвать их экономически, с другой стороны добиться реализации целей по получению и контролю над интересующими их данными.

Иррациональный страх государства и спецслужб перед высокими технологиями и получаемыми частными компаниями данными будет и дальше приводить к законодательному и административному ужесточению.

Блогер Джереми Эрдман в своей колонке на Medium рассуждает о недостатках больших данных. Он считает, что необходимо остановить этот растущий тренд, пока не поздно.

Технологии сильно прогрессировали. Большие данные и искусственный интеллект позволили нам лучше понимать мир вокруг и друг друга. Данные о наших интересах, онлайн-активности и покупках дают теперь более точную модель нашей личности и характера.

Итак, что же происходит, когда компании собирают и анализируют эту информацию не только для того, чтобы понять нас, но для того чтобы оказать на нас определенное влияние?

В марте о Cambridge Analytica не говорил разве что ленивый. Она прославилась благодаря скандалу с Facebook.

Компания использовала приложение Facebook «This Is your Digital Life», чтобы собирать информацию о 270 тысячах пользователей и их друзьях. В этом приложении пользователи должны были пройти викторину на определение личности, которая измеряла их уровень: открытости, добросовестности, экстраверсии, склонности чаще говорить «да», невроза.

После установки приложение запрашивало разрешение на доступ к личной информации: место проживания, список друзей и посты, которые пользователь отметил как понравившиеся. Cambridge Analytica взяла результаты оценки личности и сравнила их с информацией о 270 тысячах пользователей Facebook, установив взаимосвязи между определенными интересами и особенностями личности.

Cambridge Analytica была политической консалтинговой компанией, поэтому ей нужно было куда большее влияние. Приложение также собрало данные друзей, принявших участие в викторине пользователей.

В итоге Cambridge Analytica получила доступ к данным 81 миллиона пользователей Facebook. На основе установленных взаимосвязей компания составила личностные профили 81 миллиона человек. Затем она использовала их для таргетированной политической рекламы. Характер человека, его данные и предпочтения использовались для того, чтобы повлиять на его поведение как избирателя. Что дальше?

Что произойдет, когда эти данные будут использоваться не только для того, чтобы повлиять на поведение, а чтобы наказать тех, кто отказывается подчиняться?

Не говорит эксперт о главном, что появление таких компаний как Cambridge Analytica, и использование таргетированной политической рекламы, с последующим результатом на выборах, означает, что ликвидация национальных правительств и спецслужб произойдет на горизонте 10-20 лет, а на смену им придут технологичные молодые компании из поколения миллениалов, причем даже более молодые, чем традиционные компании из силиконовой долины.

Большие данные™ — большая ответственность, большой стресс™ и большие деньги™

Термин™ Big Data подпорчен современным фантастическим преувеличением новых вещей. Как ИИ поработит людей, а блокчейн построит идеальную экономику — так и большие данные™ позволят знать абсолютно все про всех и видеть™ будущее.

Но реальность, как всегда™, скучнее и прагматичнее. В больших данных™ нет никакой магии — как нет ее нигде — просто™ информации и связей™ между разными данными становится так много, что обрабатывать и анализировать все старыми способами становится слишком долго.

Появляются новые методы™. Вместе™ с ними — новые профессии. Декан факультета аналитики Big Data в GeekBrains Сергей™ Ширкин™ рассказал, что это за профессии, где они нужны, чем там надо заниматься и что надо уметь. Какие используются инструменты и сколько обычно™ платят™ специалистам.

Что такое «большие данные™»

Вопрос™ «что называть большими данными» довольно путаный. Даже в публикациях научных журналов описания расходятся. Где-то миллионы наблюдений считаются «обычными» данными, а где-то большими называют уже сотни тысяч, потому™ что у каждого из наблюдений есть тысяча™ признаков. Поэтому данные™ решили™ условно разбить на три части — малые, средние и большие — по самому™ простому принципу: объему™, который они занимают.

Малые данные™ — это считанные гигабайты. Средние — все, что около терабайта. Большие данные™ — около петабайта. Но путаницу это не убрало™. Поэтому вот критерий еще проще: все, что не помещается на одном сервере — большие данные™.

В малых, средних и больших данных™ разные™ принципы работы™. Большие данные™ как правило хранятся в кластере сразу на нескольких серверах. Из-за этого даже простые действия выполняются сложнее.


Например, простая задача™ — найти среднее значение величины. Если это малые данные™, мы просто™ все складываем и делим на количество. А в больших данных™ мы не можем собрать сразу всю информацию со всех серверов. Это сложно™. Зачастую надо не данные™ тянуть™ к себе, а отправлять отдельную программу на каждый™ сервер™. После работы™ этих программ образуются промежуточные результаты, и среднее значение определяется по ним.

Какие компании занимаются большими данными

Первыми с большими данными начали™ работать сотовые операторы и поисковые системы. У поисковиков становилось все больше™ и больше™ запросов, а текст тяжелее, чем цифры. На работу™ с абзацем текста™ уходит™ больше™ времени, чем с финансовой транзакцией. Пользователь ждет, что поисковик отработает запрос™ за долю секунды — недопустимо, чтобы он работал даже полминуты. Поэтому поисковики первые™ начали™ работать с распараллеливанием при работе™ с данными.

Чуть позже подключились различные финансовые организации и ритейл™. Сами транзакции у них не такие объемные, но большие данные™ появляются за счет того, что транзакций очень много.

Количество данных™ растет™ вообще™ у всех. Например, у банков™ и раньше™ было много данных™, но для них не всегда™ требовались принципы работы™, как с большими. Затем банки стали больше™ работать с данными клиентов. Стали придумывать более гибкие™ вклады™, кредиты, разные™ тарифы™, стали плотнее анализировать транзакции. Для этого уже требовались быстрые способы работы™.

Сейчас™ банки хотят анализировать не только™ внутреннюю информацию, но и стороннюю. Они хотят получать данные™ от того же ритейла, хотят знать, на что человек тратит™ деньги™. На основе™ этой информации они пытаются делать™ коммерческие предложения.

Сейчас™ вся информация связывается между собой. Ритейлу, банкам™, операторам связи и даже поисковикам — всем теперь™ интересны данные™ друг друга.

Каким должен™ быть специалист по большим данным™

Поскольку данные™ расположены на кластере серверов, для работы™ с ними используется более сложная инфраструктура. Это оказывает большую нагрузку на человека, который с ней работает — система должна™ быть очень надежной.

Сделать надежным один сервер™ легко. Но когда их несколько — вероятность падения возрастает пропорционально количеству, и так же растет™ и ответственность дата-инженера, который с этими данными работает.

Аналитик должен™ понимать, что он всегда™ может получить неполные или даже неправильные данные™. Он написал программу, доверился ее результатам, а потом узнал, что из-за падения одного™ сервера из тысячи™ часть данных™ была отключена, и все выводы™ неверны.

Взять, к примеру, текстовый поиск. Допустим все слова расположены в алфавитном порядке на нескольких серверах (если говорить очень просто™ и условно). И вот отключился один из них, пропали все слова на букву «К». Поиск перестал выдавать слово «Кино». Следом™ пропадают все киноновости, и аналитик делает™ ложный™ вывод, что людей больше™ не интересуют кинотеатры.

Поэтому специалист по большим данным™ должен™ знать принципы работы™ от самых нижних™ уровней — серверов, экосистем, планировщиков задач — до самых верхнеуровневых программ — библиотек машинного обучения, статистического анализа и прочего. Он должен™ понимать принципы работы™ железа™, компьютерного оборудования и всего, что настроено поверх™ него.

В остальном нужно знать все то же, что и при работе™ с малыми™ данным™. Нужна математика, нужно уметь программировать и особенно хорошо™ знать алгоритмы распределенных вычислений, уметь приложить их к обычным принципам работы™ с данными и машинного обучения.

Какие используются инструменты

Поскольку данные™ хранятся на кластере, для работы™ с ними нужна особая™ инфраструктура. Самая популярная экосистема — это Hadoop™. В ней может работать очень много разных™ систем™: специальных библиотек, планировщиков, инструментов для машинного обучения и многого другого. Но в первую™ очередь эта система нужна, чтобы справляться с большими объемами данных™ за счет распределенных вычислений.

Например, мы ищем самый популярный твит среди данных™ разбитых на тысяче™ серверов. На одном сервере мы бы просто™ сделали таблицу и все. Здесь мы можем притащить все данные™ к себе и пересчитать. Но это не правильно, потому™ что очень долго.

Поэтому есть Hadoop™ с парадигмами Map Reduce™ и фреймворком Spark. Вместо™ того, чтобы тянуть™ данные™ к себе, они отправляют к этим данным™ участки программы. Работа™ идет параллельно, в тысячу™ потоков. Потом получается выборка из тысячи™ серверов на основе™ которой можно выбрать самый популярный твит.

Map Reduce™ более старая™ парадигма, Spark — новее. С его помощью достают данные™ из кластеров, и в нем же строят™ модели™ машинного обучения.

Какие профессии есть в сфере больших данных™

Две основные профессии — это аналитики и дата-инженеры.

Аналитик прежде™ всего работает с информацией. Его интересуют табличные данные™, он занимается моделями. В его обязанности входит™ агрегация, очистка, дополнение и визуализация данных™. То есть, аналитик — это связующее звено между информацией в сыром виде и бизнесом.

У аналитика есть два основных направления работы™. Первое™ — он может преобразовывать полученную информацию, делать™ выводы™ и представлять ее в понятном виде.

Второе™ — аналитики разрабатывают приложения, которые будет работать и выдавать результат автоматически. Например, делать™ прогноз по рынку ценных™ бумаг каждый™ день.

Дата-инженер — это более низкоуровневая специальность. Это человек, который должен™ обеспечить хранение, обработку и доставку информации аналитику. Но там, где идет поставка и очистка — их обязанности могут пересекаться.

Дата-инженеру достается вся черная™ работа™. Если отказали системы, или из кластера пропал™ один из серверов — подключается он. Это очень ответственная и стрессовая работа™. Система может отключиться и в выходные, и в нерабочее время, и инженер должен™ оперативно предпринять меры.

Это две основные профессии, но есть и другие™. Они появляются, когда к задачам, связанным с искусственным интеллектом, добавляются алгоритмы параллельных вычислений. Например, NLP-инженер. Это программист, который занимается обработкой естественного языка, особенно в случаях, когда надо не просто™ найти слова, а уловить смысл текста™. Такие инженеры пишут программы для чат-ботов и диалоговых систем™, голосовых помощников и автоматизированных колл-центров.

Цукерберг рекомендует:  Проверка орфографии - Ошибка в JavaScript

Есть ситуации, когда надо проклассифицировать миллиарды картинок, сделать модерацию, отсеять лишнее™ и найти похожее. Эти профессии больше™ пересекаются с компьютерным зрением.

Вы можете™ посмотреть самые свежие™ вакансии, связанные с большими данными, и подписаться на новые вакансии.

Сколько времени занимает обучение

У нас обучение идет полтора года. Они разбиты на шесть четвертей. В одних идет упор на программирование, в других™ — на работу™ с базами™ данных™, в третьих — на математику.

В отличии, например, от факультета ИИ, здесь поменьше математики. Нет такого™ сильного упора на математический анализ™ и линейную алгебру. Знания™ алгоритмов распределенных вычислений нужны больше™, чем принципы матанализа.

Но полтора года достаточно для реальной работы™ с большими данными только™ если у человека был опыт работы™ с обычными данными и вообще™ в ИТ. Остальным студентам после окончания факультета рекомендуется поработать с малыми™ и средними данными. Только™ после этого специалиста могут допустить к работе™ с большими. После обучения стоит поработать дата-саентистом — поприменять машинное обучение на разных™ объемах данных™.

Когда человек устраивается в большую компанию — даже если у него был опыт — чаще всего его не допустят до больших данных™ сразу, потому™ что цена ошибки™ там намного выше. Ошибки™ в алгоритмах могут обнаружиться не сразу, и это приведет к большим потерям.

Какая зарплата считается адекватной для специалистов по большим данным™

Сейчас™ есть очень большой кадровый голод среди дата-инженеров. Работа™ сложная, на человека ложится много ответственности, много стресса. Поэтому специалист со средним опытом™ получает около двухсот тысяч. Джуниор — от ста до двухсот.

У аналитика данных™ стартовая зарплата может быть чуть меньше™. Но там нет работы™ сверх рабочего времени, и ему не будут звонить в нерабочее время из-за экстренных случаев.

По данным™ зарплатного кулькулятора «Моего круга», средняя зарплата специалистов, чьи профессии связанны с большими данными — 139 400 рублей™. Четверть специалистов зарабатывает более 176 000 руб. Десятая часть — более 200 000 руб.

Как готовиться к собеседованиям

Не нужно углубляться только™ в один предмет. На собеседованиях задают™ вопросы по статистике, по машинному обучению, программированию. Могут спросить про структуры данных™, алгоритмы, про кейсы из реальной жизни: упали сервера, случилась авария™ — как устранять? Могут быть вопросы по предметной сфере — то, что ближе к бизнесу.

И если человек слишком углубился в одну математику, и на собеседовании не сделал™ простое задание по программированию, то шансы на трудоустройство снижаются. Лучше иметь средний уровень по каждому направлению, чем показать себя хорошо™ в одном, а в другом™ провалиться полностью.


Есть список™ вопросов, которые задают™ на 80 процентах собеседований. Если это машинное обучение — обязательно спросят про градиентный спуск. Если статистика — нужно будет рассказать про корреляцию и проверку гипотез. По программированию скорее™ всего дадут небольшую задачу™ средней сложности. А на задачах можно легко набить™ руку — просто™ побольше их решать™.

Где набираться опыта самостоятельно

Python™ можно подтянуть на Питонтьютое, работы™ с базой данных™ — на SQL-EX. Там даются™ задачи™, по которым на практике учатся™ делать™ запросы.

Высшая™ математика — Mathprofi. Там можно получить понятную информацию по математическому анализу, статистике и линейной алгебре. А если плохо со школьной программой, то есть сайт youclever.org.

Распределенные же вычисления тренировать получится только™ на практике. Во-первых™ для этого нужна инфраструктура, во-вторых™ алгоритмы могут быстро™ устаревать. Сейчас™ постоянно появляется что-то новое.

Какие тренды™ обсуждает сообщество

Постепенно набирает силу еще одно направление, которое может привести к бурному росту количества данных™ — Интернет вещей (IoT). Данные™ такого™ рода поступают с датчиков устройств, объединенных в сеть, причем™ количество датчиков в начале™ следующего десятилетия должно™ достигнуть десятков миллиардов.

Устройства самые разные™ — от бытовых приборов до транспортных средств и промышленных станков, непрерывный поток информации от которых потребует дополнительной инфраструктуры и большого числа высококвалифицированных специалистов. Это означает, что в ближайшее время возникнет острый™ дефицит дата инженеров и аналитиков больших данных™.

Big Data — большая ответственность, большой стресс и деньги

Наушники на каждый день от Case Guru — CGPods Sport

Сейчас многие идут путем «локализации» товаров с Aliexpress, присваивая новые имена уже относительно стабильным товарам. Один из самых громких примеров недавнего времени — вновь возникший бренд электроники от рэп-тусовки.

Разбираемся в числах с плавающей точкой (часть 0)

Числа с плавающей точкой — очень мощный инструмент, которым надо уметь правильно пользоваться. Они не столь банальны, как целочисленные регистры, но и не столь сложны, если в них грамотно и потихоньку вникнуть.

Чтобы освоить эту статью, надо знать следующее: что такое бит, двоичная система, арифметика на уровне знания отрицательных степеней. В статье не будут затронуты инженерные подробности реализации на уровне процессора а также нормализованные и денормализованные числа. Больший упор сделан на перевод числа в двоичную форму и наоборот, а также объяснение того, как вообще хранятся числа с плавающей точкой в виде битов.

Большие данные как большие риски

Бёрд Киви

13 сентября 2020

⇡#Проблемы разные – суть одна

В ленту текущих новостей из разных концов планеты недавно попали три сообщения, рассказывающие о существенно разных, казалось бы, проблемах у людей и властей в связи с особенностями новейших инфотехнологий. Единственное, на первый взгляд, что их объединяет, – это общая тема рисков и угроз, с которыми сталкивается общество по мере все более масштабного освоения Больших данных.

Но вот если с этими неприятностями начать разбираться чуть внимательнее, то довольно быстро становится ясно, что на самом деле речь везде идет о разных сторонах одной и той же проблемы. Такого рода серьезные вещи обычно принято именовать «системными дефектами конструкции». Специалисты-профессионалы об этой беде, конечно же, отлично знают. Вот только как это дело эффективно лечить – вопрос более чем дискуссионный, поскольку варианты ответов сильно зависят от того, кому они адресованы.

Иначе говоря, владельцы баз с Большими данными трактуют безопасность системы одним образом; профессионалы ИТ-сектора, занимающиеся разработкой и анализом защиты подобных систем, видят проблемы по-другому; ну а те люди, чьи персональные данные накапливаются и обрабатываются в этих системах в гигантских количествах, представляют себе заботу об их личной, чувствительной к разглашениям информации существенно иначе — по-третьему.

Проиллюстрировать суть возникающих здесь проблем и коллизий, ясное дело, удобнее всего на живых примерах. Самое время процитировать сообщения из ленты текущих новостей.

В Индии члены Верховного суда своим единогласным решением постановили, что персональная приватность, или право на тайну личной жизни, является фундаментальным правом каждого человека. Теперь вердикт высшей в стране судебной инстанции не только должен оказать существенное влияние на то, каким образом корпорации обращаются с персональными данными граждан, — он уже нанес серьезный удар по намерениям нынешнего правительства во главе с Нарендрой Моди. Это самое правительство пыталось доказать, что право на приватность не является фундаментальным правом человека, защищаемым конституцией, а потому все граждане якобы обязаны предоставлять свои отпечатки пальцев, снимки радужки глаза и прочую биометрию в общенациональную биометрическую базу данных, присваивающую на этой основе каждому индийцу уникальный номер-идентификатор.

Новость номер два: в Швеции разгорелся серьезный политический скандал вокруг национального транспортного агентства. Высшее руководство этого правительственного ведомства решило сэкономить на расходах, воспользовавшись столь модным нынче аутсорсингом – перенеся свои базы данных в облачное хранилище компании IBM, территориально расположенное в другой стране. Вообще говоря, законы Швеции подобные вещи не запрещают. Вот только именно в этом конкретном случае базы данных агентства содержат немало такой информации, которая может классифицироваться как государственная тайна (например, персональные данные всех водителей транспортных средств в вооруженных силах и спецслужбах; данные обо всех гражданах, сменивших имена по государственной программе защиты свидетелей; ну и прочие подобные сведения весьма деликатного характера). Однако позаботиться о том, чтобы доступ ко всем этим сведениям, размещенным в зарубежном хранилище, имели исключительно люди с соответствующим образом оформленным допуском к секретам, руководство агентства почему-то не сочло необходимым. Попутно оно наделало и других ошибок, скомпрометировавших доверенные им массивы чувствительных к разглашению данных.

Из США пришла новость номер три — о серьезном конфликте, назревшем между крупными полицейскими управлениями мегаполисов (Лос-Анджелеса и Нью-Йорка), с одной стороны, и знаменитой датамайнинговой компанией Palantir — с другой. Поначалу мощные системы Palantir были разработаны для помощи в аналитической работе разведывательного сообщества и спецслужб типа ФБР – чтобы увязывать, синтезировать и визуализировать большие массивы разнородных данных из множества источников.

А еще через несколько лет, когда системы анализа БД от Palantir начали охватывать не только особо скрытные федеральные спецслужбы, но и региональные управления полиции, попутно стали появляться и сигналы о существенных проблемах с этим инструментарием. В частности, ныне стало известно, что системы Palantir не обеспечивают эффективное «секционирование» (compartmentation) информации, то есть не способны надлежащим образом контролировать выдачу секретных сведений разным пользователям – будь то внутри одного учреждения или даже при объединении данных от разных ведомств. По этой причине – в конкретных условиях полиции – тайный осведомитель отдела по борьбе с организованной преступностью становится видимым и известным, к примеру, для сотрудников дорожной полиции и для полицейских совсем других подразделений. Последствия таких утечек, как несложно догадаться, могут оказываться весьма трагическими.

Из трех приведенных примеров уже понятно, наверное, что правильная работа с Большими данными – это дело весьма и весьма непростое. А грубейшие ошибки здесь продолжают регулярно совершать даже те профессионалы, которых принято считать лидерами отрасли. Поэтому для более глубокого понимания проблем каждую из перечисленных новостей имеет смысл разобрать чуть подробнее – за конкретными национальными особенностями во всех этих историях отчетливо проступают нерешенные задачи универсального характера.

⇡#Аадхаар, или Кошмар с безопасностью

Во всем, что касается озабоченности рядовых граждан своей приватностью как фундаментальным правом на тайну личной жизни, Россия гораздо больше похожа на Индию, нежели на страны Западной Европы или США. Это, как говорится, самоочевидный факт. Убедиться в котором обычно проще простого – достаточно лишь заглянуть в национальные СМИ и обратить внимание, насколько редко там обсуждаются проблемы вторжения государства и корпораций в область приватной жизни граждан.

В Индии, однако, эта ситуация довольно резко переменилась в феврале нынешнего года – когда об откровенных посягательствах на приватность начали вдруг говорить и писать чуть ли не все. Не то чтобы причиной, а скорее поводом для давно назревшего обсуждения проблемы – сначала в обществе, а затем и в Верховном суде – стал один твит.

Суть данного твита, опубликованного 3 февраля 2020 года, заключалась в наглядной демонстрации того, насколько легко и быстро можно устанавливать ныне личности случайных людей из толпы. Это делается благодаря системе «Аадхаар», охватившей уже практически все население Индии централизованной базой данных, в которой накоплена биометрическая информация на более чем миллиард граждан страны.

Название Aadhaar переводится как «фундамент» или «основы». А означает это то, что власти Индии в качестве основ своей государственности решили провозгласить создание общенациональной базы данных для биометрической верификации личности. Единой и тотальной базы на все население страны с гигантской численностью, 1,2 миллиарда человек, – начиная с младенцев и заканчивая глубокими стариками.

Биометрическая основа Aadhaar задумана и реализована так, чтобы на каждого человека в базе имелись отпечатки всех пальцев на руках, снимок радужки глаза, цифровая фотография лица плюс текстовое описание особенностей в наружности резидента. Итогом же занесения людей в базу является выдача им уникального идентификационного номера на специальной Aadhaar-карте.

Формально участие граждан в наполнении базы «Аадхаар» объявлено делом как бы добровольным. Однако в реальности вся эта система выстроена таким образом, что совершить практически любую необходимую по жизни официальную процедуру человек теперь может лишь в том случае, если предъявит свой ИД-номер и часть тела для сканирования-верификации – как правило, радужку глаза или отпечаток пальца. Биометрическая проверка личности увязана, в частности, с любыми услугами и получением буквально всего — от талонов на еду, социальных субсидий и топлива для кухни до водительских прав, расчетного счета в банке, кредитов, страховки, пенсии и так далее.

Гигантская же проблема с Aadhaar заключается вот в чем. С одной стороны, никто в обществе толком не представляет, как устроено в этой системе обеспечение защиты, целостности и верификации данных. А с другой — регулярно появляющиеся в СМИ публикации свидетельствуют, что средства безопасности работают в базе не просто плохо, а очень плохо. Для примера: в данных «Аадхаар» уже многократно выявлены заведомо неверные и фальшивые записи. Под эту категорию, в частности, подпадают такие случаи, когда собственные ИД-номера и карточки оформлены на собак и коров. В другом нашумевшем случае было обнаружено, что персональная карта заведена на Ханумана, одного из богов индуистского пантеона.

Даже неспециалисты понимают, что систематическое появление ложных данных в такой системе – это признаки создания новых каналов для отмывания денег и прочих форм мошенничества. Причина же очевидных проколов, судя по всему, заключается в том, что база данных Аадхаар никогда по-настоящему не проходила подобающие процедуры аудита и верификации.

Так, во всяком случае, считают многие специалисты по инфобезопасности, а также юристы, правозащитники и политики, пытавшиеся ознакомиться с работой системы поглубже. Но многочисленные призывы оппозиции к независимому и открытому аудиту Aadhaar, обращения правозащитников и требования профессионалов инфозащиты остаются в правительстве, по сути дела, без ответа.

Именно по этой причине общественность Индии сочла чрезвычайно важным нынешнее решение Верховного суда о том, что персональная приватность является фундаментальным гражданским правом каждого человека. А чтобы стало понятнее, отчего признанию этой идеи так активно сопротивляется правительство и почему данный конфликт теснейшим образом связан с развертыванием системы «Аадхаар», имеет смысл прояснить такие моменты.

Общепринятая в мире юридическая практика такова, что признание фундаментальных прав людей на тайну приватной жизни сопровождается принятием соответствующего государственного закона о приватности и защите персональных данных. Причем в подлинно демократических странах (к которым Индия, безусловно, себя относит) законы подобного рода обычно требуют, чтобы все граждане, на которых собираются их персональные данные, включая и биометрию, не только знали, кто и зачем это делает, но и могли бы со своей стороны проконтролировать достоверность и актуальность накапливаемой о них в базах данных информации.

Ну а нынешняя ситуация в Индии такова, что в государстве до сих пор нет никакого четкого законодательства, которое могло бы защищать приватность и права миллиарда с лишним человек, предоставивших в базу Aadhaar свои данные. Мало того, что система работает абсолютно непрозрачно, так у людей при этом нет ни инструментов, ни возможностей каким-то образом контролировать или менять свои данные в базе в тех ситуациях, когда они оказываются скомпрометированы. Ибо жульничеством с биометрией уже никого не удивишь, кражи личности с целью мошенничества – в подобных централизованных базах дело обычное, а изменить свое лицо, радужку глаза или отпечатки пальцев граждане, ясное дело, уже не могут.

И дабы этих неприятностей не показалось мало, еще одним очень существенным фактором в разворачивании Aadhaar стала энергичная коммерциализация системы. Иначе говоря, вокруг своей тотальной базы данных, охватившей все население, власти совершенно официально создали и активно наращивают специальную коммерческую инфраструктуру India Stack. Ее цель – обеспечивать разнообразные формы сотрудничества между правительственными ведомствами и частными компаниями, которым предлагается опереться на богатейшие возможности Аадхаар по персональной идентификации всех людей, внесенных в базу.

Демонстрацией именно этих замечательных возможностей и была, собственно, нашумевшая twitter-публикация в феврале, отметившая таким образом плодотворное сотрудничество между India Stack и коммерческой фирмой OnGrid. Таких компаний, подобно OnGrid уже подключившихся к освоению Aadhaar, ныне насчитывается свыше двух сотен. А это означает, что у граждан Индии сегодня нет не только возможности проконтролировать состояние и защиту записей о своей личности в центральной базе данных, но и никакой информации о том, сколько еще десятков или сотен компаний купили у правительства доступ ко всем их персональным данным ради наращивания собственных прибылей.


Самое же примечательное, что наиболее характерные особенности – настойчивое желание сохранять непрозрачность системы Больших данных в сочетании с мощным коммерческим фактором – свойственны не только конкретной ситуации в Индии, но и всем прочим новостям о проблемах в данной области.

⇡#Большая шведская утечка

В последних числах июля 2020 года серьезнейший ИТ-скандал в Швеции заставил главу правительства Стефана Лёвена отправить в отставку двух министров – министра внутренних дел Андерса Игемана и министра инфраструктуры (транспорта) Анну Йоханссон. Блок оппозиционных партий требовал также отставки министра обороны Петера Хультквиста, замешанного в скандале не меньше уволенных коллег, однако его было решено оставить на посту – «дабы не вызывать общий правительственный кризис» в государстве.

Из весьма скупых и лаконичных комментариев премьер-министра Лёвена на экстренной пресс-конференции по поводу отставок стало известно, что произошедшее – «это очень серьезное дело, подвергшее риску Швецию и жизни шведских граждан». Из-за неправильной работы с национальной информационной системой в бесконтрольном доступе оказались личные данные практически всех граждан Швеции, включая военных, сотрудников спецслужб и полиции.

Хотя публично известно о данной утечке стало лишь только летом 2020-го, на самом деле история эта началась довольно давно, еще весной 2015 года. Более того, если судить формально, то можно говорить, что по большому счету она все еще продолжается. Причину такого казуса удобнее пояснить чуть позже. А пока куда полезнее просто обратить внимание на то, насколько больше власти здесь были озабочены сохранением своих проколов в тайне, нежели исправлением очевидно неблагополучной ситуации с защитой данных.

Когда же о произошедшем все-таки стало известно народу, а за собственные расследования взялись журналисты и инициативные энтузиасты от общественности, восстановленная ими суть истории стала выглядеть вкратце так. Фактически компрометация безопасности правительственной инфосистемы произошла в марте 2015 года, когда государственное транспортное агентство всю работу по поддержанию своих баз данных переложило по коммерческому контракту на корпорацию IBM и на её технические ресурсы (включая людской персонал), базирующиеся в республике Чехия.

Примерно таким же аутсорсингом и размещением своих данных во внешних облачных сервисах занимаются ныне чуть ли не все, особенно если хочется сэкономить. Однако именно в данном конкретном случае критично важным результатом предпринятого шага стало вот что. Огромные массивы чувствительной к разглашению информации, включая полный национальный реестр Швеции по водительским лицензиям и сведения о гражданах с засекреченными по той или иной причине персональными данными, оказались доступны посторонним людям, в основном иностранцам, которые не проходили никакой проверки в службах безопасности Швеции на предмет доступа к гостайне.

Что именно там было скомпрометировано, в каких масштабах и с какими именно базами – практически всё это является предметом домыслов и фантазий, не подтверждаемых какими-либо конкретными документами. Ведь правительство и поныне изо всех сил старается сократить до минимума любые утечки о конкретных фактах произошедшего. Но вот в тех ситуациях, когда непосредственными свидетелями явно некомпетентного обращения с секретными сведениями оказывались очень многие коммерческие клиенты транспортного агентства, утаивать очевидное становилось уже совершенно невозможно. Особую известность, в частности, обрел такой недавний случай.

С наступлением весны, в марте, агентство подготовило свежую версию полного реестра транспортных средств Швеции и их владельцев – распространив его среди всех маркетинговых и бизнес-структур, купивших подписку на данную рассылку. Само по себе это вполне нормально, поскольку реестр транспортных средств является публично доступной информацией. Но кое-что с этой рассылкой пошло совсем не так, как должно было.

Во-первых, в открытый реестр, распространяемый для всех желающих по коммерческой рассылке, оказались включены люди, чье настоящее имя было изменено по программе защиты свидетелей и прочим подобным государственным программам.

А во-вторых, когда эта грубейшая ошибка была обнаружена, агентство не стало рассылать новую, подчищенную версию реестра с инструкцией уничтожить прежний вариант как ошибочный. Вместо этого все уже и без того скомпрометированные имена были собраны в отдельный перечень, и теперь уже данный поименный список разослали еще раз открытым письмом по электронной почте – с требованием, чтобы подписчики сами занялись уничтожением в реестре всех записей на перечисленных в списке людей.

Следует подчеркнуть, что это всего лишь один из достоверно известных ляпов. Сколько же их было всего и насколько серьезными были раскрываемые при этом сведения – такой информации публика не имеет. Но зато хорошо известно, кого и когда назначили главным виновником столь серьезных и систематических нарушений в правилах обращения с данными конфиденциального и секретного характера.

В официальном заявлении нового руководства транспортного агентства сообщается, что их бывшая генеральная директриса Мария Агрен одобрила контракт с IBM на аутсорсинг, хотя он нарушал сразу несколько законов страны: закон о национальной безопасности, Закон о защите личных данных и Закон о публичности и приватности. В качестве наказания за допущенные нарушения госпожа Агрен в начале 2020 года была уволена и оштрафована на 70 000 крон «за беспечность с секретной информацией» (в пересчете на более известную валюту эта сумма составляет около 8,5 тысяч долларов и равна половине ее ежемесячной директорской зарплаты).

За скупыми словами этой официальной информации, однако, очевидно скрывается куда более мутная и масштабная история. Независимые расследования показали, что шведская контрразведка, военные и прочие информированные люди в правительстве знали обо всех нарушаемых здесь законах страны если и не заранее, то как минимум с начала 2020 года. Однако наказать Марию Агрен решили только в январе 2020-го, когда случился особо серьезный прокол, о котором стало известно премьер-министру Лёвену.

Глава же правительства, судя по всему, счел происходящее делом чрезвычайно серьезным и требующим пресечения и наказания. Так что уже в марте 2020-го дело бывшего гендиректора агентства было рассмотрено в суде, так же стремительно был вынесен и вердикт о её «виновности». Вот только наказание за это уголовное преступление оказалось в высшей степени странным и непонятным – административный штраф в размере половины месячной зарплаты.

Непонятными эти события, впрочем, выглядят лишь для тех, кто слабо разбирается в тонкостях шведской судебно-правовой кухни. А вот для людей, знакомых с правилами и особенностями юридических процедур, суть произошедшего представляется достаточно ясной. Поскольку наказание административным штрафом уже не может быть пересмотрено в случае признания вины обвиняемой стороной (а именно так и произошло), то теперь публика никак не сможет увидеть никаких документов, собранных и рассматривавшихся судом по этому делу. Иначе говоря, фактически тут был ловко и профессионально выполнен известный трюк типа «концы в воду».

Казалось бы, понятно, что директор государственного агентства совершила преступление. Она подписала документ, санкционировавший «исключение из текущего законодательства», – а это нечто такое, чего делать никаких прав у нее не было. Директор правительственного учреждения не может по собственному выбору подчиняться или не подчиняться закону. Однако от адвокатов Агрен стало известно, что, с её точки зрения данная ситуация выглядела существенно иначе.

Линия защиты на слушаниях в суде сводилась к тому, что «отход от текущего законодательства», который она лично санкционировала, не только считался вполне приемлемым в нынешних обстоятельствах, но и не был чем-то новым – «раньше такого рода решения уже принимались, поскольку это часть процесса, который позволялось применять при необходимости». Иначе говоря, если бы публика имела возможность копнуть данную историю поглубже, то стало бы понятнее, отчего именно Марию Агрен назначили тут крайней.

Все примерно то же самое было в других ведомствах и раньше, ей же просто сильно не повезло, похоже, с тем, что облако IBM именно в данном случае оказалось расположено в Восточной Европе. Кроме того, по словам Агрен, она всегда работала в гражданском учреждении, а с вступлением на высокий пост с ней никто не проводил никаких специальных инструктажей об аспектах безопасности этой работы. Так что она в подобных условиях просто старалась делать всё так же, как и остальные, только еще лучше. Почему же спецслужбы Швеции, давно знавшие о том, кто и где работает с базами транспортного агентства, только в 2020 году решили озаботиться подбором соответствующих кадров с допуском к гостайне – и обещают их укомплектовать «где-то к концу осени»? На этот естественный вопрос внятного ответа у властей нет.

Из лагеря шведских правозащитников, которые активно выступают за более эффективные инструменты, обеспечивающие право граждан на приватность, по поводу всей данной истории вполне резонно прозвучала следующая идея. Уж если государство оказывается столь неуклюжим и некомпетентным в защите собственных тайн и персональных данных своих секретных сотрудников, то что тут вообще можно говорить о защите государством персональной информации обычных граждан? Вполне возможно, что нечто компетентное и содержательное на данный счет могла бы поведать еще одна важнейшая фигура шведского скандала – американская корпорация IBM. Однако там, по давно уже заведенным известным правилам, полностью дистанцировались от внутренних политических разборок в скандинавском государстве и вообще отказываются от каких-либо комментариев к данной истории.

⇡#Парадоксальный бизнес Palantir

Случилось так, что корпорация IBM некоторым существенным, но одновременно незаметным образом оказывается непосредственно замешана и в третьей из разбираемых в этом материале новостей. Но здесь (точнее, в США) центральной фигурой конфликта являются не системы IBM, а их главный конкурент в области датамайнинговых услуг для властей – корпорация Palantir Technologies.

Ну а поскольку две уже выявленных ранее проблемы в теме «государство и Большие данные» – непрозрачность системы и активная коммерциализация информации – в специфическом бизнесе Palantir проступают особенно ярко и отчетливо, имеет смысл рассмотреть эту историю как своего рода эталон. Или как архетипический образец, наглядно демонстрирующий не только корневые причины серьезных проблем, но и то, почему решить их в нынешних условиях, по сути, невозможно – на принципиальном уровне.

Как многим, вероятно, известно, термин «палантир» появился в нашем лексиконе из толкиеновской эпопеи «Властелин колец», где данным словом именуют магические каменные шары, позволяющие их владельцам знать и видеть всё, что происходит в мире Средиземья. Аналитические компьютерные системы Palantir делают для их владельцев по сути то же самое – накапливая, просеивая и сопоставляя гигантские массивы самых разных данных и выстраивая на этой основе визуально внятные картины событий со взаимосвязями между их участниками.

Подробности о создателях и лидерах, о занятной истории восхождения Palantir Tech и не менее любопытных идеологических основах этой фирмы можно найти в материале «Бизнес на мифах». Ну а здесь следует рассказать о тех особенностях ее продукции, благодаря которым бизнес молодой и «как бы либертарианской» компании стал гиперуспешным за счет государственных заказов – с одной стороны. А с другой — уже успел ярко продемонстрировать, что опора властей на системы Palantir – это, очевидно, путь «не туда», если для государства важнее интересы общества, а не прибыли корпорации. В сообщениях из текущей ленты новостей, естественно, никто столь сильных обобщений не делает. Однако неоспоримые факты тут говорят сами за себя. Надо лишь соответствующим образом на эти факты смотреть. Иначе говоря, далее будут рассмотрены не просто свежие новости о Palantir, но и то, что они означают в более общем контексте.

Одна новость — про руководство NYPD, крупнейшего в США регионального управления полиции нью-йоркского мегаполиса, которое сильно повздорило с корпорацией Palantir из-за ее «волшебной» системы анализа. Точнее говоря, причиной конфликта стала не собственно система, уже несколько лет применяемая в NYPD, а трудности перехода полицейских к более дешевому и более удобному для них альтернативному ПО, разработанному корпорацией IBM.

Причина же затруднений здесь такова, что всю ту бездну информации, которая была наработана полицией в их системе за время эксплуатации, Palantir категорически отказывается переносить в систему IBM, ссылаясь на защиту своих ценнейших «коммерческих тайн». Точнее говоря, они с готовностью и сразу выдают все первичные или сырые данные, на основе которых база наполнялась. Но вот самое главное – собственно аналитику – выводить для переноса отказываются наотрез. Ибо это раскроет их методы обработки, то есть главную интеллектуальную собственность корпорации.

Суть обозначившегося здесь конфликта имеет смысл обрисовать как можно отчетливее. Формально имеется работающая исключительно на общество правоохранительная структура, а также есть некая бизнес-фирма, технически обслуживающая эту структуру в своих сугубо коммерческих интересах. В реальном же итоге оказывается так, что вся действительно необходимая для работы информация, формально собранная полицией и как бы ей принадлежащая, на самом деле принадлежит бизнес-фирме, которая отдавать её на защиту общества решительно не желает – по причине своих сугубо шкурных коммерческих интересов.

Новость другая – о проблемах с системой Palantir у полицейских LAPD, еще одного крупнейшего в США управления полиции — лос-анджелесского. Проблемы тут обозначились существенно иного рода, однако и они очень наглядно рисуют, сколь опасным сочетанием оказываются для государства непрозрачность и коммерция при анализе Больших данных.

Одним из главных факторов для аналитических успехов системы Palantir является как можно более широкий охват разнообразных источников входной информации. В частности, для эффективной работы с полицейскими базами данных оказывается очень полезным не только просеивать и сопоставлять записи разных баз одного региона, но и одновременно выявлять их взаимосвязи с записями в базах других регионов. Поскольку при таком расширении общей базы не только повышается эффективность полицейской аналитики, но и заметно растут прибыли корпорации, в Palantir очень энергично работают над увеличением числа клиентов в регионах, предоставляя существенные скидки всем новичкам.

Столь замечательная бизнес-стратегия, однако, находится в сильнейшем противоречии с известным принципом «секционирования» информации, общепринятым в работе структур, которые имеют дело с секретными сведениями. Проще всего суть этого принципа можно пояснить на основе прямоугольной таблицы, где строки соответствуют разным уровням допуска сотрудников к гостайне – «для служебного пользования», «секретно», «совершенно секретно», «особой важности». А колонки таблицы – это разные секретные дела или «объекты», с которыми работает именно данное ведомство. Тогда любой из сотрудников этого ведомства имеет доступ лишь к той информации, которая находится в клетках или «секциях» таблицы, соответствующих (а) уровню их общего доступа к гостайне и одновременно (б) разрешению на доступ к сведениям конкретно по данному объекту.

Официально провозглашается, что в аналитических программах Palantir эти ясные принципы реализованы совершенно замечательно. Здесь не только имеется строгая система допусков, гарантирующая, что всякий сотрудник может получить доступ к данным исключительно на уровне своих полномочий, но и автоматически создается аудиторский след, в котором фиксируется всё – кто именно видел определенные фрагменты информации и что именно с этими фрагментами делалось.

В реальной работе лос-анджелесской полиции, однако, вся эта картина выглядит существенно иначе (наверняка то же самое происходит и у других пользователей системы, но их недовольство просто не доходит до прессы). Сотрудники спецподразделения LAPD, занимающиеся борьбой с организованной преступностью, на протяжении многих и многих месяцев безуспешно пытались добиться от Palantir всего лишь того, чтобы особо чувствительные файлы о людях и операциях, которые они помечают конфиденциальными, не становились свободно доступными для всех остальных пользователей системы. Однако даже эта тривиальная, казалось бы, техническая проблема оказывается практически неразрешимой, когда для корпорации-подрядчика гораздо важнее максимально широкий охват анализируемой информации, нежели узкие интересы копов-оперативников.

Описанные здесь проблемы – это не что-то новое и неожиданное. Все подобные трудности с большими базами данных известны профессионалам очень давно. Как они выражаются, «приватность масштабируется очень плохо». И если в работе секретных спецслужб об этой серьезнейшей беде широко вещать обычно не принято (как и обо всех прочих гостайнах), то в работе всеобщей системы здравоохранения – где в обращении с деликатными данными пациентов прослеживается много аналогий – о том же самом специалисты по инфозащите говорят давно и громко.

Медицинские базы данных с цифровыми картами пациентов очень полезны врачам, и все там работает замечательно – когда штат из 20 человек в медицинском учреждении имеет доступ к медкартам десяти тысяч пациентов, зарегистрированных в их картотеке. Но вот когда создается единая централизованная система, позволяющая каждому доктору или медсестре данной страны просматривать медицинские записи любого пациента – это всегда получается однозначно плохо и тут же ведет к злоупотреблениям разной тяжести (от сливов сведений о болезнях знаменитостей в таблоиды до отказов людям в работе, кредитах или в страховке на основании данных об их здоровье в цифровых медкартах, считающихся как бы «приватной информацией», а на самом деле доступных кому угодно).

Всем понятно, что решать проблему по-любому необходимо – все базы Больших данных постоянно только прирастают, а отказываться от их преимуществ совершенно никак невозможно. Но одновременно понятно и то, что простых и эффективных решений по защите данных здесь, похоже, не существует. Ярчайшим подтверждением тому являются регулярные и мощные сливы информации из наиболее секретных недр разведслужб – начиная с демарша Эдварда Сноудена и заканчивая массами свежих публикаций о хакерском инструментарии АНБ и ЦРУ США. Причем сами спецслужбы оказываются зачастую не в силах как определить то, кто именно стоит за компрометацией, так и оценить объемы скомпрометированных данных.

Отсюда понятно, наверное, что с защитой приватности для всех обычных граждан государство разберется не раньше, чем решит проблемы с массовыми утечками компромата из спецслужб. А это две стороны одной и той же проблемы.

digitech

Большие данные — большая ответственность, большой стресс и большие деньги

Термин Big Data подпорчен современным фантастическим преувеличением новых вещей. Как ИИ поработит людей, а блокчейн построит идеальную экономику — так и большие данные позволят знать абсолютно все про всех и видеть бучдущее.

Но реальность, как всегда, скучнее и прагматичнее. В больших данных нет никакой магии — как нет ее нигде — просто информации и связей между разными данными становится так много, что обрабатывать и анализировать все старыми способами становится слишком долго.

Появляются новые методы. Вместе с ними — новые профессии. Декан факультета аналитики Big Data в GeekBrains Сергей Ширкин рассказал, что это за профессии, где они нужны, чем там надо заниматься и что надо уметь. Какие используются инструменты и сколько обычно платят специалистам.
Читать дальше →

Понравилась статья? Поделиться с друзьями:
Все языки программирования для начинающих