Большие данные в России: пилот. Часть 1.

Просмотров: 3311
Автор:
Горчинская Ольга Юрьевна Рейтинг650

Горчинская Ольга Юрьевна

Директор по исследовательским проектам — ООО ФОРС-Центр разработки

Часть 2.

Последний год я занимаюсь преимущественно тематикой анализа больших данных для российских клиентов. Можно сделать некоторые обобщения и выводы.

Начнем с определений. Напомню, что Gartner определяет большие данные как три V: volume—объем, velocity—скорость, как появления данных, так и их изменения, variety — многообразие, в том числе одновременная обработка данных разных типов. К ним относятся данные текстовые, изображения, в том числе видео, звуковые записи, данные сенсорных датчиков и других подобных устройств.

Анализ больших объемов структурированной информации я бы не относила напрямую к анализу больших данных. Эта тема скорее относится к развитию технологий сверхбольших реляционных баз данных, использованию специализированных программно-аппаратных комплексов, таких как Oracle Exadata. Например, анализ чеков для сетевых магазинов. Такую информацию всегда умели хранить и анализировать в реляционных базах данных. В последние годы здесь произошли большие изменения в том, с какими объемами и с каким быстродействием можно работать, но несмотря на это мы по-прежнему имеем дело с реляционной или OLAP технологией.

Тема больших данных — это совсем новые технологии для хранения и анализа прежде всего нестандартных данных, где традиционные реляционные методы не работают или оказываются неэффективными. Такие новые направления, как Hadoop, NoSQL базы данных, аналитические инструменты класса datadiscovery, как раз и ориентированы на работу с нестандартной информацией, которую сразу не разложишь по таблицам и столбцам. Эти технологии дают либо новую функциональность, т.е. появляются задачи, которые раньше даже не ставились, либо дают очень большое повышение эффективности известных задач.

Если говорить о новых задачах анализа, возникающих в связи с большими данными, то видно, что сейчас наиболее интересное и перспективное направление в России — анализ данных неструктурированных, прежде всего текстов. Наиболее типовой задачей становится проблема выявления полезной для бизнеса информации на основе анализа текстов интернет источников или собственных архивов документов. С точки зрения инструментов анализа для подобных задач формируется новый сегмент программных средств — datadiscovery. В отличие от средств классического бизнес-анализа, где мы работаем с многочисленными вычислениями и агрегированием, здесь преобладают поисковые операции, совместный анализ результатов поиска со структурированной информацией.

Теперь перейду к примерам задач, которые можно считать типовыми.

Востребован анализ информации интернет источников и сайтов соцсетей. В этой области в России заказчики уже стали уже формулировать требования так, что видны границы типовых задач. Это, например, выявление реакции потребителей на товары и услуги. Компании хотят знать, что люди о них думают на самом деле. Анализ неструктурированной текстовой информации может быть сопоставлен с результатами традиционной аналитики. Например, у компании есть точные данные о выводе своих продуктов на рынок, маркетинговых акциях. Очень интересно узнать, какой же была реакция конечных потребителей. На объемах, которые дают сайты и соцсети, это можно выяснить с достаточной степенью достоверности, и российские компании уже пытаются это выяснять, причем, не замыкаясь на анализе лишь маркетинговом.

Пример задачи из банковской области. У банка есть кредиторы — юридические лица, за деятельностью которых следят аналитики банка с целью оценки рисков невозврата денежных средств. Однако привычных средств мониторинга и анализа иногда бывает недостаточно: информация из интернета может дать «сигнал опасности» точней и, возможно, раньше. Понимая это, сотрудники банка уже сейчас занимаются поиском в различных интернет источниках с помощью универсальных поисковых систем. Это и трудоемко, и не дает гарантии, что ничего значимого не пропущено. Не всегда удается во-время выявить информацию о том, что кто-то из топ-менеджеров какого-то холдинга окажется замешанным в неприглядной истории, а это может существенно повлиять на положение компании-кредитора. Требуется постоянный мониторинг, результатом которого является «выжимка», с которой уже есть смысл работать человеку. В ней должны быть выявлены потенциально важные, критичные факты, темы, направления поиска, указана их «окраска» — негативные, позитивные высказывания.

Еще один круг задач связан с работой служб безопасности. До сих пор чаще всего их сотрудники вручную проверяют все документы определенных типов. Они прекрасно знают, что именно они ищут. Если бы для людей была готова автоматически созданная выборка «требующих внимания» фрагментов, это сильно ускорило бы работу.

И наконец, еще один пример — смысловой поиск в документальных архивах. Частично эта задача пересекается с функциональностью систем управления контентом, систем документооборота. Но в этих системах акцент сосредоточен на автоматизации документооборота, на эффективном хранении документов, а не на сложных процедурах лингвистического поиска. В результате использования систем электронного документооборота собираются огромные текстовые архивы. Они чаще всего сделаны на основе связки: учетная карточка документа и его изображение. Сейчас уже сложилась потребность переходить к полнотекстовому поиску, для чего необходимо массовое распознавание и индексирование этих изображений. Это серьезное качественное изменение: еще несколько лет назад такой потребности не было.

Какие задачи анализа неструктурированной информации стоят перед вашей организацией? Как вы их решаете или намерены решать?

Продолжение обсуждения: Большие данные в России: пилот. Часть 2.

Комментарии (26)

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Скрыть ветвь
    Рейтинг48950

    Директор программ и проектов по технологиям

    ПО НТИ (РВК)

    12.11.2013 22:51
    Спасибо за примеры задач!
    А с примерами "конечного результата" можете с какими-то познакомить? Как они выглядят для конечного пользователя?
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    14.11.2013 14:47

    Ответ на « Спасибо за примеры задач! А с примерами... »

    Собственно, речь идет вот об этом.

    И вот тут тоже неплохо рассказано. Если осилишь до конца. Я не смог - уснул)))).
    0
  • Скрыть ветвь
    Рейтинг48950

    Директор программ и проектов по технологиям

    ПО НТИ (РВК)

    15.11.2013 09:13

    Ответ на « Собственно, речь идет вот об этом.И... »

    да, осиливается с трудом. но идея понятна ))
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    14.11.2013 14:42
    Сейчас уже сложилась потребность переходить к полнотекстовому поиску, для чего необходимо массовое распознавание и индексирование этих изображений. Это серьезное качественное изменение: еще несколько лет назад такой потребности не было.

    Я думаю, что такая потребность была всегда. Не было возможности и средств поиска. Смысловой поиск в документальных архивах - это важная вещь и ее необходимость даже не стоит доказывать. Другое дело, что раньше это было в принципе не реально. Теперь - да, если тексты, конечно, хранятся в соответсвующем структурированном виде.
    1
  • Скрыть ветвь
    Рейтинг20470

    заместитель главного редактора

    PCWeek

    14.11.2013 15:48
    Тут недавно была конференция IDC по большим данным. Как один, все выступавшие говорили про связь структурированных с неструктурированными данными, про поиск в социальных сетях. Что интересно, в отличии от прошлых лет, были заказчики российские с реальными проектами. И, скажем, "Вымпелком" говорил о том, что они ищут реакцию на свои акции в соц.сетях. А фирма "Коттон вей", которая предоставляет РЖД белье в поездах (не во всех пока), сделала интеграцию с колл центром РЖД. Если вы пассажир, звоните в РЖД и говорите - фу, белье ужасное. "Коттон вей" про это сразу узнает, и уже в пути белье вам заменят. К бизнес-процессам имеет отношение, между прочим, тоже. Вообще задачи решаются действительно какие-то новые. Прямо странно даже:))
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    14.11.2013 16:09

    Ответ на « Тут недавно была конференция IDC по... »

    Ох, мне тоже страшно. Я как представил себе, что в купе где-нибудь между Иркутском и Красноярском заходят и спрашивают : "Ну, и кому тут белье не нравится?" ))). Мурашки пошли.
    1
  • Скрыть ветвь
    Рейтинг20470

    заместитель главного редактора

    PCWeek

    14.11.2013 16:49

    Ответ на « Ох, мне тоже страшно. Я как... »

    Нет, вы не обратили внимания на ньюанс. ОНИ УЖЕ ЗНАЮТ, кому не нравится белье. И ему прямо и выдают:)). И вообще вся затея с анализом этих самых неструктурированных данных как раз, во всяком случае часто, и сводится к тому, чтобы знать, кому что не нравится.
    Что меня совсем добило: к белью Коттон вей цепляет rfid-метки. Весь учет и контроль на них. Это они - метки - и дают эти самые большие данные, у них же белья в обороте почти 20 миллионов единиц. Я про этот проект отдельно напишу, и ИТ директора их постараюсь пригласить.
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    14.11.2013 16:55

    Ответ на « Нет, вы не обратили внимания на... »

    Я предполагаю, что метки дают не только большие данные, но и большие деньги. Причем всем сразу))).

    Насчет того, что УЖЕ ЗНАЮТ я внимание как раз и обратил.))). Хорошо, если выдадут только белье)))). А то и без него обойдутся))
    0
  • Скрыть ветвь
    Рейтинг69650

    ИТ-директор

    КТ "Акведук"

    14.11.2013 17:56

    Ответ на « Нет, вы не обратили внимания на... »

    Мндя. RFID - это недешево. Мне кажется, что одноразовое белье обошлось бы дешевле, даже если его сделать не таким убогим, как сейчас.

    (Исправлено 14.11.2013 17:57, Шварцблат Марк Рудольфович)

    0
  • Скрыть ветвь
    Рейтинг20470

    заместитель главного редактора

    PCWeek

    14.11.2013 18:11

    Ответ на « Мндя. RFID - это недешево. Мне... »

    Нет, там все хитрей. Я планирую написать проект этот тоже подробней. Они ведь работают не только с РЖД, но с гостиницами, больницами, фитнес центрами. На одноразовые там не перейдешь, и их бизнес - владеть этим текстилем, и только давать его "в лизинг". Поэтому им надо, чтобы он хорошо оборачивался, но не терялся. Интересно дело: казалось бы, ну промышленная прачечная, ну что там такого может быть! а пожалуйста, решения любопытные.
    0
  • Скрыть ветвь
    Рейтинг48950

    Директор программ и проектов по технологиям

    ПО НТИ (РВК)

    15.11.2013 09:12

    Ответ на « Нет, там все хитрей. Я планирую... »

    да, было бы интересно
    0
  • Скрыть ветвь
    Рейтинг48950

    Директор программ и проектов по технологиям

    ПО НТИ (РВК)

    15.11.2013 09:11

    Ответ на « Нет, вы не обратили внимания на... »

    а можете пояснить, как тут участвуют "большие данные"? звонит пассажир, говорит "не нравится", оператор клацает кнопочку или ставит галочку, сигнал пошел - "поменять"... нет?
    0
  • Скрыть ветвь
    Рейтинг20470

    заместитель главного редактора

    PCWeek

    15.11.2013 11:13

    Ответ на « а можете пояснить, как тут участвуют... »

    Лучше конечно объяснит сам их ИТ директор, но я запомнила примерно так. Пример со сменой белья - пример сопоставления неструктурированных - звонки - и структурированных данных - кто где кому какое белье выдавал. Надо учесть, что речь идет о данных двух разных организаций. Интеграция автоматическая - никто не клацает ничего. Оператор - сотрудник РЖД - просто фиксирует обращение - для своих нужд. Дальнейший запуск процесса в Коттенвее генерируется автоматически.
    Зачем большие данные коттонвею? В основном для того, чтобы следить, что происходит с каждым отдельным полотенцем, когда оно куплено, кому его давали, сколько раз, сколько стирали, сносилось или нет, когда его менять. С другой стороны - кто покупал, кто давал, кому - поименно со стороны контрагентов, кто стирал и проч, в общем, как процесс соблюдали свои конкретные сотрудники. Учитывая чисто элементов текстиля и число операций с ними - это вполне большие данные.
    Самое главное - результатик. На 40% закупки нового текстиля сократили. Это их актив и их главный ресурс.
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    15.11.2013 12:01

    Ответ на « Лучше конечно объяснит сам их ИТ... »

    Фактически, это система соотнесения остатков на складах, "запусков в производство", количество ремонтов и т.п. На выходе - сокращение складских запасов, прямая экономия оборотных средств. Если так - то игра стоит свеч в любом случае.
    А ведь на первый взгляд звучит несколько комично - ИТ на службе отслеживания полотенец - кому, куда, сколько.
    А на поверку - реальная экономия денег.
    0
  • Скрыть ветвь
    Рейтинг5750

    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам

    ЗАО ЕС-лизинг

    14.11.2013 16:38
    У нас уже год работает Центр Компетенции по Большим данным IBM. Основные сложности - слабое использование русского языка, плохая подготовка локальных кадров вендора и проведение аналитических работ должного качества. Пришлось все осваивать самим, включая обучение.
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    14.11.2013 16:51

    Ответ на « У нас уже год работает Центр... »

    А в чем основная проблема? Данные обрабатываются, но плохо поставлена аналитика? То есть, как их использовать? Или еще что-то ?
    0
  • Скрыть ветвь
    Рейтинг5750

    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам

    ЗАО ЕС-лизинг

    14.11.2013 20:27

    Ответ на « А в чем основная проблема? Данные... »

    С самой обработкой данных проблем нет, язык простой, особенно если персонал опытный. Но, как мне говорили, плохо ищется и обрабатывается русскоязычная информация. Ребята понемногу учатся этой специфике, есть интересные результаты. Ну и с аналитикой тяжело. Хороших аналитиков вообще мало, и научить машину думать совсем не просто, в данном случае Watson. Поэтому и говорят,. что Data Scientist будет самой востребованной профессией в ближайшем будущем. Их уже сейчас не хватает, а ведь работа с Big Data у нас только началась.
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    14.11.2013 20:34

    Ответ на « С самой обработкой данных проблем нет,... »

    Понятно. Во многом у нас так. Начинается работа, а потом думаем - а кто будет собственно работать.
    То есть,основная проблема - плохо настроенный на русский язык движок-поисковик. На слова, на сочетания. Про смысловые формы уже не говорю.
    С аналитиками тоже ситуация понятная и знакомая.
    0
  • Скрыть ветвь
    Рейтинг5750

    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам

    ЗАО ЕС-лизинг

    14.11.2013 20:42

    Ответ на « Понятно. Во многом у нас... »

    Вот поэтому наши за это и взялись: опыт большой, научились кое-чему, теперь "работу работают" и других учат :-) Результаты очень интересные: например, какя может быть связь между перезагрузкой серверов и дождем? А ведь нашлась :-)
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    14.11.2013 20:44

    Ответ на « Вот поэтому наши за это и... »

    Ой. И какая же,если не секрет?
    0
  • Скрыть ветвь
    Рейтинг5750

    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам

    ЗАО ЕС-лизинг

    14.11.2013 20:51
    Думают... Детали разглашать не могу, да пока и не знаю: только сегодня коротко сообщили, сами удивились :-) Найду время - обязательно поинтересуюсь, надо будет заняться этим всерьез: уж очень заманчиво построить какую-нито систему управления ИТ на Big Data.
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    14.11.2013 21:48

    Ответ на « Думают... Детали разглашать не могу,... »

    Понятно. Мистика какая-то. Но было бы интересно познакомиться поближе с методикой и со всем остальным. Поподробнее. Вот ведь революция может произойти во всем ИТ.
    0
  • Скрыть ветвь
    Рейтинг5750

    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам

    ЗАО ЕС-лизинг

    15.11.2013 10:47

    Ответ на « Понятно. Мистика какая-то. Но было... »

    Ну вряд ли мистика :-) С разбегу могу предположить, что такая связь в конкретном месте может обозначать наличие повышенной влажности, т.е. проколы в инженерном обеспечении. По большим данным есть уже много информации в сети, в LinkedIn и бесплатные вебинары на BrightTALK .
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    15.11.2013 11:09
    Понятно, спасибо. Довольно интересная тема. Кто знает, что нас ждет в итоге изучения проблемы больших данных.

    Дело в том, что самые интересные и изящные научные результаты
    сплошь и рядом обладают свойством казаться непосвященному заумными и
    тоскливо-непонятными. Люди, далекие от науки, в наше время ждут от нее
    чуда и только чуда и практически не способны отличить настоящее научное
    чудо от фокуса или какого-нибудь интеллектуального сальто-мортале. Наука
    чародейства и волшебства не составляет исключения. Организовать на
    телестудии конференцию знаменитых привидений или просверлить взглядом
    дыру в полуметровой бетонной стене могут многие, и это никому не нужно,
    но это приводит в восторг почтеннейшую публику, плохо представляющую
    себе, до какой степени наука сплела и перепутала понятия сказки и
    действительности. А вот попробуйте найти глубокую внутреннюю связь между
    сверлящим свойством взгляда и филологическими характеристиками слова
    "бетон", попробуйте решить эту маленькую частную проблемку, известную
    под названием Великой проблемы Ауэрса! Ее решил Ойра-Ойра, создав теорию
    фантастической общности и положив начало совершенно новому разделу
    математической магии.

    Аркадий и Борис Стругацкие "Понедельник начинается в субботу"
    0
  • Скрыть ветвь
    Рейтинг20470

    заместитель главного редактора

    PCWeek

    15.11.2013 14:04

    Ответ на « Понятно, спасибо. Довольно интересная тема. Кто... »

    Да бросьте вы - магия:)) Хотя Роман Ойра Ойра всегда был молодец. Самое главное концепт. Вот скажем на конференции Teradata, где мне довелось быть, рассказывали такие байки. Начинают анализировать данные о школьниках. Видят - есть связь: показатели чтения увеличиваются синхронно с размером обуви! Чем больше размер, тем лучше читает ребенок! Открытие же! Ан, не совсем. Уважаемые не приняли в расчет возраст. Просто, чем старше - тем читает лучше, ну и размер меняется заодно. Это примерчик того, что корреляция не означает причинной связи. Всю конференцию про это твердили, что разные это вещи - корреляция и причинность. А было и много примерчиков посерьезней, из бизнеса. Где тоже не очень-то понятно было, что первично. Модели какие-то надо, гипотезы. А где взять? Нету. Все и жаловались, что нету. Только появляются.
    0
  • Скрыть ветвь
    Рейтинг69390

    Начальник управления информационных технологий

    АО МПО им.И .Румянцева

    15.11.2013 14:17

    Ответ на « Да бросьте вы - магия:)) Хотя... »

    Я думаю, что жаловались в основном на отсутствие моделей. Гипотез то обычно больше бывает. А уж что первично, а что вторично, что причина, а что следствие - вообще темный лес. Тут работы невпроворот.
    0

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.