Каталог данных: что такое, зачем он нужен, как его выбрать

Просмотров: 606
Автор:
Комаров Михаил

Комаров Михаил

директор направления Informatica компании DIS Group — DIS Group

В своём недавнем отчёте Reports Intellect предсказывает, что среднегодовой рост рынка каталогов данных с 2017 по 2023 составит 35.8%. По сути, каталог данных — внутренний Яндекс для поиска всей информации о данных в компании. Не стоит думать, что каталог — это разновидность хранилища или глоссария данных. Основная его функция не хранить данные, а эффективно находить информацию о них и их характеристиках. 

Чтобы поиск был эффективным и всеобъемлющим, в каталоге хранятся не сами данные, а метаданные (данные о данных). Это могут быть технические, операционные, бизнес-метаданные и другое. Каталог подключается ко всем основным системам и источникам информации в компании. Поэтому он может найти даже те данные, о существовании которых вы не подозреваете. 

Во встроенных в каталоги бизнес-глоссариях — определения важнейших для компании понятий. Пользователи каталога могут вручную оставлять аннотации к данным. Кроме того, каталог визуализирует связи между данными, их жизненный цикл от источника до отчётов, в которых эти данные были использованы. 

Что-то изменилось в данных, с которыми вы работаете? Каталог сам сообщит вам об этом. 

Кроме того, в последнее время неотъемлемой составляющей каталогов стал искусственный интеллект (ИИ). Это открывает новые возможности. Среди них — поиск избыточных и чувствительных данных и связей между данными, а также соотнесение данных с бизнес-терминами. Также ИИ умеет определять отдельные сущности в неструктурированных данных, искать структуру в сложных данных, определять дублирующуюся информацию и рекомендовать пользователям похожие наборы данных. 

Шесть причин внедрить каталог данных прямо сейчас:

  • Каталог незаменим в ситуациях, когда данные нужно инвентаризировать. Например, когда вы перемещаете свои данные в облако, создаёте озеро данных для аналитики или планируете реализовать стратегию Data Governance. Инвентаризировать данные большого объёма вручную невозможно. Не будете же вы в конце концов каждый раз при возникновении такой задачи обходить всех сотрудников в компании с просьбой рассказать о данных, которые те используют в работе. Даже если на такой подвиг вы решитесь, скорее всего окажется, что вы не знаете, какие данные вам нужны и кто за них отвечает.
  • Но часто встречаются и ситуации, когда инвентаризация нужна даже если ничего нового не внедряется — когда вы продолжаете работать в традиционном хранилище. Чаще всего хранилища разрабатываются несколькими специалистами и даже отделами. Более того, хранилища имеют длительный жизненный цикл, за время которого часть настроенных отчетов перестают использоваться, появляются дублирующие отчеты и так далее.  В компании может не быть знаний и документации о том, какие объекты находятся в хранилище и как они связаны. Внедрение каталога поможет вам эффективно работать даже с самым сложным хранилищем.
  • Каталоги позволяют эффективно искать «тёмные данные», которые оказываются не охваченными аналитикой (они часто могут храниться в, казалось бы, известных системах), а также неструктурированные данные, большинство из которых также никак не используются бизнесом. 
  • Законодательство всё строже защищает персональные данные. Не хотите платить штрафы? Нужно хорошо знать, храните ли вы чувствительную и конфиденциальную информацию и где она находится. 
  • Бизнес-глоссарий каталога позволит вам наконец-то перестать путаться в терминах, принятых в компании. Например, даже понятие «клиент» может иметь множество значений. Для отчётности FATCA (Foreign Account Tax Compliance Act), чтобы кто-то считался клиентом, у него должен быть один набор отрытых счетов. Для комплексной проверки клиента (Customer Due Diligence) — другой. Это приводит к тому, что у двух подразделений в отчетах указано разное количество клиентов, и без единой бизнес-терминологии нельзя понять, есть ли ошибка и какой отчет правильный.
  • Иметь каталог данных крайне важно и из-за того, что сейчас бизнес-модель многих компаний трансформируется. На смену традиционным однонаправленным моделям ведения бизнеса (модель банка, оператора связи, розничной компании) приходят экосистемы. Экосистемы расширяют традиционный бизнес дополнительными функциями и партнерами, в основе этого расширения лежат данные. В таких условиях сложно предположить, какая информация понадобится завтра для реализации бизнес-инициатив. При этом крайне важно уметь быстро её находить внутри компании и настраивать процессы обмена данными с новой бизнес-областью или партнером.

Лидеры рынка — Informatica Enterprise Data Catalog и Axon

Ведущие специалисты управления данными рекомендуют разносить управление техническими метаданными и бизнес-метаданными.  Соблюдает этот принцип и Informatica: на бизнес-метаданные ориентирован Informatica Axon, на технические — Informatica Enterprise Data Catalog (EDC).

EDC помогает получить детальное понимание данных и их технических метаданных. Он прекрасно справляется с наведением порядка в хранилище или озере данных. Не знаете, какие данные там находятся и как они друг с другом связаны? На эти вопросы поможет ответить EDC. В повседневной работе EDC удобно использовать для определения первоначального источника данных, который лучше всего подойдёт для формирования конкретного отчета, для понимания пути составления уже реализованной отчетности, определения взаимосвязей между данными, а также для многого другого. 

Оптимального результата от работы EDC можно добиться при его совместном использовании с Axon. Axon помогает бизнес-пользователям получить высокоуровневое понимание данных и связанных с ними систем и бизнес-процессов внутри организации, а также понимание того, кто отвечает за конкретный набор данных. Он незаменим при внедрении Data Governance. Играет Axon и большую роль при цифровой трансформации. Цифровая трансформация — прежде всего, новые бизнес-процессы, организационные структуры, положения, регламенты, новая ответственность за данные, новые ролевые модели. Чтобы их внедрить, необходимо зафиксировать то, что уже действует в организации и определить, как изменения будут влиять на текущие процессы. 

Axon поможет понять, на какие отчёты повлияет изменение именно этого поля в базе данных. А также — узнать, в соответствии с какими политиками и регламентами формируется тот или иной отчёт, и кто за него отвечает. Бизнес-глоссарий Axon помогает не путать бизнес-термины и понятия. Даже если одна и та же деталь на производстве носит одно имя, а при продаже — другое. При этом Axon интегрирован с EDC для связывания бизнес-понимания данных с реальным физическим миром данных. А с Informatica Data Quality — для отслеживания качества данных на всем пути формирования отчетности.

В том, что касается непосредственно поиска по корпоративным данным, решения Informatica — лидеры рынка. Поиск осуществляется на основе категорий, на которые разделена вся информация компании. Это значительно облегчает работу с большим объемом данных. Так, описание продукта «кредит» попадёт в категорию «продукты». В нём есть специфическое определение? Оно будет объяснено в категории «глоссарий». Нужно проверить качество данных? Правила для этого описаны в разделе «качество данных». Есть отдельные разделы и для бизнес-процессов, политик, требований регуляторов, с которыми ваши данные можно связать. 

Искусственный интеллект Informatica CLAIRE® выполняет широчайший набор задач при каталогизации. CLAIRE® эффективно определяет домены данных (клиенты, продукты), мастер-данные и референcные данные. Она распознаёт чувствительные данные, автоматически ищет данные, похожие на те, которые часто применяет пользователь. Он подсказывает дата-сеты, на которые стоит обратить внимание аналитикам. А это увеличивает продуктивность последних. Также CLAIRE® сама связывает многие термины и их определения. 

Как компании добиваются успеха с помощью Axon и EDC

Страховой компании Highmark Axon помогает следить за здоровьем своих клиентов для оптимизации выплат по страховым случаям. Цифровую трансформацию в своих компаниях с помощью Axon проводит нидерландский почтовый оператор PostNL и международная платёжная система PayPal.

Из-за цифровой трансформации потребность в каталогах данных есть и в реальном секторе экономики. Например, нефтегазовая компания British Petroleum (BP) внедрила Informatica Enterprise Data Catalog и активно использует его в повседневной работе.

Несомненно, у каталогов данных большое будущее. В 2018 году такие решения внедрили десятки крупнейших компаний. Ещё целый ряд организаций планирует внедрить такие решения в 2019 году. 

Комментарии (0)

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.