Как не превратиться в бабушку, которая «не верит в электричество»?

Просмотров: 2852
Автор:
Бессольцев Дмитрий Михайлович

Бессольцев Дмитрий Михайлович

Директор Департамента ИТ-аутсорсинга ALP Group — ALP Group

С чего все началось

Анализируя данные по продажам, я обратил внимание на запрос, поступивший от крупной страховой компании.

«У нас проблемы с системой расчета заработной платы (“1С: Зарплата и Управление Персоналом”). Она постоянно “виснет”. Это влияет на скорость расчетов и на выплаты. Перешли на новую версию, думали, все наладится. Но угодили в яму: теперь вместо двух дней люди вынуждены ждать пять. Про сдачу отчетов не хочу даже говорить. Наши ИТ-специалисты не могут дать конкретных рекомендаций. Пожалуйста, поделитесь своим опытом решения этих вопросов, как компания, специализирующаяся на ИТ-аудитах. В том числе, на аудитах быстродействия информационных систем». 

Я попросил сводку по запросам на ИТ-аудиты за последние полгода. И понял, что 6 из 10 обращений от крупных организаций (Enterprise) и от предприятий, относящихся к верхнему сегменту среднего бизнеса, — запросы на поиск, анализ и устранение проблем с быстродействием информационных систем. Таких запросов стало больше, так как многие организации уже несколько лет сокращают расходы на инфраструктуру, а нагрузка на информационные системы растет. Вывод лежит на поверхности.

Но почему все эти запросы говорят о проблеме, достигшей уже крайней остроты? 

Простое объяснение

Потому что крупные территориально распределенные структуры — российские, западные и европейские, «отягощенные» несколькими комплексными решениями (автоматизированными системами планирования и бюджетирования, коммерческого учета, расчета заработной платы), исторически считают проблемы с их производительностью естественными и неизбежными. Или уверены, что они требуют таких сил и средств, что лучше оставить все как есть. И пусть финансовые, бухгалтерские и кадровые данные из десятков и сотен региональных филиалов медленно стекаются в центр, неспешно обрабатываются и используются с традиционными задержками. Ничего не попишешь…

Попытки что-то изменить предпринимаются только когда сотрудники уже не могут нормально работать. Когда задержки и простои по вине ИТ оборачиваются солидными штрафами (например, за несвоевременную сдачу отчетности в налоговую). И когда бизнес вынужден еще и оплачивать сверхурочные, причем в масштабах целых департаментов (финансового, коммерческого, ИТ). И закрывать глаза на простои смежных служб, связанные с тем, что они «ждут нужную информацию». А когда недовольство выплёскивается на уровень финансовых и генеральных директоров или других влиятельных людей, это еще более усугубляет ситуацию. И вот, когда все плохое уже случилось и нанесло финансовый и репутационный ущерб бизнесу, выясняется, что «исторически неразрешимые» вопросы можно было решить. Не «аварийно», а планово!

Какие же методы применялись вчера, и что сегодня выбирает рынок?

ИТ-проблемы: числом, а не умением

Корни проблем с производительностью «тяжелых» систем лежат очень глубоко, куда ИТ-служба не может заглянуть: в неверно выбранной архитектуре, в неэффективном коде решений, в тонком взаимном влиянии элементов конкретной ИС. Но менять архитектуру на этом этапе уже очень дорого. Или практически невозможно. Для корректировки кода нужно тесное взаимодействие с разработчиком, на которое крупные разработчики (ни западные, ни российские) пока не идут. 

Поэтому большинство крупных предприятий идет по одной и той же схеме: «Зальем проблему ресурсами!» Внутренняя ИТ-служба или внешняя ИТ-аутсорсинговая компания предлагает резко масштабировать какие-то элементы ИС. Купить новую СХД (систему хранения данных), поставить «корзину» с Blade-серверами, заменить все сетевые коммутаторы. И вот тогда система станет, наконец, работать быстро, очень быстро… Это обойдется бизнесу всего в 10 млн. рублей. Да, затраты, к сожалению, внеплановые, а что делать?

И, кстати, ИТ-служба отмечает, что в первом расчете не учтены затраты на лицензии. Так что теперь общая сумма составляет уже 15 млн. рублей. Но принципиальная готовность руководства к такому развитию событий есть. И деньги выделяются. Причем это вполне обычный в такой ситуации «ценник» для компании с 500-1000 пользователями в центре. И с несколькими региональными филиалами. Срок решения — около полугода (пока согласуют, закупят, привезут оборудование). И это—только для одной проблемы!

Иногда интеграторы решают, что проблемы — в коде платформы. И предлагают полностью переделать систему. Такая переделка будет стоить компании 20 млн. рублей и более. Плюс затраты на лицензии и на оборудование, т.к. новая версия системы почти всегда более требовательна к ресурсам. Переделки могут растянуться уже на год-два. И всё это время компанию будет мучить головная боль от нерешенной проблемы. Времени уйдет даже больше, ведь нужно еще накопить информацию о результатах проекта, потом как-то оценить ее, что-то снова поменять… 

Теперь главное: в обоих случаях у компании не будет гарантий, что проблема исчезнет. ИТ даже не сможет спрогнозировать, насколько быстрее будет работать система после всех затрат и изменений.

Плачевные итоги

Частый в таких ситуациях результат: 15-25 миллионные внеплановые затраты, устранение самого явного или первого обнаруженного «узкого места» и 15-25% ускорение работы системы. Получается, ускорение работы системы на 1% стоит примерно миллион рублей. И это единственное, что можно сказать заранее о результатах большого, сложного, нервного и дорогого проекта. 

О том, что бизнесу было нужно ускорение ключевых операций на 200-300%, а вспомогательных на 80%, что построение консолидированного отчета должно происходить за час, а не за 23 часа, CIO предпочитают вообще умолчать. Кому хочется рисковать своим креслом и репутацией?

Но в чем же главная загвоздка? Почему целые команды умных, знающих и опытных людей, годами поддерживающих сложные территориально распределенные инфраструктуры, обречены получать такие результаты и предоставлять их бизнесу как конечные? 

Отсутствие решений: сложно и дорого в процессе, половинчато в финале 

Во-первых, потому что проблемы, связанные с производительностью информационных систем, в 90% случаев, находятся на стыках многочисленных и разнородных компонентов (начиная от сети и оборудования, заканчивая кодом и запросами в системе). 

Второй момент, который усложняет их выявление: проблемы могут касаться сразу и сети, и оборудования, и мощности дисковой подсистемы, процессоров и т.д. И нет экспертов, способных взглянуть на систему стратегически. Собрать данные, которые бы нарисовали полную и глубокую картину. Проанализировать не одно, а все «узкие места». Понять, над чем конкретно и в каком порядке нужно поработать, чтобы получить максимальный эффект. И «расшить» именно те «горлышки», которые фактически тормозят. По крайне мере, таких экспертов нет в одной команде, даже если компания очень крупная. 

То же касается и поставщика ИТ-услуг, даже с большим опытом. Компания может предложить сильное решение, касающееся только 1-2 частей информационной системы. Только кода, СУБД и кода, сети и оборудования. А анализировать-то надо всё! 

Какая же тут альтернатива? И существует ли она вообще?

Система мониторинга: технологический контур не закрывает всего

Чтобы разобраться в ситуации, можно приобрести техническую систему мониторинга. Но помимо правильного планирования ее работы, точной настройки и запуска, нужно дождаться, когда система накопит достаточно глубокий массив данных, чтобы в нем проявились изучаемые ИТ-проблемы (общие и конкретные, связанные как раз с производительностью). 

Накопленные данные должны правильно интерпретировать эксперты, к чьим областям работы они относятся. Собрать таких экспертов в одной команде, опять же, почти невозможно. 

Можно купить их компетенции. Но как покупателю понять, получила ли компания экспертизу нужного уровня и глубины? Если да, правильно ли она использовала эти знания? И получила решение, с наименьшими затратами закрывающее все перечисленные проблемы? И еще несколько «попутных»?

«Три кита» СЦМК: технологии, экспертиза, машина времени

Сегодня на нашем ИТ-рынке существует еще один вариант решения вопроса. Им уже пользуются CIO нескольких крупных и средних компаний с российскими и западными «корнями» (госкорпорации, ритейл и др.). Это экспертный сервис централизованного мониторинга и контроля (СЦМК) «Аргус». Он подключается на строго определенный срок («проектно»), чтобы помочь решить сложные задачи.

Последовательно выявить и устранить «бутылочные горлышки», оптимизировать работу «тяжелых» автоматизированных систем. Закрыть «течи», уносящие миллионы и десятки миллионов рублей. Помочь верно спланировать непростые действия по миграции или модернизации систем, объективно сравнить исходное и достигнутое состояния. 

Но этот сервис можно использовать и постоянно. Например, чтобы за счет непрерывного и очень экономного ИТ-аудита постоянно снабжать свою компанию необходимыми данными, касающимися здоровья ИТ-инфраструктуры; изменений, постоянно проходящих в ИС; быстродействия ее компонентов; наличия аномалий, которые потенциально могут привести к сбоям на каждом уровне.

Система или сервис мониторинга?

Отличие СЦМК от чисто технических систем мониторинга в том, что развитый технологический контур, основанный на стеке свободных продуктов (система мониторинга Zabbix, сопутствующие ей GrayLog, ElasticSearch и др.) сочетается в нем с мощным экспертным сервисом, обеспечивающим ранние выявления и решения скрытых или сложных проблем. В том числе, связанных с производительностью современных информационных систем. 

При этом стек продуктов с открытым исходным кодом подобран и настроен так, чтобы в самое короткое время вытягивать огромные массивы данных из всех пластов инфраструктуры без исключения (сеть, оборудование, гипервизор, ИС, платформа, отдельные операции на уровне кода). А также консолидировать их и отдавать в максимально удобном для анализа виде в экспертный контур системы. Команде, объединяющей специалистов по сети, по серверной и сетевой инфраструктуре, по ОС. Сотрудников Центров компетенции по импортозамещению и OpenSource, специалистов по продуктам MS, аналитиков, разработчиков, экспертов в области «1С» или другого российского ПО. 

Данные о здоровье инфраструктуры «выжимаются» и из труднодоступных стыков серверного ландшафта — каким бы разнородным он ни был, с какими бы архитектурными огрехами его не спроектировали…

Новое электричество: что на выходе

Экспертные команды получают «слепки» состояния системы и ее любой части с удобным временным интервалом. От недель и часов до секунд и даже режима реального времени. Это позволяет им анализировать поведение системы в прошлом, убирать «узкие места» на стыках слоев инфраструктуры в настоящем и строить прогнозы по тому, как система будет чувствовать себя в будущем («Что будет, если устранить первое “бутылочное горлышко”?» «А не упремся ли мы тут же в следующее?»). 

В итоге эксперты выдают компании оптимальную «дорожную карту» устранения любой многосоставной проблемы, связанной с работой «тяжелой» ERP или иной ИТ-системы инфраструктурного или прикладного уровня.

Пример из практики

Если проседает автоматизированная система коммерческого учета (АСКУ) на «1С», которая сильно нагружает дисковую подсистему, то при применении традиционного подхода к росту производительности первым интуитивным решением будет модернизация СХД, т.е. замена дисков на более быстрые. Это кажется ясным, как день. 

Но эксперты, опираясь на накопленные и переработанные в СЦМК фактические данные, зачастую приходят к совсем иным выводам. Например, что в этом случае масштабирование СХД окажется бесполезным, поскольку дальше компания неизбежно «упрется» в мощность процессоров. И, следовательно, в очень большие траты. В этой ситуации в несколько раз выгоднее переписать определенный код — 10% запросов к СУБД. И продолжить работу на имеющейся СХД и оборудовании. 

Найти такое недорогое и эффективное решение «силой чистого разума» — невозможно. Тем более, находить их раз за разом. А для СЦМК такие решения весьма характерны, если не сказать обычны.

Итого

Эпоха развитых ИТ характеризуется двумя неоспоримыми правилами. Во-первых, умные и эффективные решения, позволяющие «закрыть» вопросы, долгие годы казавшиеся совершенно неразрешимыми, появляются не так уж и редко. 

Во-вторых, они быстро становятся доступными для бизнеса любого масштаба. В-третьих, такие решения позволяют компаниям сберечь время, силы, деньги, репутацию. А не тратить ресурсы и средства бездумно — приобретая и пуская в ход все новое оборудование и лицензии, начиная сложные мега-проекты, результат которых невозможно гарантировать. Но сначала организация должна узнать о таких возможностях и найти в себе силы преодолеть инерцию мышления, инерцию структуры, сложившиеся личные интересы. Это не такая простая задача, как кажется. 

Ведь у большинства топ-менеджеров и даже CIO пока не вошло в привычку начинать поиск прорывных способов решения проблем именно с ИТ. Но в современном мире инерция – то, что обходится бизнесу слишком дорого. И чего стоит избегать любой ценой. 

Комментарии (9)

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Скрыть ветвь
    Рейтинг4850

    Старший-инженер

    Научно-производственное объединение

    15.03.2017 21:57
    Перешли на новую версию, думали, все наладится. Но угодили в яму: теперь вместо двух дней люди вынуждены ждать пять.
    Сталин за такое "мы думали" расстреливал. Сейчас отправляют с повышением. Такая работа всегда была известна по принципу "Вспотел - покажись начальнику".

    А сама статья и правда интересная. Удивляет другое: кому-то приходится объяснять важность систем мониторинга.
    1
  • Скрыть ветвь
    Рейтинг75430

    ИТ-директор

    КТ "Акведук"

    17.03.2017 17:44

    Ответ на « Перешли на новую версию, думали, все... »

    А ещё удивляет регулярное пренебрежение нагрузочным тестированием.
    2
  • Скрыть ветвь

    Директор Департамента ИТ-аутсорсинга ALP Group

    ALP Group

    22.03.2017 17:44

    Ответ на « А ещё удивляет регулярное пренебрежение нагрузочным... »

    Или его ограниченность. Тестируется неполный набор функций, отчетов, часто - на тестовой базе и в тестовой инфраструктуре - и с опорой на это принимается решение "Делаем!". Привлекательно с точки зрения быстроты принятия решения, но дорого и долго в итоге.
    0
  • Скрыть ветвь

    Директор Департамента ИТ-аутсорсинга ALP Group

    ALP Group

    22.03.2017 17:39

    Ответ на « Перешли на новую версию, думали, все... »

    Добрый день!

    Святая правда, и спасибо за оценку статьи. Мне кажется, системы мониторинга просто "недоготавливают", не используют все их преимущества. Поэтому они и становятся "неважными".

    Внедренная из коробки или по рамочному ТЗ система (как это часто бывает) - просто средне-полезный генератор алертов - "место кончается", "процессор загружен", и т.д. И это еще хорошие алерты: хотя бы понятно, что на них надо реагировать. А обилие малопонятных "ошибок в модуле xxxx с кодом yyyy" вообще сводит полезность этой системы в глазах ИТ-специалиста к минимуму.

    Надо готовить, в общем. И систему - донастраивать, дорабатывать - до правильного функционала. Который позволит адекватно данные собирать, анализировать, визуализировать. И людей - ИТ-специалистов - чтобы умели работать с этими данными. Понимать их, принимать решения на их основе. И процессы подтягивать, чтобы инциденты, а еще важнее - проблемы и изменения нормально отрабатывать. Apdex подключать. И тогда не будет "заливания ресурсами проблем".

    Это путь самурая, конечно. Но и варианты есть - можно брать наш СЦМК на аудит или предпроект. И быстрый результат получать на основе объективных данных (что делать, сколько тратим и на что). И отличный обмен опытом между командами получится.
    1
  • Скрыть ветвь
    Рейтинг430

    зам. директора по организационному развитию

    УГМК-ОЦМ

    22.04.2017 18:56

    Ответ на « Перешли на новую версию, думали, все... »

    А Рузвельт - не расстреливал. И где сейчас одни и где другие?
    Нагрузочное тестирование само по себе не панацея - да еще и не дешевая.
    Практика показывает, что зачастую наиболее эффективное средство лежит на стыке технической реализации и социальной инженерии - перестройке методик работы с ПО
    0
  • Скрыть ветвь
    Рейтинг310

    Начальник отдела разработки и сопровождения АСУ

    Нижегородский ИВЦ, структурное подразделение ГВЦ, филиала ОАО "РЖД"

    06.06.2017 10:16

    Ответ на « А Рузвельт - не расстреливал. И... »

    Я вообще считаю нагрузочное тестирование бессмысленным занятием, так как не могу себе ответить на вопрос - А что мы получим или получаем при нагрузочном тестировании и что дальше с этими результатами делать? Чтобы создать реальный, а не абстрактный, тест нагрузочного тестирования нужно собрать статистику с эксплуатируемой системы. А если уже есть статистика с эксплуатируемой системы, зачем тогда нужно нагрузочное тестирование? Бери статистику и анализируй.

    (Исправлено 06.06.2017 12:48, Лиховских Валерий Владимирович)

    0
  • Скрыть ветвь
    Рейтинг310

    Начальник отдела разработки и сопровождения АСУ

    Нижегородский ИВЦ, структурное подразделение ГВЦ, филиала ОАО "РЖД"

    06.06.2017 09:33
    На основании своего опыта и разработки и эксплуатации информационных систем могу с уверенностью сказать, что ЛЮБУЮ систему можно "разогнать" без финансовых затрат на железо или сеть. Минусов два. Первое. сделать это может только разработчик системы. Значительно реже это могут сделать отделы эксплуатации. Второе. Если они правильно смогут установить причину проблемы. Рано или поздно причина находится и, соответственно, может быть устранена. Согласитесь, что такой подход решения производительности в десятки раз дешевле вложений в железо, при этом вложение в железо не устраняет причину проблемы.

    Как правило, при эксплуатации информационных систем взрывного роста нагрузки не происходит. Нагрузка растет плавно и в один не совсем прекрасный момент система начинает "тормозить".

    "Узкое место" (причина возникновения проблемы) всегда одно! Кажущиеся проблемы в других местах информационной системы это следствие первичной проблемы производительности.
    0
  • Скрыть ветвь
    Рейтинг75430

    ИТ-директор

    КТ "Акведук"

    07.06.2017 13:40

    Ответ на « На основании своего опыта и разработки... »

    Только есть ещё т.н. "авось". Вот при реализации ЕГАИС и требований 54-ФЗ нагрузка выросла скачкообразно, т.к. все тянули до последнего. И даже обкатка на тестовых регионах помогла плохо. И сейчас уже имеются проблемы.
    0
  • Скрыть ветвь
    Рейтинг310

    Начальник отдела разработки и сопровождения АСУ

    Нижегородский ИВЦ, структурное подразделение ГВЦ, филиала ОАО "РЖД"

    07.06.2017 14:35

    Ответ на « Только есть ещё т.н. "авось". Вот... »

    Пиковые нагрузки есть в любой системе. Думаю, аналогичные и подобные пиковые нагрузки в вашей или используемой вами системе наблюдались и ранее. Сейчас она скакнула к верху, скоро упадет. Статистика за месяц измениться не значительно.
    0

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.