Хроника эпохальной аварии

Просмотров: 2115
Автор:
Мельник Ольга Владимировна

Мельник Ольга Владимировна

обозреватель — журнал "Стандарт"

Бизнес-обучение не зря строится на кейсах. В них как в капельке росы отражается все: окружающий мир, его проблемы, его герои, его системные ошибки. Можно долго писать обзоры про облачный рынок России, а можно посмотреть, что случилось с «Битрикс». 

В пятницу 9 февраля 2018 года произошел сбой в работе сервиса «Битрикс 24». Это широкий функционал: управление задачами и проектами, календари, учет рабочего времени, бизнес-процессы, CRM, работа с документами, облачное хранилище для файлов, телефония. Треть российских клиентов внезапно все это теряет. 

Вендор быстро выяснил, что дело в провайдере. Российский сегмент «Битрикс 24» работал на серверах «Корп Софт», у которого есть основной и резервный дата-центры. Проводились учения, подписывались договора, однако совершенно внезапно выяснилось, что один коммутатор выводит из строя оба дата-центра сразу. Такая ошибка архитектуры. Ошибку исправить или скомпенсировать не удается. Точка отказа оказалась единой. 

Сергей Рыжиков, генеральный директор «1С-Битрикс», в понедельник 12 февраля сообщил через Фейсбук: «Развернуть новую структуру из трехсот серверов в России за выходные невозможно технически и организационно. Мы приняли решение в пятницу переносить все данные в Amazon в Германию. Очень сложная идея, но единственно возможная. За выходные мы развернули в Amazon новое оборудование и инфраструктуру. Все подготовили». Это к вопросу о том, насколько надо быть готовым к миграции, если используешь бизнес-критичную облачную систему. Первую половину дня понедельника проблемы продолжались по-прежнему по вине провайдера, но все же миграцию закончили. Инженеры сутки не спали. 

«Мы приносим извинения нашим клиентам за доставленные проблемы. Очень сожалеем, что размеры проекта не позволили за выходные осуществить перенос данных. Даже копирование сотен терабайт информации занимает существенное время. Материться уже не помогает. «Корп Софт» потерял адекватность», — сообщил Рыжиков. Но в итоге все завершилось хорошо: не сразу конечно, но сервис снова заработал устойчиво. 

Примечательно, как восприняли это клиенты и партнеры компании. Им стало плохо очень быстро. «Наш интернет-магазин не может заказы уже два дня подряд отправить. Вы нас разорите!». «Весь завод встал». Это к вопросу о том, насколько сильно зависит уже российский бизнес от ИТ. 

Руководители «Битрикс» постоянно держали всех в курсе событий. Они не стали делать глобальное оповещение всех клиентов, потому что все же две трети проблем не почувствовали. Работали через соцсети с теми, кого сбой затронул, во многих случаях — персонально с каждым. Это позволило смягчить ситуацию. «Самое худшее — это не сама проблема, а неведение, что происходит и как реагировать. Немного подождем». «Всю сеть перевели на Битрикс, в ультимативном порядке. Теперь сдерживаем "огонь" с разных точек страны. Спасибо, что "главнокомандующий" держит в курсе вестей с фронта. соскакивать с Битрикса не собираемся, хотя некоторым уже хочется». Открытость и информирование о ситуации в реальном времени дали плоды: «Держитесь, ребята. Мы потерпим еще» — таким было большинство комментариев. 

Всех конечно сразу очень заинтересовало, а как же требования ФЗ № 152 удовлетворять при переносе серверов в Германию. Резервирование в России баз данных и логов — таким был ответ. Во всяком случае, законность хранения данных «Битрикс» гарантирует. Клиентов интересовал вопрос легитимности не просто так, а потому что «от российского хостинга тошнит», и люди думают, а куда же деваться. 
Знакомые с облачным рынком не понаслышке отметили, что переход на Amazon будет заметно дороже и придется переплачивать за трафик. Но конечно руководство «Битрикс» понимает, что лучше так, чем потерять рынок. 

А что же провайдер? Чем он ответит? Битрикс несет репутационные потери и дополнительные расходы, рискует потерять клиентов. Вся «экосистема» получает простои, потери. Провайдер же может ответить только штрафом и не взять денег за эти несколько дней простоя. Спасибо большое! Одна из системных ошибок. И конечно все понимают, что поднять 300 серверов за выходные в России невозможно. Ну такой уж объем рынка, сколько выросло — столько и есть. 

Сделает ли выводы «Корп Софт»? Сделают ли выводы другие провайдеры? В «Битрикс» тоже сделали некоторые выводы: в том числе создают наконец единую страницу, где в реальном времени постоянно, а не только во время экстренных ситуаций, будет выводиться информация о доступности  сервиса. Хочется надеяться, что вендор и в дальнейшем будет достоин таких же отзывов, какие получил  сейчас: «Когда компания относится к клиентам так же, как ваша, она заслуживает самых добрых слов. Даже в случаях кризисов». 

Первоисточник: https://www.facebook.com/rsv.bitrix/posts/10215842170913214?pnref=story 
 

Комментарии (21)

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Скрыть ветвь
    Рейтинг550

    Директор по сопровождению ИТ

    Банк Восточный

    12.02.2018 18:38
    1. Поднять 300 серверов в России за выходные можно, надо понять какие сервера нужны, какими техническими требованиями они должны обладать
    2. Проблема у провайдера (сети) или у ДатаЦентра, где расположены сервера? Это разные вещи. Дата центр предоставляет вычислительные ресурсы, а провайдера можно взять у ДатаЦентра, а можно взять своего, а можно двух. Если проблема с провайдером, то зачем искать 300 серверов?
    3. Проблема с коммутатором, т.е. по cути, все таки, с каналом связи - можно взять другого провайдера, в ДатаЦентре их должно быть много. Да, возможно, потребуется время, но это тоже вариант.
    4. Проблема с провайдером, с коммутатором, по сути с каналом связи - тогда как производили миграцию в АМАЗОН?

    Очень много вопросов...

    На самом деле тут явно видна ошибка компании Битрикс, которая должна понимать надежность сервиса (провайдера и ДатаЦентра), который она использует для продажи своего продукта.По сути они взяли облако и не разобрались в его надежности. Это, наверное, допустимо для маленькой компании или бизнеса, но когда такой большой масштаб, как Битрикс 24, то явно ошибка менеджмента компании.

    С хранением данных за пределами РФ - это очень большой вопрос... По сути, персональные данные запрещено там хранить, даже если копия есть в РФ. Что будет дальше, пока сложно представить, но думаю, что миграция в АМАЗОН - это слишком спешный и не обдуманный шаг.
    0
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    13.02.2018 08:02
    Я видимо недостаточно четко написала, в чем причина сбоя. Сами они пишут вот так: основной и резервный датацентр в компании Корпсофт связаны между собой и авария в одном из них выводит из строя резервный дц. То есть проблема не с сетью, не с доступом, а с самими дата-центрами.
    Битрикс конечно ошибку допустил: переоценили дата-центр. Но бывает и так, что все возможные тестирования проведены, а какая то критичная ошибка так и не нашлась.
    0
  • Скрыть ветвь
    Рейтинг550

    Директор по сопровождению ИТ

    Банк Восточный

    13.02.2018 09:49

    Ответ на « Я видимо недостаточно четко написала, в... »

    Если честно, то все равно очень странно выглядит, что Корп Софт построил резервный ДатаЦентр, который оказался зависим от основного....Не совсем понятно, что за такая связь между двумя разными Дата Центрами, которая может затронуть обоих сразу... Пока выглядит очень неправдоподобно.

    Было бы хорошо, получить комментарий от самого ДатаЦентра, что за проблема была и с чем она была связана.

    Основное правило при выборе резервного Дата Центра, чтобы он был независим от основного (по энергетике, провайдерам связи, расположению и т.д.)
    0
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    13.02.2018 10:21

    Ответ на « Если честно, то все равно очень... »

    Сергей, я понимаю что потому он и резервный. Уверена, что и в Битрикс понимают. Когда они обнаружили, что в Корп Софте все не так, как им обещали, и дата центр на запросы отвечает "мы не знаем как такое могло получиться", посты были просто матом. Но этим дела не поправишь. Попытаюсь запросить Корп Софт о деталях.
    0
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    13.02.2018 17:31
    Ситуация проясняется. Информация от Битрикс:
    Корпсофт предоставили официальное письмо и провели подробный брифинг. Краткие тезисы:
    a. Основной и резервный датацентры связывает оптическое кольцом с четырьмя коммутаторами и выход одно узла не приводит к потере связанности. (Это правильная схема построения для систем подобного уровня. )
    b. Ребята считают, что имела место гибридная атака Man-In-TheMiddle + ArpSpoofing+ArpInjection
    c. Атака привела к нестабильной работе всех коммутаторов в кольце, что и приводило к временной потере связанности
    d. Корпсофт направил заявление в МВД в отдел К и привлечены специалисты по ИБ
    0
  • Скрыть ветвь
    Рейтинг170

    Директор по ИТ

    Гарант Транс Экпрес

    14.02.2018 16:53

    Ответ на « Ситуация проясняется. Информация от Битрикс: Корпсофт... »

    Корп софт включили режим Демократической партии на выборах президента США - во всем виноваты хакеры! :)
    0
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    14.02.2018 17:05

    Ответ на « Корп софт включили режим Демократической партии... »

    Ну раз сказали А, то нужно будет и Б. Там сейчас идет расследование этого инцидента. Нужно же будет сказать, что это за атака, откуда она была, почему не было защиты и еще что нибудь такое....Что, у Битрикс прям есть такие злобные конкуренты, которые вот специально все это замутили? чтобы те рынок потеряли? сомнительно мне это.
    0
  • Скрыть ветвь

    Менеджер проекта

    КОРУС Консалтинг CPM

    14.02.2018 13:50
    Вот внесет какой-нибудь из их клиентов SaaS Bitrix24 в реестр значимых объектов в соответствии с 187-ФЗ и придется подключать Amazon к СОПКА )
    2
  • Скрыть ветвь
    Рейтинг820

    Начальник отдела IT-технологий

    AO Caspian Beverage Holding

    14.02.2018 16:20
    А как же элементарное правило "Не класть все яйца в одну корзину"?
    Детская ошибка менеджмента Битрикса. Сколько их еще всплывет?...

    0
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    14.02.2018 17:02

    Ответ на « А как же элементарное правило "Не... »

    Я тоже об этом думала. Но как класть в разные корзины? Размазать по разным дата-центрам? Держать несколько резервных развертываний? Они вроде бы сделали нормально - основной и резервный. Есть ведь и ограничения стоимости всего этого. А вы думаете как надо было сделать?
    0
  • Скрыть ветвь
    Рейтинг820

    Начальник отдела IT-технологий

    AO Caspian Beverage Holding

    17.02.2018 11:24

    Ответ на « Я тоже об этом думала. Но... »

    В любой компании, сколько бы у них не было дата-центров, определенный уровень компетенции, более-менее общий набор применяемых решений. Единые финансовые ограничения. И как следствие высокий риск воспроизводства сбоя на других площадках. Что и продемонстрировал Корп Софт.

    Насколько я понял, коллеги из Битрикса так и не сделали правильных выводов, и теперь полностью зависят уже от "Западного" хостера. А к списку возможных проблем теперь добавлены и политические риски.
    0
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    18.02.2018 05:58

    Ответ на « В любой компании, сколько бы у... »

    Насколько я поняла, ваш совет был бы - сделать дублирование несколькими дата центрами. Так? Что касается Амазона: мне уже не раз говорили разные ИТ директора, что это единственный по настоящему "облачный" и по настоящему надежный дата центр. Но двое примерно дороже наших.
    0
  • Скрыть ветвь
    Рейтинг820

    Начальник отдела IT-технологий

    AO Caspian Beverage Holding

    18.02.2018 07:59

    Ответ на « Насколько я поняла, ваш совет был... »

    Вы не правильно меня поняли. Дублировать надо владельцев дата-центров. Насколько я помню, в 2011 году и у амазона был сбой на 4 суток.

    0
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    19.02.2018 05:35

    Ответ на « Вы не правильно меня поняли. Дублировать... »

    Мы видимо говорим об одном и том же: что облачное решение должно быть развернуто в нескольких, а не в одном, дата центре. Видимо, так и есть: если бы это было иначе, легли бы не треть российских клиентов, а все.
    0
  • Скрыть ветвь
    Рейтинг190

    Научный руководитель НИЛ "Оптимизация и автоматизация энергетических и технологических процессов"

    НИУ МЭИ

    14.02.2018 16:47
    К сожалению, не удивляет уровень работы средних отечествееных специалистов, хотя всех нельзя так едино оценивать. Инжинерия в РФ - это уже системная проблема. За время работы в GE RU убедился, что мы уже дошли до того, что и эксплуатировать хорошее оборудование часто не способны. Понимаю, что высказался не конструктивно, но наболело... Кстати, сам пользуюсь Битриксом.
    0
  • Скрыть ветвь
    Рейтинг5530

    IT директор

    TENNANT Russia ( Теннант Россия)

    15.02.2018 00:03
    А мне уже пришло письмо от некого партнера Битрикс24 с предложением за три копейки перейти на коробочную версию в своем облаке.
    Кому горе, а кому бизнес.
    Нынешнее падение было печально тем, что телефоны из Битрикс24 тоже легли.
    У нас это случилось впервые: портал бывает недоступен, но телефония всегда раньше работала.
    0
  • Скрыть ветвь
    Рейтинг3610

    главный инженер

    ООО "НПП "Спецгеофизика"

    15.02.2018 10:41
    Яркая демонстрация слабости аутсорсинга и публичных облачных технологий. О чем я постоянно предупреждаю своих коллег, когда заходит разговор о переходе на облака и стороннюю поддержку.
    0
  • Скрыть ветвь
    Рейтинг1250

    Начальник отдела разработки и сопровождения АСУ

    Нижегородский ИВЦ, структурное подразделение ГВЦ, филиала ОАО "РЖД"

    16.02.2018 10:52
    Перекладывание проблем эксплуатации IT инфраструктуры своего бизнеса в "облако" не означает автоматического решения этих проблем. Это означает только ваше самоустранение от их решения.
    0
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    18.02.2018 05:56

    Ответ на « Перекладывание проблем эксплуатации IT инфраструктуры своего... »

    Ну теоретически облако как раз и означает, что инфраструктурных проблем у вас стало меньше, когда вы туда перешли. Вы, вроде бы, как раз и платите за то, чтобы у вас таких проблем не было. Не очень я как то представляю, как можно вмешаться в работу облачного дата центра даже при необходимости. Мне кажется, все же, что либо отдали - и тогда это не ваши проблемы, вы можете только уйти, если не нравится, либо вы не отдали и разбираетесь со своими проблемами сами. Но к облакам такое положение отношения не имеет.
    0
  • Скрыть ветвь
    Рейтинг1250

    Начальник отдела разработки и сопровождения АСУ

    Нижегородский ИВЦ, структурное подразделение ГВЦ, филиала ОАО "РЖД"

    19.02.2018 09:01

    Ответ на « Ну теоретически облако как раз и... »

    Ни одно "облако" в нынешнем виде не гарантирует 100% доступа к информационному ресурсу. Думаю, что для создания "неубиваемых" систем нужно реализовывать программно-аппаратные решения со 100% избыточностью с программными элементами в "аппаратном облаке" и вне его.
    1
  • Скрыть ветвь

    обозреватель

    журнал "Стандарт"

    19.02.2018 05:40
    Амазон - это временное решение, как и можно было предположить.
    Вот что пишет сам Сергей Рыжиков:
    - Еще раз отвечу про персональные данные. Говоря "переезд" в Германию, я сознательно упрощаю описания происходящего для понятности. Внутри все устроено значительно сложнее. К двум датацентрам в РФ добавляется еще два в Германии со сложной схемой взаимодействия.
    4. Текущая схема временная. Наши инженеры уже начали работы по подготовке новых Датацентров в России.
    Источник - https://www.facebook.com/rsv.bitrix/posts/10215852917301867?pnref=story.
    0

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.