Коронавирус стал причиной потопа в серверной

Как мы за 3 дня устранили последствия ЧП в офисе клиента.

Коронавирус стал причиной потопа в серверной

Как мы за 3 дня устранили последствия ЧП в офисе клиента.

ИТ-аутсорсинг – это не только регламенты, ежедневная поддержка и стандарты соглашения об уровне обслуживания. Иногда приходится мобилизовывать все ресурсы, чтобы решить срочную проблему клиента.

Так произошло с одним из наших заказчиков – успешной производственной компанией, которая в этом году переехала в новый офис. В результате ЧП из строя была полностью выведена вся ИТ-инфраструктура, работа была парализована, бизнесу грозили убытки. Вот что мы сделали, чтобы всего за 3 дня полностью восстановить работу!

Тонкости переезда

Компания N (назовем ее так, чтобы не раскрывать настоящее название) - один из постоянных клиентов ALP ITSM. К моменту ЧП мы уже на протяжении 4 лет занимались ИТ-поддержкой компании: следили за состоянием серверного и сетевого оборудования, обеспечивали работоспособность сервисов, консультировали пользователей.

Все шло хорошо. Компания успешно развивалась, набирала новых сотрудников и несколько раз переезжала во все более просторные офисы. Каждый раз при переезде мы помогали развернуть ИТ-инфраструктуру на новом месте. Делали все максимально оперативно – старались приурочить переезд к выходным, чтобы уже в понедельник сотрудники могли выйти на новые места, полностью подготовленные с точки зрения ИТ.

Последний переезд ничем не отличался от предыдущих. Заказчик решил оборудовать в офисе специальную серверную комнату. Подрядчиком выступала другая компания, однако ее сотрудники постоянно консультировались с ALP ITSM по вопросам размещения оборудования. Как выяснилось впоследствии, почти все наши рекомендации были учтены - за исключением одного единственного пункта, который и стал «роковым».

День Х

С момента переезда в новый офис прошло несколько месяцев. Все шло хорошо, оборудование стабильно работало.

Однако в июле 2021 года один из сотрудников заболел коронавирусом. Чтобы обезопасить остальной персонал, в офисе решили провести дезинфекцию. Одно из распространенных решений в этом случае – обработка помещения специальным паром.

Вызвали бригаду, которая вечером, после ухода сотрудников, начала проведение дезинфекции. Все помещения (за исключением серверной, которая была изолирована от основных помещений) были отключены от датчиков пожарной безопасности. Пространство офиса заполнили паром и в таком состоянии он был закрыт на ночь.

Когда следующим утром сотрудники пришли на работу, оказалось, что в офисе не работает ни телефон, ни интернет, не функционирует ни один ИТ-сервис. Штатные ИТ-сотрудники направились в серверную и обнаружили, что все оборудование залито водой. Они связались с командой ALP ITSM, чтобы оперативно разобраться в причинах и, самое главное, восстановить оборудование.

Что же произошло?

Как выяснилось позже, одной из главных причин ЧП стали особенности прокладки вентиляционных каналов в офисе. Предполагалось, что серверная комната полностью изолирована от остальных помещений, однако на деле это оказалось не так: пар проник внутрь серверной комнаты через вентиляционные решетки.

Затем пар вызвал реакцию пожарных датчиков – по стечению обстоятельств, именно в серверной комнате они не были отключены в отличие от всего остального офиса. И хотя во время консультаций при строительстве серверной комнаты мы рекомендовали использовать газовое пожаротушение, подрядчик не прислушался к этой рекомендации и использовал жидкостное средство пожаротушения. В итоге после того, как сработали пожарные датчики, вся серверная комната оказалась залита водой. О том, чтобы сохранить работоспособность оборудования, не было и речи.

План А и план Б

Как только заказчик сообщил нам о проблеме, в его офис выехала группа «оперативного реагирования» из нескольких человек.

Мы сразу же разделили работу на два направления:
  1. Диагностика состояния оборудования в серверной. Нужно было попытаться спасти то, что еще можно было спасти.
  2. Поиск обходных решений, чтобы восстановить работоспособность офиса как можно быстрее.

Заказчику такой подход понравился, он нам дал «зеленый свет» на проведение всех работ.

Действовать пришлось быстро
Бизнес простаивал и нёс убытки. На протяжении трёх дней мы работали в режиме 24 часа в сутки.

Работу части оборудования, которая не сильно пострадала от воды, нам удалось восстановить в тот же день. Заработала телефония, интернет, 1С. Одновременно мы связались с сервисным центром, чтобы заменить ту часть оборудования, которую восстановить было уже невозможно.

Параллельно мы занимались восстановлением информации, которая была на серверах перед инцидентом. В этом сильно помогли резервные копии, которые хранились за пределами офиса (это хорошая практика, мы рекомендуем так поступать всем клиентам). Инцидент произошел накануне выходных дней, и за эти дни мы развернули копии в нашем облаке. Также удалось сделать слепок ИТ-инфраструктуры.

В итоге к понедельнику мы восстановили всю инфраструктуру, все технические сервисы были доступны. Основная задача была решена.

В течение следующей недели были проведены отладочные работы, так как сбой работоспособности был очень резким, потребовалась консультация пользователей и дополнительная поддержка.

Какие выводы сделали мы и заказчик?

Как бы тщательно вы ни продумывали защиту серверной комнаты, от ЧС не застрахован никто. Поэтому всегда полезно помнить о нескольких ключевых вещах, которые позволят быстрее преодолеть подобные инциденты.

  1. Обязательно должна быть внешняя резервная копия. Если бы у заказчика ее не было в наличии, восстановить информацию было бы на порядок сложнее.
  2. Не стоит держать все «в одной корзине». Закрытый периметр не гарантирует 100% безопасности. Разумно часть информации перенести в облако. Это обеспечит работоспособность сервисов, даже если что-то произойдет с сервером компании.
  3. Нужно заранее продумать план действий сотрудников на случай выхода из строя серверов. Это позволит не терять времени на эмоции, преодолеть растерянность и сразу же приступить к поиску решения.

Свежие новости и статьи

21 ноября 2024

Вебинар о миграции IT-инфраструктуры в облако: как избежать рисков

11 ноября 2024

Как мигрировать IT-инфраструктуру в облако с минимальными рисками: опыт Cloud.ru и ALP ITSM

8 ноября 2024

Конференция “Время комплексных бизнес-решений”

10 октября 2024

ALP ITSM соответствует стандартам системы менеджмента качества

1 октября 2024

День ИТ соЛИДарности

4 сентября 2024

Локализация ИТ-инфраструктуры: кому нужна, как и когда лучше сделать

Закрыть

Запрос КП

Оставьте ваши контакты — ФИО, телефон, e-mail. Наши сотрудники перезвонят в течение 1 часа по будням с 9:00 до 19:00.
Нажимая на кнопку «Получить КП», вы даете согласие на обработку персональных данных и соглашаетесь с политикой конфиденциальности.

Получить консультацию

Оставьте ваши контакты — ФИО, телефон, e-mail. Наши сотрудники перезвонят в течение 1 часа по будням с 9:00 до 19:00.
Нажимая на кнопку «Получить КП», вы даете согласие на обработку персональных данных и соглашаетесь с политикой конфиденциальности.

Обратный звонок

Оставьте ваши контакты — ФИО и телефон. Наши сотрудники перезвонят в течение 1 часа по будням с 9:00 до 19:00.
Нажимая на кнопку «Получить КП», вы даете согласие на обработку персональных данных и соглашаетесь с политикой конфиденциальности.

Ваша заявка успешно отправлена!

Наш менеджер перезвонит в ближайшее время.
Отвечаем за 1 час по будням с 9:00 до 19:00.
Заявки, отправленные в выходные, обрабатываем в первый рабочий день с 9:00 до 10:00.

А пока предлагаем —

Познакомиться с историей, компетенциями, ключевыми сотрудниками ALP ITSM
Почитать 120+ отзывов российских и между­народных клиентов