Задача планирования аварийного восстановления – поиск баланса между потребностями и финансовыми возможностями бизнеса, и закрепление его в виде соглашения об уровне обслуживания (Service Level Agreement – SLA) в части устранения возникающих инцидентов.
Для определения необходимого уровня обслуживания необходимо провести процедуру сбора и обработки информации об ИТ-инфраструктуре организации, позволяющие получить точную информацию о:
- ИТ-сервисах, критичных для бизнеса компании;
- Текущем времени восстановления их работы в случае сбоя;
- Минимально достижимых сроках аварийного восстановления;
- Необходимых ресурсах для их достижения.
Первый этап полностью состоит из согласования следующих аспектов взаимодействия:
- Время поддержки бизнеса;
- Наличие необходимых резервов оборудования напрямую влияет на возможность оперативного восстановления сервиса;
- Включить в соглашение предоставление подменного оборудования на время ремонта;
- Подписать сервисный контракт на замену отказавшего оборудования с гарантированным временем восстановления в зависимости от степени критичности для вашего бизнеса;
- Включить в обслуживание регламентное профилактическое обслуживание для снижения рисков возникновения аварийных сбоев и остановок;
- Описать объем выполняемых регламентных задач;
- Согласовать регламент решения проблем, выходящих за рамки SLA.
Второй этап - определение сроков, в которые возможно восстановление тех или иных пользовательских сервисов в случае любых сбоев.
Дополнительные действия для ускорения аварийного восстановления: Это может быть как дополнительная система мониторинга, резервного копирования так и дополнительный сервер или сетевое оборудование, настроенное и работающее в режиме горячей замены. Именно они могут потребоваться, чтобы еще чуть быстрее локализовать и восстановить работу пользовательского сервиса.
Третий этап – формализация требований
Показатели уровня сервиса согласованы и отражены в контракте:
- Согласованное время поддержки пользовательских сервисов;
- Гарантируемые сроки восстановления их работы в случае сбоев;
- Деньги (включая сроки их выделения) и мероприятия, необходимые для достижения поставленных целей;
- Ситуации, выходящие за рамки планирования и перечень мероприятий, позволяющих уменьшить ущерб в случае их возникновения.
На этом планирование аварийного восстановления можно считать успешно завершенным.
Мы предлагаем следующие стандартные уровни поддержки в рамках SLA:
Время оказания услуг:
- 9х5 (5 дней в неделю в течение 9 раб. час);
- 12х5 (5 дней в неделю в течение 12 раб. час);
- 24х7 (ежедневно круглосуточно).
Время редакции (Фиксированное время реакции инженера 2-го уровня поддержки)
- 2 часа;
- 4 часа;
- NBD (на следующий рабочий день).
Время выезда (Фиксированное время выезда инженера 2-го уровня поддержки на место установки оборудования)
- 4 часа;
- NBD (на следующий рабочий день);
- 2BD (в течение 2 рабочих дней).
Время восстановления (Фиксированное время восстановления оборудования)
- 8 часов;
- NBD (Next Business Day);
- Не регламентировано.