«Бесчеловечный» ЦОД
Мы прошли большой путь развития наших Центров Обработки Данных. Сначала мы собрали информационные системы в Центрах Обработки Данных, расположенных на расстоянии синхронной репликации, чтобы избежать потери данных при сбое.
Сбой электропитания в Москве в мае 2005 года заставил всех в стране, да и нас тоже, задуматься над резервированием информационных систем в ЦОД, который не будет подвержен влиянию катаклизмов одного региона. Мы просмотрели множество вариантов и обратили взор на ЦОД в районе города Цюрих — он находится на изрядном удалении, обеспечен резервируемыми каналами связи и электропитанием, расположен в сейсмоустойчивом районе, территориально размещается в оперативной доступности сервисных организаций большинства производителей оборудования.
Но, с другой стороны, у нас не было там штата администраторов. И это заставило нас переосмыслить традиционные на тот момент подходы к обслуживанию Центров Обработки Данных, требовавшие присутсвия дежурной смены в непосредственной близости к оборудованию. Мы тогда подумали: а как бы мы организовали ЦОД, если бы он размещался на Луне или на Марсе? Туда не сильно-то наездишься! Мы поняли, что надо организовывать полностью удалённое управление информационными системами, виртуальной платформой, физическим оборудованием: серверами, системами хранения, системами резервного копирования и коммутаторами. Мы выбрали оборудование с удалённым управлением электропитанием, оснастили стойки распределителями питания PDU) с удалённым управлением.
Мы взялись за дело: закупили «правильное» оборудование, задублировали сетевой доступ, обеспечили видеонаблюдение, заключили договоры с управляющей ЦОДом компанией и с сервисными организациями, поддерживающими оборудование. И, что не менее важно, мы подключили всё оборудование и все информационные системы к нашей Централизованной Системе Мониторинга. Мы довольны нашей системой мониторинга: мы её построили таким образом, что она регулярно опрашивает каждый узел инфраструктуры (виртуальной и физической), отслеживая только важные для работы параметры. При этом мы задаём дерево зависимостей между компонентами, поэтому, обнаружив "сбойнувший" компонент, система сразу определяет, на что он влияет.
Система мониторинга отслеживает работу тысяч компонентов по десяткам параметров. Очень важно не перегрузить администраторов информацией, поэтому мы решили для себя, что система мониторинга должна показывать только ту часть сервиса, которая показыват "сбойнувший" компонент. Поэтому круглосуточная дежурная служба, что размещается в тысячах километров от ЦОД, оперативно узнаёт о самом факте сбоя и видит в системе мониторинга, что его вызвало.
Мы выезжаем в удалённый ЦОД на монтаж нового, замену устаревшего оборудования и перекооммутацию один раз в год. Это полная интенсивной работы и веселья неделя. За всё время обслуживания нам не пришлось выезжать в удалённый ЦОД для устранения аварий. Лишь один раз мы не смогли удалённо включить старый добрый SF25K, который выключился для защиты от перегрева, когда была авария системы охлаждения. Этот сервер физически выключает тумблер, который можно включить только механически. Мы попросили персонал обслуживающей ЦОД компании дойти до сервера и физически включить питание. В течение года сервисные компании приезжают для замены вышедших из строя компонент — организовать визит вполне можно удалённо.
Мы гордимся тем, как организовали работу этого ЦОД. Гордимся тем, что у нас нет необходимости в присутствии людей в ЦОД для обслуживания оборудования. Поэтому мы с городостью называем его «бесчеловечным».