Мониторинг и контроль удалённых устройств при помощи RPCM
Часть 1. Общие вопросы управления.
Этой публикацией мы открываем серию статей, посвящённую проблемам мониторинга и управления устройствами при помощи Resilient Power Control Module (RPCM).
«МЫ» — это компания RCNTEC, которая выпускает самый продвинутый управляемый PDU Resilient Power Control Module (RPCM).
В этот раз мы поговорим об общей стратегии удалённого управления, в том числе, в самых неудобных ситуациях, когда устройство демонстрирует признаки «зависания», а решить проблему стандартными методами не получается.
Почему необходимо отслеживать работу устройств?
Любая работа вхолостую, даже на самый короткий период, любой простой оборудования — это деньги.
Деньги были потрачены на приобретение, постоянно тратятся на оплату электроэнергии, в том числе на охлаждение. Даже такие, на первый взгляд, простые вещи, как лишняя минута внимания со стороны системного администратора вполне можно выразить в денежном эквиваленте.
А если говорить об утерянной выгоде, например, из-за недоступности различных сервисов — тут цифры могут быть весьма и весьма внушительными.
«Ну а если сервис не так уж и важен? Ну и пусть себе пребывает в подвисшем состоянии, пока снова не понадобится...», — возразит дотошный читатель.
На самом деле это тоже чревато убытками. Если сервис или устройство целиком не имеет критической важности для бизнес-процессов, то его следует держать в выключенном состоянии, экономя деньги на электроэнергию и обслуживание. Включать — только при необходимости, например, воспользовавшись функцией Wake-on-Lan.
Некоторые нюансы удалённого управления
Исходя из всего вышесказанного, можно смело заявлять, что эффективная система — это когда то, что нужно — работает, а то, что на данный момент не нужно — выключено.
Представьте себе ситуацию, когда на удалённом объекте по какой-то причине зависло работающее устройство.
Во-первых, об этом нужно каким-то образом узнать. То есть должна присутствовать программная или программно-аппаратная система мониторинга.
Но даже если сигнал тревоги вовремя поступил, например, на электронную почту, нужен человек, который прочитает сообщение и исправит ситуацию.
И тут возникают вопросы: «Как быстро такое зависание может быть обнаружено?», и «Как быстро обслуживающий персонал сможет найти нужное оборудование и его перезагрузить?».
Представим себе простейший вариант.
Допустим, функционирует система мониторинга, которая прислала среди ночи системному администратору SMS-сообщение. Он проснулся, бросился к компьютеру, определил неисправность и восстановил работу.
Если наш администратор достаточно квалифицированный, он, чтобы не вставать по ночам, настроит свою систему на выполнение простейших команд, например, сначала на перезагрузку нужной службы, а если не помогает — то и всего сервера целиком.
Но если к устройству нельзя получить доступ по сети? Например, это и есть сетевое оборудование? Или сервер наглухо завис и не имеет дополнительного модуля управления?
Зачастую единственный вариант восстановить работоспособность при — “жёстком” зависании — холодная перезагрузка через выключение питания.
Но как это сделать? Лично отправляться в серверную или машинный зал? Звонить дежурному, чтобы отыскал нужное устройство и перезагрузил его? Серверное оборудование иногда (но далеко не всегда!) снабжено дополнительной системой управления, например, по IPMI. Но специализированные устройства, скорее всего, не будут иметь подобной роскоши.
Можно ещё позвонить охраннику, и слёзно просить подойти к зависшим устройствам и вытащить кабели питания.
Но тут начинается интересный момент. Не всегда охранник имеет доступ в серверную. И он не всегда сможет разобраться. А риск обесточить «не то, что надо» чреват такими последствиями, о которых будет больно вспоминать.
_________________________
Примечание. Такой вариант управления один остроумный человек назвал «работа через «зомби». Когда исполнитель сам толком не понимает, что делает, но слепо следует указаниям «голоса». При этом сам «зомби» должен быть достаточно смышлёным, чтобы правильно исполнять указания и не натворить ещё больших бед. Такой вот «сообразительный зомби» ... Чувствуете парадокс?
_________________________
Крупные компании с мощной ИТ-инфраструктурой вынуждены содержать штат дежурных системных администраторов, способных самостоятельно и квалифицированно выполнить такого рода работы.
Но такая роскошь, как держать несколько человек на окладе на случай «а вдруг что-нибудь случится, а никого нет» — могут себе позволить только организации с достаточно большим бюджетом на ИТ.
Более скромным предприятиям это уже не по карману.
Пути решения
Исходя из вышеописанных условий, становится ясно, что нужно иметь достаточно совершенный механизм для мониторинга и управления. Который мог бы сначала определить проблему на устройстве, а потом, при необходимости, выполнить его перезагрузку.
При этом желательно всё это делать в автоматическом режиме.
Чтобы нашему системному администратору спокойно спать по ночам, а охраннику не покидать свой пост, такая система должна постоянно контролировать подключенное устройство по одному или нескольким признакам, и при возникновении заранее определённых условий — выполнить холодную перезагрузку, отключив и снова включив электропитание на нужном электровыводе.
Но, в то же время, факт возникновения жёсткого сбоя с последующей вынужденной перезагрузкой не должен оставаться без внимания. Поэтому должна присутствовать система оповещения.
Всё это умеет делать Resilient Power Control Module с версией ПО 0.7.1. О том, как это использовать в той или иной ситуации для совершенно различных устройств, мы расскажем в следующих статьях.
_________________________
Остались вопросы? - Пишите нам на info@rpcm.pro!
Чтобы быть в курсе наших новостей и ничего не пропустить, присоединяйтесь к нашим страницам в социальных сетях!
По вопросам информационного сотрудничества обращайтесь: pr@rcntec.com!
Пресс-служба ООО «АРСИЭНТЕК»