Monitorización, Nagios Core / XI , OP5 Monitor & Naemon

Síguenos también en @SIM_Technical

Monitorización básica de un SAI con Nagios XI

En el momento de monitorizar un SAI deberemos decidir qué nivel deseamos disponer de monitorización. Debemos tener en cuenta que la mayoría de fabricantes nos provén tanto de SNMP como de TRAPS, con lo cual el límite lo ponemos nosotros.

Otra cosa importante es tener en cuenta que el muchas ocasiones el mantenimiento de estas instalaciones corren a cuenta de otros departamento (servicios generales, mantenimiento) o incluso el mantenimiento puede estar subcontratado.

En cualquiera de los casos anteriores vamos a analizar como monitorizar un SAI de la forma más básica.

Existen tres parámetros esenciales que debemos tener siempre monitorizados:
– Nivel de carga de la batería.
– Tiempo de vida de la batería en caso entrada en funcionamiento.
– Nivel potencia de salida usado.

El nivel de carga de batería hace referencia al % de carga energética de esta. Evidentemente consideraremos que la batería debe estar siempre por encima del 90% de su carga, y por debajo del 50% nos indicaremos que hay una alarma crítica.

El tiempo de vida de las baterías en caso de entrada en funcionamiento es el tiempo que el SAI interpreta que podrá suministrar energía en caso de fallo eléctrico, este valor será en función de la potencia que debe suministrar y el nivel de carga de batería. Este valor dependerá pues de la instalación, pues en algunos casos podemos considerar que por debajo de 15 minutos puede ser un error, pero en otros casos puede ser un valor correcto.

El nivel de potencia es el % de la capacidad de potencia usada por el SAI. Si no tenemos conectado nada detrás del SAI considera que puede ser el 0% mientras que si tenemos equipos podemos llegar al 100%. Recomendamos considerar un 90% siempre como alerta preventiva, mientras que el 95% puede considerarse un valor crítico.

Ahora que tenemos claro lo que vamos debemos monitorizar, vamos a por ello. En nuestro ejemplo va a ser un SAI MGETM GalaxyTM 3000 e interpretamos como aviso si no puede suministrarnos más de 10 minutos de electricidad (5 será un error crítico).

SAI_XI

Leyendo los manuales encontramos que para este modelo:

backup_time = SNMPv2-SMI::enterprises.705.1.5.1.0
batt_charge_level = SNMPv2-SMI::enterprises.705.1.5.2.0
output_load = SNMPv2-SMI::enterprises.705.1.7.2.1.4.1

Quedarían así nuestras configuraciones SNMP:

check_xi_service_snmp! -o SNMPv2-SMI::enterprises.705.1.5.1.0 -C public -P 1 -u "Segundos" -w 600: -c 500:
check_xi_service_snmp! -o SNMPv2-SMI::enterprises.705.1.5.2.0 -C public -P 1 -u "%" -w 90: -c 80:
check_xi_service_snmp! -o SNMPv2-SMI::enterprises.705.1.5.2.0 -C public -P 1 -u "%" -w 90 -c 95

En nuestro caso para el tiempo de vida el valor devuelto es en segundos y considerando la instalación comprendemos que menos de 10 minutos de vida de baterías en caso de fallo eléctrico es motivo de revisión (alerta preventiva).

,

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.