NSD - Recursos para el administrador
Albert Buendia - 28/04/2010

¿Se te ha caído el servidor? ¿Se está cayendo repetidamente? ¿Estás nervioso? ¿El pulso se acelera? ¿Viene algún jefe a ver qué ocurre? Si tu respuesta es negativa estás de enhorabuena. A la mayoría de mortales alguna que otra vez se nos ha caído el servidor de..... producción, claro. El de pruebas nunca se cae. Lo dice el Sr. Murphy. Quizás tengas un servidor Domino en cluster aprovechando las capacidades nativas de Lotus Domino para clusterización. Pero en el complejo mundo de las Tecnologías de la Información no hay nada perfecto.

Frecuentemente los motivos para la caída o crash de un servidor Domino pueden ser:

- Un agente programado de una base de datos o aplicación que no finaliza y "revienta" el servidor.
- Una base de datos nsf corrupta. Cuando se pone en marcha la tarea habitual de compact  el servidor se queda en un bucle infinito y se bloquea.
- Un conflicto con un programa externo. Por ejemplo, los antivirus que suelen ser los programas más peligrosos después de los virus (que se lo pregunten a los clientes de Mcafee).
- Hardware en mal estado, por ejemplo un DIMM de memoria defectuoso - extermadamente difícil de detectar el fallo - o un disco en RAID a punto de explotar y que no avisa o "canta" la controladora el inminente fallo - tecnología S.M.A.R.T de discos duros.

En el Directorio de Domino names.nsf  hay una sección en la pestaña "Básico" donde podemos configurar que en el caso de que se caiga el servidor se reinicie automáticamente - muy útil para el periodo vacacional - y que nos envíe un aviso por correo. Si tenemos Lotus Traveler o Blackberry nos llegará el "marrón" al celular. Quizás mejor no enterarse, sobretodo estando de vacaciones en la Riviera Maya.

Image:NSD - Recursos para el administrador


Para verificar cuantos días hace que el servidor no se ha reiniciado podemos ingresar en la consola el comando show server. Aquí no hay pinocho que valga. En el ejemplo podemos ver que el servidor lleva 8 días sin que haya caído o que un administrador le haya metido mano con restart server, por ejemplo, por un cambio de configuración importante que lo requiera.


Image:NSD - Recursos para el administrador



El índice de disponibilidad o Availability Index  va muy bien para medir la carga de un servidor Domino. El valor 100 indica un servidor muy relajado y un valor de cero o próximo a cero indica sobrecarga y que hecha humo. En el caso de que se produjera un reinicio automático del servidor por algún motivo, si tenemos habilitado la opción "mail fault notification to" recibiremos un correo avisando del evento.


Image:NSD - Recursos para el administrador
Si recibes este mensaje, hay que analizar las causas. Si sabes por qué ha ocurrido, no problem. Por ejemplo, porque estás probando una aplicación con agentes en Java. Pero si desconoces el motivo de la caída tienes varias opciones en tu próximo workflow.

a) Intentar averiguar el motivo del fallo del servidor.
b) Llamar a un listo. Hay listines telefónicos que valen una fortuna.
c) Contactar con tu BP de referencia y pasarle el marrón.
d) Abrir un caso con soporte de Lotus.
e) Buscar por los foros y/o lanzar una pregunta. Con un poco de suerte quizás alguien te conteste.
f) Mirar hacia otro lado.

A continuación te indicamos algunos recursos que pueden resultarte muy útiles en caso de fallo de un servidor Domino.

Recurso 1


Using NSD - A Practical Guide

Recomendamos encarecidamente este documento PDF pues explica claramente los tipos de fichero que hallaremos en el directorio IBM_TECHNICAL_SUPPORT, el concepto de semáforos, los dead lock, etc. Con estos términos nos estamos introduciendo en el mundo de los sistemas operativos pero ¿qué ocupa el saber? Además de los tipos de fichero que el documento explica, en la versión 8.5.x de Domino aparece un tipo nuevo en el directorio IBM_TECHNICAL_SUPPORT. Nos estamos refiriendo a los ficheros xpages_exc_*.log

Recurso 2


Aplicación Lotus Notes Diagnostic v. 2.8 NSD. Se trata de una aplicación que podemos instalar en nuestro cliente Lotus Notes para analizar los ficheros generados en el servidor del directorio IBM_TECHNICAL_SUPPORT. Recomendamos echar un vistazo a la ayuda de la aplicación. Descarga libre en la siguiente ubicación:

ftp://ftp.software.ibm.com/software/lotus/tools/LND_2.8_Setup.zip


Image:NSD - Recursos para el administrador

Esta herramienta se integra además con el explorador de archivos.

Image:NSD - Recursos para el administrador



Recurso 3


IBM Support Assistant Tools Add-On List

Compendio de herramientas de diagnóstico de IBM para diferentes sistemas. Descarga en el siguiente enlace.


Recurso 4


FAQ. Cómo analizar los NSD

Recopilación de documentos de ayuda y referencia.


Recurso 5


Si entiendes italiano, DominoPoint nos regala este vídeo.


Adicionalmente he hallado esta entrada del bloguero brasileño Dan Silva pero no he podido localizar la grabación de ese webcast. Espero que estos recursos os puedan ser útiles.
1
Martín
29/04/2010 12:57:57

Please Albert, añádelo a la fábrica.

Gracias

2
Alejandro Ahumada
29/04/2010 12:12:44

¡Muy bueno! Tener todos los posibles recursos en un solo documento es fantástico.

3
Danisoft
29/04/2010 17:48:37

Ale a pasarlo bien, te cuidado con loque fumasssss

4
Albert Buendía
29/04/2010 17:02:23

Bueno, como hay comentarios tan gratificantes os digo el truco del recurso más rápido (a veces funciona). Seguro que Dani sabe un montón más. Abrir el fichero nsd_......log con el bloc de notas que lleva la fecha y hora de la parada brusca. Buscar la palabra PANIC o FATAL en el fichero. Si la encuentra estás de suerte. Mira en la columna de la derecha donde está la codificación ASCII. Busca algún archivo nsf. Puede ser el culpable del desaguisado.

Me piro a Holanda hasta el martes por asuntos familiares. Si se detiene el servidor del ESLUG, tendréis que liaros con los ficheros NSD :)))

5
César
29/04/2010 12:24:02

Albert!! genial!!! Documentos de este tipo (Docs de alto standing) ayudan muchísimo en momentos de desesperación (aumento de las pulsaciones). GRACIAS.

Deja tu comentario

NSD - Recursos para el administrador