Alertas Útiles en Google Cloud Platform
Intro
Me gustaría empezar esta entrada con un síntoma que he sufrido bastante en las empresas donde he tenido el placer de trabajar:
El Día a Día Me Come (DDMC)
Fransu Rondán
Se podría aplicar en muchos aspectos, tanto personales como profesionales. Pero hoy me gustaría hacer hincapié en esa gran aliada, apenas utilizada en las infraestructuras de sistemas: La monitorización.
Da igual como se llame la herramienta: Stackdriver, Zabbix, Nagios… Es una inversión de tiempo que se recupera a corto plazo. Lo importante es tenerla, configurarla y hacerle caso.
Ventajas
- Detección e identificación temprana de problemas.
- Ejecución de acciones preventivas.
- Alertas y notificación de las incidencias.
- Generación de informes de rendimiento y seguridad.
- Capacidad para optimizar recursos.
¿Qué monitorizar?
En esta entrada no vamos a centrar en los indicadores del rendimiento (KPI) de VM y de contenedores de Kubernetes, en concreto la RAM y CPU, puesto que Google Cloud Platform es una plataforma demasiado flexible para detallarlo todo.
Memoria
Instancias de máquina virtual
Nombre del recurso | VM Instance |
Etiqueta del recurso en la consulta | gce_instance |
Nombre de la métrica: | Memory utilization |
Descripción de la métrica: | Tamaño en bytes de memoria usada obtenida utilizando el agente de stackdriver. |
Etiqueta de la métrica en la consulta: | agent.googleapis.com/memory/percent_used |
Tipos de memoria disponibles para la monitorización: | buffered cached free slab1 used |
Nombre del recurso | VM Instance |
Etiqueta del recurso en la consulta | gce_instance |
Nombre de la métrica: | VM Memory Used |
Descripción de la métrica: | Memoria actual usada en la VM. Solo disponible para las VM de la familia e2. |
Etiqueta de la métrica en la consulta: | compute.googleapis.com/instance/memory/balloon/ram_used |
Tipos de memoria disponibles para la monitorización: | buffered cached free slab1 used |
Kubernetes
Nombre del recurso | GKE Container |
Etiqueta del recurso en la consulta | k8s_container |
Nombre de la métrica: | Memory Usage |
Descripción de la métrica: | Uso de memoria en bytes |
Etiqueta de la métrica en la consulta: | kubernetes.io/container/memory/used_bytes |
Tipos de memoria disponibles para la monitorización: | evitable: Fácilmente reclamada por el kernel non-evitable: No fácilmente reclamada por el kernel |
CPU
INSTANCIAS DE MÁQUINA VIRTUAL
Nombre del recurso | VM Instance |
Etiqueta del recurso en la consulta | gce_instance |
Nombre de la métrica: | CPU utilization |
Descripción de la métrica: | Porcentaje de CPU usado obtenido utilizando el agente de stackdriver. |
Etiqueta de la métrica en la consulta: | agent.googleapis.com/cpu/utilization |
Estados de CPU disponibles para la monitorización: | idle: Cuando no lo está usando ningún programa. interrupt: Señales enviadas por dispositivos externos a la CPU para detener las actividades actuales. nice: Tiempo dedicado a ejecutar procesos con buen valor positivo. softirq: Cuando se ejecuta un controlador de interrupciones o una función diferible. steal: Tiempo que una CPU virtual espera una CPU real mientras el hipervisor está dando servicio a otro procesador. system: CPU utilizada por el sistema user: CPU utilizada por el usuario wait: cantidad de tiempo que una tarea tiene que esperar para acceder a los recursos de la CPU |
Hay muchos tipos de memoria, y todos deberían ser monitorizados. Sin embargo, considero que lo más fácil sería monitorizar que siempre tengamos un porcentaje libre de idle. No sabremos que tipo de memoria exactamente está dando el problema, pero detectaremos que algo está ocurriendo y podremos tomar medidas.
Podríamos configurar alertas, por ejemplo, que detectaran cuando la memoria idle disponible es inferior al 30% durante 1h.
Nombre del recurso | VM Instance |
Etiqueta del recurso en la consulta | gce_instance |
Nombre de la métrica: | CPU utilization |
Descripción de la métrica: | Utilización fraccionada de la CPU asignada. Los valores son típicamente números entre 0.0 y 1.0. Los gráficos muestran los valores como un porcentaje entre 0% y 100% |
Etiqueta de la métrica en la consulta: | compute.googleapis.com/instance/cpu/utilization |
Valores de CPU disponibles para la monitorización: | cpu/utilization |
Kubernetes
Debido a la forma de funcionar y a la lógica de Kubernetes, GCP no nos proporciona para los contenedores un parámetro utilization como pasaba con las máquinas virtuales. En su lugar nos ofrece los siguientes parámetros:
- kubernetes.io/container/cpu/core_usage_time
- kubernetes.io/container/cpu/limit_cores
- kubernetes.io/container/cpu/limit_utilization
- kubernetes.io/container/cpu/request_cores
- kubernetes.io/container/cpu/request_utilization
Sin embargo, si queremos saber el uso de CPU, los clusters de GKE al final son maquinas virtuales en el entorno de GCE. Para evitarnos sustos, siempre es recomendable tener el cluster monitorizado como una máquina más.
Discos / Volumenes
Instancias de máquina virtual
Nombre del recurso | VM Instance |
Etiqueta del recurso en la consulta | gce_instance |
Nombre de la métrica: | Disk usage |
Descripción de la métrica: | Disco usado en bytes obtenido utilizando el agente de stackdriver. Solo para VM Linux. |
Etiqueta de la métrica en la consulta: | agent.googleapis.com/disk/bytes_used |
Tipo de uso: | free reserved used |
Nombre del recurso | VM Instance |
Etiqueta del recurso en la consulta | gce_instance |
Nombre de la métrica: | Disk usage in Bytes |
Descripción de la métrica: | Disco usado en bytes. |
Etiqueta de la métrica en la consulta: | compute.googleapis.com/guest/disk/bytes_used |
Valores de CPU disponibles para la monitorización: | cpu/utilization |
Filtros:
- resource.namespace_name
- resource.container_name
- metric.memory_type:
- Values:
evictable
: It is memory that can be easily reclaimed by the kernelnon-evictable
. , Is memory that can not be easily reclamied by the kernel.
- Values: