Click acá para ir directamente al contenido
Las métricas de los servicios

Las métricas de los servicios

¿Qué es el SLA? ¿Existen otras métricas? Revisamos algunas de las más importantes para conocer la disponibilidad de un servicio en Internet.

<

De cuando en cuando, un gran servicio de Internet se cae y deja fuera de operación a sitios web, aplicaciones y otros sistemas. Por lo mismo, es conveniente entender cómo se mide la disponibilidad de los servicios.

Muchas veces ocurre que la medición se ha hecho en forma intuitiva o por medio de percepciones, o mediante el uptime (que muchas veces no se mide). Esto puede generar expectativas desmedidas de los clientes (como un uptime esperado del 100%) y por otra parte, al no medirse, no puede mejorarse.

Dentro de los estándares de seguridad está la medida del riesgo operacional de un servicio. Regularmente se refiere al Service Level Agreement, o SLA. Este factor se mide por métricas que permiten verificar el cumplimiento de los compromisos acordados con el cliente.

¿Pero qué es el SLA? ¿Existen otras métricas? Google definió en su famoso libro "Site Reliability Engineering" o SRE, nuevas maneras de medir sus servicios, y que hoy se usan en toda la industria. Estas mediciones son:

  • Service Level Objetive (SLO): La disponibilidad es el factor clave de un servicio. Si el servicio no está disponible (considera esto sus funcionalidades), no cumplirá su propósito. El SLO se define en forma numérica, por ejemplo, 99,7% anual (implica que no estará disponible por 1 día, 2 hrs y 18 minutos en el año). Cuanto mayor sea el SLO, más costoso resultará el servicio, ya que implica más recursos. Nuevos desarrollos tardarán más en ponerse en producción (a mayor tasa de cambio, menos disponibilidad).
  • Service Level Agreement (SLA): El SLA es el acuerdo de la empresa con el cliente sobre un servicio, que incluye al SLO, aunque es menos exigente y también incluye otras métricas, por ejemplo, un determinado nivel de tráfico o de espacio disponible, o cuotas de recursos.
    El SLA podría definir un SLO de 99,9% mensual, pero el SLO interno será más exigente, como 99,95% mensual. Por lo general, el no cumplimiento del SLA involucra multas o alguna compensación para el cliente.
  • Service Level Indicator (SLI): Google define el SLI como una medida directa del  comportamiento del servicio: la frecuencia de éxito en las pruebas de un sistema. Una indicador podría ser una tasa de éxito, por ejemplo, Requerimientos HTTP exitosos / Requerimientos HTTP totales. Aquí pueden definirse otros indicadores: latencia, disponibilidad, tasa de errores, rendimiento, concurrencia, etc.

Otras métricas

Como dijimos, la disponibilidad es la clave de un servicio, por ello es necesario medir las
fallas. Existen dos indicadores muy usados:

  • MTBF (El tiempo medio entre fallas): Tiempo transcurrido entre dos fallas, sirve como predictor del comportamiento esperado del servicio y permite predecir un nuevo incidente.
  • MTTR (tiempo medio para recuperarse): Corresponde al tiempo transcurrido entre el momento que se produce una falla y cuando se retoma la operación normal.

El objetivo dentro de la mejora continúa es reducir el MTBF y MTTR. Finalmente, volvemos al antiguo principio: aquello que no se puede medir, no se puede mejorar. La evaluación de la seguridad exige que existan SLA en los servicios.

Comencemos a trabajar juntos

Cotiza tu proyecto con nosotros. Podemos acompañarte en el proceso y llevar tus ideas a la web.

Contáctanos