Tolerancia a fallas

Definición: La tolerancia a fallas es la propiedad de un sistema que le permite continuar operando correctamente, o con un nivel de rendimiento reducido, incluso cuando uno o más componentes han fallado. En lugar de prevenir las fallas por completo, el diseño tolerante a fallas las anticipa y construye los mecanismos necesarios para sobrevivirlas: componentes redundantes, conmutación automática, estados seguros y degradación controlada. Es un concepto fundamental en la ingeniería de confiabilidad, el diseño de sistemas de seguridad y la arquitectura de control industrial.

¿Qué es la tolerancia a fallas?

La tolerancia a fallas es una propiedad de diseño que permite a un sistema continuar realizando su función requerida después de que ocurra una falla en uno o más de sus componentes. El sistema detecta la falla, la aísla y compensa mediante redundancia o pasa a un estado operativo reducido pero aceptable.

La distinción es importante: la tolerancia a fallas no se trata de prevenir fallas. Se trata de diseñar sistemas para que las fallas individuales no produzcan fallas a nivel de sistema. Un sensor, una bomba, una fuente de alimentación o un controlador con falla individual no debe detener todo el proceso.

En contextos industriales, la tolerancia a fallas se aplica donde las consecuencias de un paro no planificado son graves: plantas de proceso continuo, sistemas instrumentados de seguridad, redes de distribución de energía, automatización industrial y arquitecturas de control críticas para datos.

El concepto está formalizado en normas como IEC 61508 (seguridad funcional de sistemas eléctricos y electrónicos programables), IEC 61511 (sistemas instrumentados de seguridad de procesos) e ISO 25010 (calidad de sistemas y software), todas las cuales incluyen requisitos explícitos de tolerancia a fallas en niveles de integridad definidos.

Tolerancia a fallas vs evitación de fallas vs redundancia

Estos tres términos frecuentemente se confunden o se usan indistintamente. Abordan aspectos relacionados pero distintos del diseño de sistemas:

Concepto Objetivo Mecanismo Relación
Evitación de fallas Prevenir que ocurran fallas Componentes de alta calidad, diseño robusto, tolerancias estrictas, pruebas rigurosas Reduce la frecuencia de fallas
Tolerancia a fallas Continuar operando a pesar de las fallas Redundancia, estados seguros, degradación controlada, conmutación automática Reduce la consecuencia de las fallas
Redundancia Proporcionar capacidad de respaldo Componentes duplicados operando en paralelo o en espera Un mecanismo dentro de la tolerancia a fallas

La evitación de fallas y la tolerancia a fallas son estrategias complementarias, no alternativas. Los componentes de alta calidad reducen la tasa de fallas. La arquitectura tolerante a fallas limita el impacto de las fallas que sí ocurren. Juntas producen sistemas con alta confiabilidad inherente y alta disponibilidad operativa.

Tipos de tolerancia a fallas

Redundancia activa

En la redundancia activa, dos o más componentes idénticos operan simultáneamente y comparten la carga. Si uno falla, los demás absorben su parte de la carga de trabajo sin ninguna interrupción en la función del sistema.

Un arreglo de fuente de alimentación de doble alimentación donde ambas alimentaciones siempre están activas es un ejemplo clásico. Un sistema de procesamiento con múltiples CPUs ejecutando el mismo cómputo en paralelo es otro. La redundancia activa proporciona tolerancia a fallas sin interrupciones porque no hay retardo de conmutación: el componente en buen estado ya está operativo en el momento de la falla.

La contrapartida es el costo y la complejidad. Todos los componentes activos llevan carga de forma continua, por lo que todos están sujetos al desgaste y requieren mantenimiento. El sistema también debe tener lógica para detectar cuándo un componente ha fallado silenciosamente para que la falla no se propague.

Redundancia pasiva (redundancia en espera)

En la redundancia pasiva, un componente en espera se mantiene en reserva y se activa solo cuando falla el componente principal. El componente en espera puede ser caliente (alimentado y listo para tomar el control de inmediato), tibio (parcialmente inicializado con un breve retardo de activación) o frío (completamente fuera de línea hasta que se necesite).

Una bomba en espera que arranca automáticamente cuando falla la bomba de servicio es el ejemplo industrial más común. Los generadores de energía en espera que arrancan al fallar la red eléctrica son otro. La redundancia pasiva es menos costosa que la redundancia activa porque los componentes en espera no se cargan continuamente, pero introduce una breve interrupción en la conmutación y requiere pruebas regulares para confirmar que el componente en espera está funcional.

Diseño a prueba de fallas

El diseño a prueba de fallas garantiza que cuando un componente o sistema falla, pase a un estado seguro predeterminado en lugar de continuar operando en una condición indefinida o peligrosa. El estado seguro se elige para minimizar el riesgo, incluso si esto significa que el sistema ya no es productivo.

Los ejemplos industriales incluyen las válvulas solenoides normalmente cerradas (NC) que cierran al perder alimentación o señal, los sistemas de paro de emergencia que se desenergízan para disparar, y las válvulas de alivio de presión que abren ante sobrepresión. En cada caso, el estado de falla es seguro por diseño.

El diseño a prueba de fallas es particularmente importante en los sistemas instrumentados de seguridad (SIS), donde la consecuencia de una salida incorrecta es más grave que un disparo espurio. La IEC 61508 distingue entre fail-safe (estado seguro conocido) y fail-secure (el sistema permanece en su último estado bueno conocido), según el contexto de la aplicación.

Degradación controlada

La degradación controlada permite que un sistema continúe operando con capacidad o funcionalidad reducida cuando ocurre una falla, en lugar de fallar por completo. El sistema sacrifica algo de rendimiento para preservar la función central.

Un sistema de control industrial que pierde una de tres estaciones de trabajo de operadores pero continúa funcionando en las dos restantes es un ejemplo de degradación controlada. Una red de sensores distribuidos que continúa monitoreando la mayoría de los activos después de que un nodo de sensor se desconecta es otro ejemplo. El sistema está deteriorado pero no detenido, y los operadores son informados del estado degradado para que puedan gestionarlo.

La degradación controlada está estrechamente relacionada con el concepto de modo de falla: el diseño debe definir tanto el comportamiento de falla como el estado de capacidad reducida aceptable para que los operadores sepan qué esperar y cómo responder.

Tolerancia a fallas en sistemas industriales

Sistemas de control de procesos

Los sistemas de control distribuido (DCS) y los controladores lógicos programables (PLC) en industrias de proceso continuo están diseñados con múltiples capas de tolerancia a fallas. Los controladores redundantes, los módulos de I/O redundantes, los buses de comunicación redundantes y las fuentes de alimentación redundantes significan que la falla de cualquier elemento individual no interrumpe el control del proceso.

Las arquitecturas de votación, como la votación 2 de 3 (2oo3) de sensores, son comunes en lazos de seguridad crítica. Tres sensores idénticos miden la misma variable de proceso. El sistema de control actúa según la mayoría, de modo que una falla de sensor o una lectura falsa no activa una acción incorrecta. El sensor con falla se marca para reemplazo mientras el proceso continúa bajo el control de los dos restantes.

Sistemas de suministro de energía

Las instalaciones industriales utilizan arquitecturas de energía tolerantes a fallas en capas. Las alimentaciones de dos utilidades desde subestaciones separadas proporcionan el primer nivel. Los sistemas de alimentación ininterrumpida (UPS) con batería o volante de inercia mantienen la energía durante el intervalo de conmutación. Los generadores en espera proporcionan respaldo de mayor duración si el suministro de red se pierde por períodos prolongados.

Para cargas críticas, las configuraciones UPS N+1 y 2N son estándar. En una configuración N+1, se instala un módulo UPS adicional más allá del necesario para llevar la carga completa, de modo que cualquier módulo individual puede fallar sin pérdida de capacidad. En una configuración 2N, dos sistemas UPS completamente independientes, cada uno clasificado para llevar la carga completa, operan en paralelo proporcionando el mayor nivel de protección.

Sistemas instrumentados de seguridad

Los sistemas instrumentados de seguridad (SIS) son arquitecturas tolerantes a fallas diseñadas específicamente para llevar un proceso a un estado seguro cuando se detecta una condición peligrosa. Son independientes del sistema de control de proceso básico. Su diseño está regido por la IEC 61511, que especifica los requisitos de tolerancia a fallas en términos de Niveles de Integridad de Seguridad (SIL).

Una función de seguridad SIL 2, por ejemplo, requiere una tolerancia a fallas de hardware de al menos uno: el sistema debe continuar realizando su función de seguridad con cualquier falla de hardware único presente. Esto típicamente significa sensores redundantes, solucionadores de lógica redundantes y elementos finales redundantes. Los principios del mantenimiento centrado en confiabilidad (RCM) se utilizan para derivar los intervalos de prueba que mantienen el SIL requerido durante la vida operativa del sistema.

Infraestructura de comunicación y redes

Las redes industriales utilizan topologías en anillo, enrutamiento de doble trayectoria y protocolos de redundancia de medios (MRP, RSTP) para garantizar que la comunicación continúe si falla un cable, un switch o un segmento de red. La detección de fallas y la reconfiguración automática ocurren en milisegundos, lo suficientemente rápido para que el control de proceso no se vea afectado.

Cómo afecta la tolerancia a fallas a la estrategia de mantenimiento

El diseño tolerante a fallas no reduce los requisitos de mantenimiento. Los cambia.

Cuando un sistema está diseñado con redundancia, la falla del componente principal se tolera, pero la protección redundante se ha consumido. El sistema sigue funcionando, pero sin su red de seguridad. Si el componente redundante luego falla antes de que se restaure el principal, el sistema falla por completo.

Esto significa que los equipos de mantenimiento deben tratar la pérdida de un componente redundante como un evento urgente, incluso cuando la continuidad del proceso no se ha interrumpido. La ventana entre la falla del principal y la restauración del componente en espera es un período de vulnerabilidad oculta.

De esto surgen tres prioridades de mantenimiento:

1. Monitorear activamente los componentes redundantes. Los elementos en espera que no están en uso pueden fallar silenciosamente. Las técnicas de mantenimiento basado en condición aplicadas a los componentes en espera garantizan que su preparación sea conocida, no asumida. El análisis de vibraciones, el monitoreo térmico y las pruebas eléctricas en bombas, motores y generadores en espera mantienen el componente genuinamente disponible.

2. Probar los sistemas de protección y espera en intervalos definidos. Los sistemas de redundancia pasiva y de diseño a prueba de fallas pueden fallar en estado latente que solo se descubre cuando el sistema es solicitado. Las pruebas funcionales programadas en intervalos derivados de la tasa de falla del sistema y el objetivo de no disponibilidad aceptable son necesarias para confirmar que la protección está en su lugar. Esta es la lógica detrás de los intervalos de búsqueda de fallas en los programas de RCM.

3. Restaurar la redundancia rápidamente después de cualquier falla. Una vez que una falla ha consumido la protección redundante, el tiempo medio de recuperación (MTTR) se vuelve crítico. Una restauración rápida, ya sea mediante disponibilidad de refacciones, procedimientos de reparación predefinidos o rutas de escalada rápida, limita la ventana de vulnerabilidad. Las herramientas de mantenimiento predictivo que detectan degradación antes de la falla permiten a los equipos planificar el trabajo de restauración antes de que se consuma la redundancia, en lugar de después.

Medición de la tolerancia a fallas

La tolerancia a fallas se cuantifica mediante una combinación de métricas de confiabilidad y especificaciones de diseño:

Métrica Qué mide Relevancia para la tolerancia a fallas
Disponibilidad del sistema Proporción del tiempo programado en que el sistema está operativo Medida principal de si la tolerancia a fallas está funcionando: un sistema tolerante a fallas bien diseñado mantiene alta disponibilidad del activo incluso con fallas de componentes
MTBF (a nivel de sistema) Tiempo de operación promedio entre fallas a nivel de sistema El tiempo medio entre fallas a nivel de sistema debe ser mucho mayor que el MTBF de cualquier componente individual, demostrando que la redundancia está absorbiendo las fallas de componentes
MTTR Tiempo promedio para restaurar un componente con falla al servicio El tiempo medio de recuperación gobierna cuánto tiempo opera el sistema sin su protección redundante después de una falla; un MTTR bajo limita la vulnerabilidad
Nivel de tolerancia a fallas Número de fallas simultáneas de componentes que el sistema puede tolerar sin perder función Expresado como N+1 (un repuesto), 2N (duplicación completa) o nivel de tolerancia a fallas 1/2/3 según IEC 61508; define el requisito de diseño
PFD (probabilidad de falla bajo demanda) Probabilidad de que un sistema de protección falle al operar cuando se le solicita Utilizado para sistemas instrumentados de seguridad; un PFD más bajo significa mayor tolerancia a fallas para funciones de seguridad; definido según los requisitos SIL
Análisis RAM Modelado de confiabilidad, disponibilidad y mantenibilidad de un sistema El análisis RAM utiliza diagramas de bloques de confiabilidad o modelos de árbol de fallas para predecir la disponibilidad y cuantificar la contribución de la redundancia a la tolerancia a fallas

Tolerancia a fallas y monitoreo de condición

Un diseño tolerante a fallas solo es tan bueno como la preparación de sus componentes redundantes. El monitoreo de condición es la disciplina operativa que mantiene la redundancia genuinamente disponible en lugar de teóricamente disponible.

El monitoreo continuo de activos críticos y en espera proporciona la advertencia temprana necesaria para abordar las fallas en desarrollo antes de que consuman la redundancia de protección. Si una bomba de servicio está funcionando con un rodamiento que comienza a fallar, la detección predictiva mediante sensores de vibración o temperatura permite al equipo planificar una conmutación controlada a la bomba en espera y reparar la bomba de servicio durante una ventana programada. El componente en espera absorbe la falla sin ningún impacto en la producción, y la bomba de servicio se restaura antes de que se degrade la preparación del componente en espera.

Esta es la expresión operativa de la tolerancia a fallas: el diseño crea la arquitectura, y el monitoreo de condición mantiene esa arquitectura funcionando como se pretende durante años de operación.

Las herramientas de análisis de modos de falla, incluido el FMEA, se utilizan en la etapa de diseño para identificar qué componentes requieren redundancia y cuál es su tasa de falla esperada. El monitoreo de condición en la etapa operativa valida esos supuestos con datos del mundo real y detecta el deterioro que el análisis de diseño no pudo predecir de antemano.

Tolerancia a fallas en el diseño de estrategias de mantenimiento

Al construir una estrategia de mantenimiento para un sistema tolerante a fallas, se aplican los principios del mantenimiento basado en riesgos. La estrategia debe considerar dos consecuencias de falla distintas:

Falla de componente dentro de la capacidad redundante. Si el sistema puede absorber la falla sin perder función, la respuesta de mantenimiento puede planificarse y programarse. La prioridad es restaurar el elemento redundante antes de que ocurra la siguiente falla, y la urgencia está determinada por la probabilidad y la consecuencia de esa siguiente falla.

Falla de componente que excede la capacidad redundante. Si todos los elementos redundantes han fallado, o si una falla elude la protección redundante, el sistema está fuera de servicio. En este punto la respuesta es mantenimiento correctivo de emergencia, con todos los costos y disrupciones que eso implica.

Una estrategia de mantenimiento bien diseñada para un sistema tolerante a fallas mantiene el primer escenario como común y el segundo como raro. Esto se logra mediante una combinación de mantenimiento preventivo en componentes redundantes, pruebas funcionales regulares de sistemas en espera y de protección, tiempos de respuesta rápidos cuando se detectan fallas, y monitoreo de condición que proporciona advertencia temprana antes de que ocurran las fallas.

Preguntas frecuentes

¿Un sistema tolerante a fallas es lo mismo que un sistema confiable?

No exactamente. Un sistema confiable tiene baja probabilidad de fallar bajo condiciones establecidas. Un sistema tolerante a fallas está diseñado para seguir funcionando incluso cuando fallan componentes individuales. La alta confiabilidad reduce la frecuencia de fallas; la tolerancia a fallas reduce la consecuencia de las fallas. Los sistemas industriales más confiables combinan ambos: componentes de alta calidad y bien mantenidos (confiabilidad) dentro de una arquitectura que puede absorber fallas cuando ocurren (tolerancia a fallas).

¿Qué significa N+1 en el diseño tolerante a fallas?

N+1 significa que se proporciona una unidad adicional (redundante) más allá del número necesario para llevar la carga completa. Si se necesitan N unidades para la operación normal, se instalan N+1 unidades para que el sistema pueda continuar operando si cualquiera de ellas falla. El "+1" es la capacidad de repuesto. Los niveles de redundancia más altos, como 2N (duplicación completa) o N+2, proporcionan mayor protección a mayor costo.

¿Puede el software ser tolerante a fallas?

Sí. La tolerancia a fallas de software se logra mediante técnicas que incluyen detección y corrección de errores, manejo de excepciones, temporizadores de vigilancia que detectan y reinician procesos bloqueados, módulos de software redundantes ejecutándose en paralelo, y mecanismos de punto de control y reinicio que permiten que un proceso se reanude desde un estado válido conocido después de un fallo. En sistemas de control industrial, los controladores redundantes que ejecutan software idéntico con lógica de votación para detectar discrepancias entre salidas son una combinación común de tolerancia a fallas de hardware y software.

¿Cómo se relaciona la tolerancia a fallas con los niveles de integridad de seguridad (SIL)?

Los requisitos SIL especifican directamente la tolerancia a fallas. La IEC 61508 define la tolerancia a fallas de hardware (HFT) como el número de fallas que un sistema debe ser capaz de tolerar mientras sigue realizando su función de seguridad. Una función de seguridad SIL 1 típicamente requiere HFT de 0 (el sistema debe funcionar con cero fallas presentes). SIL 2 requiere HFT de 1. SIL 3 requiere HFT de 2. Estos requisitos determinan la arquitectura de redundancia y el intervalo de prueba de los sistemas instrumentados de seguridad.

¿La tolerancia a fallas elimina la necesidad de mantenimiento?

No. La tolerancia a fallas cambia la naturaleza y la urgencia de las tareas de mantenimiento, pero no las elimina. Los componentes redundantes siguen envejeciendo, degradándose y fallando. Los sistemas en espera pueden fallar silenciosamente si no se prueban regularmente. Si el mantenimiento permite que los elementos redundantes caigan en estado fallido sin ser detectados, la protección tolerante a fallas desaparece y el sistema queda expuesto a las mismas interrupciones que fue diseñado para prevenir. La tolerancia a fallas y el mantenimiento activo no son alternativas; trabajan juntos.

La conclusión

La tolerancia a fallas es resiliencia diseñada. Reconoce que las fallas ocurrirán a pesar de los esfuerzos de mantenimiento y construye la capacidad del sistema para absorber esas fallas sin perder función. Para infraestructura crítica, sistemas de producción y equipos relevantes para la seguridad, la tolerancia a fallas no es una alternativa al buen mantenimiento: es la capa de control de riesgos que cierra la brecha entre los intervalos de mantenimiento.

La implicación de mantenimiento de la tolerancia a fallas es importante: los sistemas redundantes y en espera deben mantenerse a sí mismos para preservar su función protectora. Una bomba redundante que ha estado fallando silenciosamente durante meses no proporciona protección cuando falla la bomba principal. Las pruebas y el mantenimiento regulares de los componentes tolerantes a fallas son lo que hace que la protección que brindan sea real en lugar de teórica.

Mantén tu arquitectura tolerante a fallas genuinamente protegida

El diseño tolerante a fallas crea la arquitectura. El monitoreo continuo de condición la mantiene funcionando. La plataforma de monitoreo de condición de Tractian rastrea la salud de los activos en servicio y en espera en tiempo real, detecta la degradación antes de que consuma tu protección redundante y da a los equipos de confiabilidad los datos que necesitan para restaurar la preparación antes de que ocurra la siguiente falla.

Ver monitoreo de condición

Términos relacionados