
Cuando se habla de inteligencia artificial, la mayoría de las discusiones giran en torno a modelos, datasets, entrenamiento o sesgos. Sin embargo, existe una capa mucho más profunda que suele pasar desapercibida, el hardware sobre el que corren esos modelos. Allí, en los circuitos físicos que ejecutan millones de operaciones por segundo, se esconde una superficie de ataque poco explorada pero extremadamente crítica.
Los aceleradores de IA —como GPUs, TPUs o arquitecturas especializadas— están diseñados para realizar operaciones matemáticas de forma masiva, especialmente multiplicaciones y sumas. Estas operaciones no son solo frecuentes: son el núcleo mismo del funcionamiento de redes neuronales modernas. Lo que ocurre a nivel físico en esos circuitos puede, con el tiempo, alterar el comportamiento de todo el sistema.
En ese contexto, surge una idea inquietante: ¿qué pasaría si un atacante no buscara romper el sistema de forma inmediata, sino degradarlo lentamente hasta volverlo poco confiable?
Los circuitos integrados no son eternos. Con el paso del tiempo, los transistores sufren fenómenos físicos que afectan su rendimiento. Entre ellos, uno de los más relevantes es el conocido como inestabilidad por temperatura y polarización negativa, que impacta principalmente en los transistores PMOS.
Este fenómeno provoca un aumento gradual en el voltaje umbral necesario para que el transistor funcione correctamente. Traducido a términos prácticos: los circuitos se vuelven más lentos, consumen más energía y, eventualmente, comienzan a fallar.
Este proceso es natural y los fabricantes lo tienen en cuenta. Por eso se diseñan márgenes de seguridad —los llamados guard bands— que permiten que el hardware siga funcionando correctamente incluso después de años de uso.
Pero hay una diferencia importante entre el desgaste natural y el desgaste inducido.
Imaginemos un atacante con acceso a la etapa de diseño o fabricación del hardware. En lugar de insertar código malicioso o componentes adicionales —lo cual podría ser detectado— decide hacer algo mucho más sutil: reorganizar conexiones internas dentro del circuito.
En particular, aprovecha una propiedad matemática básica: la suma es conmutativa. Es decir, A + B = B + A. Esto significa que cambiar el orden de los operandos no altera el resultado final.
Ahora bien, en un circuito físico, aunque el resultado lógico sea el mismo, el recorrido eléctrico no lo es.
Al intercambiar entradas dentro de sumadores —componentes fundamentales dentro de multiplicadores— se modifica qué transistores trabajan más, cuáles reciben más estrés eléctrico y cuáles permanecen relativamente inactivos.
El resultado es una distribución desigual del desgaste.
Este tipo de manipulación no altera el funcionamiento inmediato del circuito. Las salidas siguen siendo correctas, las pruebas pasan, y el sistema parece operar con normalidad.
Pero debajo de esa aparente estabilidad, algunos transistores están siendo sometidos a condiciones más exigentes de lo habitual. Permanecen más tiempo en estados que favorecen su degradación, acumulando daño a un ritmo mayor que el esperado.
Con el tiempo, esto genera un efecto acumulativo:
Y lo más importante: estos problemas no aparecen de inmediato, sino después de meses o incluso años de uso.
Los aceleradores de IA dependen intensamente de operaciones de multiplicación y acumulación, conocidas como MAC (Multiply-Accumulate). Estas operaciones son esenciales para tareas como:
Cuando los multiplicadores comienzan a fallar debido a retrasos en los circuitos, los errores no se quedan aislados. Se propagan a través de las capas del modelo.
Un pequeño error en una multiplicación puede convertirse en una desviación significativa en la salida final.
En un sistema de clasificación de imágenes, esto puede traducirse en etiquetas incorrectas. En un modelo de lenguaje, en respuestas incoherentes. En sistemas críticos, como vehículos autónomos o dispositivos médicos, las consecuencias pueden ser mucho más graves.
Uno de los aspectos más preocupantes de este tipo de ataque es su sigilo.
A diferencia de otros ataques que generan fallos inmediatos o comportamientos anómalos evidentes, aquí el sistema funciona correctamente durante un tiempo considerable. Incluso puede superar todas las pruebas iniciales de calidad.
El deterioro aparece gradualmente:
Esto hace que el problema sea extremadamente difícil de rastrear. ¿Se trata de un bug en el software? ¿De un problema en los datos? ¿De un fallo aislado del hardware?
La causa real puede permanecer oculta durante mucho tiempo.
El verdadero poder de esta técnica no está en afectar un solo componente, sino en su capacidad de escalar.
Los multiplicadores están compuestos por múltiples sumadores. A su vez, estos multiplicadores forman parte de unidades MAC. Y estas unidades se replican en matrices dentro de aceleradores como los arreglos sistólicos.
Al aplicar este tipo de manipulación en puntos estratégicos —por ejemplo, en las rutas críticas del circuito— se puede maximizar el impacto con cambios mínimos.
Incluso es posible ajustar el nivel de agresividad del ataque:
Esto permite un equilibrio entre efectividad y detectabilidad.
Los fabricantes diseñan sus sistemas considerando el peor caso de envejecimiento natural. Pero cuando el desgaste es artificialmente acelerado, esos cálculos dejan de ser válidos.
En ese punto, los errores comienzan a superar los límites tolerables.
En términos prácticos:
Esto no necesariamente provoca un fallo total del sistema, sino algo más peligroso: resultados incorrectos que parecen válidos.
Supongamos un sistema de reconocimiento de imágenes utilizado en control de calidad industrial.
Durante los primeros meses, el sistema detecta defectos con alta precisión. Todo funciona como se espera.
Después de un año, comienza a fallar ocasionalmente. Algunos defectos pasan desapercibidos.
A los dos años, la tasa de error aumenta de forma notable. El sistema sigue funcionando, pero ya no es confiable.
El problema no está en el modelo ni en los datos. Está en el hardware que ejecuta las operaciones.
A medida que aumentan los errores en las operaciones internas, la precisión de los modelos cae.
Este efecto no es uniforme:
En ciertos casos, la pérdida de precisión puede ser moderada. En otros, puede volverse crítica, afectando gravemente el rendimiento del sistema.
Existen otras formas de atacar hardware mediante envejecimiento:
Sin embargo, estos enfoques suelen tener desventajas:
En cambio, la manipulación basada en propiedades matemáticas tiene características particulares:
Esto la convierte en una amenaza especialmente sofisticada.
La cadena de suministro del hardware es global y compleja. Intervienen múltiples actores:
En este contexto, confiar completamente en cada etapa es cada vez más difícil.
Además, el crecimiento de la inteligencia artificial ha llevado a una dependencia creciente de hardware especializado. Esto amplifica el impacto de cualquier vulnerabilidad a nivel físico.
No se trata solo de seguridad informática tradicional. Es un problema que combina:
Este tipo de ataque expone una realidad incómoda: la seguridad no termina en el software.
Un sistema puede estar perfectamente protegido a nivel de red, tener código auditado y modelos robustos, y aun así fallar debido a manipulaciones en su hardware.
También muestra que propiedades matemáticas aparentemente inocentes pueden tener implicaciones profundas cuando se trasladan al mundo físico.
La equivalencia lógica no implica equivalencia física.
Frente a este tipo de amenazas, las estrategias tradicionales no son suficientes.
Algunas líneas posibles incluyen:
Pero incluso con estas medidas, el desafío sigue siendo complejo.
El problema no es solo detectar el ataque, sino anticiparlo.
La inteligencia artificial ha avanzado de forma acelerada en los últimos años, pero muchas veces se construye sobre supuestos implícitos.
Uno de ellos es que el hardware es confiable.
Cuando ese supuesto deja de ser válido, todo lo demás queda en riesgo.
La idea de que un sistema pueda degradarse silenciosamente hasta volverse inservible sin una causa aparente obliga a replantear cómo se diseñan, validan y mantienen estos sistemas.
Porque en última instancia, la inteligencia artificial no es solo algoritmos. Es también electricidad, materiales y tiempo.