La confianza en la inteligencia artificial empieza mucho más abajo

Vulnerabilidades, Herramientas, Ciberinteligencia, Noticias, Documentación, Tendencias, Aprendizaje, Tutoriales1 month ago312 Vistas

Inicio
Vulnerabilidades
La confianza en la inteligencia artificial empieza mucho más abajo

Cuando se habla de inteligencia artificial, la mayoría de las discusiones giran en torno a modelos, datasets, entrenamiento o sesgos. Sin embargo, existe una capa mucho más profunda que suele pasar desapercibida, el hardware sobre el que corren esos modelos. Allí, en los circuitos físicos que ejecutan millones de operaciones por segundo, se esconde una superficie de ataque poco explorada pero extremadamente crítica.

Los aceleradores de IA —como GPUs, TPUs o arquitecturas especializadas— están diseñados para realizar operaciones matemáticas de forma masiva, especialmente multiplicaciones y sumas. Estas operaciones no son solo frecuentes: son el núcleo mismo del funcionamiento de redes neuronales modernas. Lo que ocurre a nivel físico en esos circuitos puede, con el tiempo, alterar el comportamiento de todo el sistema.

En ese contexto, surge una idea inquietante: ¿qué pasaría si un atacante no buscara romper el sistema de forma inmediata, sino degradarlo lentamente hasta volverlo poco confiable?

El desgaste del hardware no es un error, es una certeza

Los circuitos integrados no son eternos. Con el paso del tiempo, los transistores sufren fenómenos físicos que afectan su rendimiento. Entre ellos, uno de los más relevantes es el conocido como inestabilidad por temperatura y polarización negativa, que impacta principalmente en los transistores PMOS.

Este fenómeno provoca un aumento gradual en el voltaje umbral necesario para que el transistor funcione correctamente. Traducido a términos prácticos: los circuitos se vuelven más lentos, consumen más energía y, eventualmente, comienzan a fallar.

Este proceso es natural y los fabricantes lo tienen en cuenta. Por eso se diseñan márgenes de seguridad —los llamados guard bands— que permiten que el hardware siga funcionando correctamente incluso después de años de uso.

Pero hay una diferencia importante entre el desgaste natural y el desgaste inducido.

Un ataque que no rompe nada… al principio

Imaginemos un atacante con acceso a la etapa de diseño o fabricación del hardware. En lugar de insertar código malicioso o componentes adicionales —lo cual podría ser detectado— decide hacer algo mucho más sutil: reorganizar conexiones internas dentro del circuito.

En particular, aprovecha una propiedad matemática básica: la suma es conmutativa. Es decir, A + B = B + A. Esto significa que cambiar el orden de los operandos no altera el resultado final.

Ahora bien, en un circuito físico, aunque el resultado lógico sea el mismo, el recorrido eléctrico no lo es.

Al intercambiar entradas dentro de sumadores —componentes fundamentales dentro de multiplicadores— se modifica qué transistores trabajan más, cuáles reciben más estrés eléctrico y cuáles permanecen relativamente inactivos.

El resultado es una distribución desigual del desgaste.

Cómo se acelera el envejecimiento sin cambiar el resultado

Este tipo de manipulación no altera el funcionamiento inmediato del circuito. Las salidas siguen siendo correctas, las pruebas pasan, y el sistema parece operar con normalidad.

Pero debajo de esa aparente estabilidad, algunos transistores están siendo sometidos a condiciones más exigentes de lo habitual. Permanecen más tiempo en estados que favorecen su degradación, acumulando daño a un ritmo mayor que el esperado.

Con el tiempo, esto genera un efecto acumulativo:

Aumento del retardo en las operaciones
Aparición de fallos de temporización
Errores en cálculos que antes eran correctos

Y lo más importante: estos problemas no aparecen de inmediato, sino después de meses o incluso años de uso.

El impacto en los sistemas de inteligencia artificial

Los aceleradores de IA dependen intensamente de operaciones de multiplicación y acumulación, conocidas como MAC (Multiply-Accumulate). Estas operaciones son esenciales para tareas como:

Inferencia en redes neuronales
Procesamiento de imágenes
Modelos de lenguaje
Análisis de grafos

Cuando los multiplicadores comienzan a fallar debido a retrasos en los circuitos, los errores no se quedan aislados. Se propagan a través de las capas del modelo.

Un pequeño error en una multiplicación puede convertirse en una desviación significativa en la salida final.

En un sistema de clasificación de imágenes, esto puede traducirse en etiquetas incorrectas. En un modelo de lenguaje, en respuestas incoherentes. En sistemas críticos, como vehículos autónomos o dispositivos médicos, las consecuencias pueden ser mucho más graves.

Una degradación progresiva y difícil de detectar

Uno de los aspectos más preocupantes de este tipo de ataque es su sigilo.

A diferencia de otros ataques que generan fallos inmediatos o comportamientos anómalos evidentes, aquí el sistema funciona correctamente durante un tiempo considerable. Incluso puede superar todas las pruebas iniciales de calidad.

El deterioro aparece gradualmente:

En las primeras etapas, el sistema se comporta de forma normal gracias a los márgenes de diseño.
Con el tiempo, esos márgenes se consumen debido al desgaste acelerado.
Finalmente, comienzan a aparecer errores intermitentes.
Luego, la precisión del sistema cae de forma sostenida.

Esto hace que el problema sea extremadamente difícil de rastrear. ¿Se trata de un bug en el software? ¿De un problema en los datos? ¿De un fallo aislado del hardware?

La causa real puede permanecer oculta durante mucho tiempo.

Escalando el ataque: de un componente a todo el sistema

El verdadero poder de esta técnica no está en afectar un solo componente, sino en su capacidad de escalar.

Los multiplicadores están compuestos por múltiples sumadores. A su vez, estos multiplicadores forman parte de unidades MAC. Y estas unidades se replican en matrices dentro de aceleradores como los arreglos sistólicos.

Al aplicar este tipo de manipulación en puntos estratégicos —por ejemplo, en las rutas críticas del circuito— se puede maximizar el impacto con cambios mínimos.

Incluso es posible ajustar el nivel de agresividad del ataque:

Modificar pocos componentes para mantener el sigilo
Alterar más partes para acelerar la degradación
Elegir rutas específicas donde el impacto sea mayor

Esto permite un equilibrio entre efectividad y detectabilidad.

Qué ocurre cuando los errores superan los márgenes de diseño

Los fabricantes diseñan sus sistemas considerando el peor caso de envejecimiento natural. Pero cuando el desgaste es artificialmente acelerado, esos cálculos dejan de ser válidos.

En ese punto, los errores comienzan a superar los límites tolerables.

En términos prácticos:

Las señales llegan tarde
Se producen violaciones de temporización
Los cálculos se vuelven inconsistentes

Esto no necesariamente provoca un fallo total del sistema, sino algo más peligroso: resultados incorrectos que parecen válidos.

Un escenario concreto

Supongamos un sistema de reconocimiento de imágenes utilizado en control de calidad industrial.

Durante los primeros meses, el sistema detecta defectos con alta precisión. Todo funciona como se espera.

Después de un año, comienza a fallar ocasionalmente. Algunos defectos pasan desapercibidos.

A los dos años, la tasa de error aumenta de forma notable. El sistema sigue funcionando, pero ya no es confiable.

El problema no está en el modelo ni en los datos. Está en el hardware que ejecuta las operaciones.

La relación entre precisión y degradación

A medida que aumentan los errores en las operaciones internas, la precisión de los modelos cae.

Este efecto no es uniforme:

Modelos más complejos pueden ser más resistentes inicialmente
Sistemas con menor precisión numérica (por ejemplo, menor cantidad de bits) son más vulnerables
Algunas arquitecturas amplifican más los errores que otras

En ciertos casos, la pérdida de precisión puede ser moderada. En otros, puede volverse crítica, afectando gravemente el rendimiento del sistema.

Comparación con otros enfoques de ataque

Existen otras formas de atacar hardware mediante envejecimiento:

Manipulación de voltaje
Variaciones térmicas
Inserción de hardware malicioso adicional

Sin embargo, estos enfoques suelen tener desventajas:

Son más fáciles de detectar
Requieren cambios visibles en el diseño
Pueden afectar el funcionamiento inmediato

En cambio, la manipulación basada en propiedades matemáticas tiene características particulares:

No altera la funcionalidad lógica
No requiere hardware adicional
Es prácticamente invisible en pruebas iniciales

Esto la convierte en una amenaza especialmente sofisticada.

Por qué este tipo de ataque es relevante hoy

La cadena de suministro del hardware es global y compleja. Intervienen múltiples actores:

Diseñadores
Fabricantes
Proveedores de IP
Integradores

En este contexto, confiar completamente en cada etapa es cada vez más difícil.

Además, el crecimiento de la inteligencia artificial ha llevado a una dependencia creciente de hardware especializado. Esto amplifica el impacto de cualquier vulnerabilidad a nivel físico.

No se trata solo de seguridad informática tradicional. Es un problema que combina:

Electrónica
Física de semiconductores
Arquitectura de computadoras
Seguridad

Lo que deja en evidencia este tipo de enfoque

Este tipo de ataque expone una realidad incómoda: la seguridad no termina en el software.

Un sistema puede estar perfectamente protegido a nivel de red, tener código auditado y modelos robustos, y aun así fallar debido a manipulaciones en su hardware.

También muestra que propiedades matemáticas aparentemente inocentes pueden tener implicaciones profundas cuando se trasladan al mundo físico.

La equivalencia lógica no implica equivalencia física.

Hacia dónde debería apuntar la defensa

Frente a este tipo de amenazas, las estrategias tradicionales no son suficientes.

Algunas líneas posibles incluyen:

Verificación más profunda del hardware a nivel físico
Modelos de envejecimiento más realistas en el diseño
Monitoreo continuo del rendimiento a lo largo del tiempo
Redundancia en cálculos críticos
Auditorías en la cadena de suministro

Pero incluso con estas medidas, el desafío sigue siendo complejo.

El problema no es solo detectar el ataque, sino anticiparlo.

El punto ciego de la inteligencia artificial

La inteligencia artificial ha avanzado de forma acelerada en los últimos años, pero muchas veces se construye sobre supuestos implícitos.

Uno de ellos es que el hardware es confiable.

Cuando ese supuesto deja de ser válido, todo lo demás queda en riesgo.

La idea de que un sistema pueda degradarse silenciosamente hasta volverse inservible sin una causa aparente obliga a replantear cómo se diseñan, validan y mantienen estos sistemas.

Porque en última instancia, la inteligencia artificial no es solo algoritmos. Es también electricidad, materiales y tiempo.

Upvote2PointsDownvote

2 Votes: 2 Upvotes, 0 Downvotes (2 Points)