La carrera entre atacantes y defensores en ciberseguridad ha entrado en una nueva fase. Cloudflare, uno de los mayores proveedores globales de infraestructura en la nube, ha publicado un estudio en el que demuestra cómo los ciberdelincuentes pueden confundir a los sistemas de seguridad basados en inteligencia artificial sin explotar vulnerabilidades tradicionales, sino manipulando directamente el razonamiento de los modelos.
La investigación, llevada a cabo por el equipo de inteligencia de amenazas Cloudforce One, se centra en una técnica conocida como inyección indirecta de prompts, mediante la cual los atacantes introducen instrucciones ocultas en los datos que analizan los modelos de IA. En este caso, dichas instrucciones se camuflan como comentarios aparentemente legítimos dentro del código.
Según Cloudflare, los investigadores detectaron scripts en Cloudflare Workers —su plataforma de computación en el perímetro de la red— que incluían miles de líneas de texto dirigidas explícitamente a “revisores de código con IA”. Estos mensajes aseguraban, en varios idiomas, que el código era seguro y no realizaba actividades maliciosas, con el objetivo de influir en el veredicto automatizado.
Menos palabras, más impacto
Uno de los descubrimientos más relevantes del estudio es la existencia de una “zona de bypass”. Cuando los comentarios engañosos representan menos del 1% del archivo, las tasas de detección de malware caen de forma drástica, pasando de una media del 67% a poco más del 53%. En cambio, cuando el archivo está saturado de mensajes tranquilizadores, muchos modelos interpretan ese exceso como una señal de alerta.
Esto demuestra que el engaño más eficaz no es el más evidente, sino el sutil, integrado de manera casi imperceptible en el código.
El tamaño importa más que el idioma
El factor más crítico no fue el lenguaje de los comentarios, sino el tamaño total del archivo. En scripts que superan los 3 MB —especialmente cuando el código malicioso se oculta dentro de grandes librerías legítimas—, la detección cayó hasta niveles cercanos al 12%. En estos casos, la IA simplemente “pierde” el rastro del comportamiento malicioso entre miles de líneas inofensivas.
Cloudflare advierte de que esta limitación está directamente ligada a las ventanas de contexto de los modelos de lenguaje, un problema estructural que afecta incluso a los sistemas más avanzados.
Implicaciones para la seguridad automatizada
El estudio lanza un mensaje claro a las organizaciones que están adoptando IA para la revisión automática de código: los modelos no deben actuar en solitario. Cloudflare recomienda integrar estas herramientas en pipelines más amplios, donde se elimine el ruido lingüístico, se priorice el análisis estructural y se contrasten las declaraciones en lenguaje natural con el comportamiento real del software. “Los atacantes ya no necesitan convencer a la IA de que su código es seguro; solo tienen que hacerlo lo suficientemente grande y complejo para pasar desapercibido”, concluye el informe.
En un contexto en el que cada vez más decisiones de seguridad se delegan a sistemas autónomos, el trabajo de Cloudforce One pone de relieve una realidad incómoda: la inteligencia artificial también puede ser objeto de ingeniería social, y defenderla requerirá tanta estrategia como proteger a los humanos.




