NOTICIAS DATA CENTER

Cloudflare alerta sobre una nueva técnica para engañar a la IA en la detección de código malicioso

Un estudio de Cloudflare revela que los ciberdelincuentes están aprendiendo a engañar a los sistemas de seguridad basados en inteligencia artificial no explotando fallos técnicos, sino manipulando su razonamiento, ocultando código malicioso entre comentarios inocuos y grandes volúmenes de software legítimo

Publicado el 5 may 2026

Redacción Data Center Market

Cloudflare alerta sobre una nueva técnica para engañar a la IA en la detección de código malicioso

La carrera entre atacantes y defensores en ciberseguridad ha entrado en una nueva fase. Cloudflare, uno de los mayores proveedores globales de infraestructura en la nube, ha publicado un estudio en el que demuestra cómo los ciberdelincuentes pueden confundir a los sistemas de seguridad basados en inteligencia artificial sin explotar vulnerabilidades tradicionales, sino manipulando directamente el razonamiento de los modelos.

La investigación, llevada a cabo por el equipo de inteligencia de amenazas Cloudforce One, se centra en una técnica conocida como inyección indirecta de prompts, mediante la cual los atacantes introducen instrucciones ocultas en los datos que analizan los modelos de IA. En este caso, dichas instrucciones se camuflan como comentarios aparentemente legítimos dentro del código.

Según Cloudflare, los investigadores detectaron scripts en Cloudflare Workers —su plataforma de computación en el perímetro de la red— que incluían miles de líneas de texto dirigidas explícitamente a “revisores de código con IA”. Estos mensajes aseguraban, en varios idiomas, que el código era seguro y no realizaba actividades maliciosas, con el objetivo de influir en el veredicto automatizado.

Índice de temas

Menos palabras, más impacto

Uno de los descubrimientos más relevantes del estudio es la existencia de una “zona de bypass”. Cuando los comentarios engañosos representan menos del 1% del archivo, las tasas de detección de malware caen de forma drástica, pasando de una media del 67% a poco más del 53%. En cambio, cuando el archivo está saturado de mensajes tranquilizadores, muchos modelos interpretan ese exceso como una señal de alerta.

Esto demuestra que el engaño más eficaz no es el más evidente, sino el sutil, integrado de manera casi imperceptible en el código.

El tamaño importa más que el idioma

El factor más crítico no fue el lenguaje de los comentarios, sino el tamaño total del archivo. En scripts que superan los 3 MB —especialmente cuando el código malicioso se oculta dentro de grandes librerías legítimas—, la detección cayó hasta niveles cercanos al 12%. En estos casos, la IA simplemente “pierde” el rastro del comportamiento malicioso entre miles de líneas inofensivas.

Cloudflare advierte de que esta limitación está directamente ligada a las ventanas de contexto de los modelos de lenguaje, un problema estructural que afecta incluso a los sistemas más avanzados.

Implicaciones para la seguridad automatizada

El estudio lanza un mensaje claro a las organizaciones que están adoptando IA para la revisión automática de código: los modelos no deben actuar en solitario. Cloudflare recomienda integrar estas herramientas en pipelines más amplios, donde se elimine el ruido lingüístico, se priorice el análisis estructural y se contrasten las declaraciones en lenguaje natural con el comportamiento real del software. “Los atacantes ya no necesitan convencer a la IA de que su código es seguro; solo tienen que hacerlo lo suficientemente grande y complejo para pasar desapercibido”, concluye el informe.

En un contexto en el que cada vez más decisiones de seguridad se delegan a sistemas autónomos, el trabajo de Cloudforce One pone de relieve una realidad incómoda: la inteligencia artificial también puede ser objeto de ingeniería social, y defenderla requerirá tanta estrategia como proteger a los humanos.

@REPRODUCCIÓN CONFIDENCIAL

Tu opinión es importante para nosotros.

Redacción Data Center Market

Temas

Canales

Cloudflare alerta sobre una nueva técnica para engañar a la IA en la detección de código malicioso

Menos palabras, más impacto

El tamaño importa más que el idioma

Implicaciones para la seguridad automatizada

Redacción Data Center Market

Leer también:

Artículos relacionados

El despliegue de la IA en Europa supera la capacidad de control de las empresas

La soberanía digital no se defiende en TikTok

Vertiv multiplica su capacidad industrial en América para responder al boom de los centros de datos

Vertiv y GreenScale acuerdan una colaboración para desplegar centros de datos

Código Rss

Código Rss