Anthropic, una de las compañías referentes en investigación y desarrollo de IA —fundada por exmiembros de OpenAI y dirigida por Dario Amodei—, acaba de publicar un informe que sacude al sector. La empresa afirma haber detectado el primer ciberataque a gran escala ejecutado en su mayoría por una inteligencia artificial, sin participación humana significativa. El responsable, según la compañía, sería un grupo de amenazas patrocinado por el Estado chino.

Se trata, según Anthropic, de un “ataque sin precedentes” que marca un punto de inflexión en la ciberdelincuencia moderna.

La operación: IA contra 30 objetivos en todo el mundo

El ataque fue detectado a mediados de septiembre, cuando sistemas de monitorización interna observaron actividad sospechosa en Claude Code, el modelo de IA especializado en programación de Anthropic. La investigación posterior reveló que dicha actividad correspondía a una campaña global de espionaje cibernético, orquestada íntegramente a través de las capacidades agénticas de la plataforma.

Ad

Los atacantes utilizaron un enfoque meticuloso: no solo pidieron asesoramiento a la IA, sino que la manipularon para que ejecutara directamente las operaciones de intrusión. El objetivo era infiltrarse en alrededor de treinta grandes entidades tecnológicas, financieras, químicas y gubernamentales. Anthropic confirma que hubo un pequeño número de intrusiones exitosas, aunque no ha revelado ni la identidad de las organizaciones afectadas ni los datos robados.

La atribución, asegura la compañía, se hizo con “gran fiabilidad” a un grupo patrocinado por el Estado chino. Sin embargo, esta conclusión no ha sido corroborada por fuentes independientes, y la Embajada de China en Estados Unidos ha calificado las acusaciones de “pura especulación”.

¿Cómo se engaña a una IA diseñada para no hacer daño?

Los sistemas de IA avanzados suelen incluir protecciones para evitar usos maliciosos. No obstante, los atacantes encontraron una forma de eludir estas salvaguardas. Según Anthropic, dividieron el ataque en pequeñas tareas aparentemente inocuas, de modo que la plataforma no detectara la intención maliciosa.

El truco consistió en hacer creer a Claude que estaba colaborando con un empleado de una empresa de ciberseguridad legítima realizando pruebas defensivas. A partir de ahí, el modelo trabajó casi en piloto automático.

Claude identificó bases de datos valiosas, analizó credenciales, generó código para explotar vulnerabilidades, creó puertas traseras y automatizó tareas de reconocimiento y extracción. Entre el 80% y el 90% del ataque fue ejecutado de forma autónoma, mientras que la participación humana se redujo a un mínimo del 4% al 6% en momentos críticos.

La IA no solo ejecutó órdenes, sino que tomó decisiones, priorizó objetivos y ajustó estrategias.

Para muchos expertos, esta cifra representa el verdadero salto generacional.

La investigación: 10 días de trabajo para frenar la amenaza

Una vez detectada la anomalía, Anthropic bloqueó las cuentas comprometidas y abrió una investigación que se prolongó durante diez días. Durante ese tiempo, la compañía analizó registros, reconstruyó el flujo de comandos y estudió cómo la IA había sido engañada. Paralelamente, notificó a las autoridades y a las organizaciones potencialmente afectadas.

Este esfuerzo llevó a, según la empresa, una mejora de sus mecanismos de seguridad y a nuevas medidas para evitar que sus agentes puedan ser manipulados mediante tácticas similares.

El otro frente: las IA maliciosas que ya circulan en el mercado negro

Mientras las grandes tecnológicas refuerzan sus barreras, los actores maliciosos han encontrado una alternativa: utilizar modelos sin restricciones, distribuidos en el mercado negro de IA.

Billy Leonard, jefe del grupo de inteligencia de amenazas de Google, subraya este fenómeno: “Los adversarios están intentando usar las plataformas legítimas, pero las barreras de seguridad les obligan a recurrir a modelos ilegales. Estas herramientas sin controles representan una ventaja enorme para actores con pocos recursos”.

Kaspersky ha detectado campañas en las que los atacantes distribuyen modelos de lenguaje maliciosos camuflados como herramientas legítimas. Uno de los casos más recientes es BrowserVenom, integrado en un supuesto asistente de IA falso llamado DeepSneak, que suplanta la identidad del modelo chino DeepSeek-R1 y se promociona incluso mediante anuncios en Google.

El objetivo es simple y eficaz: redirigir el tráfico web a servidores controlados por los atacantes para robar credenciales y datos sensibles. Estas campañas utilizan técnicas de phishing combinadas con versiones manipuladas de instaladores legítimos como Ollama o LM Studio, evadiendo incluso Windows Defender.

MLuz Domínguez
Periodista especializada en ciberseguridad y tecnología. Mi enfoque se centra en analizar mundo de las aplicaciones y la seguridad especialmente en redes sociales. Con un interés constante en informar sobre avances, riesgos y sin olvidar la importancia de la prevención, busco compartir información precisa y comprensible para el usuario.

Deja un comentario

Por favor, introduce tu comentario
Por favor, introduce tu nombre