La inteligencia artificial está transformando la forma en la que trabajamos, pero también está abriendo la puerta a nuevas amenazas en el ámbito de la ciberseguridad. En este contexto, compañías como Google ya alertan del auge de ciberataques avanzados contra sistemas de IA, como la inyección indirecta de prompts, una técnica que permite manipular herramientas como Google Workspace con Gemini sin que el usuario haga nada fuera de lo habitual.
A diferencia de los ciberataques tradicionales, aquí no hay malware evidente ni archivos sospechosos. El ataque se basa en algo mucho más sutil: esconder instrucciones maliciosas dentro de contenidos aparentemente legítimos, como correos electrónicos, documentos o páginas web. Cuando la inteligencia artificial analiza ese contenido para responder a una consulta, puede interpretar esas instrucciones como válidas y ejecutarlas sin darse cuenta.
Este enfoque convierte a la propia IA en el punto débil del sistema. Ya no se trata solo de proteger la infraestructura, sino de evitar que el modelo sea engañado en su proceso de razonamiento. En un entorno donde herramientas como Gemini están cada vez más integradas en tareas cotidianas —desde redactar correos hasta analizar documentos—, el riesgo es especialmente relevante.
Un problema en evolución constante
La inyección indirecta de prompts no es una amenaza estática. Evoluciona constantemente a medida que lo hacen los modelos de inteligencia artificial y sus capacidades. Cuanto más complejos y conectados son estos sistemas, mayor es la superficie de ataque.
Google reconoce que este problema no se puede “resolver” de forma definitiva, sino que requiere una estrategia continua de mitigación. Para ello, la compañía ha desarrollado un enfoque basado en anticiparse a los ataques antes de que lleguen a los usuarios.
Una de las claves es el llamado red teaming, una práctica habitual en ciberseguridad que consiste en simular ataques reales para detectar vulnerabilidades. En este caso, se combina el trabajo de equipos humanos especializados con sistemas automatizados capaces de generar miles de variantes de ataque. Esto permite poner a prueba los sistemas en escenarios muy diversos y detectar fallos que pasarían desapercibidos en pruebas tradicionales.
Además, Google monitoriza continuamente información pública —desde redes sociales hasta informes técnicos— para identificar nuevos tipos de ataques que estén circulando. Todos estos hallazgos se recopilan en un catálogo interno de vulnerabilidades, donde se analizan y clasifican para poder responder de forma rápida y eficaz.
Cómo se entrena a la IA para ignorar ataques
Una de las estrategias más importantes para hacer frente a estas amenazas es entrenar a la propia inteligencia artificial para que sea capaz de detectar y rechazar instrucciones maliciosas. Para ello, Google utiliza datos sintéticos, es decir, información generada artificialmente que reproduce diferentes tipos de ataques y sus posibles variaciones.
Este enfoque permite adelantarse a los ciberdelincuentes, ya que no es necesario esperar a que un ataque ocurra en el mundo real para poder defenderse. Los modelos se entrenan con estos datos y se evalúan continuamente para comprobar su capacidad de respuesta.
Las defensas funcionan en varios niveles. Por un lado, existen mecanismos rápidos basados en reglas y configuraciones que permiten bloquear amenazas emergentes casi de inmediato, como la detección de enlaces sospechosos o la validación de acciones sensibles.
Por otro, se actualizan constantemente los modelos de aprendizaje automático para mejorar su capacidad de identificar patrones de ataque. Esto incluye dividir los datos en conjuntos de entrenamiento y validación para asegurar que las mejoras son consistentes y efectivas.
Sin embargo, el elemento más crítico es el propio modelo de lenguaje. Google trabaja en lo que denomina “endurecimiento del modelo”, un proceso que mejora su capacidad interna para distinguir entre instrucciones legítimas y maliciosas. Gracias a este trabajo, Gemini es cada vez más capaz de ignorar comandos ocultos en los datos y centrarse únicamente en la intención del usuario.
































