Los ataques de prompt injection —técnicas que manipulan a los modelos de inteligencia artificial a través de instrucciones ocultas— se están convirtiendo en una de las mayores amenazas del nuevo ecosistema de IA generativa. Pero el descubrimiento más reciente de la firma de ciberseguridad NeuralTrust lleva este riesgo a un nivel insospechado: un fallo que permite hackear un navegador inteligente como es ChatGPT Atlas con un simple enlace.
El protagonista de esta historia es el navegador con agente integrado lanzado por OpenAI para macOS. Diseñado para combinar búsqueda, navegación y asistencia conversacional, Atlas introduce una novedad potente —y ahora peligrosa—: un omnibox capaz de interpretar texto en lenguaje natural. Esta misma característica, pensada para facilitar la interacción, se ha convertido en una vulnerabilidad crítica.
Según NeuralTrust, el navegador es susceptible a una nueva forma de ataque denominada “prompt injection en omnibox”, capaz de transformar URLs aparentemente legítimas en órdenes maliciosas que el sistema ejecuta como si procedieran de un usuario autorizado.
El truco: una URL que se comporta como un comando
La base del ataque es ingeniosa y sencilla a la vez. Los investigadores descubrieron que ChatGPT Atlas no distingue correctamente entre texto de navegación y texto instructivo dentro del omnibox.
En condiciones normales, cuando un usuario escribe una dirección web como https://openai.com, el navegador identifica el prefijo “https” y trata el resto del texto como una URL válida. Pero si la dirección está malformada intencionadamente, el sistema la interpreta como una orden en lenguaje natural dirigida al agente de IA.
Así, una dirección como https://openai.com/delete-my-drive podría, en teoría, activarse como un comando que la IA ejecuta, en lugar de simplemente buscar o abrir la web.
NeuralTrust demostró que con este método era posible inyectar instrucciones invisibles en la barra de direcciones: desde abrir páginas falsas hasta ejecutar acciones destructivas en cuentas vinculadas del usuario, como Google Drive o Notion.
Lo más preocupante es que el navegador no solicita confirmación ni muestra advertencias, ya que interpreta el texto como una acción legítima. “El omnibox confía ciegamente en lo que recibe, y eso convierte al usuario en su propio atacante”, explican los investigadores.
Del error técnico al riesgo sistémico
Esta vulnerabilidad no es un simple bug de interpretación, sino una brecha conceptual en la arquitectura de los navegadores con IA.
El problema radica en que los sistemas agentivos —como Atlas— mezclan dos espacios de interacción distintos:
-
El espacio tradicional de navegación, donde se abren páginas y se procesan URLs.
-
El espacio conversacional de la IA, donde las entradas del usuario se tratan como instrucciones naturales.
Cuando esas dos funciones se fusionan sin una separación clara, se abre la puerta a lo que NeuralTrust denomina un “error de límites” (boundary error). En este contexto, el navegador ya no distingue si el usuario quiere visitar un sitio web o dar una orden al agente.
¿Qué consiguen los ciberdelincuentes?
Esta confusión puede tener consecuencias graves. Un atacante puede fabricar una dirección aparentemente normal, compartirla por correo o redes sociales, y al pegarla en Atlas, el navegador ejecuta automáticamente instrucciones ocultas.
En los experimentos del equipo de NeuralTrust, los ataques lograron:
-
Abrir páginas falsas con aspecto de Google o YouTube, diseñadas para robar credenciales.
-
Acceder a servicios conectados mediante las APIs del navegador y borrar o modificar archivos.
-
Enviar información sensible del historial de navegación a servidores externos.
Todo ello sin descargar software malicioso ni vulnerar sistemas externos: basta con aprovechar la forma en que el navegador interpreta texto.
El lado oscuro de la integración inteligente
El descubrimiento pone en evidencia un dilema creciente en el desarrollo de herramientas basadas en IA: la búsqueda de usabilidad puede chocar con la seguridad.
Los navegadores agentivos como Atlas, o incluso los proyectos en marcha de Anthropic y Perplexity, pretenden hacer que el usuario interactúe con la web a través de lenguaje natural. Basta escribir “búscame los últimos documentos de presupuesto y envíalos al equipo” para que la IA ejecute esa cadena de acciones de forma automática.
Sin embargo, ese mismo poder de interpretación convierte al agente en un objetivo fácil. Si el sistema no define correctamente qué entradas son órdenes válidas, cualquier texto puede convertirse en un comando.
































