La reciente publicación de una base de datos con una megafiltración de 183 millones de direcciones de correos electrónicos únicas y contraseñas asociadas ha vuelto a poner en evidencia la magnitud del robo de credenciales a escala industrial. Lejos de ser un ataque aislado a un proveedor o una plataforma concreta, esta filtración tiene su origen en una recolección masiva de logs procedentes de infostealers, un tipo de malware diseñado específicamente para extraer información sensible directamente desde los equipos infectados.

El conjunto de datos fue incorporado a la base de información de Have I Been Pwned (HIBP) el 21 de octubre de 2025, bajo el nombre de Synthient Stealer Log Threat Data, tras un proceso de depuración y normalización llevado a cabo por su creador, el investigador de seguridad Troy Hunt. El análisis de esta nueva entrada revela tanto la escala técnica del incidente como los riesgos asociados a la exposición de credenciales en entornos donde la autenticación sigue dependiendo, en gran medida, de las contraseñas tradicionales.

Un origen distribuido: el papel de Synthient y los infostealers

A diferencia de las brechas clásicas, en las que una empresa sufre un ataque directo contra su infraestructura, el caso de Synthient representa una agregación de datos procedentes de múltiples infecciones individuales. La plataforma fue concebida para indexar y analizar información de amenazas obtenida a través de foros, repositorios clandestinos y mercados de la dark web.

Ad

En su origen, los datos provienen de logs generados por malware del tipo infostealer, entre los que destaca Lumma Stealer, una familia activa desde 2023 y distribuida mediante campañas de malvertising, cracks de software y phishing. Estos programas se ejecutan en el sistema de la víctima y extraen:

  • Credenciales almacenadas en navegadores (Chrome, Edge, Firefox, Brave, etc.).

  • Cookies de sesión y tokens de autenticación persistente.

  • Historiales de navegación y formularios autocompletados.

  • Información del sistema (hardware ID, IP, geolocalización aproximada).

Una vez empaquetados, los datos se envían a un panel de comando y control (C2), donde los operadores los venden o comparten. Con el tiempo, miles de estos paquetes terminan siendo filtrados o revendidos en plataformas de análisis de amenazas, lo que genera datasets agregados como el de Synthient.

De logs sucios a dataset utilizable

Según explicó Troy Hunt, el dataset original de Synthient estaba compuesto por miles de millones de registros distribuidos en varios archivos CSV y textos sin formato, con duplicidades y datos redundantes. El proceso de limpieza consistió en:

  1. Normalización de direcciones de correo (unificación de mayúsculas, eliminación de caracteres invisibles, codificaciones UTF-8).

  2. Eliminación de duplicados exactos y parciales, lo que redujo los registros a 183 millones de entradas únicas.

  3. Filtrado de campos inconsistentes, como dominios inexistentes o contraseñas nulas.

  4. Verificación de hashes y contraseñas en texto plano, para catalogarlas adecuadamente dentro de HIBP.

El resultado final permitió incorporar el conjunto a la plataforma, que actualmente supera los 15.300 millones de cuentas comprometidas procedentes de 916 brechas distintas.

El ecosistema de los infostealers: una cadena automatizada

El auge de los infostealers está directamente relacionado con la industrialización del cibercrimen. Plataformas como Raccoon, RedLine, Vidar o Lumma Stealer operan bajo un modelo malware-as-a-service (MaaS), ofreciendo a los atacantes kits de infección, paneles de control y actualizaciones automáticas a cambio de suscripciones mensuales.

Estos programas utilizan métodos de exfiltración cifrada (TLS/SSL) para enviar la información robada a servidores distribuidos. Posteriormente, los datos son empaquetados en archivos ZIP o JSON.

Estos logs se almacenan en repositorios que pueden llegar a varios terabytes de tamaño, donde posteriormente son redistribuidos entre grupos de análisis o filtrados al público.

La particularidad del conjunto de Synthient es que no proviene de una filtración accidental, sino de una recopilación estructurada con fines de inteligencia de amenazas. Sin embargo, una parte de esa información terminó accesible fuera de los círculos cerrados, lo que llevó a su incorporación a HIBP.

 

MLuz Domínguez
Periodista especializada en ciberseguridad y tecnología. Mi enfoque se centra en analizar mundo de las aplicaciones y la seguridad especialmente en redes sociales. Con un interés constante en informar sobre avances, riesgos y sin olvidar la importancia de la prevención, busco compartir información precisa y comprensible para el usuario.

Deja un comentario

Por favor, introduce tu comentario
Por favor, introduce tu nombre