OpenAI ha decidido ir más allá y dar un salto en cuanto a la revolución de la IA. Así es como ha desarrollado Sora, el nuevo sistema capaz de generar vídeos realistas a partir de comandos de texto. Aunque se encuentra en versión de prueba, con acceso completo exclusivo para los investigadores de la propia empresa, se espera que pronto llegue a comercializarse al mismo nivel que ChatGPT y DALL-E, revolucionando el sector.
¿Cómo funciona Sora?
Su metodología es muy similar a la de ChatGPT y DALL-E, pues bastará con aportar un prompt o comando textual para que la herramienta de IA fuese capaz de generar vídeos muy creativos. De este modo, podrá comprender la información con lenguaje natural, ya que ha sido entrenada para entender el lenguaje humano.
Sora ha sido entrenada con una gran biblioteca de vídeos. Esto supone que cuente con una gran capacidad para reconocer movimientos, descripciones y cualquier aspecto que se le solicite, pudiéndolos recrear en video. Así pues, la IA sabrá a qué aspectos se refiere al hablarle de tipos de personas, vestimentas, accesorios o efectos visuales.
Además de captar los movimientos y vibraciones con alta precisión, Sora puede crear numerosas tomas dentro de un solo video generado, por lo que tanto los personajes como los escenarios y el estilo visual tendrán una calidad 100% inmejorable.
Tal y como sucede con los modelos GPT, Sora emplea una arquitectura de transformador, de tal modo que es capaz de desbloquear un rendimiento de escalamiento superior.
Sus hándicaps
Tal y como apunta OpenAI en su web, Sora puede tener dificultades para simular con precisión la escenografía física de una escena compleja, sin poder comprender casos específicos de causa y efecto. De este modo, por ejemplo, si una persona le da un mordisco a una galleta, es posible que la galleta luego no tenga la marca del mordisco.
Sora también presenta dificultades técnicas, ya que puede confundir los detalles espaciales de un mensaje. Así pues, podría no ser capaz de distinguir izquierda y derecha o realizar descripciones precisas de eventos que se desarrollan a lo largo de tiempo. De igual modo, tiene dificultad para seguir la trayectoria de una cámara.
¿Cómo se puede usar?
Gracias a Sora se pueden especificar los movimientos de los personajes y crear escenas complejas, detallando cada aspecto decorativo, tanto de los personajes como del paisaje. Esa elevada precisión no solo se ajusta a las personas, sino también a la escenografía, pues se pueden recoger detalles como una calle mojada con reflejos efecto espejo.
Algo muy singular de Sora es su nivel de inteligencia y reconocimiento de contextos. De este modo, si se le pide un vídeo de una mujer caminando por Tokyo, automáticamente le otorgará rasgos orientales, así como una edad y vestimenta adecuada, si no se señalase lo contrario.
Sacar el máximo provecho a Sora dependerá de la habilidad del usuario para crear prompts complejos. Cuanto más detallada fuese al descripción, más precisión tendrá la imagen final.
Por el momento, al encontrarse en una fase temprana de desarrollo, Sora solo puede generar vídeos de 60 segundos. Además, presenta algunos problemas para recrear rasgos físicos con plena exactitud.
Su disponibilidad
Como bien se ha comentado con anterioridad, hasta la fecha, Sora únicamente está disponible para los investigadores de OpenAI y se encuentra en fase de prueba en laboratorio. No obstante, la compañía espera que pueda incorporarse a su catálogo de productos próximamente, aunque deberán tomarse medidas que garantizasen la plena seguridad de los usuarios frente a posibles ciberataques.
La seguridad
Precisamente, este es un factor al que OpenAI da una gran importancia. Se espera que los miembros del ‘equipo rojo’ prueben el modelo Sora de manera adversa. También están creando herramientas para ayudar a detectar contenido malicioso, un clasificador que indique cuándo Sora ha generado un video e incluir metadatos de C2PA si se implementa el modelo en un producto OpenAI.
Los métodos de seguridad existentes también son aplicables a Sora. Así pues, el clasificador de texto verificará y rechazará las solicitudes de ingreso de texto que infringiesen las normas y políticas de uso (violencia extrema, contenido sexual, imágenes de odio y derechos de imagen y privacidad).
Con los clasificadores de imágenes sólidos se podrán revisar, de manera rigurosa, todos los fotogramas de cada vídeo para garantizar que se cumpliese con las políticas de uso. Aquí entrarán en juego formuladores de políticas, educadores y artistas de todo el mundo, comprendiendo sus preocupaciones e identificando casos de uso positivos.
Y es que OpenAI es consciente que, pese a las numerosas investigaciones y pruebas exhaustivas, resulta imposible predecir todas las formas beneficiosas y maliciosas de su nueva tecnología. De ahí que la formación y la comprensión del uso en el mundo real sea fundamental y crítica para lanzar sistemas de IA cada vez más seguros con el paso del tiempo.