Sora, el nuevo modelo de IA de OpenAI que convierte texto en vídeo

A nadie se le escapa que el ritmo al que está avanzando el desarrollo de los modelos de inteligencia articifial en cuestión de meses es algo que escapa a nuestra comprensión.

Cuando todavía nos estamos haciendo a la idea de disponer de herramientas de texto basadas en IA como ChatGPT, Gemini o CoPilot, así como de creación de imágenes a partir de texto como DALL·E 3 o Midjourney, ahora OpenAI va un paso más allá con la presentación de Sora, su nuevo modelo de inteligencia artificial que convierte texto en vídeo, como Lumiere de Google.

En esta primera versión, Sora puede generar vídeos de hasta un minuto de duración según nuestras instrucciones y manteniendo una gran calidad visual. Es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo.

Aquí algunos ejemplos:

Otros muchos y sus respectivos promts se pueden consultar en su web oficial.

El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico. Su profundo conocimiento del lenguaje le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes.

Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual.

El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco.

El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.

Sora también puede generar un vídeo basado en una imagen fija, así como completar fotogramas faltantes en un vídeo existente o ampliarlo.

Los vídeos hablan por si solos, y estamos hablando de la primera generación del modelo. Ya no es pensar en que punto estaremos con estas cosas dentro de unos años, es pensar por donde andaremos en unos meses.

El principal problema de este tipo de tecnología, como ocurre con el texto o con las imágenes, pero más acentuado tratándose de vídeo, es que son muy buenas herramientas para los deepfakes, generar desinformación, odio y demás. Desde OpenAI son conscientes, y están trabajando en herramientas para detectar este tipo de usos y bloquearlos.

Por ahora Sora solo está disponible para un grupo reducido dentro de OpenAI, para buscar fallos o riesgos, así como para una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos.

X (Twitter) Facebook WhatsApp Telegram

Busca en Dekazeta