OpenAI ha presentado los resultados sobre su investigación sobre simulación de mundos en un nuevo modelo generativo “text to video” (texto a vídeo) llamado “Sora”, y los resultados han resultado ser tan buenos que parecen cosa de magia.

¡Y todo con una sola instrucción!

Los vídeos generados han impresionado por su realismo, consistencia de objetos del entorno, del paisaje y de las características de los personajes.

Sora es, a la fecha, el modelo generativo de video más poderoso de la industria. Con una mejor consistencia temporal, dejó rápidamente atrás a los vídeos de 512 píxeles y una duración de cinco segundos que presentó Google Lumiere. En comparación, Sora crea vídeos de 1080 píxeles y una duración de un minuto.

En este artículo, exploraremos los detalles de este gran avance para las inteligencias artificiales.

El predecesor de Sora: DALL-E

DALL-E es el modelo de generación de texto a imagen que también es desarrollado por OpenAI y que actualmente se encuentra en su tercera versión. La mejor forma de demostrar el avance de esta tecnología y su impacto para el desarrollo de Sora es con un ejemplo:

Imágenes generadas por DALL-E 1

Estas son las imágenes generadas por DALL-E 1

Imágenes generadas por DALL-E 3

Y esta imagen fue generada por DALL-E 3

Las imágenes anteriores respondían a la misma instrucción: “Heisenberg comiendo fideos instantáneos con un gato” y la mejora entre DALL-E 1 (estrenada en 2021) y DALL-E 3 (estrenada en 2023) se aprecia del cielo a la tierra. Y sí, entremedio estuvo una DALL-E 2, que presentó la cuadruplicación de la resolución de las imágenes.

Nuestro ojo humano está naturalmente entrenado para detectar inconsistencias, especialmente si son imágenes que representan a individuos de nuestra especie, pero para un ordenador, la tarea de ilustrarnos es mucho más complicada. De cierta forma, tiene que “traducir” la realidad y detectar las características que se deben mantener más o menos fijas en cada fotograma.

El avance en la simulación de mundos es innegable, pero debemos ser realistas. Con facilidad podemos caer en “falsos positivos” sobre las verdaderas victorias en la industria y creer que podemos crear mucho más de lo que es posible.

En resumen, que para llegar a donde estamos ahora, hay personas escribiendo código y probando constantemente el programa.

Y antes de que saltes a una conclusión apresurada: ni DALL-E ni Sora van a reemplazar a las profesiones relacionadas con el arte y la producción audiovisual. DALL-E y Sora, aunque no lo parece a simple vista, están replicando elementos del mundo físico. Así como ChatGPT no reemplazó a los programadores ni a las programadoras, estas inteligencias artificiales no reemplazarán a las y los artistas.

Si te ha llamado la curiosidad, puedes usar DALL-E desde Bing, el buscador de Microsoft. Una jugada maestra, ¿verdad?

Cómo funciona Sora

¿Cómo es posible la proeza de Sora? OpenAI ha explicado el paso a paso. Han usado la combinación de varias tecnologías y técnicas (que han usado en el pasado en otros modelos como GPT y DALL-E), y han logrado que el modelo generativo de datos visuales herede las ventajas de un LLM (acrónimo para “grandes modelos de lenguaje” en inglés), unificando diversas modalidades de texto-código, matemáticas y varios lenguajes naturales.

Un token es una unidad mínima de texto que un modelo puede procesar.

Así como GPT-4 fue entrenado con tokens de texto, para Sora se usaron sucesiones de “patches” de video. Estos parches funcionan como una representación altamente escalable y eficaz para entrenar modelos generativos en diversos tipos de vídeos e imágenes.

El orden en que estos patches se encuentren va a definir la dimensión del resultado y también el orden espaciotemporal. ¡No te asustes! Es más fácil que una película de Marvel, solo es una manera de que los vídeos no cuenten una historia sin sentido.

Cómo se crean los “patches” de video

Al igual Stable Diffusion, Sora usa modelos de difusión donde, desde una imagen de ruido aleatorio, llega a otra imagen condicionada por un prompt de texto. Este es fácilmente traducible a video, ya que consiste en una sucesión de imágenes.

Cómo se crea un vídeo desde el ruido

De DALL-E 3 aprovechan la “re-captioning technique” donde cada video del gran set de videos de entrenamiento fueron etiquetados por un modelo especializado. Además, al igual que DALL-3, Sora también usa ChatGPT para convertir un prompt corto del usuario en uno muchísimo más largo y detallado.

La calidad de los resultados mejora notablemente a medida que aumenta el cómputo del entrenamiento. Recuerda que, para generar este minuto de vídeo “de la nada”, se necesita de una enorme infraestructura, empezando por chips de vídeo y de procesamiento (GPU y CPU, respectivamente).

Una de las ventajas que tiene OpenAI por sobre sus competidores en la carrera por desarrollar inteligencias artificiales es que, al ser los primeros en salir al mercado, marcan el ritmo del mismo y se han llevado la mayor parte de la confianza y credibilidad ante las personas.

¿Cómo podemos usar Sora para generar videos?

De momento, Sora no está disponible al público general. OpenAI solo ha publicado los resultados de su investigación. La única manera que tenemos de interactuar con el modelo es enviándole una petición al propio Sam Altman, CEO de OpenAI, y cruzar los dedos.

Ejemplo de una respuesta de Sam Altman
Respuesta de Sam Altman en X

Solo queda esperar porque este modelo de generación de vídeos sea público para todas las personas. ¿Te imaginas qué podría crear un cineasta con esta herramienta?

¿Por qué Microsoft no puede comprar OpenAI?

En muy pocas palabras: porque es perjudicial que se formen monopolios en la industria tecnológica. La diversidad de empresas desarrollando productos y servicios digitales es una característica saludable en la macroeconomía.

Ya hemos visto como pocas empresas se apropian de una gran cantidad de poder e influencia en el mercado al absorber a sus rivales.

Anteriormente, Meta compró WhatsApp, la aplicación de mensajería instantánea, e Instagram, la red social; casi inmediatamente, esto provocó que el nicho de las aplicaciones de comunicación se contrajera. Reflexionemos, ¿qué compañías quedaron de pie para hacerle competencia?

Para WhatsApp podemos contar unas pocas: Telegram, Signal, Viber y Discord. Messenger era su competidor más grande a nivel global. Y es así cuando notamos que Meta deliberadamente “se comió” a su competencia al adquirir también a Instagram, quedando en el juego otros players como TikTok, Snapchat, Line y Tumblr.

Así como sucedió con Figma y Adobe, y con Arm y NVIDIA, toda compra de las grandes organizaciones está siguiendo monitoreada por la Comisión Federal de Comercio (FTC) en los Estados Unidos, la Autoridad de Competencias y Mercados (CMA) en el Reino Unido y la Comisión Europea (EC), que es el ente regulador que nos compete aquí en España.

El objetivo es evitar que los acuerdos entre gigantes afecten a posibles clientes o que capturen a un porcentaje importante de la cuota de mercado, lo que significaría:

  • Menos incentivos para mantener la calidad del producto.
  • Menos incentivos para innovar.
  • Menos incentivos para pautar precios asequibles.
  • Menos inventivos para continuar en el negocio.
La CMA actualmente está revisando los vínculos entre Microsoft y OpenAI, para determinar si existe una fusión subyacente.

El año pasado, Microsoft se comprometió a invertir 10.000 millones de dólares en OpenAI en un acuerdo privado de varios años de duración. Aunque este monto incluye créditos para usar los servicios en la nube de Microsoft, no deja de ser una movida relevante en el sector.

Con ella, Microsoft consiguió un puesto de observador en la mesa directiva de OpenAI (sin derecho a voto) y la colaboración estrecha para el desarrollo de una serie de servicios de inteligencia artificial, en los que se incluye a la propia plataforma Azure de Microsoft.

Todos estos factores entorpecen cualquier acción de compra entre Microsoft y OpenAI. ¡Y ni siquiera contamos el drama del despido y reincorporación de Sam Altman, el CEO de OpenAI!

El gran detalle está en que el desarrollo de inteligencias artificiales necesita de la competencia abierta para seguir avanzando, independientemente de quién lidere la carrera.

Aun así, debemos tener en consideración la necesidad intrínseca de una empresa dedicada al desarrollo de inteligencia artificial por tener acceso a servidores. Estos son parte de la infraestructura necesaria para el procesamiento y almacenamiento de big data.

Así que es posible que veamos alianzas similares en el futuro, con el objetivo de conseguir los recursos computacionales para operar la IA.

La IA como creadora de empleos

La IA no debería servir como excusa para ser pesimistas sobre el futuro, especialmente cuando estamos viviendo una evolución en el empleo (e insistimos, no estamos experimentando “la muerte del trabajo hecho por humanos”). De hecho, los datos actuales nos dicen los contrario.

Según el informe Future of Jobs del Foro Económico Mundial, para 2025, la automatización y la IA crearán 12 millones de puestos de trabajo más de los que desplazarán en todo el mundo.

La IA creará 12 millones de puestos de trabajo

El 85% de las oportunidades laborales de 2030 aún no han sido creadas, así que lo mejor que podemos hacer es continuar entrenando nuestras habilidades digitales para el futuro.

¿Quién sabe? Quizás uno de estos trabajos sea “creación de entornos virtuales con IA” dentro de la industria audiovisual o de los videojuegos. ¡Las posibilidades son infinitas!

Aprende más sobre datos e IA

El futuro de la inteligencia artificial está lleno de desafíos y emoción, pero una cosa es cierta: la IA ha llegado para quedarse. ¿A qué esperas para capacitarte y trabajar con esta tecnología como aliada?

Empieza desde cero, sin necesidad de formación previa, en nuestro Bootcamp de Data Science e IA. Al aprender sobre ciencia de datos, descubrirás el paso a paso que se esconde detrás de la magia de Sora. ¿Tienes alguna duda? Completa el formulario debajo de este artículo y recibirás toda la información.