Ha sido uno de esos días grandes. En unas pocas horas, Google y OpenAI mostraron sus últimas innovaciones en inteligencia artificial. Primero fue Google con Gemini 1.5, su modelo de IA con un millón de tokens para aventajar a GPT-4 Turbo. Inmediatamente después OpenAI contraatacó con Sora, su modelo de texto a vídeo para generar clips de hasta 60 segundos.
Y las reacciones de la comunidad no han podido ser más distintas. La nueva versión de Gemini es muy prometedora y apunta altísimo, pero hay una diferencia clara con Sora. Mientras Google nos da cifras de vértigo, OpenAI nos enseña vídeos. Si una imagen vale más que mil palabras, en este caso un vídeo vale más que mil cifras.
Son dos estrategias muy distintas, pero parece claro cuál está generando más atención. Del anuncio de Gemini 1.5 nos quedamos con que mientras GPT-4 Turbo tiene 128.000 tokens, Gemini llega a un millón. Estos tokens son un indicativo de la capacidad de la IA de recibir mucha información a la vez. Es decir, Gemini es capaz de leer una mayor cantidad de libros a la vez o de procesar una mayor cantidad de tiempo de vídeo. En resumen: es más rápida y eficiente. Hasta ahí bien.
Lo que ocurre es que esta promesa de un mayor rendimiento no sirve de mucho si no tenemos presente ejemplos llamativos. Tras probar Gemini en el móvil, nuestra experiencia ha sido más o menos buena pero no revolucionaria.
Cifras versus ejemplos
Si uno mira el comunicado de Gemini 1.5 de Sundar Pichai y Demis Hassabis veremos un texto con muchos ejemplos y muchísimas cifras. Tokens, arquitectura, tiempos de ejecución y líneas de código. ¿En qué se traduce eso en nuestras vidas diarias? Difícil determinarlo en el corto plazo.
Con Sora ha sido muy distinto. En primer lugar, la página de Sora viene con múltiples ejemplos de vídeos. El resultado es impresionante, con un realismo no visto hasta ahora. Pero es que incluso si leemos el texto técnico está plagado de ejemplos gráficos.
Lógicamente la comparativa no es justa. Sora es una herramienta de vídeo y Gemini es un modelo de IA. Son dos proyectos muy distintos, pero precisamente por ello la reacción que generan es diferente. OpenAI sabe que su mayor baza está en lo llamativo que pueden llegar a ser la IA, para Google la IA parece que sea un impulso a optimizar su gran engranaje.
Todavía cuesta encontrar ejemplos en Gemini que no se puedan hacer desde hace tiempo en ChatGPT. Unos y otros consiguen mejores resultados en función del prompt pero de manera general, están bastante a la par. Pero los movimientos de OpenAI dejan claro de un vistazo que están un paso por delante.
.@OpenAI SORA vs @pika_labs vs @runwayml vs @StabilityAI Video.
I gave the other models SORA’s starting frame. I tried my best prompting and camera motion techniques to get the other models to output something similar to SORA.
SORA’s just much better at longer scenes. pic.twitter.com/TK7QR6jaUK— Gabor Cselle (@gabor) February 16, 2024
Gabor Cselle, ex directivo de Google, publica una comparativa entre el vídeo generado por Sora y lo que ofrecen alternativas como Pika, RunwayML o Stable Video y su conclusión es que Sora es un paso adelante claro, sobre todo en consistencia y duración. «Revolucionario», describe.
Sora no está disponible al público todavía, pero ya ha enseñado decenas de ejemplos. Vídeos tan sorprendentes que no hace falta mucha más explicación para saber que estamos ante un salto importante. Algo que Google todavía no ha logrado.