OpenAI lanza GPT-4o: un nuevo modelo multimodal que trabaja con voz, texto e imagen al mismo tiempo

OpenAI ha anunciado este lunes en un evento en directo un nuevo modelo de inteligencia artificial (IA). Estamos hablando de GPT-4o, que se presenta como un producto más “inteligente y rápido” que los anteriores lanzados por la compañía dirigida por Sam Altman.

GPT-4o, además, es multimodal de forma nativa, característica que le permitirá potenciar aún más las prestaciones de las aplicaciones que se basen en él. Un dato muy importante es que este nuevo modelo estará disponible para todos los usuarios de ChatGPT (también para los de la versión gratuita).

El modelo más avanzado de OpenAI

La CTO de OpenAI, Muri Murati, dijo durante la transmisión que el nuevo modelo de IA tiene una «inteligencia al nivel de GPT-4″, pero mejora en sus capacidades de texto, audio y visión. Este avance tecnológico ha permitido, entre otras cosas, reducir la latencia de las respuestas.

El modo de voz de ChatGPT que ha estado disponible hasta ahora ofrecía respuestas con una latencia promedio de 2,8 segundos en GPT-3.5 y 5,4 segundos en GPT-4. OpenAI ha conseguido reducir el tiempo de respuesta a un promedio de 320 milisegundos con su nuevo modelo GPT-4o.

Como podemos ver, estamos ante una versión mejorada de GPT-4 que busca ofrecer una nueva forma más natural de interactuar con ChatGPT. Por ejemplo, podremos conversar por voz con el modelo e incluso interrumpirle mientras responde, vamos como haríamos en una conversación con otro humano.

En la demostración en vivo hemos visto otras cosas realmente sorprendentes. El modelo no solo responde en tiempo real, sino que también puede brindar respuestas en diferentes tonos de voz e incluso tiene la capacidad de detectar el estado de ánimo de los usuarios para enriquecer la conversación.

Otra de las funcionalidades destacadas que llegarán a ChatGPT gracias al nuevo modelo es la traducción instantánea. OpenAI quiere que simplemente le pidamos lo que queramos al chatbot para que este empiece a hacer su trabajo, todo en lenguaje natural, sin pensar en comandos específicos.

Podremos contarle a ChatGPT que estamos con alguien que habla otro idioma, por ejemplo, italiano, y que traduzca nuestra conversación en tiempo real al español. Después de eso, simplemente tendremos que empezar a conversar de manera natural beneficiándonos de la función de traducción.

Como decimos, este nuevo modelo también mejora en sus capacidades de visión. En este sentido, podremos darle una foto o una captura de pantalla para que la analice y nos brinde información al respecto. Desde qué modelo es tal coche hasta si tiene errores el código de un lenguaje de programación.

¿Cómo acceder al nuevo GPT-4o de OpenAI?

La compañía de inteligencia artificial respaldada por Microsoft ha dicho que ya ha comenzado el despliegue gradual de GPT-4o. Los usuarios de ChatGPT y ChatGPT Plus tendrán acceso a partir de hoy as las novedades relacionadas al texto e imágenes del nuevo modelo.

Cabe señalar que los usuarios de pago del chatbot siguen teniendo beneficios. En primer lugar, tendrán límites más generosos para utilizar el nuevo modelo de IA. Asimismo, serán los únicos que recibirán el nuevo modo de voz que será lanzado «en las próximas semanas».

Además, OpenAI ha anunciado el lanzamiento de una aplicación de escritorio de ChatGPT. La misma estará disponible en macOS y podremos hacerle preguntas sobre lo que hay en pantalla. También tendremos la posibilidad de invitar a ChatGPT a participar de una videollamada.