Hoy es 23 de Noviembre de 2024, Chihuahua, MX.

La avalancha de novedades en los modelos de IA generativa de Google se ha completado con un anuncio muy especial. Project Astra es la ambiciosa iniciativa de Google para plantear el asistente de voz del futuro. Uno potenciado por la IA y por la visión que proporcionan las cámaras de nuestros smartphones (o, como veremos, de otros dispositivos).

Project Astra. Así se llama este ambicioso proyecto de Google con el que quieren «desarrollar agentes de IA universales que puedan ser útiles en nuestra vida cotidiana». En Google destacaban como un asistente de estas características debe ser capaz de entender y responder de la misma forma que lo hacen los humanos. También «recordar lo que ve y oye para entender el contexto y actuar».

La latencia es el reto. Los responsables de la empresa reconocen que han avanzado mucho en la comprensión de información multimodal (esto es, que le llegan datos de texto, de voz, de audio, de vídeo). Sin embargo, «reducir el tiempo de respuesta a algo orientado a la conversación es un reto ingenieril difícil».

Tonos de voz. En Project Astra están trabajando en ofrecer modelos de síntesis de voz que tengan mayor calidad y que permitan que los distintos agentes tengan una amplia variedad de entonaciones. Según Google, los agentes serán capaces de entender el contexto en el que se están usando mejor que nunca, y además responderán rápido.

La app de Gemini en el horizonte. Todo ese aprendizaje acabará integrado en soluciones como la aplicación móvil de Gemini, que será equivalente a la que OpenAI ha presentado con ese ChatGPT basado en GPT-4o que vimos ayer. La aplicación, indican en Google, estará disponible antes de que acabe el año.

Dime lo que ves. En el vídeo de demostración publicado por Google se veía en funcionamiento una versión preliminar de Project Astra que hacía uso de las cámaras del móvil para reconocer objetos de forma sorprendente. De hecho en Google planteaban opciones curiosas, como las de dibujar una flecha en la pantalla para luego pedirle al modelo que describiera qué era ese objeto en pantalla. Nos recuerda a esa nueva característica de «Rodear para buscar», pero en este caso aplicada a esas consultas en directo sobre cosas que el modelo de IA reconoce.

¡Gafas! Lo más llamativo del vídeo llegó en la parte final, cuando la persona que está realizando la demostración pregunta «¿Dónde he dejado mis gafas». El asistente se lo indica, y cuando se las pone resulta que no son unas gafas de ver normales: ¡son unas gafas con cámara y la integración de Project Astra! (Unas que nos recuerdan a algo, por cierto). A partir de ahí la usuaria hace unas breves demostraciones de cómo gracias a esa integración el modelo va ayudando y respondiendo a las preguntas de la usuaria de forma notable e ingeniosa.

OpenAI va por delante, pero Google acecha. Project Astra parece por tanto ser un competidor directo de las funciones que ayer se presentaron con GPT-4o por parte de OpenAI. La firma liderada por Sam Altman parece haberse adelantado ligeramente porque esas opciones de interacción por voz ya están llegando poco a poco a algunos usuarios, pero su disponibilidad masiva probablemente tarde varias semanas… o meses. Google va ligeramente retrasada, pero esta alternativa parece igual de prometedora y será una interesante forma de animar esta particular competencia. Los ususarios saldremos ganando, eso seguro.

About Author

Editor

WhatsApp