Que a Google le cogió la irrupción de OpenAI con su GPT con el pie cambiado es algo obvio (a Google y a todos), pero que acaban de clamar a los cuatro vientos «aquí estoy yo», también.
Aunque en febrero lanzaron Bard, su modelo lingüistico basado en IA para hacer frente a ChatGPT y sus derivados, no ha sido hasta ahora, con el anuncio de Gemini, su nuevo modelo de IA avanzado, cuando hemos visto lo que podíamos esperar de los de Mountain View en este campo.
Gemini es un modelo de IA multimodal, lo que significa que puede generalizar y comprender, operar y combinar distintos tipos de información, como texto, imágenes, audio, vídeo y lenguajes de código. Además, es versátil y eficiente, ya que puede ejecutarse desde dispositivos móviles hasta centros de datos.
Hasta ahora, la creación de modelos multimodales se basaba en entrenar componentes separados para las diferentes modalidades y luego unirlos para imitar parte de dichas funcionalidades. Para cosas muy concretas puede valer, pero la cosa se complica con razonamientos más conceptuales.
Gemini ha sido concevido como modelo multimodal de forma nativa, siendo entrenado desde el principio en diferentes modalidades. Posteriormente se ha ido perfeccionando con datos multimodales adicionales, lo que le ayuda a comprender y razonar sobre todo tipo de entradas desde cero.
La versión 1.0 de Gemini está disponible en tres tamaños diferentes:
- Gemini Ultra: El modelo más potente y de mayor tamaño, para tareas de gran complejidad.
- Gemini Pro: El mejor modelo para escalar en una amplia gama de tareas.
- Gemini Nano: El modelo más eficiente para ejecutar tareas directamente en un dispositivo.
Una versión afinada de Gemini Pro ya está disponible con Bard (en su versión en inglés y más de 170 países, no España de momento), lo que le hace mejorar en tareas como resumen, brainstorming, escritura y planificación.
El Pixel 8 Pro también cuenta ya con Gemini Nano en su última actualización, aportando nuevas funciones al teléfono, como el «Resumir» de la Grabadora o la respuesta inteligente en Gboard. Próximamente llegaqrá a oros servicios de Google, como Search, Ads, Chrome y Duet AI.
A partir del 13 de diciembre los desarrolladores tendrán acceso a Gemini Pro a través de la API de Gemini vía Google AI Studio y Vertex AI.
- Google AI Studio es una herramienta gratuita basada en la web que ayuda a los desarrolladores y clientes empresariales a crear prototipos y lanzar aplicaciones rápidamente con una clave API.
- Vertex AI permite la personalización de Gemini con control total de datos y se beneficia de funciones adicionales de Google Cloud para seguridad empresarial, privacidad y gobernanza y cumplimiento de datos.
Los desarrolladores de Android tendrán acceso a Gemini Nano vía AICore, una nueva capacidad del sistema, disponible en Android 14 y por ahora solo compatible con Pixel 8 Pro.
Gemini Ultra estará disponible a través de un programa de acceso anticipado para desarrolladores, socios y empresas seleccionadas, con el objetivo de recibir comentarios y mejores, antes de abrirlo a desarrolladores y empresas de manera más extendida a principios del año que viene.
A principiosde 2024 será también cuando Google lance Bard Advanced, una nueva experiencia de IA de vanguardia que dará acceso a sus mejores modelos y capacidades, comenzando con Gemini Ultra.
Más información en la web oficial de Google.