Google lanza Gemini 1.5 Pro, inteligencia artificial que puede procesar textos, vídeos y audios largos
Además de contexto, los usuarios podrán interactuar con el modelo con fotos o dibujos
Jueves 15 de Febrero de 2024 10:16 am
+ -
Nueva York.-
El gigante tecnológico Google lanzó Gemini 1.5 Pro, un modelo de inteligencia
artificial (IA) que puede procesar grandes cantidades de información de una
sola vez, incluida una hora de video, 11 horas de audio, 30 mil líneas de
código o más de 700 mil palabras.
"Hace
unos años memorizar u obtener el contexto de cientos de palabras era bastante
difícil e incluso si miramos a la década de 1950, cuando (Claude) Shannon (el
matemático que inventó la teoría de la información) soñaba con modelos de
lenguaje, estaba analizando dos palabras de contexto", dijo Oriol Vinyals,
vicepresidente de investigación de Google DeepMind y director ejecutivo de
Gemini.
Para
ejemplificar las capacidades de Gemini 1.5 Pro, Vinyals mostró -usando un video
pregrabado- que el modelo era capaz de analizar un texto de 402 páginas de
transcripciones del Apolo 11 -la primera misión en lograr que un ser humano
llegara a la Luna- y encontrar tres citas graciosas.
Además de
contexto, los usuarios podrán interactuar con el modelo con fotos o dibujos. En
el ejemplo del video de presentación, el usuario le dio a Gemini 1,5 Pro un
dibujo muy sencillo de una bota pisando el suelo y le pidió: "¿Qué momento
es este? responde con una cita exacta".
La respuesta
de la máquina fue la famosa cita del astronauta Neil A. Armstrong: "Ese es
un pequeño paso para el hombre".
Vinyals
mostró otros ejemplos parecidos, en lo que como base se usaba una película muda
de 45 minutos de Buster Keaton, en lugar de un texto.
Con respecto
a la programación, en un comunicado la empresa señala: "Puede realizar
tareas de resolución de problemas más relevantes en bloques de código más
largos. Cuando se le presenta un mensaje con más de 100 mil líneas de código,
puede razonar mejor entre ejemplos, sugerir modificaciones útiles y dar
explicaciones sobre cómo funcionan las diferentes partes del código".
"En
cierto modo, funciona de manera muy similar a como lo hace nuestro
cerebro", explicó Vinyals.
Gemini 1.5
funciona a un nivel similar al 1.0 Ultra, el modelo de Google más sofisticado
hasta la fecha.
Gemini 1.5 Pro será para
desarrolladores selectos; Google renombró así a su chatbot Bard
En un
comunicado del director ejecutivo de Google y Alphabet, Sundar Pichai, indica
que Gemini 1.5 Pro ayudará a los desarrolladores a crear modelos y aplicaciones
mucho más útiles.
"Nos
complace ofrecer una vista previa limitada de esta función experimental a
desarrolladores y clientes empresariales", recalca Pichai.
A partir de
hoy algunos desarrolladores y clientes de la nube podrán comenzar a construir
con 1.0 Ultra, con la interfaz de programación de aplicaciones (API) Gemini en
AI Studio y Vertex AI.
En lo
referente a las 'alucinaciones' -respuestas bien estructuradas para
incorrectas- Vinyals señala que sigue siendo un problema de la IA en general en
el que se sigue trabajando.
La semana
pasada, Google cambió el nombre de su chatbot con inteligencia artificial (IA)
de Bard a Gemini, anunció que esta tecnología estará disponible en una nueva
aplicación Gemini para Android y a través de la aplicación de Google en iOS y,
además, lanzó una versión "avanzada" de pago, que usa Gemini 1.0
Ultra.