La competencia en el campo de la inteligencia artificial avanza a una velocidad impresionante, y Google no se queda atrás. En un nuevo hito tecnológico, la multinacional ha presentado Gemini, una plataforma de inteligencia artificial multimodal capaz de procesar texto, código, imágenes, audio y vídeo desde diversas fuentes de datos. Lo más sorprendente es que la versión Ultra de Gemini supera a los humanos en comprensión masiva del lenguaje multitarea (MMLU), una referencia de evaluación que abarca 57 disciplinas. En este reportaje, te sumergiremos en el fascinante mundo de Gemini y sus implicaciones.
La era de la inteligencia artificial multimodal
En la carrera por la supremacía en el campo de la inteligencia artificial, Google ha presentado su última carta: Gemini. Esta plataforma multimodal es capaz de procesar y generar texto, código, imágenes, audio y vídeo a partir de diversas fuentes de datos. No se trata de una simple aplicación, sino de una plataforma destinada a revolucionar todos los servicios y productos de Google, desde Bard hasta los teléfonos móviles.
Según Eli Collins, vicepresidente de productos en Google DeepMind, Gemini es «nuestro mayor y más capaz modelo de IA». Se inspira en cómo las personas comprenden el mundo y cómo interactúan con él, convirtiéndose en un colaborador útil más que en una simple pieza de programación inteligente.
Gemini en acción
Durante la presentación, Gemini demostró su asombrosa capacidad al identificar formas geométricas, analizar fórmulas matemáticas, detectar errores y proponer soluciones precisas. Esta plataforma es capaz de generar resultados a partir de datos en forma de imágenes, texto alfanumérico y voz. Además, puede identificar y describir objetos basándose en puntos dispersos e incluso crear narraciones y gráficos a partir de información buscada en tiempo real.
Supera a los expertos humanos
Gemini ha alcanzado una puntuación superior al 90% en MMLU, una evaluación de comprensión del lenguaje multitarea. Según Collins, «es el primer modelo de IA que supera a los expertos humanos en este estándar de la industria». Además, ha aprobado con un 59,4% la evaluación de «comprensión de tareas multimodales», lo que incluye demandas que requieren razonamiento deliberado.
Disponibilidad de Gemini
Google ofrecerá tres versiones de Gemini: Nano, Pro y Ultra. Nano ya está disponible para desarrolladores de Android, mientras que Pro estará disponible a partir del 13 de diciembre. La versión Ultra, la más avanzada, estará disponible a principios del próximo año.
Aplicaciones prácticas
Gemini se integrará en todos los productos y servicios de Google, incluyendo Bard (competidor de ChatGPT), el buscador y los dispositivos móviles Android. También se utilizará en centros de datos a gran escala. Sissie Hsiao, responsable de asistentes y Bard, ha anunciado que Gemini se incorporará progresivamente a todos los idiomas, siempre cumpliendo con las regulaciones europeas sobre inteligencia artificial.
El futuro de la inteligencia artificial
Con Gemini, Google está marcando un hito en el desarrollo de la inteligencia artificial multimodal. Este modelo de alta capacidad se convertirá en una herramienta colaborativa para programadores, ayudando en todo el proceso de desarrollo de software. Además, Google asegura que ha sometido a Gemini a rigurosas pruebas de seguridad y sigue evaluando su rendimiento de manera continua.
La presentación de Gemini marca un avance significativo en la inteligencia artificial y sus aplicaciones potenciales son inmensas. Este modelo multimodal promete cambiar la forma en que interactuamos con la tecnología y ofrece un vistazo al emocionante futuro de la IA. Aunque no es infalible, Gemini representa un hito en la comprensión del lenguaje y la capacidad multitarea de las máquinas.