CDMX a 13 de febrero, 2024.- En un mundo donde la inteligencia artificial (IA) se ha convertido en una herramienta esencial en diversos campos, Apple, en colaboración con la Universidad de California en Santa Bárbara (UCSB), ha lanzado MGIE, un modelo de IA de código abierto diseñado para editar imágenes mediante instrucciones en lenguaje natural. Este avance promete transformar la manera en que interactuamos con la edición de imágenes, ofreciendo una solución intuitiva y accesible para usuarios de todos los niveles.
MGIE se distingue por su capacidad para interpretar instrucciones en lenguaje natural y realizar ediciones de imágenes sin necesidad de un contexto amplio. Por ejemplo, puede modificar una fotografía de una pizza para hacerla «más saludable» añadiendo tomates y hierbas, demostrando su habilidad para comprender y ejecutar comandos humanos ambiguos.
Este modelo combina un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) con un modelo de difusión, permitiendo una edición guiada que aprovecha la derivación visual inherente y aborda comandos humanos ambiguos para lograr resultados razonables. La colaboración entre Apple y UCSB busca demostrar cómo los MLLM pueden simplificar la edición de imágenes con IA, facilitando las instrucciones necesarias para obtener los resultados deseados.
MGIE no solo es capaz de realizar ajustes simples como cambios de color, temperatura e iluminación, sino también ediciones más complejas como cambiar la expresión de un retrato, añadir o quitar elementos y modificar el fondo de una imagen. Este modelo de IA abre un nuevo horizonte para la creatividad digital, permitiendo a los usuarios describir cambios en sus imágenes en términos coloquiales y ver esos cambios aplicados automáticamente.
Aunque aún es un proyecto de investigación, MGIE está disponible en GitHub como un proyecto de código abierto, lo que invita a desarrolladores de todo el mundo a contribuir y mejorar la herramienta. Los usuarios interesados pueden probar una versión de demostración en Hugging Face Spaces o descargar el código y modelos preentrenados desde GitHub para experimentar por sí mismos.