top of page

APPLE PRESENTA UNA NUEVA IA PARA EDITAR IMÁGENES

Buscando democratizar la experiencia de edición y explorar nuevos horizontes en el mundo de la edición de imágenes, Apple presenta MGIE, una IA de código abierto que permite la edición intuitiva de fotos a través de comandos en lenguaje natural, que redefine la forma en que interactuamos con nuestras imágenes, haciendo que sea accesible para usuarios de todos los niveles de habilidad.


Apple lanza MGIE, una IA que edita fotos con lenguaje de código abierto.



Los avances de Apple en el campo de la inteligencia artificial continúan progresando de manera sólida. En colaboración con la Universidad de California en Santa Bárbara (UCSB), han desarrollado MGIE, un nuevo modelo de código abierto que posibilita la edición de imágenes mediante el uso de lenguaje natural.

Aunque es cierto que la web está saturada de herramientas que emplean la inteligencia artificial generativa para crear imágenes, el enfoque de Apple y los expertos de la UCSB se centra en la "edición guiada". Este enfoque aprovecha los modelos de lenguaje multimodales de gran escala (MLLM, por sus siglas en inglés) para ofrecer una experiencia de edición única.

Según los creadores de esta herramienta, MGIE analiza la imagen y la instrucción proporcionada por el usuario, llevando a cabo la edición incluso sin contar con un contexto más amplio sobre el contenido o la solicitud en cuestión. Por ejemplo, en una instancia presentada, al recibir la instrucción "hazla más saludable" junto con una fotografía de una pizza, la inteligencia artificial de Apple modificó la imagen incorporando tomates y hierbas.

“MGIE consta de un MLLM y un modelo de difusión. El MLLM aprende a derivar instrucciones expresivas concisas y ofrece orientación visual explícita. El modelo de difusión se actualiza conjuntamente y realiza la edición de imágenes con la imaginación latente del objetivo previsto mediante un entrenamiento de extremo a extremo. De esta manera, MGIE se beneficia de la derivación visual inherente y aborda comandos humanos ambiguos para lograr una edición razonable. En el ejemplo, es difícil captar lo que significa saludable sin un contexto adicional. Nuestro MGIE puede conectar con precisión ‘ingredientes vegetales’ con la pizza y conducir a la edición correspondiente según las expectativas humanas”.


Un nuevo modelo de IA capaz de editar imágenes ya existentes.


Con el respaldo de MGIE, los expertos de Apple y la UCSB buscan validar la capacidad de los modelos de lenguaje multimodales a gran escala para simplificar la edición de imágenes mediante inteligencia artificial. Específicamente, pretenden facilitar las instrucciones necesarias para lograr los resultados deseados.

Los encargados del proyecto señalan que las instrucciones proporcionadas por humanos a menudo resultan demasiado concisas para que los métodos actuales de edición con inteligencia artificial las comprendan y procesen de manera adecuada. En este sentido, argumentan que la utilización de un MLLM para esta tarea "mejora el control y la flexibilidad" al editar imágenes, prescindiendo de la necesidad de utilizar máscaras regionales o descripciones excesivamente detalladas.

Los ejemplos presentados facilitan la comprensión de la historia. Además de la pizza, la IA de Apple puede realizar ediciones similares a Photoshop. En una fotografía, se puede ver a un hombre en primer plano y una mujer sentada en un sillón a lo lejos detrás de él. MGIE modifica la foto para que solo se vea el sujeto en primer plano mediante el comando "elimina a la mujer en el fondo". Sin embargo, no se limita a eliminar a la mujer; también cambia la atención hacia la expresión en el rostro del hombre.

Asimismo, los expertos de UCSB y Apple han logrado que la inteligencia artificial produzca ediciones locales. Por ejemplo, cambie lo que aparece en la pantalla de una fotografía en una computadora sin alterar el resto de la fotografía. Además, tiene la capacidad de realizar optimizaciones globales, como aumentar el brillo o modificar la definición del material, entre otras opciones.

Todavía no se sabe si Apple planea incorporar esta inteligencia artificial en su software disponible al público, ya que se trata de un proyecto de investigación. Sin embargo, es evidente que la empresa está prestando cada vez más atención en este tipo de tecnologías.