Meta presenta CM3leon, una herramienta de inteligencia artificial capaz de generar imagen desde texto y viceversa

Meta presenta CM3leon

Nueva York/Meta (empresa matriz de Facebook, Instagram y WhatsApp) lanzó este viernes CM3leon una herramienta de inteligencia artificial (IA) capaz de generar imagen a partir de un texto y viceversa.

En un comunicado, la empresa pone varios ejemplos: si uno teclea "un pequeño cactus con un sombrero de paja y gafas de sol de neón en el desierto del Sahara", se genera una imagen con esa descripción.

Otra función consiste en editar una imagen a partir de una indicación con un texto, como "modificar el color del cielo" de una foto o "ponerle bigote" al cuadro de Johannes Vermeer de La joven de la perla; además, permite preguntar a la IA que describa una foto con palabras.

Según la compañía, CM3leon -pronunciado camaleón- es capaz de ofrecer "el más alto rendimiento" en la conversión de texto a imagen y viceversa, se entrena con cinco veces menos recursos que los modelos anteriores y genera secuencias de texto e imágenes sobre "secuencias arbitrarias de otro contenido de imagen y texto".

Meta presenta CM3leon.

Tal y como explica Meta, es el "primer modelo multimodal" entrenado con una adaptación de modelos de lenguaje de solo texto. Es decir, los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.

CM3Leon muestra una importante capacidad para generar objetos compositivos complejos, es decir, imágenes con distintos componentes que no tienen que ver entre sí o que son complicados de encajar juntos. Además, se desenvuelve bien en una "amplia variedad de tareas de visión y lenguaje", incluida la respuesta visual a preguntas y subtítulos de formato largo.

Herramientas similares

Desde de que la IA adquiriese popularidad a finales del año pasado, varias empresas han lanzado este tipo de herramientas y Meta anota que CM3leon es mejor que algunas de ellas.

"Al comparar el rendimiento en el punto de referencia de generación de imágenes más utilizado (Zero-shot MS-COCO), CM3Leon logra una puntuación FID (Distancia de inicio de Fréchet) de 4,88, estableciendo un nuevo estado del arte en la generación de texto a imagen y superando al modelo de Google de texto a imagen´(Parti)", anota la compañía en el comunicado.

No obstante, Meta no menciona ni a Midjourney ni a Dall-e de OpenAI, las herramientas más populares para este tipo de tareas hasta el momento.

Meta presenta CM3leon

Otras funcionalidades

Generación y edición de imágenes guiadas por texto. En concreto, la edición modificada por texto es "un desafío" ya que es necesario que el modelo comprenda tanto las instrucciones de texto como la propia imagen generada para editarla posteriormente.
Puede editar imágenes siguiendo instrucciones de estructura. Esto es una opción que permite crear ediciones "visualmente coherentes y contextualmente apropiadas" para una imagen que se adhieren a las pautas de diseño ya descritas previamente.
Generar una imagen a partir de un texto con descripciones. En concreto, a partir de un texto que describa una imagen "potencialmente muy compositiva", lo que pone a prueba al modelo para seguir de forma coherente las indicaciones del texto.
Tareas de texto. Puede seguir distintas indicaciones para, a partir de una imagen, generar subtítulos cortos o largos, incluso, puede responder preguntas sobre una imagen.
Descripción detallada. Dentro de sus habilidades para generar imágenes, el usuario puede redactar una descripción que incluya la localización exacta de dónde se han de situar los objetos que se hayan incluido en la descripción, dentro de un espacio delimitado.
Resultados de súper resolución. Esta opción agrega una etapa entrenada por separado para introducir imágenes de mayor resolución a los resultados del modelo original.

Meta presenta CM3leon, una herramienta de inteligencia artificial capaz de generar imagen desde texto y viceversa

Entre sus múltiples funciones está la generación de secuencias de texto e imágenes sobre "secuencias arbitrarias de otro contenido de imagen y texto"

EEUU abre una amplia investigación sobre OpenAI y su popular ChatGPT

Herramientas similares

Otras funcionalidades