Tribuna Económica
Joaquín Aurioles
Estabilidad financiera y geopolítica
Tecnología
Nueva York/Meta (empresa matriz de Facebook, Instagram y WhatsApp) lanzó este viernes CM3leon una herramienta de inteligencia artificial (IA) capaz de generar imagen a partir de un texto y viceversa.
En un comunicado, la empresa pone varios ejemplos: si uno teclea "un pequeño cactus con un sombrero de paja y gafas de sol de neón en el desierto del Sahara", se genera una imagen con esa descripción.
Otra función consiste en editar una imagen a partir de una indicación con un texto, como "modificar el color del cielo" de una foto o "ponerle bigote" al cuadro de Johannes Vermeer de La joven de la perla; además, permite preguntar a la IA que describa una foto con palabras.
Según la compañía, CM3leon -pronunciado camaleón- es capaz de ofrecer "el más alto rendimiento" en la conversión de texto a imagen y viceversa, se entrena con cinco veces menos recursos que los modelos anteriores y genera secuencias de texto e imágenes sobre "secuencias arbitrarias de otro contenido de imagen y texto".
Tal y como explica Meta, es el "primer modelo multimodal" entrenado con una adaptación de modelos de lenguaje de solo texto. Es decir, los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.
CM3Leon muestra una importante capacidad para generar objetos compositivos complejos, es decir, imágenes con distintos componentes que no tienen que ver entre sí o que son complicados de encajar juntos. Además, se desenvuelve bien en una "amplia variedad de tareas de visión y lenguaje", incluida la respuesta visual a preguntas y subtítulos de formato largo.
Desde de que la IA adquiriese popularidad a finales del año pasado, varias empresas han lanzado este tipo de herramientas y Meta anota que CM3leon es mejor que algunas de ellas.
"Al comparar el rendimiento en el punto de referencia de generación de imágenes más utilizado (Zero-shot MS-COCO), CM3Leon logra una puntuación FID (Distancia de inicio de Fréchet) de 4,88, estableciendo un nuevo estado del arte en la generación de texto a imagen y superando al modelo de Google de texto a imagen´(Parti)", anota la compañía en el comunicado.
No obstante, Meta no menciona ni a Midjourney ni a Dall-e de OpenAI, las herramientas más populares para este tipo de tareas hasta el momento.
También te puede interesar
Lo último
Tribuna Económica
Joaquín Aurioles
Estabilidad financiera y geopolítica
El parqué
Jaime Sicilia
Jornada de caídas
La ciudad y los días
Carlos Colón
Política carroñera
No hay comentarios