La Inteligencia Artificial está siendo clave para el desarrollo de las nuevas tecnologías y puede hacer cosas fuera de lo normal. Google sabe usarla perfectamente y prueba de ello es la última tecnología que acaba de presentar: Parti (Pathways Autoregressive Text-to-Image), una herramienta capaz de convertir largos párrafos de texto en imágenes, gracias a modelos avanzados de lenguaje. Y con una interesante aplicación en el ámbito de la educación.
Parti es un modelo de generación de texto a imagen autorregresivo que logra la generación de imágenes fotorrealistas de alta fidelidad y que admite una síntesis rica en contenido que involucra composiciones complejas y conocimiento del mundo.
Hay que recordar que Google presentó hace no mucho Imagen, un modelo basado también en la Inteligencia Artificial que es capaz de crear imágenes de gran realismo a partir de breves descripciones de texto. Pero ahora, con Parti, la cosa va más allá y esta tecnología permite generar imágenes a partir de texto más elaborado, por lo que, según indica Google en la web de Parti, son complementarios en la exploración de dos familias diferentes de modelos generativos, autorregresivos y de difusión respectivamente, lo que abre interesantes oportunidades para las combinaciones de estos dos modelos.
Los resultados de destino de Parti son secuencias de tokens de imagen en lugar de tokens de texto en otro idioma. Para ello, Parti utiliza el tokenizador de imágenes Vit-VQGAN que es capaz de codificar imágenes con secuencias de tokens discretos y aprovecha su capacidad para reconstruir tales secuencias de tokens como imágenes visualmente diversas de alta calidad.
Los investigadores de Google realizaron comparaciones detalladas de cuatro escalas de modelos Parti (350M, 750M, 3B y 20B) y se observó que hay mejoras consistentes y sustanciales en las capacidades del modelo y la calidad de la imagen de salida. Asimismo, se observó que el modelo 20B sobresale en indicaciones que son abstractas, requieren conocimiento del mundo, perspectivas específicas o escritura y representación de símbolos.
De acuerdo con Google, con Parti se puede administrar indicaciones largas y complejas que lo requieren para reflejar con precisión el conocimiento del mundo, componer muchos participantes y objetos, con detalles e interacciones detallados y adherirse a un formato y estilo de imágenes específicos.
Para poder realizarlo, Google cuenta con PartiPrompts, que es un conjunto de más de 1.600 indicaciones en inglés que se puede utilizar para medir las capacidades del modelo en varias categorías y aspectos.
Google ha informado que los modelos actuales como Parti están entrenados en grandes conjuntos de datos de imagen y texto, a menudo ruidosos, que se sabe que contienen sesgos con respecto a personas de diferentes orígenes. La compañía ha puesto un ejemplo de que Parti podría producir representaciones estereotipadas de, por ejemplo, abogados, amas de casa, o asistentes de vuelo, entre otras cosas.
Por todo ello, desde Google han decidido no divulgar los modelos, códigos o datos de Parti para uso público sin medidas de seguridad adicionales. También proporcionan una marca de agua Parti en todas las imágenes que se publican y han prometido seguir trabajando en estrategias más cuidadosas de medición y mitigación del sesgo del modelo