SDXL: el nuevo modelo de Stable IA

Compartir esta publicación

Table of Contents

Introducción

Entre los avances destacados en la generación de imágenes mediante inteligencia artificial se encuentra Stable Diffusion, una potente herramienta que ha revolucionado la creación de contenidos visuales. Stability AI pretende mantener su posición de liderazgo en la generación de imágenes a partir de texto con el reciente lanzamiento de su generador de imágenes Stable Diffusion XL 1.0 (SDXL). ‘XL’ hace referencia a que se ha entrenado con casi tres veces más parámetros que sus anteriores modelos.

Hoy hablaremos de este nuevo modelo y que mejoras trae y además, exploraremos el sistema interactivo en la generación de imágenes mediante inteligencia artificial, presentando así el revolucionario Stable Diffusion XL Turbo.

Mejoras respecto a las anteriores versiones

Stable Diffusion XL (SDXL) se posiciona como una innovación notable al presentar mejoras significativas en diversos aspectos, marcando un avance sustancial con respecto a sus predecesores.

El impresionante aumento en el número de parámetros, alcanzando la cifra de 2.3 mil millones, destaca como un hito crucial. Esta expansión se traduce en un proceso de aprendizaje más potente y un rendimiento general mejorado para el modelo.

Este incremento en capacidad se refleja en el hiperrealismo que caracteriza a las imágenes generadas por SDXL. Al superar las versiones anteriores en detalle y calidad, las imágenes resultantes se distinguen por su asombrosa autenticidad.

Otro aspecto clave de la mejora se evidencia en la capacidad mejorada de SDXL para generar rostros humanos realistas y coherentes. Las mejoras en las características faciales y expresiones contribuyen a la creación de retratos más convincentes y vívidos.

En el ámbito de la composición de imágenes, SDXL demuestra una habilidad mejorada para crear escenas visuales más impactantes y convincentes. La optimización en la composición de imágenes resulta en una experiencia visual más envolvente y cautivadora.

Principio de responsabilidad única

Destacando la legibilidad del texto, SDXL supera a sus predecesores al exhibir una eficiencia superior en la generación de texto legible dentro de las imágenes. Este avance es especialmente valioso en aplicaciones como la creación de anuncios o ilustraciones que incorporan contenido textual de manera efectiva.

La funcionalidad image-to-image prompting de SDXL añade una capa adicional de versatilidad al modelo, yendo más allá del enfoque convencional de texto a imagen. La capacidad para generar variaciones de una imagen basándose en otra imagen destaca como un elemento distintivo.

Además, SDXL introduce capacidades de inpainting y outpainting, permitiendo la reconstrucción de secciones faltantes en una imagen (inpainting) y la extensión coherente de imágenes existentes (outpainting). Estas funciones expanden significativamente las posibilidades creativas y aplicaciones del modelo.

En conjunto, estas mejoras consolidan a SDXL como un modelo más robusto y versátil, ampliando su potencial impacto en diversas industrias y escenarios creativos.

Cómo usar SDXL

Para usar este nuevo modelo de forma gratuita hasta cierto límite, tenemos la opción de usarlo en DreamStudio. Podéis acceder desde este enlace.

Para empezar nos registraremos con el botón que aparece arriba a la derecha con el texto Login y que nos permitirá hacerlo con Google.

Luego no tenemos nada más que hacer que escribir en el prompt lo que queramos que Stable Diffusion genere para nosotros y hacer click en el botón de abajo Dream.

Como podréis ver también he puesto “people” donde dice Negative Prompt. Esto significa que no quiero que aparezcan personas en mi imagen. También he escogido un estilo Pixel Art, pero hay bastantes más, por si queréis probar alguno más interesante.

Versión Turbo

Stable Diffusion XL Turbo (SDXL Turbo) redefine la creación de imágenes a través de inteligencia artificial al generar instantáneamente contenido visual basado en texto, descripciones o prompts. Este innovador modelo se caracteriza por su capacidad para producir imágenes mientras el usuario redacta las instrucciones, gracias a la avanzada tecnología denominada Adversarial Diffusion Distillation (ADD).

Casos de uso de una solución RAG privada

Este avance representa una transformación significativa en comparación con su predecesor, reduciendo de manera drástica el tiempo necesario para la creación de imágenes. La tecnología ADD permite que el proceso se complete en un solo paso, eliminando la necesidad de los 20 a 50 pasos que caracterizaban al modelo anterior y que extendían la elaboración de cada imagen por varios segundos.

A pesar de que las imágenes resultantes no alcanzan el mismo grado de detalle que aquellas producidas mediante el método anterior con más pasos, la mejora en velocidad es palpable, brindando resultados visualmente impactantes. En pruebas realizadas, SDXL Turbo demostró la capacidad de generar una imagen de 1024×1024 en aproximadamente 4 segundos, subrayando su eficiencia sobresaliente.

Para usarlo sólo tendremos que ir a este enlace y registrarnos como hicimos en la web de DreamStudio anteriormente.

Una vez hecho esto, ya nos aparecerá la caja de texto con la que podremos interactuar e ir viendo cómo se dibuja nuestra imagen a medida que vamos escribiendo nuestro prompt. Os dejo aquí mi resultado:

Como podéis observar he ido variando mi prompt poco a poco añadiendo nuevas ideas y finalmente he probado a darle un giro y cambiar el personaje principal.

Conclusión

En el fascinante panorama de la inteligencia artificial, la evolución de modelos como Stable Diffusion y su última encarnación, SDXL 1.0, destaca como un testimonio tangible de los notables avances en la generación de imágenes. Estas herramientas poderosas, desarrolladas por Stability AI, no solo han transformado la creación de contenido visual, sino que también han establecido nuevos estándares en términos de capacidad y eficiencia.

Economía por encargo: estadísticas y empresas más conocidas

La introducción de SDXL 1.0, con su impresionante entrenamiento basado en 2300 millones de parámetros, demuestra la dedicación continua hacia la innovación y la búsqueda de la excelencia. Este modelo, con la designación ‘XL’, supera las limitaciones anteriores al ampliar significativamente su capacidad de procesamiento, marcando así un hito significativo en la evolución de la generación de imágenes a partir de texto.

Además, la revolucionaria adición de Stable Diffusion XL Turbo eleva la experiencia a nuevos niveles al permitir la generación casi en tiempo real de imágenes. Esta capacidad excepcional no solo acelera el proceso de creación, sino que también abre la puerta a posibilidades emocionantes, como efectos especiales en videojuegos y temáticas personalizadas para usuarios individuales. La velocidad con la que SDXL Turbo puede crear contenido visual ofrece un potencial sin precedentes para la industria del entretenimiento y la creatividad digital.

Sin embargo, es importante señalar que, aunque estos avances son notables, aún no alcanzan la comparación con Midjourney, especialmente en lo que respecta al realismo que este último consigue. Midjourney continúa siendo un referente en la generación de imágenes, destacándose por su capacidad para crear mundos visuales asombrosamente realistas que, hasta el momento, permanecen incomparables.

Author

Isaac Alvarez

I consider myself a proactive, responsible, understandable person who works well in a team. In my work I need challenges and be constantly learning. I want to grow personally and professionally.
View all posts