Búsqueda de sitios web

Stable Diffusion 3.5 ya está disponible con mejor rendimiento y el número correcto de extremidades


Stability, la startup de inteligencia artificial detrás del popular generador de imágenes Stable Diffusion, ha anunciado una nueva generación de modelos que están diseñados para ser más personalizables y versátiles y, al mismo tiempo, generar contenido más "diverso" y representativo.

El nuevo Stable Diffusion 3.5 está disponible en tres variaciones: Grande, Grande Turbo y Mediano. Stable Diffusion 3.5 Large registra 8 mil millones de parámetros y es capaz de generar imágenes con una resolución de hasta un megapíxel. Stable Diffusion 3.5 Large Turbo tiene las mismas capacidades que Large, aunque genera imágenes más rápidamente a costa de algo de calidad.

Stable Diffusion 3.5 Medium, por otro lado, está diseñado para ejecutarse en dispositivos periféricos, como computadoras portátiles, tabletas y teléfonos inteligentes. Puede generar imágenes en una variedad de tamaños desde un cuarto de MP hasta 2 MP. Las versiones Large y Large Turbo están disponibles hoy, mientras que Medium llegará a finales de mes, el 29 de octubre.

SD 3.5 promete un rendimiento significativamente mejorado con respecto a su predecesor, Stable Diffusion 3.0, que hizo su debut en junio. El lanzamiento de SD3 fue recibido con indignación y decepción por parte de su base de usuarios debido a la incapacidad del modelo para representar con precisión las extremidades y los dedos, especialmente para los sujetos representados tumbados sobre la hierba, así como los artefactos desenfrenados y su dificultad para seguir las instrucciones dadas.

La compañía admite que SD3 no "cumplió plenamente con nuestros estándares o las expectativas de nuestras comunidades", pero insiste en que "Stable Diffusion 3.5 refleja nuestro compromiso de capacitar a los constructores y creadores con herramientas que sean ampliamente accesibles, de vanguardia y gratuitas para la mayoría de los casos de uso. ".

El nuevo modelo 3.5 también ha sido entrenado para generar imágenes más diversas de personas, creando "imágenes representativas del mundo, no solo de un tipo de persona, con diferentes tonos de piel y características", y sin la necesidad de indicaciones extensas.

"Durante el entrenamiento, cada imagen está subtitulada con múltiples versiones de mensajes, dando prioridad a los mensajes más cortos", dijo Hanno Basse, CTO de Estabilidad, a TechCrunch. “Esto garantiza una distribución más amplia y diversa de conceptos de imagen para cualquier descripción de texto determinada. Como la mayoría de las empresas de IA generativa, nos capacitamos con una amplia variedad de datos, incluidos conjuntos de datos filtrados disponibles públicamente y datos sintéticos. "

Queda por ver si esto conduce al mismo tipo de problemas que Google enfrentó en febrero cuando el generador de imágenes de Gemini comenzó a escupir "históricamente inexactos" (léase: soldados nazis negros). "La generación de imágenes de IA de Gemini genera una amplia gama de personas", se lee en un comunicado de Google publicado en Twittter en febrero. “En general, eso es algo bueno porque la gente de todo el mundo lo usa. Pero aquí no da en el blanco. "

Si desea probar Stable Diffusion 3.5 usted mismo, tanto Large como Large Turbo están actualmente disponibles para descargar desde Hugging Face. Puede encontrar el código de inferencia en GitHub.

Fuente: Estabilidad AI, TechCrunch

Artículos relacionados