Los investigadores de Google han dado a conocer sus planes para un nuevo modelo de difusión espacio-temporal llamado Lumiere, que convertirá un texto o una imagen en un vídeo realista generado por inteligencia artificial (IA), con capacidades de edición bajo demanda.
Lumiere está diseñado para representar un «movimiento realista, diverso y coherente» a través de lo que denomina su «arquitectura U-Net Espacio-Tiempo». Esto genera instantáneamente toda la duración del vídeo mediante una sola pasada del modelo.
Google acaba de lograr un increíble avance en video con IA con su último modelo de difusión, Lumiere.
2024 será un año enorme para los vídeos con IA, recuerda mis palabras.
Esto es lo que separa a Lumiere de otros modelos de vídeo con IA:
En el artículo, los investigadores explicaron:
“Al implementar un muestreo descendente y ascendente tanto espacial como (lo más importante) temporal y aprovechar un modelo de difusión de texto a imagen previamente entrenado, nuestro modelo aprende a generar directamente un video de baja resolución y velocidad de cuadro completo procesándolo en múltiples escalas espacio-temporales”.
Esto significa que los usuarios pueden introducir descripciones textuales de lo que les gustaría ver como vídeo o cargar una imagen fija con una indicación y generar un vídeo dinámico.
Según el artículo, los usuarios han hecho paralelismos con Lumiere, que es como ChatGPT pero para la generación de texto e imagen a vídeo, estilización, edición, animación y mucho más.
Aunque ya existen otros generadores de vídeo por IA, como Pika y Runway, los investigadores afirman que su planteamiento de una sola pasada para la dimensión temporal de los datos que intervienen en la generación de vídeo es novedoso.
Hila Chefer, estudiante de investigación que trabajó en el modelo con Google, publicó un ejemplo de las capacidades del modelo en X.
La observación clave de Lumiere
En lugar de generar vídeos cortos y muestrearlos temporalmente, realizamos un muestreo espacial y temporal conjunto, lo que aumenta tanto la duración como la calidad de los vídeos generados.
Los usuarios de X han estado calificando este desarrollo de Google como “un avance increíble”, “vanguardia” e incluso han especulado que la generación de videos “se volverá loca” durante el próximo año.
El nuevo modelo de vídeo de Google, Lumiere, puede estilizar el movimiento mirando una sola imagen y se ve bastante bien.
El video generativo se va a volver loco este año, chicos.
Lumiere se entrenó con un conjunto de datos de 30 millones de vídeos y subtítulos de texto y tiene capacidad para generar 80 fotogramas a 16 fps. Sin embargo, no se ha mencionado la fuente de los datos que Google utilizó para entrenar el modelo, un tema candente en el mundo de la IA y la legislación sobre derechos de autor.
Desde la explosión de modelos generativos de IA disponibles para uso público, se han presentado docenas de demandas relacionadas con infracciones de derechos de autor contra desarrolladores por el uso indebido de contenidos durante el entrenamiento.
Uno de los casos más destacados fue el presentado por el New York Times contra OpenAI, el creador de ChatGPT y Microsoft, por supuestamente utilizar «ilegalmente» su trabajo para fines de entrenamiento.
Agregar comentario