Un sistema de los creadores de ChatGPT es capaz de generar videos que parecen sacados de una película de Hollywood a partir de instrucciones detalladas. Solo está disponible para algunos usuarios que evalúan sus peligros potenciales.
En abril, una empresa emergente neoyorquina llamada Runway AI presentó una tecnología que le permitía a la gente generar videos, como una vaca en una fiesta de cumpleaños o un perro que habla por teléfono, simplemente tecleando una frase en un recuadro de la pantalla de una computadora.
Los videos de cuatro segundos eran borrosos, entrecortados, distorsionados e inquietantes. Pero eran una señal clara de que las tecnologías de inteligencia artificial (IA) generarían videos cada vez más convincentes en los meses y años venideros.
Apenas 10 meses después, la empresa emergente OpenAI de San Francisco ha presentado un sistema similar que crea videos que parecen sacados de una película de Hollywood. En una demostración se mostraban videos cortos —que fueron creados en minutos— de mamuts lanudos que trotaban por un prado nevado, un monstruo que contemplaba una vela que se derretía y una escena callejera de Tokio que, al parecer, fue filmada por una cámara que atravesaba la ciudad en picada.
OpenAI, la empresa que está detrás del chatbot ChatGPT y del generador de imágenes fijas DALL-E, es una de las muchas compañías que se apresuran a mejorar este tipo de generador de video instantáneo, entre ellas empresas emergentes como Runway y gigantes tecnológicos como Google y Meta, propietaria de Facebook e Instagram. La tecnología podría acelerar el trabajo de los cineastas experimentados y sustituir por completo a los artistas digitales con menos experiencia.
También podría convertirse en una manera rápida y barata de crear desinformación en línea, haciendo que sea aún más difícil distinguir lo que es real en internet.
“Me aterra por completo que este tipo de cosas influyan en unas elecciones muy reñidas”, comentó Oren Etzioni, profesor de la Universidad de Washington especializado en IA. También es fundador de True Media, una organización sin fines de lucro que trabaja para identificar la desinformación en internet en las campañas políticas.
OpenAI decidió que el nuevo sistema se llamara Sora, por la palabra japonesa que significa “cielo”. El equipo detrás de la tecnología, que incluye a los investigadores Tim Brooks y Bill Peebles, eligió el nombre porque “evoca la idea de un potencial creativo ilimitado”.
En una entrevista, también afirmaron que la empresa aún no liberaba Sora al público porque todavía estaba esforzándose por comprender los peligros del sistema. En vez de eso, OpenAI está compartiendo la tecnología con un pequeño grupo de académicos y otros investigadores externos que la someterán a un “equipo rojo”, término con el que se conoce la búsqueda de posibles usos indebidos.
“La intención es ofrecer un anticipo de lo que se avecina, para que la gente pueda ver las posibilidades de esta tecnología y podamos recibir sus comentarios”, explicó Brooks.
OpenAI ya está etiquetando los videos producidos por el sistema con marcas de agua que los identifican como generados por IA. Pero la empresa reconoce que pueden eliminarse. También pueden ser difíciles de detectar. (The New York Times añadió marcas de agua que dicen “Generado por IA” a los videos de este reportaje).
El sistema es un ejemplo de IA generativa, que puede crear textos, imágenes y sonidos en instantes. Al igual que otras tecnologías de IA generativa, el sistema de OpenAI aprende analizando datos digitales, en este caso videos y subtítulos que describen su contenido.
OpenAI no ha querido precisar la cantidad de videos de los que ha aprendido el sistema ni de dónde proceden, pero afirmó que el entrenamiento ha incluido tanto videos de acceso público como videos cedidos bajo licencia por titulares de derechos de autor. La empresa dice poco sobre los datos utilizados para entrenar sus tecnologías, quizá porque quiere mantener una ventaja sobre sus competidores y ha sido demandada en varias ocasiones por utilizar material protegido por derechos de autor.
Sora genera videos al recibir instrucciones o prompts breves, como “Un precioso mundo de papel de un arrecife de coral, lleno de peces de colores y criaturas marinas”. Aunque los videos pueden ser impresionantes, no siempre son perfectos y pueden incluir imágenes extrañas e ilógicas. Por ejemplo, hace poco el sistema generó un video de alguien comiéndose una galleta, pero la galleta nunca se hizo más pequeña.
En los últimos años, DALL-E, Midjourney y otros generadores de imágenes fijas han mejorado tan rápidamente que ahora producen imágenes casi indistinguibles de las fotografías. Esto ha hecho que sea más difícil identificar la desinformación en internet, y muchos artistas digitales se quejan de que les ha dificultado encontrar trabajo.
“Todos nos reímos en 2022 cuando salió Midjourney y dijimos: ‘Ah, qué bonito’”, relató Reid Southen, un artista conceptual de cine de Míchigan. “Ahora, la gente está perdiendo su trabajo por Midjourney”.
Agregar comentario