¿En qué consiste Meta Movie Gen IA?
11 octubre, 2024
Meta ha presentado Meta Movie Gen, una innovadora IA generativa que permite crear videos y sonidos personalizados a partir de simples entradas de texto. Además, es capaz de editar videos existentes y transformar imágenes en clips únicos. Esta tecnología está diseñada para ser útil tanto a profesionales del cine como a creadores que buscan generar contenido de manera más sencilla.
Este modelo se enmarca en lo que Meta denomina su «tercera ola de IA generativa», y ha sido desarrollado a partir de investigaciones previas y otros productos como Make-A-Scene y Llama Image. Aunque aún no está disponible para el público, Meta ha indicado que seguirá perfeccionando esta herramienta en colaboración estrecha con cineastas y creadores de contenido.
¿Qué funciones tendrá?
Meta Movie Gen ofrece cuatro funcionalidades principales: generación de video, personalización de video, edición de video y creación de audio. Meta asegura que su modelo «supera a otros similares en el sector» cuando es evaluado por personas.
Generación de vídeo:
La primera capacidad de Meta Movie Gen es generar imágenes y videos de alta calidad y definición a partir de una entrada en lenguaje natural. El modelo usa 30 mil millones de parámetros para producir videos de hasta 16 segundos con una velocidad de 16 fotogramas por segundo.
Además, los modelos de Movie Gen pueden procesar el movimiento de objetos, las interacciones entre ellos y el sujeto, así como el movimiento de la cámara. Esto permite «aprender movimientos realistas para una amplia gama de conceptos», situándolo entre los modelos más avanzados en su categoría.
Videos personalizados:
Otra capacidad destacada de Movie Gen es su habilidad para crear videos personalizados a partir de una imagen preexistente. Simplemente subiendo la imagen y añadiendo descripciones escritas, el modelo genera una nueva escena con movimientos específicos.
Meta afirma que su modelo logra resultados de «última generación» al crear videos personalizados que respetan la identidad y los movimientos humanos.
En cuanto a la edición de video:
Además, Movie Gen permite modificar videos existentes mediante entradas de texto. Ya sea para realizar pequeños ajustes como añadir o eliminar elementos, o para hacer grandes modificaciones como cambiar el fondo o el estilo visual, el modelo responde con precisión.
Meta asegura que, a diferencia de las herramientas tradicionales que requieren habilidades técnicas avanzadas o de otros modelos generativos menos precisos, Movie Gen conserva el contenido original y actúa únicamente sobre los píxeles relevantes.
Sobre la generación de audio:
Finalmente, Movie Gen es capaz de generar pistas de audio de hasta 45 segundos, ya sea sonido ambiental, efectos Foley o música instrumental, basándose en un video existente y las indicaciones de texto. Este audio se puede sincronizar perfectamente con el contenido del video final.
Asimismo, la IA incluye una función de «extensión de audio», que permite generar pistas sonoras coherentes para diferentes duraciones, alcanzando un «rendimiento de vanguardia en calidad de sonido, alineación de audio con video y con texto».
Meta no para de evolucionar:
Meta asegura que este lanzamiento es el resultado de una larga trayectoria en investigaciones fundamentales de IA, y forma parte de tres oleadas de avances en IA generativa. La primera comenzó con los modelos Make-A-Scene, que permitieron crear imágenes, audio y animaciones en 3D. Luego, la segunda ola vino con los modelos Llama Image, que facilitaron la generación y edición de imágenes y videos de mayor calidad. Movie Gen representa la tercera ola, integrando todas estas capacidades y ofreciendo un control más detallado para los usuarios.
A pesar de estos impresionantes avances tecnológicos, Meta recalca que «la IA generativa no reemplazará el trabajo de artistas y animadores».
Una de las preocupaciones clave es el origen de los datos utilizados para entrenar estos modelos. Recordemos la polémica que enfrentó OpenAI cuando se reveló que su sistema Whisper fue entrenado transcribiendo audios de YouTube. En respuesta a esto, Meta asegura que su modelo ha sido entrenado con «una combinación de conjuntos de datos licenciados y de acceso público», aunque no ha especificado cuáles.