¿Siempre quisiste hacer videos y no sabias como hacer?
¿O tenes ganas de hacer tu propio anime o película de Hollywood?
Hoy todo es posible con la IA.
Nuestro aliado mas fuerte de hoy es Hugging Face.
Hugging Face es una empresa de tecnología especializada en inteligencia artificial, conocida por su plataforma abierta para modelos de machine learning. Es como un "GitHub de la IA": ofrece una gran biblioteca de modelos pre-entrenados (como GPT, BERT, Stable Diffusion, etc.), herramientas para usarlos fácilmente, y una comunidad activa que comparte recursos y proyectos. Su objetivo es democratizar el acceso a la IA y facilitar su desarrollo y uso para todos.
Hoy el trabajo es bastante manual, pero muchas opciones de la plataforma brindan la opción de usar API, pero eso es para otro posteo.
En esta ocasión vamos a usar a La Chica del Abrigo Azul que fue una imagen que hice y me gusto mucho el resultado, pueden verla en el link, donde también tienen el prompt para generarla.
En el caso que no tengamos el prompt podemos generar una idea de como pudo haber sido generada.
¿Como saber como fue hecha una imagen?
Vamos a usar para esto Florence-2, que es un modelo que tiene la capacidad de hacer una descripción, entre otras cosas, de una imagen que se le proporcione.
Configuración de Florencee-2
Por lo general obtengo buenos resultados usando la siguiente configuración.
- Model: microsoft/Florence-2-large
- Task: More Detailed Caption
Nos va a dar una descripción bastante bien desarrollada, en este caso es la siguiente:
The image is a digital portrait of a young woman with long, wavy blue hair. She is wearing a blue jacket and has a serious expression on her face. The background is a dark blue with orange and yellow flames and sparks flying around her. The overall mood of the image is intense and dramatic.
Aunque se acerca bastante, le falta información clave para ciertos aspectos de la original, pero el resultado es bastante decente.
Generación de imagen
Una vez que tenemos el prompt (Original o de Florence-2) nos movemos a Playground v2.5
Playground v2.5 es un modelo bastante bueno, que genera resultados con muy buena calidad. Para obtener el resultado que se muestra en este articulo diría de usar solo este modelo, para mantener la precision mas que nada.
Acá generamos la imagen para luego pasar a darle vida.
Si usamos la descripción de Florence-2 nos genera algo como la imagen principal de este articulo
No hay mucha ciencia en este paso, mas que elegir el tamaño de la imagen.

Como se ve, la imagen no es mala, pero no es exactamente la misma.
Pero esta sría la origina:

Clara diferencia de estilos.
Para tener buenos resultados estas son las resoluciones que funcionan mejor:
1:1 (cuadrado)
- 512×512
- 768×768
- 1024×1024
4:5 (vertical)
- 512×640
- 768×960
3:4 (vertical)
- 576×768
- 768×1024
2:3 (vertical)
- 512×768
- 640×960
9:16 (vertical)
- 576×1024
- 864×1536
16:9 (horizontal)
- 1024×576
- 1536×864
3:2 (horizontal)
- 768×512
- 960×640
4:3 (horizontal)
- 768×576
- 1024×768
21:9 (horizontal)
- 1008×432
- 1344×576
El resto de las opciones para modificar por lo general las dejo como están, pero sos libre de experimentar resultados.
Magia de Cine
Ahora solo nos queda hacer magia, lograr que esa imagen tenga vida, una corta, porque la opción que vamos a usar solo te deja hacer menos de 4 segundos, pero algo es algo.
Como si fuesemos un director de cine cual Spielberg, le tenemos que indicar al modelo de IA que queremos que sea el video.
Si no tenemos una idea clara de que queremos, podemos recurrir a nuestro fiel amigo ChatGPT u otro modelo como Gemini, por ejemplo y le decimos lo siguiente:
Convertí esta descripción de imagen en instrucciones detalladas para generar un video de 5 segundos. Incluí en un solo párrafo información sobre los movimientos de cámara y personaje, el entorno, la iluminación, el ritmo y cualquier otro detalle visual necesario para una composición cinematográfica clara y coherente:
[ACA VA EL PROMPT DE LA IMAGEN]
Como resultado nos va a dar las indicaciones necesarias para generar el video.
Ahora que tenemos esto nos dirigimos a usar el modelo de IA Wan 2.1.
Y lo que hacemos es cargar la imagen que generamos, y las instrucciones para hacer el video.
Elegimos el tiempo a gusto y a esperar que se haga la magia.
NOTA: Hay otras opciones, repito que yo las dejo como están porque me dio buenos resultados pero pueden probar a ver que resultados les da. Como por ejemplo el Negative Prompt para asegurarse de lo que no querés que suceda.