InfiniteTalk : Apprenez en créant une vidéo musicale

édit : [lien youtube](https://www.youtube.com/watch?v=dB5kvggB7-4)

Oh boy, c’est un processus…

1. Flux Krea pour obtenir des prises

2. Qwen Edit pour créer les images finales (si nécessaire)

3. Wan 2.2 pour créer une vidéo adaptée à la durée de l’audio.

4. Utiliser V2V InifiniteTalk sur la vidéo générée en étape 3

5. Obtenir un résultat insatisfaisant, répéter les étapes 3 et 4

**la chanson est générée par Suno**

**Ce que j’ai appris :**

Les prises en panoramique vers le haut dans Wan2.2 ne se traduisent pas bien en V2V (je pense que je dois apprendre VACE).

La cohérence des personnages reste un problème. Le faceswap Reactor ne fonctionne pas non plus correctement.

V2V échantillonne la vidéo de temps en temps (par défaut toutes les 81 images), il était donc difficile de la faire suivre la vidéo de l’étape 3. Réduire le nombre d’images échantillonnées réduit également le flux naturel de la vidéo générée.

Alors que je créais cette vidéo, FLUX_USO a été lancé, ce n’est pas mauvais comme outil pour la cohérence des personnages mais j’étais trop loin pour recommencer. De plus, les résultats générés me semblaient bizarres (j’utilisais le modèle flux_krea et non le flux_dev fp8 recommandé, peut-être que c’était le problème)

Les prises en orbite dans Wan2.2 tournent normalement vers la droite (sens inverse des aiguilles d’une montre) et je n’arrive pas à les faire tourner vers la gauche.

En tout, cela a pris 3 jours de tests et d’erreurs et de rendu.

**Ma liste de souhaits :**

Il serait sympa d’avoir un v2v dans Wan2.2. Je pense. Ou même intégrer le synchronisation labiale dans Wan2.2 mais avec plus de mouvement dynamique. Actuellement, la synchronisation labiale de Wan2.2 ne sert qu’aux prises fixes.

**rtx3090, 64 Go de RAM, processeur intel i9 11e génération. La vidéo est en 1024X640 à 30 fps**

Laisser un commentaire Annuler la réponse