La technologie texte-vidéo de Nvidia fera passer votre jeu GIF au niveau supérieur

Maintenant que ChatGPT et Midjourney sont à peu près courants, la prochaine grande course de l'IA est celle des générateurs de texte en vidéo, et Nvidia vient de montrer quelques démonstrations étonnantes de la technologie qui pourraient bientôt amener vos GIF à un nouveau niveau.

Un nouveau document de recherche et microsite (ouvre dans un nouvel onglet) du Toronto AI Lab de Nvidia, intitulé "High-Resolution Video Synthesis with Latent Diffusion Models", nous donne un aperçu des incroyables outils de création que les vidéastes sont prêts à rejoindre : liste croissante de les meilleurs générateurs d'art AI.

Les modèles de diffusion latente (ou LDM) sont un type d'IA qui peut générer de la vidéo sans avoir besoin d'une puissance de calcul massive. Nvidia affirme que sa technologie y parvient en prenant le travail des générateurs de texte en image, dans ce cas Stable Diffusion, et en ajoutant une "dimension temporelle au modèle de diffusion spatiale latente".

Un gif d'un stormtrooper passant l'aspirateur sur une plage

(Crédit d'image: Nvidia)

En d'autres termes, son IA générative peut déplacer de manière réaliste des images fixes et les mettre à l'échelle à l'aide de techniques de super-résolution. Cela signifie que vous pouvez produire des vidéos courtes de 4,7 secondes à une résolution de 1280x2048, ou des vidéos plus longues à une résolution inférieure de 512x1024 pour les vidéos de conduite.

Notre pensée immédiate en voyant les premières démos (comme celles ci-dessus et ci-dessous) est de savoir à quel point cela pourrait faire avancer notre jeu GIF. Certes, il y a des ramifications plus importantes, comme la démocratisation de la création vidéo et la possibilité d'adaptations automatiques de films, mais à ce stade, le texte en GIF semble être le cas d'utilisation le plus excitant.

Un ours en peluche jouant de la guitare électrique.

(Crédit d'image: Nvidia)

Des invites simples comme "un stormtrooper passe l'aspirateur sur la plage" et "un ours en peluche joue de la guitare électrique, haute définition, 4K" produisent des résultats tout à fait utilisables, bien qu'il y ait naturellement des artefacts et des modifications à certaines des créations.

En la actualidad, esto hace que la tecnología de texto a video, como las nuevas demostraciones de Nvidia, sea más adecuada para miniaturas y GIF. Mais, étant donné les améliorations rapides observées dans la génération AI de Nvidia pour des scènes plus longues (ouvre dans un nouvel onglet), nous n'aurons probablement pas à attendre des clips texte-vidéo plus longs dans les bibliothèques de stock et au- de la.

Analytique : la nouvelle frontière de l'IA générative

Le soleil perce à travers la fenêtre d'un loft new-yorkais

(Crédit image : indice)

Nvidia n'est pas la première entreprise à introduire un générateur de texte vidéo AI. Nous avons récemment vu les débuts de Google Phenaki (ouvre dans un nouvel onglet), révélant son potentiel pour des clips plus longs de 20 secondes basés sur des repères. Ses démos montrent également un clip, quoique plus long, d'une durée de plus de deux minutes.

Startup Runway, qui a aidé à créer le générateur de texte à image Stable Diffusion, a également dévoilé son modèle vidéo Gen-2 AI (ouvre dans un nouvel onglet) le mois dernier. En plus de répondre à des invites telles que "le soleil de l'après-midi jette un coup d'œil à travers une fenêtre de loft à New York" (résultat ci-dessus), il vous permet de fournir une image fixe sur laquelle baser la vidéo générée et vous permet également de demander des styles à appliquer à vos vidéos. .

Ce dernier était également un sujet de récentes démos d'Adobe Firefly, qui montraient comment l'IA faciliterait le montage vidéo. Dans des programmes comme Adobe Premiere Rush, vous pourrez bientôt taper l'heure de la journée ou la saison que vous souhaitez voir dans votre vidéo, et l'IA d'Adobe fera le reste.

Des démos récentes de Nvidia, Google et Runway montrent que le rendu du texte intégral en vidéo est un peu plus flou, créant souvent des résultats étranges, rêveurs ou déformés. Mais pour l'instant, tout ira bien pour notre jeu GIF, et des améliorations rapides sont sûrement en cours pour rendre la technologie adaptée aux vidéos plus longues.