OpenAI frappe encore avec son tout dernier service, Sora, dévoilé jeudi. Son modèle « text-to-video » convertit des phrases en des vidéos dont les premiers résultats sont assez bluffants, merci.

Open AI a indiqué que « Sora peut créer des vidéos d’une durée allant jusqu’à 60 secondes avec des scènes détaillées, des mouvements de caméra complexes et de multiples personnages avec des émotions vibrantes ». L’entreprise a aussi mentionné qu’il pouvait encore y avoir des « faiblesses ».

Le principe demeure le même : on donne des instructions et l’IA s’occupe de convertir les prompts en un clip (qui fait flipper).

L’entreprise a partagé le prompt suivant le 15 février : « La belle ville de Tokyo enneigée est agitée. La caméra se déplace au sein des rues animées, suivant plusieurs personnages en train d’apprécier la météo hivernale et de faire du shopping. Des pétales de Sakura volent dans l’air, en compagnie de flocons de neige ».

Voyez le résultat par vous-même.

Pour l’instant, le « ChatGPT de la vidéo » n’est pas encore disponible. Afin de démontrer les capacités de Sora, Sam Altman, fondateur de l’entreprise américaine, a lancé un défi aux internautes. Ceux·celles-ci ont envoyé des prompts et en échange, il·elles pouvaient voir les résultats générés par l’IA. L’entreprise a aussi révélé que l’accès sera garanti à une poignée d’artistes, de designers et de cinéastes pour obtenir des retours quant à la manière de faire évoluer le modèle.

SORA 1

SORA 2

SORA 3

Images tirées de Sora/Open AI 

Pour en savoir plus, cliquez ici