Tout comme Midjourney qui peine à reproduire les doigts, la grande majorité des IA génératives de vidéos, y compris Sora AI d’OpenAI, présentent des limitations qu’il est crucial de prendre en compte. Certes, elles réussissent à créer des vidéos de qualité remarquable. Cependant, ces modèles, selon les chercheurs, manquent de la capacité à saisir les lois de la physique.
Ce qui fait qu’en dépit des ambitions des entreprises, il est toujours ardu pour leurs modèles de reproduire le monde réel.
Cependant, une question émerge. Est-ce que cette faiblesse est liée à la qualité des données d’entraînement des modèles d’IA génératives de vidéos ?
Ou s’agit-il principalement de l’incapacité des modèles à assimiler et à comprendre les règles universelles ?
Les générateurs de vidéos IA ne peuvent pas restituer le monde réel
Après avoir effectué des analyses sur les modèles de génération vidéo par IA, les chercheurs ont conclu que même les plus avancés ne saisissent pas les lois de la physique.
En réalité, ils se contentent de reproduire les modèles présents dans les données d’entraînement, en se basant sur leurs caractéristiques superficielles.
Tous les modèles affichent effectivement le même schéma. Ils suivent une organisation dans le processus de création des vidéos.
À l’inverse, lorsqu’ils sont confrontés à des situations non familières, les résultats obtenus sont plutôt médiocres.
La vidéo de démonstration de Sora AI illustre bien cette hypothèse
Pour démontrer l’hallucination des modèles de génération de vidéos par IA, Bingyi Kang, chercheur scientifique chez TikTok, a publié une vidéo de démonstration sur X.
Lors de leur expérimentation, Kang et son équipe ont exposé Sora AI à un entraînement avec des projectiles se déplaçant horizontalement, dans les deux directions.
Lors des tests avec des balles à vitesse réduite, ils ont noté un comportement inattendu du modèle, qui anticipait des changements brusques de trajectoire après seulement quelques images.
Peut-on réellement résoudre ces problèmes d’hallucinations et dépasser les limites actuelles des IA génératives de vidéos ?
Bien sûr que oui, mais pas en élargissant le modèle. Cela signifie que l’accroissement des données d’entraînement ne suffit pas à améliorer sa capacité de compréhension.
Or, c’est précisément ce qu’ont réalisé OpenAI et Google avec leurs modèles Orion et Gemini. Toutefois, cette stratégie n’autorise pas aux IA génératives de vidéos de reproduire des scénarios n’appartenant pas à leurs données d’entraînement.
Ainsi, ces systèmes limités ne peuvent pas revendiquer le statut de modèles du monde réel.
La véritable nature d’un tel modèle dépend de sa capacité de généralisation. Une compétence qui dépasse les données ayant été utilisées pour son apprentissage.
Étant donné l’impossibilité concrète de capturer toutes les nuances du monde ou de l’univers dans la constitution des données d’apprentissage, un modèle de génération de vidéos par IA doit être en mesure de comprendre et d’appliquer des principes fondamentaux, plutôt que de se limiter à la simple mémorisation de configurations établies.
De toute façon, personnellement, je suis impatient de pouvoir enfin essayer Sora AI après tant de bruit médiatique.
- Partager l’article :
Laisser un commentaire