Les capacités de vision tant attendues de ChatGPT pourraient arriver bientôt, selon certains enquêteurs aux yeux d’aigle.
Android Authority a repéré quelques lignes de code dans la partie Mode Vocal Avancé de la dernière version bêta de ChatGPT v1.2024.317, qui pointent vers quelque chose appelé “Caméra en direct.” Le code semble être un avertissement aux utilisateurs de ne pas utiliser la Caméra en direct “pour la navigation en direct ou les décisions qui pourraient affecter votre santé ou votre sécurité.”
Une autre ligne dans le code semble donner des instructions pour les capacités de vision en disant : “Tapez sur l’icône de la caméra pour permettre à ChatGPT de voir et de discuter de votre environnement.”
Mises à jour de ChatGPT pour Windows et macOS : Tout ce que vous devez savoir
Les capacités évolutives de ChatGPT : Vision, voix et au-delà
La capacité de ChatGPT à traiter visuellement l’information était une fonctionnalité majeure présentée lors de l’événement OpenAI en mai dernier, lançant GPT-4o. Les démonstrations de l’événement ont montré comment GPT-4o pouvait utiliser une caméra mobile ou de bureau pour identifier des sujets et se souvenir de détails sur les visuels. Une démonstration particulière mettait en avant GPT-4o identifiant un chien jouant avec une balle de tennis et se souvenant que son nom est “Bowser.”
Depuis l’événement OpenAI et l’accès précoce accordé à quelques chanceux testeurs alpha, il n’a pas été beaucoup question de GPT-4o avec vision. Entre-temps, OpenAI a expédié le Mode Vocal Avancé aux utilisateurs de ChatGPT Plus et Team en septembre.
Si le mode vision de ChatGPT est imminent comme le suggère le code, les utilisateurs pourront bientôt tester les deux composantes des nouvelles fonctionnalités de GPT-4o annoncées au printemps dernier.
Le tweet a pu être supprimé
OpenAI a été très occupé ces derniers temps, malgré les rapports de rendements diminuants avec les futurs modèles. Le mois dernier, il a lancé ChatGPT Search, qui connecte le modèle d’IA au web, fournissant des informations en temps réel. On dit aussi qu’il travaille sur une sorte d’agent capable de réaliser des tâches en plusieurs étapes pour le compte de l’utilisateur, comme écrire du code et naviguer sur le web, vraisemblablement prévu pour une sortie en janvier.
Laisser un commentaire