Ce lundi 13 mai, OpenAI a tenu une conférence en direct pour présenter ses nouveautés pour ChatGPT et GPT-4. Il y a eu l’arrivée de GPT-4o, mais pas que : l’entreprise a fait la démonstration des améliorations de ChatGPT Voice. Demain, Google va présenter ce qui va arriver sur Gemini, et la concurrence va être très rude entre Google Assistant et le chatbot. OpenAI a également dévoilé l’application de bureau de ChatGPT.
Pour aller plus loin
ChatGPT : son fonctionnement, son potentiel et ses dangers… Le guide ultime pour tout comprendre
Un ChatGPT Voice plus rapide et surtout plus naturel
232 millisecondes : c’est le temps de réponse minimal de la nouvelle version de ChatGPT Voice. En moyenne, OpenAI l’estime à 320 millisecondes, « ce qui est similaire au temps de réponse humain dans une conversation », avance l’entreprise dans son communiqué. En fait, OpenAI a revu techniquement la manière dont la fonction vocale de son chatbot fonctionnait. Auparavant, elle utilisait trois modèles :
- Un pour transformer votre voix en texte ;
- Un autre pour interpréter ce que vous dites et donner une réponse : soit GPT-4, soit GPT-3.5 ;
- Un autre pour convertir cette réponse textuelle en audio.
Ce système ne prenait pas en compte « le ton, les locuteurs multiples ou les bruits de fond, et elle ne peut pas restituer les chants ou exprimer les émotions. » ChatGPT Voice utilise désormais GPT-4o, un nouveau modèle « de bout en bout pour le texte, la vision et l’audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. » OpenAI indique même ne pas connaître toutes les capacités et limites de son propre modèle.
Dans les semaines à venir, cette nouvelle version de ChatGPT Voice sera disponible pour les abonnés ChatGPT Plus en version alpha. On ignore quand est-ce que cela sera disponible pour tous les utilisateurs. Le « Voice Mode » sera également accessible depuis l’application de bureau présentée par OpenAI ce jour-ci.
Des démonstrations assez impressionnantes de ChatGPT
Ce qui a retenu l’attention, ce sont surtout les démonstrations réalisées en direct (mais en mode avion étrangement) par OpenAI et ses chercheurs. Les démonstrations se sont déroulées à peu près sans couacs. Par exemple, ChatGPT a cru qu’on lui montrait un problème de mathématiques, alors que la caméra du smartphone n’était même pas allumée. Dans les usages imaginés par l’entreprise, il y a « par exemple, vous pourriez montrer à ChatGPT un match de sport en direct et lui demander de vous en expliquer les règles. »
Aussi, l’un des chercheurs de l’entreprise a demandé au chatbot de lui donner des conseils pour éviter d’être trop stressé durant sa présentation. Le chatbot a pu l’aider et lui a conseillé un exercice de respiration : il a même pu commenter la respiration (très exagérée) du chercheur. ChatGPT peut même répondre avec une élocution plus ou moins rapide, avec une intonation particulière, et même en chantonnant. Ce que met aussi OpenAI en avant, c’est le fait que ChatGPT soit capable d’interpréter les émotions des utilisateurs, en s’appuyant sur la manière dont ils parlent. Ce qui ressemble en fait à un assistant vocal peut même être coupé lorsqu’il parle : on peut apparemment l’ interrompre sans souci et le chatbot s’est montré réactif.
Au-delà de la voix donc, ChatGPT peut interagir en direct via la caméra de son smartphone. On peut lui demander de nous aider à résoudre un problème mathématique (qui était très simple dans la démonstration, c’est étonnant qu’un chercheur ne sache pas calculer une équation à une inconnue).
L’application ChatGPT sur ordinateur peut même vous aider dans votre code informatique, sans importer ce dernier dans l’application. De quoi en faire un assistant de programmation informatique utilisable dans n’importe quel logiciel de programmation. Enfin, OpenAI a fait la démonstration d’une interprétation de graphiques (assez simples) avec l’application de bureau du chatbot. Le tout en répondant à la voix. La même chose est possible avec des bases de données ou des tableurs.
Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix