La révolution vocale de ChatGPT : patience, elle arrive… lentement

 
Vous pensiez pouvoir bientôt converser avec ChatGPT comme avec un humain ? Il faudra attendre encore un peu. OpenAI vient d’annoncer un report de ses nouvelles fonctions vocales.
Source : Unsplash

Dans une mise à jour printanière, OpenAI s’est livrée sur les nouvelles fonctionnalités de ChatGPT avec son modèle GPT-4o. Au programme, de nouvelles fonctionnalités linguistiques et un assistant vocal amélioré réservé dans un premier temps aux abonnés.

Abonnez-vous

C’est sur Discord, qu’OpenAI dévoile ses changements de calendrier. On est pour le moment sur une phase alpha des nouvelles fonctionnalités linguistiques. Elles devaient être disponibles fin juin, finalement, il faudra attendre fin juillet.

Pour aller plus loin
Essayez-le : le chat vocal de ChatGPT est désormais gratuit

Pourquoi ce report ? OpenAI avance deux raisons principales. D’abord, les développeurs travaillent encore à s’assurer que le modèle reconnaisse les contenus auxquels il ne devrait pas répondre. En clair, il s’agit d’éviter les dérapages et les réponses inappropriées, un enjeu crucial pour une IA conversationnelle.

Ensuite, il y a la question de l’infrastructure. Passer du texte à la voix en temps réel pour des millions d’utilisateurs, ce n’est pas une mince affaire. OpenAI a besoin de temps pour préparer ses serveurs à ce déluge de requêtes vocales.

OpenAI ne change pas sa stratégie globale : un déploiement progressif. D’abord un petit groupe d’utilisateurs de ChatGPT Plus fin juin (retardé donc à fin juillet), puis une extension progressive. L’objectif est que tous les abonnés Plus puissent utiliser la fonction vocale d’ici l’automne.

Un assistant plus humain

Hormis ces améliorations linguistiques, OpenAI travaille aussi sur ses fonctionnalités de partage d’écran et vidéo. L’assistant peut capturer et analyser le contenu de votre écran ou bien des enregistrements de votre caméra.

En pratique, Microsoft qui travaille en partenariat avec OpenAI a dévoilé en 2024 comment l’assistant CoPilot basé sur GPT-4o était capable de fournir des conseils à un joueur Minecraft pour construire son build. Avec ces améliorations, ChatGPT devient un interlocuteur de plus en plus humain jusqu’à approcher son temps de réaction, à savoir 320 millisecondes, là où il lui fallait en moyenne quelques secondes pour calculer une réponse. À cette rapidité, le chatbot pourrait également coupler un ensemble de réaction pour paraître surpris ou sarcastique lors de demandes.

Pour le moment, ces annonces et ces présentations, aussi impressionnantes soient-elles, ne se sont faites que dans le cadre de démonstrations. Reste à savoir maintenant comment ces fonctionnalités seront utilisées dans la vie quotidienne et à quel point elles resteront pertinentes face aux milliers de requêtes en simultanées.


Notre émission Twitch SURVOLTÉS, c’est un mercredi sur deux de 17h à 19h : retrouvez-vous nous pour parler voiture électrique ou vélo électrique, autour de débats, d’interviews, d’analyses et de jeux !

Les derniers articles