GPT-4o, interactions vocales et application desktop : le résumé des annonces d’OpenAI pour ChatGPT

13 mai 202413/05/2024 • 20:16

OpenAI a annoncé GPT-4o, une évolution très prometteuse de GPT-4 pour ChatGPT. On retient aussi une nouvelle application desktop pour l’agent conversationnel, des capacités multimodales décuplées ou encore des interactions rapides et très naturelles. Vous pouvez revoir ici la conférence.

Lien YouTube S’abonner à Frandroid

OpenAI a annoncé plusieurs nouveautés pour ChatGPT. La principale chose à retenir est l’évolution de GPT-4, j’ai nommé : GPT-4o (c’est la lettre O, pas le chiffre zéro). Ce nouveau modèle GPT-4o promet une IA plus performante que jamais même pour celles et ceux qui ne paye pas d’abonnement.

En outre, les équipes d’OpenAI ont fait une démonstration impressionnante de ChatGPT Voice. Les interactions vocales de l’IA sont non seulement plus rapides que jamais, mais aussi d’un naturel poussé à l’extrême. L’agent conversationnel peut être interrompu sans qu’il ne perde le fil de la conversation. Il adapte et module ses intonations de voix pour imiter très efficacement les comportements humains.

Le tout, en fonctionnant de manière multimodal. On a ainsi vu l’IA aider les personnes sur scène à résoudre une équation écrite sur un papier, raconter une histoire avec plusieurs intonations différentes selon ce qui lui était demandé, traduire rapidement une discussion tout en répétant les courtes hésitations et petits rires des personnes impliquées, etc.

ChatGPT

Télécharger gratuitement

Enfin, ChatGPT a aussi droit à une application desktop sur macOS pour les utilisateurs payants.

Le fil de la conférence

Temps forts

19:00 – Ça commence !
19:04 – GPT-4o
19:05 – Plusieurs nouveautés au programme
19:14 – Des interactions vocales plus bluffantes
19:17 – Comprendre les équations pour vous aider
19:23 – Une traduction plus fluide
19:34 – Déjà terminé
19:40 – Mise à jour progressive

18:30 Ça commence bientôt

Installez-vous confortablement, la conférence va démarrer dans une demi-heure. La vidéo YouTube en direct est lancée, mais pour le moment on patiente sur une musique douce.

19:00 Ça commence !

Et ça commence ! On entre directement dans le vif du sujet avec GPT-4o (c’est un o comme la lettre, pas un zéro).

19:04 GPT-4o

Comme prévu, la notion d’agent multimodal (capable d’intéragir avec plusieurs types de contenus) est au programme. Mais OpenAI utilise le terme « omnimodel » en anglais. C’est pourquoi il y a ce fameux O dans GPT-4o.

19:05 Plusieurs nouveautés au programme

GPT-4o est une évolution de GPT-4 à plusieurs titres. Dans ChatGPT, ce nouveau modèle va donner plus de possibilités, même aux utilisateurs gratuits (plus d’extensions, plus de mémoire, plus de rapidité, etc.).

19:14 Des interactions vocales plus bluffantes

OpenAI présente aussi de belles améliorations pour les interactions vocales avec ChatGPT. Ainsi, l’agent conversationnel répond beaucoup plus vite, peut-être interrompu (sans qu’il ne perde le fil de la conversation) et il réagit aussi quand vous vous comportez bizarrement. Ainsi, si vous respirez très fort près du micro, il vous invite à prendre une profonde inspiration pour vous détendre.

On peut aussi demander à ChatGPT de s’exprimer dans une grande variété d’intonations. L’outil peut donc vous raconter une histoire en chantant, avec un ton épique, avec une voix robotique, etc. La démonstration est vraiment impressionnante !

19:17 Comprendre les équations pour vous aider

Sur scène, des porte-paroles d’OpenAI discute à l’oral avec ChatGPT tout en filmant une équation mathématique écrite sur une feuille. L’IA les aide ainsi à résoudre l’équation sans forcément leur donner la réponse directement afin qu’il apprenne à progresser. On imagine que l’entreprise prévoit ainsi des usages pour les étudiants.

Cette utilisation de la caméra fonctionne aussi avec du texte. Les représentants sur scène ont ainsi écrit un gentil message pour ChatGPT et l’IA a répondu avec un ton enjoué simulant très bien la manière dont un humain réagirait à un compliment.

19:22 Plusieurs interactions possibles

Grâce à ce traitement multimodal des informations, ChatGPT peut pointer du doigt des éléments perfectibles dans votre code (si vous êtes développeur par exemple) ou interpréter les éléments d’un graphique qui s’affiche sur l’écran de votre ordinateur.

19:23 Une traduction plus fluide

On est vraiment sur un assistant qui se veut pertinent au quotidien. Les personnes sur scène utilisent désormais les capacités de traduction. Elles ont simplement demandé, à l’oral, à l’IA de traduire en anglais tout propos qu’elle entend en italien et vice-versa. Et l’IA s’est exécutée avec une excellente fluidité répétant même les petits rires ou hésitation des interlocuteurs.

19:28 En mode avion ?

Petite précision intéressante : la démonstration d’OpenAI a été faite avec un smartphone en mode avion.

19:29 Détection des émotions

La démonstration se termine avec une petite présentation de la détection des émotions de ChatGPT. L’une des personnes sur scène s’est juste filmé avec la caméra selfie de son smartphone et l’IA lui a proposé une réponse assez complète pour dire qu’il semblait enjoué et enthousiaste tout en demandant ce qui provoquait chez lui ces émotions. L’idée est évidemment de montrer que les interactions avec ChatGPT sont très naturelles et très « humaines » pour une intelligence artificielle.

19:34 Déjà terminé

La conférence était très courte, une demi-heure environ, et se termine déjà. On retiendra donc l’annonce de GPT-4o qui sublime les capacités de Chat-GPT sans que vous n’ayez à payer et c’est très chouette.

On retiendra aussi la grande capacité de ChatGPT à répondre très rapidement et avec un ton très humain lors des interactions vocales ainsi que son impressionnante capacité à comprendre ce que vous filmez en direct avec la caméra de votre smartphone. Les démonstrations étaient très impressionnantes et on de quoi faire peur à Google Assistant à la veille de la Google I/O 2024.

19:40 Mise à jour progressive

Les nouveautés annoncées par OpenAI vont progressivement se déployer à partir d’aujourd’hui. Par exemple, les capacités d’interactions avec les textes et les images par GPT-4o sont implémentées dès à présent dans l’API de ChatGPT. Pour la voix et les vidéos, il faudra encore patienter quelques semaines.

Rejoignez-nous de 17 à 19h, un mercredi sur deux, pour l’émission UNLOCK produite par Frandroid et Numerama ! Actus tech, interviews, astuces et analyses… On se retrouve en direct sur Twitch ou en rediffusion sur YouTube !

ChatGPT

Télécharger gratuitement

Signaler une erreur dans le texte

Évènements OpenAI

Les notifications web

Les notifications push vous permettent de recevoir toute l'actualité de Frandroid en temps réel dans votre navigateur ou sur votre téléphone Android.

Activer les notifications

Choisir les notifications

En savoir plus sur les notifications web

Lectures liées

Lenovo Yoga Slim 7i Aura Edition : Lenovo a déroulé la partition du parfait ultrabook

Lenovo Yoga Slim 7i Aura Edition : Lenovo a déroulé la partition du parfait ultrabook

#MadeByGoogle ‘24_ Keynote 1-31-9 screenshot

Pixel 9, 9 Pro Fold, Watch 3 et Buds Pro 2 : le résumé des annonces de Google

Oubliez ChatGPT GPT-4, voici OpenAI o1 : l’IA qui peut « réfléchir »

Oubliez ChatGPT GPT-4, voici OpenAI o1 : l’IA qui peut « réfléchir »

Les derniers articles

Intelligence artificielle

Google annonce l’IA Gemini 2.5 Pro : plus intelligente, plus puissante, gratuite pour l’instant

Google annonce l’IA Gemini 2.5 Pro : plus intelligente, plus puissante, gratuite pour l’instant

Vous pouvez désormais générer des images directement à partir de ChatGPT et Sora, ça marche beaucoup mieux et c’est gratuit

Vous pouvez désormais générer des images directement à partir de ChatGPT et Sora, ça marche beaucoup mieux et c’est gratuit

« Vos images prennent la parole », la startup de Xavier Niel lance MoshiVis

« Vos images prennent la parole », la startup de Xavier Niel lance MoshiVis

La dernière vidéo

Nos 5 Meilleurs CONSEILS pour Installer des Caméras de Sécurité soit-même !

Nos 5 Meilleurs CONSEILS pour Installer des Caméras de Sécurité soit-même !

Les tendances

Les derniers articles

Google Gemini

Google annonce l’IA Gemini 2.5 Pro : plus intelligente, plus puissante, gratuite pour l’instant

25 mars 202525/03/2025 • 21:50
Bons plans

Amazon pense aux joueurs avec un petit budget : l’écran PC gaming Acer Nitro 27″ (QHD 180 Hz) chute sous les 200 €

25 mars 202525/03/2025 • 20:06
Bons plans

Ce kit Nanoleaf 4D à -32 % sur Amazon va vous permettre de créer votre Ambilight maison

25 mars 202525/03/2025 • 19:38

Rejoignez la révolution voiture électrique avec la newsletter Watt Else par Numerama !

Rejoignez la révolution voiture électrique avec la newsletter Watt Else par Numerama !

OpenAI ChatGPT

Vous pouvez désormais générer des images directement à partir de ChatGPT et Sora, ça marche beaucoup mieux et c’est gratuit

25 mars 202525/03/2025 • 19:33
Société

« Vos images prennent la parole », la startup de Xavier Niel lance MoshiVis

25 mars 202525/03/2025 • 19:30
Guides d'achat

Quel est le meilleur écran gaming de 2025 ?

25 mars 202525/03/2025 • 19:20
Marques

La MG4 électrique abordable va bientôt se métamorphoser en France : pourquoi elle sera très différente de la version chinoise

25 mars 202525/03/2025 • 19:16
Bons plans

Le boitier Reflex Canon EOS 90D profite des ventes de printemps avec 250 € de réduction

25 mars 202525/03/2025 • 19:08
Voitures électriques

J’ai terminé 3ème d’une course de 1104 km en voiture électrique : comment ChatGPT et les nouilles instantanées ont été indispensables

25 mars 202525/03/2025 • 19:01
Tesla

La Tesla Model 3 a-t-elle réellement des problèmes de fiabilité ? Cette étude danoise laisse planer le doute

25 mars 202525/03/2025 • 18:43