Alors que la conférence Google I/O 2024 se rapproche à grands pas, Google s’est échauffé avec sa semaine Google Cloud Next, dédiée à Google Cloud, mais pas que. Année 2024 oblige, la société a beaucoup parlé d’intelligence artificielle générative et de son LLM, Gemini. Sa version Pro s’est d’ailleurs bien améliorée.
Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Google Bard et autres ?
Gemini Pro 1.5 est là : il apporte la prise en charge de l’audio
En mettant à jour Gemini Code Assist, l’outil de Google Cloud permettant de générer et tester du code informatique, que Google a officialisé l’arrivée de Gemini Pro 1.5, qui pour le moment n’est disponible qu’auprès de certains utilisateurs. Le changement le plus important n’est pas tant l’amélioration globale des performances, mais la prise en charge de l’audio. Le tout bien que Gemini 1.5 Pro soit meilleur que sa version 1.0 dans 87% des tests de référence, et qu’il soit presque au même niveau que la première itération de Gemini Ultra, a précisé Google.
Cela concerne les pistes audio dans les fichiers vidéo ainsi que la parole. Google a expliqué que « les utilisateurs bénéficient ainsi d’une analyse multimodale transparente, qui leur permet d’obtenir des informations sur les textes, les images, les vidéos et l’audio. Il fournit également une transcription de haut qualité et peut être utilisé pour rechercher du contenu audio et vidéo, par exemple pour rechercher, analyser et répondre à des questions lors d’appels d’offres ou de réunions d’investisseurs. »
Pour aller plus loin
Voici comment créer un bon prompt sur Gemini, ChatGPT ou Copilot selon Google
Cette nouvelle version Pro de Gemini devrait être réservée dans un premier temps aux utilisateurs Workspace, mais on peut penser qu’il sera accessible rapidement aux utilisateurs du chatbot Gemini.
L’audio et Google, ça commence à dater
C’est loin d’être la première avancée de Google en matière d’audio et d’intelligence artificielle. Depuis longtemps, les smartphones Pixel disposent d’une fonction de transcription vocale dans l’application d’enregistrement audio. Un outil qui fonctionne très bien, puisqu’il peut notamment détecter différents énonciateurs.
Cela n’est pas sans rappeler non plus Google Duplex, un outil mort-né de Google, présenté il y a quelques années. Pour rappel, il pouvait vous permettre d’appeler quelqu’un sans avoir à parler soi-même. On pouvait demander à Google Assistant de réserver un rendez-vous chez le coiffeur et l’IA s’occupait de l’appel. Le souci, c’est qu’au déploiement, c’étaient en partie des humains qui passaient ces appels.
Rejoignez-nous de 17 à 19h, un jeudi sur deux, pour l’émission UNLOCK produite par Frandroid et Numerama ! Actus tech, interviews, astuces et analyses… On se retrouve en direct sur Twitch ou en rediffusion sur YouTube !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix