
Dans le secteur de l’intelligence artificielle, certains se ruent dans une course à la performance à l’image d’OpenAI avec son ChatGPT ou plus récemment DeepSeek avec son modèle R1 quand d’autres se focalisent sur l’arrivée de fonctionnalités de pointe à l’image du laboratoire français Kyutai cofondé par Xavier Niel.
Spécialisé dans la conversation vocale, Moshi, l’assistant IA open source de Kyutai dispose d’une nouvelle fonction nommée MoshiVis lui permettant d’analyser une image, la comprendre et la commenter vocalement, le tout avec une faible latence.
Une meilleure compréhension pour une meilleure accessibilité
Avec ce nouvel outil, MoshiVis intègre 206 millions de paramètres supplémentaires sur sa première version de Moshi qui en comporte sept milliards pour pouvoir obtenir cette discussion en temps réel.
Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Gemini et autres ?
MoshiVis devient alors capable de donner des informations générales et détaillées sur une image, tout comme de la recontextualiser plus largement. Sur son site, Kyutai permet de tester différents paramètres de MoshiVis pour un résultat plus que surprenant.

Cet outil français se présente comme un véritable assistant audio, capable de générer jusqu’à 70 émotions différentes et de varier son intonation en fonction de la demande de l’utilisateur. On peut très facilement imaginer un tel dispositif arriver dans des espaces culturels pour rendre accessible certains parcours de visite ou bien en tant que dispositif portable pour aider vocalement certaines personnes en quête d’accessibilité.
Présenté en 2024, Moshi se veut également être une IA plus éthique. On apprend sur le site du gouvernement, qu’au-delà de présenter un outil open source, Kyutai a intégré un filigrane permettant de repérer le discours généré par Moshi. De quoi lutter efficacement contre la désinformation.
Pour aller plus loin
La France signe avec l’Inde et la Chine pour une IA « éthique »
Pour tester MoshiVis, il faut se rendre sur le site de Kyutai et saisir son adresse mail. À noter, l’IA n’est pour le moment accessible qu’en anglais.
Votre café et votre dose de tech vous attendent sur WhatsApp chaque matin avec Frandroid.
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix