Phi-4-multimodal : l’IA de Microsoft qui perçoit le monde comme un humain

 
Microsoft franchit une nouvelle étape dans le domaine de l’intelligence artificielle avec le lancement de Phi-4-multimodal, un modèle révolutionnaire capable de traiter simultanément la parole, les images et le texte.

Avec seulement 5,6 milliards de paramètres, la nouvelle IA Phi-4-multimodal de Microsoft surpasse ses concurrents de taille similaire et rivalise même avec des modèles deux fois plus grands sur certaines tâches. Cette prouesse technique repose sur une architecture novatrice utilisant un « mélange de LoRA » (Low-Rank Adaptations), permettant l’intégration harmonieuse de différentes modalités d’entrée dans un espace de représentation unifié. Cette approche garantit des performances cohérentes dans des tâches impliquant du texte, des images et de la parole, sans compromettre les capacités linguistiques du modèle.

Parallèlement, Microsoft a aussi dévoilé Phi-4-mini, un modèle de 3,8 milliards de paramètres spécialisé dans les tâches textuelles. Malgré sa taille réduite, Phi-4-mini démontre des capacités exceptionnelles, notamment dans les domaines des mathématiques et du codage, surpassant la plupart des modèles de 8 milliards de paramètres sur certains benchmarks.

Une révolution pour l’IA embarquée et l’edge computing

L’efficacité et la polyvalence de ces nouveaux modèles ouvrent la voie à des applications innovantes dans des domaines variés. Leur taille compacte permet leur déploiement sur des appareils standard ou directement en périphérie (edge computing), réduisant ainsi les coûts, la latence et les problèmes de confidentialité des données.

Dans le domaine de la reconnaissance vocale, Phi-4-multimodal a atteint la première place du classement OpenASR de Hugging Face avec un taux d’erreur de mots de 6,14 %, il surpasse des systèmes spécialisés comme WhisperV3. Le modèle excelle également dans les tâches de vision, notamment en matière de raisonnement mathématique et scientifique à partir d’images.

Ces avancées ont déjà suscité l’intérêt de l’industrie. Capacity, une entreprise spécialisée dans les moteurs de réponse IA, a intégré la famille Phi pour améliorer l’efficacité et la précision de sa plateforme. Steve Frederickson, responsable produit chez Capacity, souligne « la remarquable précision et la facilité de déploiement » des modèles Phi, tout en notant une réduction des coûts de 4,2 fois par rapport aux solutions concurrentes.

Microsoft a rendu Phi-4-multimodal et Phi-4-mini accessibles via Azure AI Foundry, Hugging Face et le catalogue d’API Nvidia, facilitant ainsi leur adoption par les développeurs et les entreprises.


Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).

Les derniers articles