Nvidia Maxine : une IA qui peut vraiment révolutionner nos réunions en ligne

 
Nvidia a dévoilé une nouvelle technologie utilisant ses recherches en intelligence artificielle dans le domaine de l’imagerie. Elle pourrait bien révolutionner nos réunions en ligne avec Google Meet, Zoom ou Microsoft Teams.
Interface Google Meet
Interface Google Meet // Source : Google

La lutte du monde entier contre l’épidémie de coronavirus en 2020 a forcément créé des tendances dans le domaine des nouvelles technologies. On peut penser au boom de l’industrie du jeu vidéo en plein confinement, ou à la montée en popularité des outils de télétravail et en particulier, ceux de réunions en ligne comme Google Meet, Slack, Microsoft Teams ou Zoom.

Cette dernière tendance fait face à plusieurs problèmes : la qualité du hardware, en particulier les caméras intégrées aux ordinateurs qui sont souvent de piètre qualité, et le débit nécessaire pour diffuser en direct le flux vidéo de notre caméra. Avec sa nouvelle technologie d’intelligence artificielle, Nvidia veut définitivement régler ce dernier problème.

Un débit nécessaire divisé par 1000

L’idée de Nvidia est assez simple sur le papier. Plutôt que d’envoyer « bêtement » votre flux vidéo compressé à vos correspondants, vous pouvez simplement envoyer une photo modèle de votre visage (Keyframe) et les informations de mouvement de votre visage (Keypoints). Le moteur d’IA proposé par Nvidia va alors reprendre cette photo et ces données, pour créer une version animée artificiellement de votre visage qui essayera de correspondre à vos mouvements réels.

Le fonctionnement de Maxine // Source : Nvidia

 

Tout l’intérêt est que l’envoi de cette photo et ces informations est beaucoup, beaucoup plus léger que l’envoi d’un flux vidéo complet. D’après Nvidia, si un flux vidéo h.264 peut occuper une bande passante de près de 97 Ko par image, sa solution Nvidia Maxine permet de passer à 0,117 Ko par image, soit un débit divisé par un facteur de 1000.

Source : Nvidia

Ce n’est pas la seule chose que Nvidia propose de régler avec sa solution. La firme veut aussi utiliser son moteur pour améliorer la qualité de l’image, et ainsi obtenir un résultat final en HD 720p à partir d’images en 360p, ce qui n’est pas sans rappeler l’excellent travail de Nvidia avec DLSS dans les jeux vidéo. D’ailleurs, Nvidia a aussi présenté un système d’avatar 3D permettant de remplacer votre visage, par un modèle en image de synthèse qui imitera votre parole.

Ce n’est pas tout, Nvidia évoque aussi la possibilité d’améliorer l’image dans les situations de faible luminosité, à l’image du mode nuit des appareils photo de smartphones, et de modifier l’orientation du visage pour donner l’impression au correspondant qu’on regarde bien la caméra.

Une compatibilité avec tous les appareils

Nvidia souhaite faire tourner Maxine dans le cloud pour améliorer son efficacité et surtout le rendre accessible à n’importe quel appareil connecté. Il ne sera donc pas nécessaire d’avoir une carte graphique Nvidia, ce qui aurait limité l’outil aux ordinateurs.

Une technologie impressionnante, qui pourrait connaitre un vrai décollage quand le rachat d’ARM par Nvidia sera effectif. ARM occupe une place de choix dans les appareils connectés du monde entier.


Les derniers articles