AnTuTu, PCMark, Geekbench et consorts : quelles sont les différences entre les benchmarks ?

 
AnTuTu, PC Mark, 3D Mark, Geekbench et consorts : autant de noms qui reviennent dans de nombreux tests de smartphones. Mais comment fonctionnent ces plateformes de test, et comment devrait-on les interpréter ? Notre guide vous aide à y voir plus clair.

De nos jours, même les fans les plus récents de l’univers des smartphones ont déjà entendu parler des benchmarks. Comparer les scores des différents smartphones a toujours quelque chose de grisant, puisque cela permet de comparer les téléphones sur une échelle présumée objective.

Mais est-ce vraiment le cas ? Beaucoup de subtilités s’appliquent à ces échelles de valeurs qu’il vaut mieux comprendre dès lors que l’on veut creuser le sujet. C’est pourquoi aujourd’hui, nous allons vous expliquer le principe de fonctionnement des principales d’entre elles et vous aider à mieux les comprendre.

Qu’est-ce qu’un benchmark ?

Avant même de passer aux subtilités de chacune des plateformes, mieux vaut savoir ce qu’est… un benchmark, tout simplement. Le terme « benchmark » est emprunté aux Anglais et désigne tout simplement un « banc d’essai » en bon français, soit une plateforme de test de fonctionnement d’un appareil quelconque.

Auparavant, ces bancs d’essai étaient plutôt électroniques, dans le sens où il s’agissait plutôt de tests de conformité : tel appareil fonctionne bien comme prévu lorsqu’il reçoit du courant.

À l’ère informatique, ceux-ci sont naturellement beaucoup plus sophistiqués. C’est pourquoi ils sont désormais logiciels : la plupart des plateformes vont lancer des calculs théoriques et des processus très gourmands afin de mesurer les performances de l’appareil cible dans de telles conditions.

Le principe des plateformes des benchmarks est le suivant : puisque tous les appareils passent le même test, leur résultat permet de les comparer objectivement entre eux. Bien évidemment, c’est un peu plus compliqué que cela : une même puce peut s’avérer très faible sur une plateforme et surpuissante sur l’autre. C’est pourquoi il vaut mieux connaître les spécificités de chacune.

Geekbench

Geekbench est un outil de benchmarking qui se concentre exclusivement sur les performances du processeur, c’est-à-dire le cœur de votre smartphone qui se charge d’interpréter les instructions qu’il reçoit et de les renvoyer. Sans ça, pas d’appareil informatique quelconque, tout bonnement.

Tests lancés par Geekbench

Geekbench va donc faire subir différentes opérations à un processeur afin d’en analyser les performances, cherchant à déterminer la rapidité d’exécution. Ces tests se font sur 4 catégories :

  • Chiffrement : plusieurs exercices de chiffrement sont envoyés au processeur afin d’en analyser les performances.
  • Entiers : plusieurs calculs avec des instructions utilisant des entiers sont lancés sur le processeur.
  • Flottants : plusieurs calculs avec des instructions à virgules flottantes sont lancés sur le processeur.
  • Mémoire : la rapidité de la mémoire RAM et la bande passante sont ici analysées.

Nos processeurs disposent de plusieurs cœurs capables d’interpréter les données : généralement une section très performante pour les grosses tâches + une section à basse consommation énergétique pour les petites tâches.

Interprétation des résultats

Aussi, Geekbench fait ses tests en deux temps. Tout d’abord, il va lancer un seul set d’instructions dans le but de ne faire travailler qu’un seul cœur : c’est le résultat affiché pour « Single core ». Puis, il les fera réaliser par le processeur entier en lançant plusieurs instructions en parallèle : c’est le score pour « multi core ».

Les scores single et multi cores donnés sont tout simplement une moyenne pondérée des résultats du processeur sur les quatre tests vus précédemment. Le test « single core » peut être vu comme le test reflétant le plus une utilisation classique : rares sont les fois, pour un smartphone, où le processeur est sollicité au point d’utiliser tous ses cœurs. Le test multi core sera plutôt celui indiquant les performances brutes d’un téléphone sur des tâches lourdes, comme du montage vidéo par exemple.

L’échelle de note de Geekbench 4 est basée sur une moyenne : celle d’un Intel Core i7-6600U dont le score est 4000. L’intégralité des smartphones testés reçoit ainsi des scores relatifs (meilleur ou en dessous) de cette même base commune, dans le but de comparer les téléphones entre eux. Le score le plus haut est donc le meilleur.

PCMark

PCMark est là encore un outil de benchmarking qui se concentre sur les performances du processeur. Toutefois, contrairement à Geekbench, celui-ci ne lance pas de calculs théoriques, mais des simulations d’utilisation développées par FutureMark.

Tests lancés par PCMark Work 2.0

Ces tests sont au nombre de 5, et se composent ainsi dans la version 2.0 :

  • Navigation web : rendu d’une page web, recherche de contenu et ajout d’objets en utilisant le navigateur web natif d’Android (Android Webview).
  • Manipulations vidéo : lecture, modification et rendu de vidéo en utilisant OpenGL ES2.0, l’API Android MediaCodec et Exoplayer.
  • Écriture : ouverture, modification et sauvegarde d’un document texte utilisant la vue Android EditText native et l’API PdfDocument.
  • Manipulations photo : ouverture, modification et sauvegardes d’une suite de photos en utilisant l’API Android renderscript.
  • Manipulation de données : traitement de nombreux types de données différentes et mesure du taux d’images par seconde sur des traitements graphiques.

Tous ces tests mesurent surtout le temps passé à effectuer ces opérations. Le plus rapide est donc le mieux.

Interprétation des résultats

Ici, PCMark s’entiche à représenter justement une utilisation bureautique d’un smartphone. Ces calculs ne sont donc pas théoriques, pas basés sur des jeux d’instructions précis comme c’est le cas sur Geekbench, mais bien des exemples d’utilisation réelle du smartphone utilisant des logiciels communs à tous les appareils.

Comme Geekbench, PCMark réalise une moyenne pondérée des résultats du processeur sur les cinq tests. Plus le score est haut, et meilleures auront été les performances du smartphone testé. Cette note est évidemment utile pour comparer les appareils entre eux.

Là où Geekbench est utile pour comprendre les performances théoriques d’une puce, PCMark sera plus à même d’en voir les optimisations logicielles. Après tout, inutile d’avoir un SoC puissant s’il est mal géré par le système d’exploitation : il est important que ces deux aspects soient considérés dans la puissance d’un SoC.

3DMark

Deuxième benchmark développé par Futuremark, 3DMark est un outil qui permet de mesurer les performances graphiques d’un SoC. Ici, on poussera donc bien plus le GPU (partie graphique d’un SoC) que le CPU (le processeur) dans ses retranchements.

Tests réalisés par 3DMark Slingshot

Plusieurs tests sont disponibles pour les smartphones Android. Pour les téléphones récents, Slingshot est le plus recommandé puisqu’il utilise toutes les technologies actuelles. Slingshot Extreme est sensiblement similaire, à ceci près qu’il pousse véritablement la définition d’affichage et les effets au maximum possible.

Le principe de ce benchmark est assez simple : il crée un rendu en temps réel d’une scène 3D faisant appel à absolument toutes les API disponibles actuellement. Une scène est créée avec plusieurs objets à définir en temps réel, d’autres à créer de manière différée, des transformations, des éclairages différents, des effets de distance d’affichage, de lumières, etc. Le tout avec une caméra bougeant pour suivre l’action bien évidemment.

Ces tests n’étant pas faits de manière séquentielle, il est bien difficile d’en faire une liste. Sachez seulement que le rendu est représentatif des techniques utilisées par les jeux 3D modernes.

Interprétation des résultats

Les scores sont représentatifs des performances graphiques d’un SoC sur une simulation précise. Ainsi, il est impossible de comparer les résultats d’un test Slingshot avec ceux d’un Slingshot Extreme : les conditions de test ne sont tout simplement pas les mêmes.

Il s’agit toutefois d’une bonne mesure des capacités graphiques d’un SoC lorsqu’on le pousse dans ses derniers retranchements. Il faut noter tout de même que les techniques utilisées pour ce rendu ne sont pas représentatives d’un véritable jeu : peu de titres pousseront leurs graphismes à ce point, quand d’autres auront surtout plus besoin de rapidité que de fidélité.

Encore une fois, FutureMark ne fait pas dans le théorique, et vous pouvez le constater de vous-mêmes : la scène 3D est bien rendue devant vos yeux, comme le ferait un véritable jeu.

GFXBench

GFXBench est une autre plateforme de test se concentrant sur les performances graphiques d’une puce donnée.

Tests réalisés par GFXBench

GFXBench propose plusieurs tests différents créés afin de tester des performances bien spécifiques d’une même puce. Ceux-ci sont tout de même donnés, d’ordre général, du plus au moins performant afin de pouvoir évaluer une large sélection de smartphones.

  • Manhattan : ce test utilise l’API OpenGL ES 3.0 sur Android. Il met l’emphase sur le rendu de plusieurs objets simultanés et la gestion des transformations d’objets géométriques.
  • Manhattan 3.1 : ce test utilise l’API OpenGL ES 3.1. Il y rajoute particulièrement la gestion des compute shaders.
  • Car Chase : ce test utilise toujours l’API OpenGL ES 3.1. Le plus complexe de tous, il rajoute particulièrement la gestion des graphics shaders.

Interprétation des résultats

Deux résultats sont affichés selon le nombre d’images par seconde moyen, soit la puissance et la stabilité, qu’aura réussi à offrir un smartphone sur une expérience précise. Deux scores sont donnés : l’onscreen et l’offscreen.

L’onscreen désigne des opérations de rendus étant réalisés à destination directe de l’affichage. Il s’agit donc d’opérations immédiatement visibles par l’utilisateur, généralement gérées par le système directement et dépendantes de la définition de l’écran.

L’offscreen désigne des opérations faites dans une région de la mémoire n’étant pas directement liée à l’affichage. Ces opérations sont donc gérées au sein même de l’application. Concrètement, il s’agira d’éléments n’étant pas forcément immédiatement utilisés par un titre, comme les ombres d’une carte ou les filtres apposés après le rendu.

Ces mesures sont vraiment à considérer comme des tests à très haut niveau. C’est pourquoi la plupart de ces benchmarks n’offrent pas un taux de FPS très satisfaisant pour un joueur (d’ordre général : avoir du 30 FPS constant rend un jeu jouable, l’idéal de fluidité restant tout de même 60 FPS). Ils sont cependant très utiles pour déterminer non seulement les capacités effectives d’une puce, mais aussi ses optimisations logicielles.

AnTuTu

De par le fait qu’elle propose un classement mensuel des téléphones, la plateforme AnTuTu est probablement la plus populaire et la plus connue sur le mobile.

Tests réalisés par AnTuTu v7

AnTuTu 7 est un test se voulant représenter l’expérience entière d’un smartphone. Aussi, il mange un peu à tous les râteliers en testant aussi bien le CPU que le GPU, sur des calculs théoriques comme des simulations.

  • 3D : 3D représente les performances graphiques d’un smartphone. Tout comme 3DMark, une simulation 3D comportant plusieurs effets est lancée sur le smartphone. Sa difficulté à la lancer est alors mesurée pour déterminer ses performances.
  • UX : UX représente l’expérience utilisateur. Plusieurs tests sont effectués et se concentrent sur l’utilisation effective du smartphone, à savoir ses performances en multitâche, le temps de lancement d’applications, la latence du défilement, un test de rendu web et un test de reconnaissance de QR Code, entre autres.
  • CPU : tout comme Geekbench, AnTuTu lance deux suites de calculs. Une avec des entiers, et l’autre avec des virgules flottantes. Le but est de déterminer les performances théoriques du processeur.
  • RAM : AnTuTu teste la vitesse de lecture et d’écriture de votre mémoire RAM, qui transfère les opérations au processeur pour traitement.
  • I/O : il s’agit là de la vitesse de lecture et d’écriture de votre mémoire de stockage

Interprétation des résultats

Les scores de chacun de ces tests sont ensuite additionnés pour donner le score final, qui sera comparé avec les autres appareils. C’est ce qui explique que les nombres liés à des tests AnTuTu sont toujours énormes comparativement aux autres plateformes. Comme pour toutes les autres plateformes, gare à comparer les téléphones sur la même base : les scores AnTuTu v6 ne sont pas comparables à ceux d’AnTuTu v7.

Qu’on se le dise : les scores d’AnTuTu ont surtout du sens dès lorsque les appareils ne font absolument aucune concession puisque tout est ajouté sans aucune considération pour l’appareil final. Aussi, un appareil choisissant de faire un sacrifice pour maintenir son prix (avec une mémoire de stockage plus lente par exemple) chutera plus vite que les autres.

Le but de ce benchmark est moins de proposer une mesure qu’un tableau des scores faisant énormément parler de lui. On peut donc y jeter un œil, mais il est important de garder tout cela en tête : en termes de mesure effective de puissance brute effective, AnTuTu part sur bien trop de terrain pour être véritablement parlant sur autre chose que l’ultra haut de gamme.


Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.

Les derniers articles