1 200 milliards de transistors : comment on a fabriqué la plus grosse puce du monde

 
Comment fournir toujours plus de puissance de calcul au secteur de l’intelligence artificielle ? Une startup de la Silicon Valley a la solution : transformer une gaufre de silicium en un unique SoC géant. Et ce n’est pas facile.
Vous ne rêvez pas, c’est la Cerebras WSE et c’est un system-on-chip.

Elle ne risque pas de tenir dans un smartphone, ou même dans un ordinateur portable. Son nom est la « Wafer Scale Engine » (WSE), elle a été conçue par la startup californienne Cerebras, elle fait la taille d’une tablette tactile, a plus de mille milliards de transistors, et le terme de « microprocesseur » semble être un peu incongru pour la désigner. « J’hésite à appeler ça une puce », admet l’analyste des microprocesseurs Linley Gwennap avec émerveillement. « Personne de sain d’esprit n’aurait même tenté de faire ça ».

Avec ses 46 225 mm2 de silicium, la surface de la WSE est 57 fois plus importante que celle de la Nvidia V100, qui domine le marché de l’intelligence artificielle. De quoi y caser 400 000 cœurs (oui, on parle des mêmes cœurs que dans un Snapdragon 855 octacore). Comme tout bon SoC (system-on-chip), la puce de Cerebras embarque aussi un peu de mémoire — 18 Go, soit 3 000 fois plus que la V100. Ses circuits transfèrent 100 pétabits par seconde, ou environ 100 millions de gigabits. Pour comparaison, une carte graphique de gameur haut de gamme comme la Nvidia GeForce RTX 2080 Ti ne contient « que » 18,6 milliards de transistors pour une vitesse de 616 Go/s.

« Personne de sain d’esprit n’aurait même tenté de faire ça »

Découper une puce sans se gaufrer

Qu’est-il donc passé par la tête des gens de Cerebras ? La réponse se trouve dans l’état actuel du secteur de l’intelligence artificielle. Ce dernier est un des plus gros consommateurs de puces et autres SoC à haute performance. Pour soutenir une IA plus puissante, on connecte des puces les unes avec les autres et on les entraîne dans un long processus de machine learning. Mais dès qu’on a déjà huit puces, en rajouter n’offre que très peu de performances supplémentaires, car beaucoup de vitesse est perdue dans les branchements.

La solution est toute logique : « prendre la plus grosse gaufre que vous trouvez et y découper la plus grosse puce que vous pouvez », comme le dit Andrew Feldman, patron de Cerebras. Mais c’est bien plus facile à dire qu’à faire. Schématiquement, pour fabriquer une puce, on prend une gaufre en silicium circulaire et on y grave des circuits sur des zones carrées. La procédure tend à endommager la gaufre à certains endroits. Les fabricants de semi-conducteurs découpent donc les puces bien faites à l’intérieur de la gaufre et se débarrassent du reste.

« Mais bon sang, comment on l’emballe ? »

Bien sûr, il n’est pas possible de faire cela lorsque la gaufre entière est une gigantesque puce. La startup a donc dû imprimer des circuits redondants pour contourner les défauts — un peu sur le même principe qu’Internet, qui parvient à délivrer des paquets même si un nœud du réseau tombe en panne. L’autre souci est que les techniques lithographiques actuelles ne peuvent graver que des carrés séparés : c’est ce qu’on appelle le problème des scribe lines. Il a donc fallu créer des canaux de communication entre chaque zone.

Le système de test de Cerebras pour sa puce.

Tout cela a l’air compliqué ? Attendez que Cerebras ait fini la puce et se retrouve avec une belle gaufre à expédier au client. Et là, remarque Andrew Feldman : « mais bon sang, comment on l’emballe ? […] Personne n’avait de circuit imprimé de cette taille. Personne n’avait de connecteurs. Personne n’avait de plaque de refroidissement. Personne n’avait des outils, pour les aligner, pour les manipuler. Personne n’avait de logiciel à tester ». La startup a donc dû inventer beaucoup de choses autour de son produit.

Pourtant, il reste encore des écueils à surmonter. Les 400 000 cœurs doivent être coordonnés les uns les autres, de façon à ce que les tâches y soient équitablement réparties. « Avant de voir les benchmarks, c’est difficile d’estimer à quel point ce design gère bien l’IA », avance l’analyste Linley Gwennap. Les premières statistiques de performances devraient être publiées après la livraison des premières puces aux clients en septembre.

Pour aller plus loin
SoC : tout ce qu’il faut savoir sur les processeurs mobiles


Des invités passionnants et des sujets palpitants ! Notre émission UNLOCK est à retrouver un jeudi sur deux en direct, de 17 à 19h sur Twitch. Pensez aussi aux rediffusions sur YouTube !

Les derniers articles