Le sale secret du calcul haute performance

Le sale secret du calcul haute performance

Au cours des décennies qui se sont écoulées depuis que Seymour Cray a développé ce qui est considéré comme le premier supercalculateur au monde, le CDC 6600 (ouvre un nouvel onglet), une course aux armements a été menée dans la communauté du calcul haute performance (HPC). Le but : améliorer les performances, par tous les moyens, à tout prix.

Poussées par les progrès de l'informatique, du stockage, de la mise en réseau et des logiciels, les performances des principaux systèmes ont augmenté des milliards de fois depuis l'introduction du CDC 6600 en 1964, passant de millions d'opérations en virgule flottante par seconde (mégaFLOPS) à des quintillions (exaFLOPS).

L'actuel détenteur de la couronne, un colossal supercalculateur américain appelé Frontier, est capable de 1102 exaFLOPS selon le benchmark High Performance Linpack (HPL). Mais on pense que des machines encore plus puissantes fonctionnent ailleurs, à huis clos.

L'arrivée des soi-disant supercalculateurs exascale devrait profiter à pratiquement tous les secteurs - de la science à la cybersécurité, de la santé à la finance - et ouvrir la voie à de puissants nouveaux modèles d'IA qui auraient autrement mis des années à entrenarse.

CDC 6600

Le CDC 6600, largement considéré comme le premier supercalculateur au monde. (Crédit image : Musée de l'histoire de l'ordinateur)

Cependant, l'augmentation des vitesses de cette ampleur a un coût : la consommation d'énergie. À pleine vitesse, Frontier consomme jusqu'à 40 MW (ouvre un nouvel onglet) d'énergie, soit à peu près la même chose que 40 millions d'ordinateurs de bureau.

Le supercalcul a toujours consisté à repousser les limites de ce qui est possible. Mais alors que la nécessité de minimiser les émissions devient de plus en plus évidente et que les prix de l'énergie continuent d'augmenter, l'industrie HPC devra réévaluer si son principe directeur d'origine vaut toujours la peine d'être suivi.

performances contre Efficacité

L'Université de Cambridge, qui, en partenariat avec Dell Technologies, a développé plusieurs supercalculateurs écoénergétiques à la pointe de la technologie, est une organisation à l'avant-garde de ce problème.

Le Wilkes3 (s'ouvre dans un nouvel onglet), par exemple, ne se classe qu'au 100e rang dans les tableaux de performances globales (s'ouvre dans un nouvel onglet), mais se classe 500e dans GreenXNUMX (s'ouvre dans un nouvel onglet), une classification des systèmes HPC basée sur les performances par watt de l'énergie consommée.

Lors d'une conversation avec TechRadar Pro, le Dr Paul Calleja, directeur des services informatiques de recherche à l'Université de Cambridge, a expliqué que l'institution est beaucoup plus préoccupée par la construction de machines hautement productives et efficaces que par des machines extrêmement puissantes.

« Nous ne sommes pas vraiment intéressés par les grands systèmes, car ce sont des solutions ponctuelles très spécifiques. Mais les technologies déployées à l'intérieur ont une application beaucoup plus large et permettront aux systèmes de fonctionner beaucoup plus lentement, à moindre coût et avec une efficacité énergétique », explique le Dr Calleja.

« Ce faisant, il démocratise l'accès à l'informatique pour un plus grand nombre de personnes. Nous souhaitons utiliser des technologies conçues pour ces grands systèmes anciens afin de créer des supercalculateurs beaucoup plus durables pour un public plus large.

Université de Cambridge

Le supercalculateur Wilkes3 n'est peut-être pas le plus rapide au monde, mais il est parmi les plus économes en énergie. (Crédit image : Université de Cambridge)

Dans les années à venir, le Dr Calleja prédit également une volonté de plus en plus féroce d'efficacité énergétique dans l'industrie HPC et dans la communauté des centres de données en général, où la consommation d'énergie représente plus de 90 % des coûts, nous dit-on.

Les changements récents des prix de l'énergie liés à la guerre en Ukraine auront également rendu les supercalculateurs considérablement plus chers, en particulier dans le contexte de l'informatique exascale, illustrant davantage l'importance de la performance par watt.

Dans le contexte de Wilkes3, l'université a constaté qu'il y avait un certain nombre d'optimisations qui ont contribué à améliorer le niveau d'efficacité. Par exemple, en diminuant la vitesse d'horloge à laquelle certains composants fonctionnaient, en fonction de la charge de travail, l'équipe a pu obtenir des réductions de consommation d'énergie de l'ordre de 20 à 30 %.

« Au sein d'une famille architecturale particulière, la vitesse d'horloge a une relation linéaire avec les performances, mais une relation carrée avec la consommation d'énergie. C'est le meurtrier », a expliqué le Dr Calleja.

« La réduction de la vitesse d'horloge réduit la consommation d'énergie à un rythme beaucoup plus rapide que les performances, mais elle allonge également le temps nécessaire pour terminer un travail. Donc, ce que nous devrions regarder, ce n'est pas la consommation d'énergie pendant une course, mais en fait l'énergie consommée par le travail. Il y a un endroit parfait.

le logiciel est roi

Au-delà du réglage fin des configurations matérielles pour des charges de travail spécifiques, il existe également un certain nombre d'optimisations qui doivent être effectuées ailleurs, dans le contexte du stockage et de la mise en réseau, et dans des disciplines connexes telles que le refroidissement et la conception de rack. .

Cependant, lorsqu'on lui a demandé où spécifiquement il aimerait voir des ressources allouées dans la quête pour améliorer l'efficacité énergétique, le Dr Calleja a expliqué que l'accent devrait être mis sur les logiciels d'abord et avant tout.

« Le matériel n'est pas le problème, il s'agit de l'efficacité des applications. Ce sera le principal goulot d'étranglement pour aller de l'avant », a-t-il déclaré. "Les systèmes exascale d'aujourd'hui sont basés sur des architectures GPU, et le nombre d'applications qui peuvent s'exécuter efficacement à grande échelle sur des systèmes GPU est faible."

« Pour vraiment profiter de la technologie d'aujourd'hui, nous devons nous concentrer sur le développement d'applications. Le cycle de vie du développement s'étend sur des décennies ; le logiciel utilisé aujourd'hui a été développé il y a 20 ou 30 ans et c'est difficile quand on a un code tellement long qu'il faut le repenser.

Le problème, cependant, est que l'industrie HPC n'a pas l'habitude de penser d'abord aux logiciels. Historiquement, beaucoup plus d'attention a été accordée au matériel, car, selon les mots du Dr Calleja, « C'est facile ; vous venez d'acheter une puce plus rapide. Vous n'avez pas besoin de penser intelligemment."

"Lorsque nous avions la loi de Moore, les performances du processeur doublant tous les dix-huit mois, vous n'aviez rien à faire pour augmenter les performances. Mais cette époque est révolue. Maintenant, si nous voulons progresser, nous devons revenir en arrière et rééquiper le logiciel. »

CPU avec contacts vers le haut reposant sur la carte mère du PC. la puce est mise en évidence avec une lumière bleue

Alors que la loi de Moore commence à s'affaiblir, les progrès de l'architecture CPU ne peuvent plus être invoqués comme source d'amélioration des performances. (Crédit image : Alexander_Safonov/Shutterstock)

Le Dr Calleja a réservé quelques éloges à Intel à cet égard. À mesure que l'espace matériel des serveurs se diversifie du point de vue des fournisseurs (à bien des égards, une évolution positive), la compatibilité des applications peut devenir un problème, mais Intel travaille sur une solution.

« L'un des différenciateurs que je vois pour Intel est qu'ils investissent massivement dans l'écosystème oneAPI, pour développer la portabilité du code entre les types de silicium. Ce sont ces types de chaînes d'outils dont nous avons besoin pour permettre aux applications de demain de tirer parti du silicium émergent », déclare-t-il.

Par ailleurs, le Dr Calleja a appelé à une plus grande concentration sur la "nécessité scientifique". Trop souvent, les choses « tournent mal dans la traduction », créant un décalage entre les architectures matérielles et logicielles et les besoins réels de l'utilisateur final.

Selon lui, une approche plus énergique de la collaboration interprofessionnelle créerait un « cercle vertueux » d'utilisateurs, de fournisseurs de services et de fournisseurs, offrant à la fois des avantages en termes de performances et d'efficacité.

Un avenir en escala zetta

Habituellement, avec la chute du point de repère symbolique de l'exascale, l'attention se tournera maintenant vers le suivant : le zettascale.

"Zettascale n'est que le prochain drapeau dans le sol", a déclaré le Dr Calleja, "un totem qui met en évidence les technologies nécessaires pour atteindre la prochaine étape de l'avancement informatique qui ne peut être obtenue aujourd'hui."

« Les systèmes les plus rapides au monde sont extrêmement chers pour ce que vous en retirez, en termes de production scientifique. Mais ils sont importants car ils démontrent l'art du possible et font avancer l'industrie.

Université de Cambridge

Pembroke College, Université de Cambridge, siège de l'Open Zettascale Lab (Crédit image : Université de Cambridge)

La question de savoir si des systèmes capables d'atteindre des performances zettaFLOPS, mille fois plus puissantes que la culture actuelle, peuvent être développés d'une manière qui s'aligne sur les objectifs de durabilité dépendra de l'inventivité de l'industrie.

Il n'y a pas de relation binaire entre les performances et l'efficacité énergétique, mais il faudra une bonne quantité de compétences dans chaque sous-discipline pour fournir l'amélioration des performances nécessaire dans une enveloppe de puissance appropriée.

En théorie, il existe un ratio d'or entre la performance et la consommation d'énergie, de sorte que les avantages pour la société générés par le HPC peuvent être considérés comme valant le coût des émissions de carbone.

Le chiffre précis restera insaisissable dans la pratique, bien sûr, mais poursuivre l'idée est par définition un pas dans la bonne direction.