Les processeurs évolutifs Xeon d'Intel de 3e génération offrent un traitement FPU 16 bits

Les annonces de produits d’aujourd’hui accentuent soigneusement les atouts actuels d’Intel.

Intel a annoncé aujourd’hui ses processeurs évolutifs Xeon de troisième génération (c’est-à-dire Gold et Platinum), ainsi que les nouvelles générations de sa mémoire persistante Optane (lire: SSD extrêmement faible latence et haute endurance) et Stratix AI FPGA.

Le fait qu’AMD bat actuellement Intel sur à peu près toutes les mesures de performances imaginables, à l’exception de l’IA accélérée par le matériel, n’est pas nouveau pour le moment. Ce n’est clairement pas une nouvelle pour Intel non plus, car la société n’a fait aucune déclaration quant aux performances de Xeon Scalable par rapport aux processeurs Epyc Rome concurrents. Plus intéressant, Intel a à peine mentionné les charges de travail informatiques à usage général.

Trouver une explication de la seule amélioration de génération sur génération non liée à l’IA montrait qu’il fallait passer par plusieurs notes de bas de page. Avec une détermination suffisante, nous avons finalement découvert que le «gain de performance moyen de 1,9 fois» mentionné sur la diapositive de présentation fait référence aux références SPECrate 2017 «estimées ou simulées» comparant un système Platinum 8380H à quatre connecteurs à un système à quatre connecteurs de cinq ans E7-8890 v3.

Pour être juste, Intel semble avoir introduit des innovations exceptionnellement impressionnantes dans l’espace IA. «Deep Learning Boost», qui n’était autrefois que la marque du jeu d’instructions AVX-512, comprend désormais un tout nouveau type de données à virgule flottante 16 bits.

Avec les générations précédentes de Xeon Scalable, Intel a fait œuvre de pionnier et a fortement encouragé l’utilisation du traitement d’inférence à 8 bits – INT8 – avec sa bibliothèque OpenVINO. Pour les charges de travail d’inférence, Intel a soutenu que la précision inférieure de INT8 était acceptable dans la plupart des cas, tout en offrant une accélération extrême du pipeline d’inférence. Pour la formation, cependant, la plupart des applications avaient encore besoin de la plus grande précision du traitement en virgule flottante FP32 32 bits.

La nouvelle génération ajoute la prise en charge du processeur à virgule flottante 16 bits, qu’Intel appelle bfloat16. Réduire de moitié la largeur de bits des modèles FP32 accélère le traitement lui-même, mais plus important encore, réduit de moitié la RAM nécessaire pour conserver les modèles en mémoire. Profiter du nouveau type de données est également plus simple pour les programmeurs et les bases de code utilisant des modèles FP32 que ne le serait la conversion en entier.

Intel a également fourni un jeu réfléchi autour de l’efficacité du type de données BF16. Nous ne pouvons le recommander ni comme jeu ni comme outil pédagogique.

Accélération du stockage Optane

Intel a également annoncé une nouvelle génération, 25% plus rapide, de ses SSD à mémoire persistante Optane, qui peuvent être utilisés pour accélérer considérablement l’IA et d’autres pipelines de stockage. Les SSD Optane fonctionnent sur la technologie 3D Xpoint plutôt que sur les SSD typiques avec flash NAND. 3D Xpoint a une endurance à l’écriture considérablement plus élevée et une latence plus faible que NAND. La latence plus faible et la plus grande endurance en écriture la rendent particulièrement attrayante en tant que technologie de mise en cache rapide, qui peut même accélérer tous les tableaux à semi-conducteurs.

Le grand point à retenir ici est que la latence extrêmement faible d’Optane permet l’accélération des pipelines d’IA – qui goulot d’étranglement fréquemment sur le stockage – en offrant un accès très rapide à des modèles trop volumineux pour rester entièrement dans la RAM. Pour les pipelines qui impliquent des écritures rapides et lourdes, une couche de cache Optane peut également augmenter considérablement la durée de vie du stockage primaire NAND en dessous, en réduisant le nombre total d’écritures qui doivent réellement y être engagées.

Par exemple, un Optane de 256 Go a une spécification d’endurance en écriture de 360 Po, tandis qu’un SSD Samsung 850 Pro 256 Go n’est prévu que pour une endurance de 150 To, ce qui est supérieur à un avantage de 1 000: 1 pour Optane.

Pendant ce temps, cet excellent examen de Tom’s Hardware de 2019 montre à quel point Optane laisse dans la poussière les SSD traditionnels de centre de données en termes de latence.

FPGA Stratix 10 NX

Enfin, Intel a annoncé une nouvelle version de son Stratix FPGA. Les matrices programmables Field Gate peuvent être utilisées comme accélération matérielle pour certaines charges de travail, permettant à un plus grand nombre de cœurs de processeur à usage général de s’attaquer aux tâches que les FPGA ne peuvent pas.