in

GPU NVIDIA série RTX 3000: voici les nouveautés

NVIDIA

Le 1er septembre 2020, NVIDIA a dévoilé sa nouvelle gamme de GPU de jeu: la série RTX 3000, basée sur leur architecture Ampere. Nous discuterons des nouveautés, du logiciel basé sur l’IA qui l’accompagne et de tous les détails qui rendent cette génération vraiment géniale.

Découvrez les GPU de la série RTX 3000

Gamme de GPU RTX 3000NVIDIA

L’annonce principale de NVIDIA était ses nouveaux GPU brillants, tous construits sur un processus de fabrication 8 nm personnalisé, et tous apportant des accélérations majeures en termes de performances de rastérisation et de lancer de rayons.

Sur le bas de la gamme, il y a le RTX 3070, qui coûte 499 $. C’est un peu cher pour la carte la moins chère dévoilée par NVIDIA lors de l’annonce initiale, mais c’est une super affaire une fois que vous apprenez qu’elle bat la RTX 2080 Ti existante, une carte haut de gamme qui se vendait régulièrement plus de 1400 $. Cependant, après l’annonce de NVIDIA, le prix de la vente aux tiers a chuté, un grand nombre d’entre eux étant vendus en panique sur eBay pour moins de 600 $.

Il n’y a pas de référence solide au moment de l’annonce, il n’est donc pas clair si la carte est objectivement «meilleure» qu’une 2080 Ti, ou si NVIDIA déforme un peu le marketing. Les benchmarks en cours d’exécution étaient à 4K et avaient probablement RTX, ce qui pourrait donner l’impression que l’écart est plus grand qu’il ne le sera dans les jeux purement rastérisés, car la série 3000 basée sur Ampère fonctionnera deux fois plus bien au traçage de rayons que Turing. Mais, le traçage de rayons étant maintenant quelque chose qui ne nuit pas beaucoup aux performances et étant pris en charge par la dernière génération de consoles, c’est un argument de vente majeur pour le faire fonctionner aussi vite que le produit phare de la dernière génération pour près d’un tiers du prix.

On ne sait pas non plus si le prix restera ainsi. Les conceptions tierces ajoutent régulièrement au moins 50 USD au prix, et compte tenu de la forte demande, il ne sera pas surprenant de le voir se vendre 600 USD en octobre 2020.

Juste au-dessus se trouve le RTX 3080 à 699 $, ce qui devrait être deux fois plus rapide que le RTX 2080 et environ 25 à 30% plus rapide que le 3080.

Ensuite, dans le haut de gamme, le nouveau produit phare est le RTX 3090, ce qui est comiquement énorme. NVIDIA en est bien conscient et l’appelle «BFGPU», ce qui, selon l’entreprise, signifie «Big Ferocious GPU».

GPU RTX 3090NVIDIA

NVIDIA n’a montré aucune mesure de performance directe, mais la société a montré qu’elle exécutait des jeux 8K à 60 FPS, ce qui est vraiment impressionnant. Certes, NVIDIA utilise presque certainement DLSS pour atteindre cet objectif, mais le jeu 8K est un jeu 8K.

Bien sûr, il y aura éventuellement une 3060 et d’autres variantes de cartes plus axées sur le budget, mais celles-ci arrivent généralement plus tard.

Pour refroidir réellement les choses, NVIDIA avait besoin d’un design de refroidisseur repensé. Le 3080 est évalué à 320 watts, ce qui est assez élevé, donc NVIDIA a opté pour une conception à double ventilateur, mais au lieu des deux ventilateurs vwinf placés en bas, NVIDIA a placé un ventilateur sur l’extrémité supérieure où la plaque arrière va habituellement. Le ventilateur dirige l’air vers le haut vers le refroidisseur du processeur et le haut du boîtier.

le ventilateur vers le haut sur le GPU conduit à un meilleur flux d'air du boîtierNVIDIA

À en juger par les performances pouvant être affectées par un mauvais flux d’air dans un boîtier, cela est parfaitement logique. Cependant, le circuit imprimé est très exigu à cause de cela, ce qui affectera probablement les prix de vente des tiers.

DLSS: un avantage logiciel

Le lancer de rayons n’est pas le seul avantage de ces nouvelles cartes. Vraiment, c’est un peu un hack – les séries RTX 2000 et 3000 ne sont pas beaucoup plus performantes pour faire du lancer de rayons réel, par rapport aux anciennes générations de cartes. Le traçage de rayons d’une scène complète dans un logiciel 3D comme Blender prend généralement quelques secondes, voire quelques minutes par image, il est donc hors de question de le forcer brutalement en moins de 10 millisecondes.

Bien sûr, il existe un matériel dédié pour exécuter des calculs de rayons, appelés cœurs RT, mais en grande partie, NVIDIA a opté pour une approche différente. NVIDIA a amélioré les algorithmes de débruitage, qui permettent aux GPU de restituer un passage unique très bon marché qui semble terrible, et d’une manière ou d’une autre – grâce à la magie de l’IA – en faire quelque chose qu’un joueur veut regarder. Lorsqu’il est combiné avec des techniques traditionnelles basées sur la rastérisation, il offre une expérience agréable renforcée par des effets de lancer de rayons.

image bruyante lissée avec le débruiteur NVIDIANVIDIA

Cependant, pour faire cela rapidement, NVIDIA a ajouté des cœurs de traitement spécifiques à l’IA appelés cœurs Tensor. Ceux-ci traitent tous les calculs nécessaires pour exécuter des modèles d’apprentissage automatique et le font très rapidement. Ils sont un total changer la donne pour l’IA dans l’espace des serveurs cloud, car l’IA est largement utilisée par de nombreuses entreprises.

Au-delà du débruitage, l’utilisation principale des cœurs Tensor pour les joueurs est appelée DLSS, ou super échantillonnage d’apprentissage en profondeur. Il prend un cadre de mauvaise qualité et le met à l’échelle en qualité native complète. Cela signifie essentiellement que vous pouvez jouer avec des fréquences d’images de niveau 1080p, tout en regardant une image 4K.

Cela contribue également un peu aux performances du lancer de rayons—benchmarks de PCMag montre un RTX 2080 Super fonctionnant avec une qualité ultra, avec tous les paramètres de lancer de rayons réglés au maximum. À 4K, il se débat avec seulement 19 FPS, mais avec DLSS activé, il obtient un bien meilleur 54 FPS. DLSS est une performance gratuite pour NVIDIA, rendue possible par les cœurs Tensor sur Turing et Ampère. Tout jeu qui le prend en charge et est limité par le GPU peut voir de sérieuses accélérations uniquement à partir du logiciel.

DLSS n’est pas nouveau et a été annoncé comme une fonctionnalité lors du lancement de la série RTX 2000 il y a deux ans. À l’époque, il était pris en charge par très peu de jeux, car il fallait que NVIDIA entraîne et optimise un modèle d’apprentissage automatique pour chaque jeu individuel.

Cependant, à cette époque, NVIDIA l’a complètement réécrit, appelant la nouvelle version DLSS 2.0. C’est une API à usage général, ce qui signifie que tout développeur peut l’implémenter, et elle est déjà reprise par la plupart des versions majeures. Plutôt que de travailler sur une image, il prend des données vectorielles de mouvement de l’image précédente, de la même manière que TAA. Le résultat est beaucoup plus net que DLSS 1.0 et, dans certains cas, il est en fait plus net et plus net que la résolution native, il n’y a donc pas beaucoup de raisons de ne pas l’activer.

Il y a un problème: lorsque vous changez entièrement de scène, comme dans les cinématiques, DLSS 2.0 doit rendre la toute première image avec une qualité de 50% en attendant les données vectorielles de mouvement. Cela peut entraîner une légère baisse de qualité pendant quelques millisecondes. Mais 99% de tout ce que vous regardez sera rendu correctement, et la plupart des gens ne le remarquent pas dans la pratique.

Architecture ampère: conçue pour l’IA

Ampère est rapide. Sérieusement rapide, en particulier pour les calculs d’IA. Le cœur RT est 1,7 fois plus rapide que Turing et le nouveau cœur Tensor est 2,7 fois plus rapide que Turing. La combinaison des deux est un véritable saut générationnel dans les performances de lancer de rayons.

Améliorations principales de RT et TensorNVIDIA

Plus tôt en mai, NVIDIA a publié le GPU Ampere A100, un GPU de centre de données conçu pour exécuter l’IA. Avec lui, ils ont détaillé beaucoup de ce qui rend Ampère tellement plus rapide. Pour les charges de travail de centre de données et de calcul haute performance, Ampère est en général environ 1,7 fois plus rapide que Turing. Pour la formation en IA, c’est jusqu’à 6 fois plus rapide.

Améliorations des performances HPCNVIDIA

Avec Ampère, NVIDIA utilise un nouveau format de nombre conçu pour remplacer le «Floating-Point 32», ou FP32, standard de l’industrie, dans certaines charges de travail. Sous le capot, chaque nombre que votre ordinateur traite occupe un nombre prédéfini de bits en mémoire, que ce soit 8 bits, 16 bits, 32, 64 ou même plus. Les nombres plus grands sont plus difficiles à traiter, donc si vous pouvez utiliser une taille plus petite, vous en aurez moins à traiter.

FP32 stocke un nombre décimal de 32 bits et utilise 8 bits pour la plage du nombre (quelle que soit sa taille) et 23 bits pour la précision. L’affirmation de NVIDIA est que ces 23 bits de précision ne sont pas entièrement nécessaires pour de nombreuses charges de travail d’IA, et vous pouvez obtenir des résultats similaires et des performances bien meilleures avec seulement 10 d’entre eux. Réduire la taille à seulement 19 bits, au lieu de 32, fait une grande différence dans de nombreux calculs.

Ce nouveau format s’appelle Tensor Float 32, et les cœurs Tensor de l’A100 sont optimisés pour gérer le format de taille étrange. C’est, en plus de la réduction des matrices et de l’augmentation du nombre de cœurs, comment ils obtiennent l’accélération massive 6x dans la formation à l’IA.

Nouveaux formats de nombresNVIDIA

En plus du nouveau format de nombre, Ampère voit des accélérations de performances majeures dans des calculs spécifiques, comme FP32 et FP64. Ceux-ci ne se traduisent pas directement par plus de FPS pour le profane, mais ils font partie de ce qui le rend presque trois fois plus rapide dans l’ensemble des opérations Tensor.

amélioration des performances du noyau du tenseurNVIDIA

Ensuite, pour accélérer encore plus les calculs, ils ont introduit le concept de clarté structurée à grain fin, qui est un mot très sophistiqué pour un concept assez simple. Les réseaux de neurones fonctionnent avec de grandes listes de nombres, appelées poids, qui affectent la sortie finale. Plus il y a de nombres à traiter, plus ce sera lent.

Cependant, tous ces chiffres ne sont pas réellement utiles. Certains d’entre eux ne sont littéralement que zéro et peuvent essentiellement être rejetés, ce qui entraîne des accélérations massives lorsque vous pouvez calculer plus de chiffres en même temps. La rareté comprime essentiellement les nombres, ce qui demande moins d’effort pour faire des calculs. Le nouveau «Sparse Tensor Core» est conçu pour fonctionner sur des données compressées.

Malgré les changements, NVIDIA dit que cela ne devrait pas du tout affecter la précision des modèles entraînés.

données clairsemées en cours de compressionNVIDIA

Pour les calculs Sparse INT8, l’un des plus petits formats de nombres, les performances maximales d’un seul GPU A100 sont supérieures à 1,25 PetaFLOP, un nombre incroyablement élevé. Bien sûr, ce n’est que lors du calcul d’un type de nombre spécifique, mais c’est néanmoins impressionnant.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

UltraViolet s'arrête le 31 juillet, voici comment transférer vos films

UltraViolet s’arrête le 31 juillet, voici comment transférer vos films

Sachez quand les plier