Yeni NVIDIA GB200 Grace Blackwell Superchip, trilyon parametre ölçeğinde üretken yapay zekaya yönelik, 40 petaFLOPS yapay zeka performansına, çok daha inanılmaz 16 TB/sn bellek bant genişliğine sahip 864 GB ultra hızlı HBM3E belleğe sahip bir işlemcidir.
NVIDIA, inanılmaz 36 x Grace CPU ve 72 x Blackwell GPU'yu destekleyen 18 hesaplama tepsisine sahip yeni GB200 bilgi işlem notlarına sahiptir; rafların her biri ConnectX-800G Infiniband SuperNIC ve Bluefield-3 DPU'ya (80 GB/sn bellek bant genişliğiyle) sahiptir. ağ içi bilgi işlem için. NVIDIA, 14,4 TB/sn'ye kadar toplam bant genişliği için her biri 1,8 TB/sn hızında 8 bağlantı noktası içeren en yeni NVLink anahtarlarını kullanır. Etkileyici şeyler, NVIDIA.
NVIDIA, inanılmaz 36 x Grace CPU ve 72 x Blackwell GPU'yu destekleyen 18 hesaplama tepsisine sahip yeni GB200 bilgi işlem notlarına sahiptir; rafların her biri ConnectX-800G Infiniband SuperNIC ve Bluefield-3 DPU'ya (80 GB/sn bellek bant genişliğiyle) sahiptir. ağ içi bilgi işlem için. NVIDIA, 14,4 TB/sn'ye kadar toplam bant genişliği için her biri 1,8 TB/sn hızında 8 bağlantı noktası içeren en yeni NVLink anahtarlarını kullanır. Etkileyici şeyler, NVIDIA.
20 petaflop'a kadar bilgi işlem ve diğer büyük iyileştirmeler sunuyor!
Çift kalıplı B200 GPU, önceki modele göre 4 kat daha fazla AI eğitim performansına ve 30 kat daha fazla çıkarım performansına sahiptir.
Nvidia şu anda herkesin istediği veri merkezi GPU'larıyla yapay zeka dünyasının zirvesinde yer alıyor. ciddi Hopper H100 ve GH200 Grace Hopper süper çipi talep görüyor ve dünyadaki en güçlü süper bilgisayarların çoğuna güç sağlıyor. Yerlerinize oturun: Nvidia, Hopper'ın halefini açıkladı. Bugün GTC 2024'te CEO Jensen Huang, hesaplama gücünde nesiller boyu büyük bir sıçrama sağlayacak yeni nesil veri merkezi ve AI GPU olan Blackwell B200 bombasını attı.
Blackwell mimarisi ve B200 GPU, H100/H200'ün yerini alıyor. olacak bir Grace Blackwell GB200 süper çipi Ayrıca adından da tahmin edebileceğiniz gibi Grace CPU mimarisini koruyacak ancak onu güncellenmiş Blackwell GPU ile eşleştirecek . Nvidia'nın eninde sonunda tüketici sınıfı Blackwell GPU'lara da sahip olacağını tahmin ediyoruz, ancak bunlar 2025'e kadar gelmeyecek ve veri merkezi çiplerinden oldukça farklı olacak.
Yüksek düzeyde, B200 GPU, mevcut H100'ün transistör sayısını iki katından fazla artırır. Birazdan değineceğimiz bazı uyarılar var, ancak B200 208 milyar transistör içeriyor (H100/H200'de 80 milyara karşılık). Ayrıca tek bir GPU'dan 20 petaflop yapay zeka performansı sağlar; tek bir H100, maksimum 4 petaflop yapay zeka hesaplamasına sahipti. Ve son olarak, 8 TB/s bant genişliği sunan 192 GB HBM3e belleğe sahip olacak.
Şimdi bazı uyarılardan bahsedelim. Her şeyden önce, söylentilerin de belirttiği gibi Blackwell B200, geleneksel anlamda tek bir GPU değil. Bunun yerine, birbirine sıkı sıkıya bağlı iki kalıptan oluşuyor Nvidia'ya göre birleşik bir CUDA GPU olarak işlev görseler de, . iki çip, tek bir tam uyumlu çip olarak düzgün bir şekilde çalışabilmelerini sağlamak için 10 TB/s NV-HBI (Nvidia Yüksek Bant Genişliği Arayüzü) bağlantısı aracılığıyla birbirine bağlanıyor.
Bu çift kalıplı konfigürasyonun nedeni basit: Blackwell B200, mevcut Hopper H100 ve Ada Lovelace mimarili GPU'lar tarafından kullanılan 4N işleminin geliştirilmiş bir versiyonu olan TSMC'nin 4NP işlem düğümünü kullanacak . TSMC 4NP hakkında çok fazla ayrıntıya sahip değiliz, ancak büyük olasılıkla özellik yoğunluğunda büyük bir gelişme sunmuyor; bu, daha güçlü bir çip istiyorsanız, daha büyük bir çipe ihtiyacınız olduğu anlamına geliyor. H100 temelde zaten tam retikül boyutunda bir çip olduğu için bu zor; teorik maksimumun 858 mm2 olduğu 814 mm2'lik bir kalıp boyutuna sahip.
B200, iki adet tam retikül boyutunda çip kullanacak, ancak Nvidia henüz kesin bir kalıp boyutu sağlamadı. Her kalıpta, her biri 1024 bit arayüzde 1 TB/s bant genişliğine sahip, her biri 24 GB'lık dört adet HMB3e yığını bulunur. H100'ün her biri 16 GB'lık altı HBM3 yığınına sahip olduğunu unutmayın (başlangıçta - H200 bunu 24 GB'a kadar altıya çıkardı), bu da H100 kalıbının önemli bir kısmının altı bellek denetleyicisine ayrıldığı anlamına geliyor. Nvidia, çip başına dört HBM arayüzüne düşerek ve iki çipi birbirine bağlayarak, bellek arayüzlerine orantılı olarak daha az kalıp alanı ayırabilir.
Tartışmamız gereken ikinci uyarı maksimum teorik hesaplamanın 20 petaflop olmasıdır. Blackwell B200 bu rakama, Hopper H100'ün FP8 formatının iki katı verimle yeni bir FP4 sayı formatıyla ulaşıyor. Yani, elmaları elmalarla karşılaştırıyorsak ve FP8'e bağlı kalıyorsak, 'yalnızca' B200, H100'den (seyreklikle) 2,5 kat daha fazla teorik FP8 hesaplaması sunar ve bunun büyük bir kısmı iki çipe sahip olmaktan kaynaklanır.
Bu, yine 4NP süreç düğümünden gelen yoğunlukta büyük iyileştirmelerin olmamasına dayanan ilginç bir nokta. B200, hem H100 hem de B200 tarafından desteklenen çoğu sayı formatıyla teorik olarak çip başına 1,25 kat daha fazla işlem sağlar. HBM3 arayüzlerinden ikisinin çıkarılması ve biraz daha büyük bir çip yapılması, işlem yoğunluğunun çip seviyesinde önemli ölçüde daha yüksek olmadığı anlamına gelebilir - elbette iki çip arasındaki NV-HBI arayüzü de bir miktar kalıp alanı kaplıyor.
Nvidia, diğer sayı formatlarının ham hesaplamasını da B200 ile sağladı ve olağan ölçeklendirme faktörleri uygulandı. Yani FP8 verimi, 10 petaflop ile FP4 veriminin yarısı kadardır; FP16/BF16 verimi, 5 petaflop ile FP8 rakamının yarısı kadardır ve TF32 desteği, 2,5 petaflop ile FP16 oranının yarısı kadardır; bunların hepsi seyrektir, yani bu oranların yarısı kadardır. yoğun operasyonlar Yine, bu her durumda tek bir H100'ün 2,5 katı demektir.
Peki ya FP64 verimi? H100, GPU başına 60 teraflop yoğun FP64 bilgi işlem olarak derecelendirildi. B200 diğer formatlarla benzer ölçeklendirmeye sahip olsaydı, her çift kalıplı GPU'nun 150 teraflop'u olurdu. Ancak görünen o ki Nvidia, GPU başına 45 teraflop FP64 ile FP64 performansını biraz geri çekiyor. Ancak bu aynı zamanda bazı açıklamaları da gerektiriyor çünkü temel yapı taşlarından biri GB200 süper çipi olacak. iki B200 GPU'ya sahip ve 90 teraflopluk yoğun FP64 gerçekleştirebiliyor ve H100'e kıyasla klasik simülasyondaki ham verimi artırabilecek diğer faktörler de rol oynuyor.
FP4'ü kullanmaya gelince, Nvidia, maksimum performansa ulaşmak için modelleri otomatik olarak uygun formata dönüştürmeye yardımcı olacak yeni bir ikinci nesil Transformer Engine'e sahip. FP4 desteğinin yanı sıra Blackwell, FP4'ün gerekli hassasiyetten yoksun olduğu ancak FP8'in de gerekli olmadığı durumlar için bir ara çözüm olan yeni bir FP6 formatını da destekleyecek. Ortaya çıkan hassasiyet ne olursa olsun, Nvidia bu tür kullanım örneklerini "Uzmanların Karması" (MoE) modelleri olarak sınıflandırır.
Nvidia Blackwell Çeşitleri platformu GB200 B200 B100 HGX B200 HGX B100
Yapılandırma 2x B200 GPU, 1x Grace CPU Blackwell GPU'su Blackwell GPU'su 8x B200 GPU 8x B100 GPU
FP4 Tensör Yoğun/seyrek 20/40 petaflop 9/18 petaflop 7/14 petaflop 72/144 petaflop 56/112 petaflop
FP6/FP8 Tensör Yoğun/Seyrek 10/20 petaflop 4,5/9 petaflop 3,5/7 petaflop 36/72 petaflop 28/56 petaflop
INT8 Tensör Yoğun/Seyrek 10/20 petaop 4,5/9 petaop 3,5/7 petaop 36/72 petaop 28/56 petaop
FP16/BF16 Tensör Yoğun/Seyrek 5/10 petaflop 2,25/4,5 petaflop 1,8/3,5 petaflop 18/36 petaflop 14/28 petaflop
TF32 Tensör Yoğun/Seyrek 2,5/5 petaflop 1,12/2,25 petaflop 0,9/1,8 petaflop 9/18 petaflop 7/14 petaflop
FP64 Tensör Yoğun 90 teraflop 40 teraflop 30 teraflop 320 teraflop 240 teraflop
Hafıza 384GB (2x8x24GB) 192GB (8x24GB) 192GB (8x24GB) 1536GB (8x8x24GB) 1536GB (8x8x24GB)
Bant genişliği 16 TB/sn 8 TB/sn 8 TB/sn 64 TB/sn 64 TB/sn
NVLink Bant Genişliği 2x 1,8 TB/sn 1,8 TB/sn 1,8 TB/sn 14,4 TB/sn 14,4 TB/sn
Güç 2700W'a kadar 1000W 700W 8000W mı? 5600W mı?
Blackwell'in birden fazla farklı çeşidi mevcut olduğundan burada bazı şeyleri açıklığa kavuşturmamız gerekiyor. Başlangıçta Nvidia, tam sunucu düğümleri açısından özellikler sağlıyor ve üç ana seçenek var. Ayrıca HGX yapılandırmalarına göre iki "tek" GPU'yu da parçalara ayırdık.
En büyük ve en hızlı çözüm, aşağıda daha fazla tartışacağımız GB200 süper çip olacaktır, ancak belirtildiği gibi iki B200 GPU'ya sahiptir. Tam süper çipin 2700W'a kadar yapılandırılabilir bir TDP'si vardır. Bu, iki GPU (dört GPU ölür) artı tek bir Grace CPU içindir. Yukarıda verdiğimiz rakamlar (tek bir B200 için 20 petaflop FP4'e kadar) bir GB200 süper çipinin yarısına aittir. Süper çipteki tek bir B200 GPU için yapılandırılabilir TDP, Grace CPU için 300 W ile iki GPU için 1200 W tepe noktasına veya 2400 W'a kadar çıkar.
Bir sonraki Blackwell seçeneği, tek bir sunucu düğümünde x86 CPU (muhtemelen iki CPU) ile sekiz B200 GPU'nun kullanılmasına dayanan HGX B200'dür. Bunlar, B200 GPU başına 1000 W ile yapılandırılmıştır ve GPU'lar 18 petaflop'a kadar FP4 çıkışı sunar; yani kağıt üzerinde GB200'deki GPU'lardan %10 daha yavaştır.
Son olarak bir de HGX B100 olacak. Bir x86 CPU'ya ve sekiz B100 GPU'ya sahip olan HGX B200 ile aynı temel fikirdir; ancak mevcut HGX H100 altyapısıyla anında uyumlu olacak şekilde tasarlanmış olması ve Blackwell GPU'ların en hızlı şekilde konuşlandırılmasına olanak sağlaması dışında. Bu nedenle, GPU başına TDP, H100 ile aynı şekilde 700 W ile sınırlıdır ve verim, GPU başına 14 petaflop FP4'e düşer. TDP'deki farkın yanı sıra, B200 ve B100 isimlendirmesini açıklayan donanımda muhtemelen başka farklılıklar da vardır.
Bu sunucuların üçünde de HBM3e'nin GPU başına aynı 8 TB/s bant genişliğine sahip göründüğünü belirtmek önemlidir. Alt kademe parçalar için potansiyel hasat kalıplarının olduğunu varsayarız; bu da daha az GPU çekirdeği ve belki de daha düşük saatler ve ayrıca TDP'deki fark anlamına gelir. Ancak Nvidia, Blackwell GPU'ların herhangi birinde kaç adet CUDA çekirdeği veya Akışlı Çoklu işlemcinin bulunacağına ilişkin henüz herhangi bir ayrıntı açıklamadı.
dünyaca ünlü büyük oyun, yazılım, siber güvenlik şirketleri binlerce çalışanın işine son verdi. blackweller çoğalır, daha gelişmiş versiyonları piyasaya sürülürse programlama ve onunla ilişkili yazılım sektörü katastrof biçimde küçülebilir.
Igor Arsovski nin başını çektiği ve deep learning modellerinde nvidia gpu lardan yüzlerce kat daha fazla performans gösteren lpu şematikleri, ve buna benzer yeni çip tasarımları, nvidia, intel, amd gibi firmaların eline geçerse, bu süreç daha kısa sürede tamamlanacak demektir.