amd matris çekirdekleri

entry1 galeri1
    1.
  1. Matris çarpımı, Doğrusal Cebir'in temel bir unsurudur ve Yüksek Performanslı Hesaplama (YBH) Uygulamalarında yaygın bir hesaplama yöntemidir. AMD'nin CDNA Mimarisi'nin piyasaya sürülmesinden bu yana, Genelleştirilmiş Matris Çarpımı (GEMM) hesaplamaları artık Matris Çekirdek işlem Birimleri aracılığıyla donanım hızlandırmalı olarak gerçekleştirilmektedir. Matris Çekirdek hızlandırmalı GEMM çekirdekleri, rocBLAS gibi BLAS kütüphanelerinin merkezinde yer alır, ancak geliştiriciler tarafından doğrudan da programlanabilirler. GEMM hesaplamasıyla sınırlı iş hacmine sahip uygulamalar, Matris Çekirdeklerini kullanarak ek hızlanmalar elde edebilirler.

    AMD'nin Matrix Core teknolojisi, büyük modellerle çalışma ve yapay zeka ve makine öğrenimi iş yüklerinin her türlü kombinasyonu için bellek tabanlı işlem performansını artırma olanağı sağlayan çok çeşitli karma hassasiyetli işlemleri destekler. Çeşitli sayısal formatların farklı uygulamalarda kullanımları vardır. Örnekler arasında makine öğrenimi çıkarımı için 8 bitlik tam sayıların (INT8), makine öğrenimi eğitimi ve HPC uygulamaları için 32 bitlik kayan nokta (FP32) verilerinin, grafik iş yükleri için 16 bitlik kayan nokta (FP16) verilerinin ve daha az yakınsama sorunuyla makine öğrenimi eğitimi için 16 bitlik beyin yüzdürme (BF16) verilerinin kullanımı yer alır.

    https://gpuopen.com/learn...otes-matrix-cores-readme/
    https://galeri.uludagsozluk.com/r/2434581/+

    AMD matris çekirdeklerini kullanma
    AMD CDNA GPU'larındaki Matris Kaynaştırılmış Çarpma Toplama (MFMA) talimatları, şerit (iş parçacığı) başına değil, dalga cephesi başına çalışır: giriş ve çıkış matrislerinin girişleri, dalga cephesinin vektör kayıtlarının şeritlerine dağıtılır.

    AMD Matris Çekirdekleri çeşitli şekillerde kullanılabilir. Üst düzeyde, GPU'da matris işlemleri yapmak için rocBLAS veya rocWMMA gibi kütüphaneler kullanılabilir. Örneğin, rocBLAS, eldeki hesaplamalar için avantajlıysa MFMA talimatlarını kullanmayı tercih edebilir. Metale daha yakın bir yaklaşım için,

    GPU çekirdeklerini tamamen assembly dilinde yazmak (ki bu biraz zorlayıcı ve pratik olmayabilir)

    HIP çekirdeklerini satır içi derlemeyle serpiştirin (önerilmez, çünkü derleyici satır içi yönergelerin semantiğine bakmaz ve MFMA yönergelerinin sonuçlarını kullanmadan önce zorunlu döngü sayısı gibi veri tehlikeleriyle ilgilenmeyebilir)

    Derleyicinin içsel işlevlerini kullanın: bunlar, derleyicinin anlamsal ve gereksinimsel bilgileri bilmesini sağlayacak şekilde derleme talimatlarını temsil eder.

    Bu yazıdaki kodlama örnekleri, MFMA talimatları için derleyicinin mevcut bazı temel bileşenlerini kullanır ve giriş ve çıkış matrislerinin girişlerinin dalga cephesinin vektör kayıt şeritlerine nasıl eşleneceğini gösterir. Tüm örnekler, küçük bir matris çarpımını hesaplamak için tek bir dalga cephesi kullanır. Örnekler, MFMA işlemlerinden yüksek performans elde etmenin yolunu göstermeyi amaçlamaz.
    0 ...
© 2025 uludağ sözlük