Stable Diffusion, web'den kazınan Common Crawl verilerinden türetilen, 5 milyar resim-metin çiftinin dile göre sınıflandırıldığı ve çözünürlüğe, filigran içerme olasılığına ve "estetik" puana (örneğin öznel görsel kalite) göre ayrı veri kümelerine filtrelendiği LAION-5B'den alınan görüntü ve altyazı çiftleri üzerinde eğitildi. Veri kümesi, Stability AI'dan fon alan Alman bir kar amacı gütmeyen kuruluş olan LAION tarafından oluşturuldu Stable Diffusion modeli, LAION-5B'nin üç alt kümesi üzerinde eğitildi: laion2B-en, laion-high-resolution ve laion-aesthetics v2 5+. Modelin eğitim verilerinin üçüncü tarafça analizi, kullanılan orijinal geniş veri setinden alınan 12 milyon görüntünün daha küçük bir alt kümesinden, görüntü örnekleminin yaklaşık %47'sinin 100 farklı etki alanından geldiğini, Pinterest'in alt kümenin %8,5'ini oluşturduğunu, ardından WordPress , Blogspot , Flickr , DeviantArt ve Wikimedia Commons gibi web sitelerinin geldiğini tespit etti . [ kaynak belirtilmeli ] Bayerischer Rundfunk tarafından yapılan bir araştırma, Hugging Face'te barındırılan LAION veri setlerinin büyük miktarda özel ve hassas veri içerdiğini gösterdi.
Model başlangıçta laion2B-en ve laion-high-resolution alt kümeleri üzerinde eğitildi ve son birkaç eğitim turu LAION-Aesthetics v2 5+ üzerinde yapıldı. Bu, LAION-Aesthetics Predictor V2'nin insanların ortalama olarak ne kadar beğendiklerini derecelendirmeleri istendiğinde 10 üzerinden en az 5 puan vereceğini öngördüğü 600 milyon altyazılı görüntüden oluşan bir alt kümedir. LAION-Aesthetics v2 5+ alt kümesi ayrıca düşük çözünürlüklü görüntüleri ve LAION-5B-WatermarkDetection'ın %80'den fazla olasılıkla filigran taşıdığını belirlediği görüntüleri hariç tuttu . Son eğitim turları ayrıca Sınıflandırıcıdan Bağımsız Difüzyon Rehberliğini iyileştirmek için metin koşullandırmasının %10'unu düşürdü.
Model , 600.000 ABD doları maliyetle toplam 150.000 GPU saati için Amazon Web Hizmetleri üzerinde 256 Nvidia A100 GPU kullanılarak eğitildi.