2015 yılında tanıtılan difüzyon modelleri , eğitim görüntülerindeki ardışık Gauss gürültüsü uygulamalarını ortadan kaldırma amacıyla eğitilmiştir ; bu, gürültü giderici otokodlayıcıların bir dizisi olarak düşünülebilir . Difüzyon adı , ilk olarak termodinamikten ilham alınarak geliştirildikleri için termodinamik difüzyondan gelir
SD 3'ten önceki Kararlı Difüzyon serisindeki modellerin tümü, LMU Münih'teki CompVis (Bilgisayarlı Görüntüleme ve Öğrenme) grubu tarafından 2021'de geliştirilen gizli difüzyon modeli (LDM) adı verilen bir difüzyon modeli çeşidini kullanmıştır
Kararlı Difüzyon 3 bölümden oluşur: varyasyonel oto kodlayıcı (VAE), U-Net ve isteğe bağlı bir metin kodlayıcı. VAE kodlayıcı, görüntüyü piksel uzayından daha küçük boyutlu bir gizli uzaya sıkıştırarak görüntünün daha temel bir anlamsal anlamını yakalar. ileri difüzyon sırasında sıkıştırılmış gizli gösterime Gauss gürültüsü yinelemeli olarak uygulanır. ResNet omurgasından oluşan U-Net bloğu, gizli bir gösterim elde etmek için ileri difüzyondan gelen çıktıyı geriye doğru gürültüden arındırır . Son olarak, VAE kod çözücü, gösterimi tekrar piksel uzayına dönüştürerek son görüntüyü oluşturur.
https://galeri.uludagsozluk.com/r/2430785/+
Stable Diffusion tarafından kullanılan gürültü giderme işlemi. Model, önceden eğitilmiş kavramlar ve dikkat mekanizmasıyla yönlendirilen CLIP metin kodlayıcısı tarafından yönlendirilen, yapılandırılmış bir adım sayısına ulaşılana kadar rastgele gürültüyü yinelemeli olarak gürültüden arındırarak görüntüler üretir ve eğitilen kavramın bir temsilini gösteren istenen görüntüyü oluşturur.