Mimari: Latent Diffusion Model (LDM)
Stable Diffusion 1.5, latent diffusion modeline dayanır. Bu model, görüntüleri sıkıştırılmış bir gizli alanda (latent space) işler ve bu sayede hesaplama maliyetlerini azaltır.
Ana bileşenler:
Varyasyonel Otomatik Kodlayıcı (VAE): Görüntüleri 512x512 pikselden 64x64 gizli alana sıkıştırır ve geri yükler.
U-Net: Gürültü kaldırma (denoising) işlemini gerçekleştirir.
CLIP Text Encoder: Metin istemlerini (prompt) vektörlere dönüştürerek cross-attention mekanizmasıyla görüntü üretimini yönlendirir.
Eğitim Verisi: LAION-5B veri setinin bir alt kümesi (örneğin, LAION-Aesthetics v2.6) kullanılarak eğitilmiştir.
Difüzyon Süreci: ileri difüzyonda Gauss gürültüsü eklenir, geri difüzyonda ise gürültü kaldırılarak görüntü oluşturulur.
Stable Diffusion 2.0 - 2.1
Mimari: Latent Diffusion Model (LDM) devam ediyor, ancak bazı geliştirmeler mevcut.
Daha büyük bir U-Net mimarisi ve 768x768 çözünürlük desteği eklendi.
Text encoder olarak CLIP yerine daha gelişmiş bir model (örn. OpenCLIP) kullanıldı.
Geliştirmeler:
Daha iyi görüntü kalitesi ve metin-görüntü uyumu.
insan uzuvları ve yüzlerdeki hataları azaltmak için veri seti iyileştirmeleri. Ancak, veri setindeki sınırlamalar nedeniyle hala sorunlar mevcut.
Difüzyon Türevleri: Hala klasik difüzyon modeli (DDPM - Denoising Diffusion Probabilistic Models) temelinde çalışıyor, ancak optimizasyonlar yapıldı.
Stable Diffusion XL (SDXL)
Mimari: Gelişmiş Latent Diffusion Model
U-Net: Üç kat daha büyük bir U-Net backbone kullanıldı.
Text Encoder: iki text encoder (CLIP ve OpenCLIP) kullanılarak metin-görüntü uyumu artırıldı.Çözünürlük: 1024x1024 piksele kadar native destek.Geliştirmeler:
Daha iyi insan uzuvları ve metin oluşturma yetenekleri (SDXL 0.9 ile ellerde belirgin iyileşme).
Cross-attention mekanizmasında optimizasyonlar (örn. sageattention ile bellek verimliliği artışı).
Difüzyon Türevleri: DDPM tabanlı, ancak daha hızlı örnekleme için geliştirilmiş algoritmalar (örneğin, DDIM - Denoising Diffusion Implicit Models).
Stable Diffusion 3.0 - 3.5
Mimari: Multimodal Diffusion Transformer (MMDiT)
Stable Diffusion 3.0 ve 3.5, U-Net yerine Rectified Flow Transformer (RFT) kullanıyor. Bu, difüzyon sürecini transformer tabanlı bir yaklaşımla optimize ediyor.
MMDiT: Metin ve görüntü kodlamalarını birleştiren multimodal bir transformer mimarisi. Geleneksel self-attention yerine cross-attention ve sageattention gibi mekanizmalarla daha verimli çalışıyor.Parametre Sayısı: Stable Diffusion 3.5 Large, 8 milyar parametre içeriyor.Geliştirmeler:
1 megapiksel çözünürlükte yüksek kaliteli görüntüler.
Daha iyi metin uyumu ve anatomik doğruluk (özellikle eller ve yüzler).
Tüketici donanımlarında çalışacak şekilde optimize edilmiş (Large Turbo ve Medium varyantları).Difüzyon Türevleri: Klasik DDPM yerine Rectified Flow yöntemi kullanıldı. Bu yöntem, daha hızlı ve stabil görüntü üretimi sağlıyor.
Flux.1
Mimari: Flow Matching Transformer
Flux.1, Black Forest Labs tarafından geliştirilen ve Stable Diffusion’ın bazı yaratıcılarının yer aldığı bir modeldir. 12 milyar parametre içerir.
Flow Matching: Geleneksel difüzyon modellerinden (DDPM) farklı olarak, flow matching teknolojisi kullanılır. Bu, görüntü üretimini hızlandırır ve karmaşık komutlara daha iyi uyum sağlar.Geliştirmeler:
Daha keskin, gerçekçi ve sinematik görüntüler (örneğin, hareketli sahneler ve uzay görselleri).
Anatomik doğruluk ve karmaşık komutlara uyumda üstünlük.Ancak, 24 GB VRAM gibi güçlü donanım gerektirir ve özelleştirme seçenekleri Stable Diffusion 3.5’e kıyasla daha sınırlıdır.Varyantlar:
Flux.1 [pro]: Ticari kullanım için API üzerinden erişilebilir.
Flux.1 [dev]: Açık kaynak, araştırma amaçlı.
Flux.1 [schnell]: Daha hızlı üretim için optimize edilmiş.
Eğitim Verisi: LAION-5B tabanlı veri setleri, yüksek estetik skoru olan görüntüler kullanılarak eğitildi.
Karşılaştırma ve Özet
Stable Diffusion 1.5: Latent Diffusion Model (DDPM tabanlı), temel U-Net ve CLIP encoder.
Stable Diffusion 2.x: Geliştirilmiş LDM, daha büyük U-Net, OpenCLIP encoder, 768x768 çözünürlük.
SDXL: Daha büyük U-Net, çift text encoder, 1024x1024 çözünürlük, DDIM optimizasyonları.
Stable Diffusion 3.0 - 3.5: Multimodal Diffusion Transformer (MMDiT), Rectified Flow yöntemi, 8 milyar parametre, 1 megapiksel çözünürlük.
Flux.1: Flow Matching Transformer, 12 milyar parametre, daha hızlı ve anatomik olarak doğru üretim, ancak daha fazla donanım gereksinimi.
Flux.1, Stable Diffusion’ın evriminden farklı bir yol izleyerek flow matching teknolojisine geçiş yaptı. Stable Diffusion 3.5 ise transformer tabanlı Rectified Flow ile difüzyon modellerini optimize etti. Her iki model de metin-görüntü uyumunda ve görüntü kalitesinde önemli ilerlemeler sağladı, ancak Flux.1 daha fazla donanım gerektirirken, Stable Diffusion 3.5 tüketici donanımlarına daha uygun.