dünyanın en gelişmiş image generative modeli. rakipsiz, üstelik kişisel cihazlarınıza kurarak test edebilirsiniz. bende hayvani bir kas gücü olduğu için birkaç saniye içinde inanılmaz sonuçlar alabiliyorum.
promptladığımız tüm çıktılar ai den çok bize ait, istanbul semalarında, nirvana dağının zirvesinden daha yüksek bir konumda süzülen devasa bir balonu seyrediyoruz. balonda, ölü insan sureti var dedim. ve yarattığı iki görseli dikkatle inceleyin.
dreamshaper 8 sd 1.5 le, 512x640 boyutunda generate işlemi, 20 steps, euler a sampler, normal schedule, 7 cfg scale aynı promptla 2 saniye sürüyor.
(vid:#190773)
hem de ekran kartı tasarruf modunda, 100 watt daha az elektrik tüketiyorken, vramler 800 mhz daha düşük frekansla çalışırken.
insanların ve makinelerin tabiatla uyum içinde yaşadığı, sentetik beyinlerin telekinetik güçleriyle yönettiği, maksimum enerji verimliliğiyle ünlü biyopunk şehri:
Stable Diffusion, 2022'de yayınlanan , difüzyon tekniklerine dayalı, derin öğrenmeli , metinden görüntüye dönüştürme modelidir . Üretken yapay zeka teknolojisi, Stability AI'nın en önemli ürünüdür ve devam eden yapay zeka patlamasının bir parçası olarak kabul edilmektedir .
Öncelikle metin açıklamalarına bağlı ayrıntılı görüntüler oluşturmak için kullanılır, ancak aynı zamanda iç boyama , dış boyama ve metin istemiyle yönlendirilen görüntü-görüntü çevirileri oluşturma gibi diğer görevlere de uygulanabilir . Geliştirilmesinde Münih Ludwig Maximilian Üniversitesi'ndeki CompVis Grubu ve Runway'den araştırmacılar , Stability'den gelen hesaplamalı bağış ve kar amacı gütmeyen kuruluşlardan gelen eğitim verileri yer aldı.
Kararlı Difüzyon , bir tür derin üretken yapay sinir ağı olan gizli bir difüzyon modelidir . Kodu ve model ağırlıkları kamuya açık olarak yayınlanmıştır ve optimize edilmiş bir sürümü, 2,4 GB VRAM kadar düşük bir GPU ile donatılmış çoğu tüketici donanımında çalışabilir . Bu, yalnızca bulut hizmetleri aracılığıyla erişilebilen DALL-E ve Midjourney gibi önceki tescilli metinden görüntüye modellerden bir sapmayı işaret ediyordu . https://galeri.uludagsozluk.com/r/2430784/+
Kararlı Difüzyon , Münih'teki Ludwig Maximilian Üniversitesi ve Heidelberg Üniversitesi'ndeki araştırmacılar tarafından Almanya'da geliştirilen Latent Diffusion adlı bir projeden kaynaklanmıştır . Orijinal 5 yazardan dördü (Robin Rombach, Andreas Blattmann, Patrick Esser ve Dominik Lorenz) daha sonra Stability AI'ya katılmış ve Kararlı Difüzyon'un sonraki sürümlerini yayınlamıştır.
Modelin teknik lisansı, Münih Ludwig Maximilian Üniversitesi'ndeki CompVis grubu tarafından yayınlandı. Geliştirme, daha önce Stable Diffusion tarafından kullanılan gizli difüzyon modeli mimarisini icat eden araştırmacılar arasında yer alan Runway'den Patrick Esser ve CompVis'ten Robin Rombach tarafından yönetildi. Stability AI ayrıca , projenin destekçileri olarak EleutherAI ve LAION'u (Stable Diffusion'ın eğitildiği veri setini bir araya getiren Alman bir kar amacı gütmeyen kuruluş) da gösterdi .
2015 yılında tanıtılan difüzyon modelleri , eğitim görüntülerindeki ardışık Gauss gürültüsü uygulamalarını ortadan kaldırma amacıyla eğitilmiştir ; bu, gürültü giderici otokodlayıcıların bir dizisi olarak düşünülebilir . Difüzyon adı , ilk olarak termodinamikten ilham alınarak geliştirildikleri için termodinamik difüzyondan gelir
SD 3'ten önceki Kararlı Difüzyon serisindeki modellerin tümü, LMU Münih'teki CompVis (Bilgisayarlı Görüntüleme ve Öğrenme) grubu tarafından 2021'de geliştirilen gizli difüzyon modeli (LDM) adı verilen bir difüzyon modeli çeşidini kullanmıştır
Kararlı Difüzyon 3 bölümden oluşur: varyasyonel oto kodlayıcı (VAE), U-Net ve isteğe bağlı bir metin kodlayıcı. VAE kodlayıcı, görüntüyü piksel uzayından daha küçük boyutlu bir gizli uzaya sıkıştırarak görüntünün daha temel bir anlamsal anlamını yakalar. ileri difüzyon sırasında sıkıştırılmış gizli gösterime Gauss gürültüsü yinelemeli olarak uygulanır. ResNet omurgasından oluşan U-Net bloğu, gizli bir gösterim elde etmek için ileri difüzyondan gelen çıktıyı geriye doğru gürültüden arındırır . Son olarak, VAE kod çözücü, gösterimi tekrar piksel uzayına dönüştürerek son görüntüyü oluşturur.
https://galeri.uludagsozluk.com/r/2430785/+
Stable Diffusion tarafından kullanılan gürültü giderme işlemi. Model, önceden eğitilmiş kavramlar ve dikkat mekanizmasıyla yönlendirilen CLIP metin kodlayıcısı tarafından yönlendirilen, yapılandırılmış bir adım sayısına ulaşılana kadar rastgele gürültüyü yinelemeli olarak gürültüden arındırarak görüntüler üretir ve eğitilen kavramın bir temsilini gösteren istenen görüntüyü oluşturur.
Stable Diffusion, web'den kazınan Common Crawl verilerinden türetilen, 5 milyar resim-metin çiftinin dile göre sınıflandırıldığı ve çözünürlüğe, filigran içerme olasılığına ve "estetik" puana (örneğin öznel görsel kalite) göre ayrı veri kümelerine filtrelendiği LAION-5B'den alınan görüntü ve altyazı çiftleri üzerinde eğitildi. Veri kümesi, Stability AI'dan fon alan Alman bir kar amacı gütmeyen kuruluş olan LAION tarafından oluşturuldu Stable Diffusion modeli, LAION-5B'nin üç alt kümesi üzerinde eğitildi: laion2B-en, laion-high-resolution ve laion-aesthetics v2 5+. Modelin eğitim verilerinin üçüncü tarafça analizi, kullanılan orijinal geniş veri setinden alınan 12 milyon görüntünün daha küçük bir alt kümesinden, görüntü örnekleminin yaklaşık %47'sinin 100 farklı etki alanından geldiğini, Pinterest'in alt kümenin %8,5'ini oluşturduğunu, ardından WordPress , Blogspot , Flickr , DeviantArt ve Wikimedia Commons gibi web sitelerinin geldiğini tespit etti . [ kaynak belirtilmeli ] Bayerischer Rundfunk tarafından yapılan bir araştırma, Hugging Face'te barındırılan LAION veri setlerinin büyük miktarda özel ve hassas veri içerdiğini gösterdi.
Model başlangıçta laion2B-en ve laion-high-resolution alt kümeleri üzerinde eğitildi ve son birkaç eğitim turu LAION-Aesthetics v2 5+ üzerinde yapıldı. Bu, LAION-Aesthetics Predictor V2'nin insanların ortalama olarak ne kadar beğendiklerini derecelendirmeleri istendiğinde 10 üzerinden en az 5 puan vereceğini öngördüğü 600 milyon altyazılı görüntüden oluşan bir alt kümedir. LAION-Aesthetics v2 5+ alt kümesi ayrıca düşük çözünürlüklü görüntüleri ve LAION-5B-WatermarkDetection'ın %80'den fazla olasılıkla filigran taşıdığını belirlediği görüntüleri hariç tuttu . Son eğitim turları ayrıca Sınıflandırıcıdan Bağımsız Difüzyon Rehberliğini iyileştirmek için metin koşullandırmasının %10'unu düşürdü.
Model , 600.000 ABD doları maliyetle toplam 150.000 GPU saati için Amazon Web Hizmetleri üzerinde 256 Nvidia A100 GPU kullanılarak eğitildi.
Mimari: Latent Diffusion Model (LDM)
Stable Diffusion 1.5, latent diffusion modeline dayanır. Bu model, görüntüleri sıkıştırılmış bir gizli alanda (latent space) işler ve bu sayede hesaplama maliyetlerini azaltır.
Ana bileşenler:
Varyasyonel Otomatik Kodlayıcı (VAE): Görüntüleri 512x512 pikselden 64x64 gizli alana sıkıştırır ve geri yükler.
U-Net: Gürültü kaldırma (denoising) işlemini gerçekleştirir.
CLIP Text Encoder: Metin istemlerini (prompt) vektörlere dönüştürerek cross-attention mekanizmasıyla görüntü üretimini yönlendirir.
Eğitim Verisi: LAION-5B veri setinin bir alt kümesi (örneğin, LAION-Aesthetics v2.6) kullanılarak eğitilmiştir.
Difüzyon Süreci: ileri difüzyonda Gauss gürültüsü eklenir, geri difüzyonda ise gürültü kaldırılarak görüntü oluşturulur.
Stable Diffusion 2.0 - 2.1
Mimari: Latent Diffusion Model (LDM) devam ediyor, ancak bazı geliştirmeler mevcut.
Daha büyük bir U-Net mimarisi ve 768x768 çözünürlük desteği eklendi.
Text encoder olarak CLIP yerine daha gelişmiş bir model (örn. OpenCLIP) kullanıldı.
Geliştirmeler:
Daha iyi görüntü kalitesi ve metin-görüntü uyumu.
insan uzuvları ve yüzlerdeki hataları azaltmak için veri seti iyileştirmeleri. Ancak, veri setindeki sınırlamalar nedeniyle hala sorunlar mevcut.
Difüzyon Türevleri: Hala klasik difüzyon modeli (DDPM - Denoising Diffusion Probabilistic Models) temelinde çalışıyor, ancak optimizasyonlar yapıldı.
Stable Diffusion XL (SDXL)
Mimari: Gelişmiş Latent Diffusion Model
U-Net: Üç kat daha büyük bir U-Net backbone kullanıldı.
Text Encoder: iki text encoder (CLIP ve OpenCLIP) kullanılarak metin-görüntü uyumu artırıldı.Çözünürlük: 1024x1024 piksele kadar native destek.Geliştirmeler:
Daha iyi insan uzuvları ve metin oluşturma yetenekleri (SDXL 0.9 ile ellerde belirgin iyileşme).
Cross-attention mekanizmasında optimizasyonlar (örn. sageattention ile bellek verimliliği artışı).
Difüzyon Türevleri: DDPM tabanlı, ancak daha hızlı örnekleme için geliştirilmiş algoritmalar (örneğin, DDIM - Denoising Diffusion Implicit Models).
Stable Diffusion 3.0 - 3.5
Mimari: Multimodal Diffusion Transformer (MMDiT)
Stable Diffusion 3.0 ve 3.5, U-Net yerine Rectified Flow Transformer (RFT) kullanıyor. Bu, difüzyon sürecini transformer tabanlı bir yaklaşımla optimize ediyor.
MMDiT: Metin ve görüntü kodlamalarını birleştiren multimodal bir transformer mimarisi. Geleneksel self-attention yerine cross-attention ve sageattention gibi mekanizmalarla daha verimli çalışıyor.Parametre Sayısı: Stable Diffusion 3.5 Large, 8 milyar parametre içeriyor.Geliştirmeler:
1 megapiksel çözünürlükte yüksek kaliteli görüntüler.
Daha iyi metin uyumu ve anatomik doğruluk (özellikle eller ve yüzler).
Tüketici donanımlarında çalışacak şekilde optimize edilmiş (Large Turbo ve Medium varyantları).Difüzyon Türevleri: Klasik DDPM yerine Rectified Flow yöntemi kullanıldı. Bu yöntem, daha hızlı ve stabil görüntü üretimi sağlıyor.
Flux.1
Mimari: Flow Matching Transformer
Flux.1, Black Forest Labs tarafından geliştirilen ve Stable Diffusion’ın bazı yaratıcılarının yer aldığı bir modeldir. 12 milyar parametre içerir.
Flow Matching: Geleneksel difüzyon modellerinden (DDPM) farklı olarak, flow matching teknolojisi kullanılır. Bu, görüntü üretimini hızlandırır ve karmaşık komutlara daha iyi uyum sağlar.Geliştirmeler:
Daha keskin, gerçekçi ve sinematik görüntüler (örneğin, hareketli sahneler ve uzay görselleri).
Anatomik doğruluk ve karmaşık komutlara uyumda üstünlük.Ancak, 24 GB VRAM gibi güçlü donanım gerektirir ve özelleştirme seçenekleri Stable Diffusion 3.5’e kıyasla daha sınırlıdır.Varyantlar:
Flux.1 [pro]: Ticari kullanım için API üzerinden erişilebilir.
Flux.1 [dev]: Açık kaynak, araştırma amaçlı.
Flux.1 [schnell]: Daha hızlı üretim için optimize edilmiş.
Eğitim Verisi: LAION-5B tabanlı veri setleri, yüksek estetik skoru olan görüntüler kullanılarak eğitildi.
Karşılaştırma ve Özet
Stable Diffusion 1.5: Latent Diffusion Model (DDPM tabanlı), temel U-Net ve CLIP encoder.
Stable Diffusion 2.x: Geliştirilmiş LDM, daha büyük U-Net, OpenCLIP encoder, 768x768 çözünürlük.
SDXL: Daha büyük U-Net, çift text encoder, 1024x1024 çözünürlük, DDIM optimizasyonları.
Stable Diffusion 3.0 - 3.5: Multimodal Diffusion Transformer (MMDiT), Rectified Flow yöntemi, 8 milyar parametre, 1 megapiksel çözünürlük.
Flux.1: Flow Matching Transformer, 12 milyar parametre, daha hızlı ve anatomik olarak doğru üretim, ancak daha fazla donanım gereksinimi.
Flux.1, Stable Diffusion’ın evriminden farklı bir yol izleyerek flow matching teknolojisine geçiş yaptı. Stable Diffusion 3.5 ise transformer tabanlı Rectified Flow ile difüzyon modellerini optimize etti. Her iki model de metin-görüntü uyumunda ve görüntü kalitesinde önemli ilerlemeler sağladı, ancak Flux.1 daha fazla donanım gerektirirken, Stable Diffusion 3.5 tüketici donanımlarına daha uygun.