HiDream, Flux ve Stable Diffusion 3 (SD3) hız ve kaliteyi farklı şekilde dengeliyor:
Merhaba Rüya :
Hız
17B parametre boyutu nedeniyle daha yavaş. HiDream I1 [hızlı] ve I1 [hızlı] (5 bit) daha hızlı, ancak yine de Flux Schnell'in gerisinde kalıyor. Sosyal medyadaki bazı kullanıcılar, nicemlenmiş sürümlerde "plastik bir his" ve daha yavaş performans olduğunu belirtiyor.
Kalite
Hızlı uyum ve tutarlı sahnelerde mükemmeldir, yaratıcılık ve mekansal mantıkta genellikle Flux'ı geride bırakır (örneğin, gerçeküstü komutlardaki öğeler arasında daha iyi etkileşim). Canlılık kontrolü ve eller gibi anatomik detaylarda zorlanır, bazen garip pozlar verir.
Akı (FLUX.1 [dev]) :
Hız
HiDream'den daha hızlı. Flux Schnell varyantları daha da hızlıdır ancak bazı ayrıntılardan feragat ederler.
Kalite
Gerçekçilik, özellikle eller ve yüz çeşitliliği açısından güçlüdür, ancak HiDream'in sunduğu yaratıcı bütünlükten yoksun olabilir. Flux, stilistik esnekliğini artıran olgun bir LoRA ekosisteminden faydalanır.
Kararlı Difüzyon 3 (SD3.5 Büyük) :
Hız
Flux ile karşılaştırılabilir, ancak karmaşık iş akışlarında daha yavaş olabilir. SD3.5, HiDream'den daha az VRAM gerektirir ve bu da onu yerel olarak daha erişilebilir kılar.
Kalite
Gerçekçi olmayan estetik ve yaş veya makyaj stilleri gibi görsel kavramlarda daha iyidir, ancak anatomi (örneğin eller, irisler) konusunda zorluk çeker ve grenli çıktılar üretebilir. Hızlı tutunma, HiDream'den daha zayıftır.
Vivago AI tarafından geliştirilen HiDream, LLaMA 3.1 8B omurgasına sahip bir Difüzyon Transformatörü (DiT) mimarisi üzerine kurulu, 17B parametreli bir görüntü oluşturma modelidir. Tasarımı Flux'a benzer olup, çok modlu bilgileri işlemek için 16 katman için Çok Modlu Difüzyon Transformatörü (MMDiT) ve ardından genel tutarlılığı optimize etmek için 32 katman için DiT kullanır. HiDream, ileri Beslemeli Ağ (FFN) alt ağında, verimliliği ve performansı artırmak için birden fazla uzmandan yararlanan bir Uzman Karışımı (MoE) yaklaşımını birleştirir. Bu hibrit yaklaşım, HiDream'in hızlı uyumluluk ve ayrıntılı işlemede mükemmelleşmesini sağlayarak genellikle diğer modellere göre daha hızlı doğruluk sağlar. Ancak, LLaMA'ya olan bağımlılığı, lisanslama kısıtlamaları getirerek, Flux'ın daha esnek lisansına kıyasla ince ayar esnekliğini sınırlar.
türkiye de insanlar o kadar aciz ve cahil bi durumdaki birçoğu bu işin gta vice city.exe sini çalıştırmak kadar basit bi işlem olduğunun farkında bile değil!
internet olmadan,
chatgpt ve grok a girmeden,
web sitelerinde vakit öldürmeden böyle bir şeye erişilemeyeceğini zannediyorlar.
ekran kısmını sadece görüntü vermek için kullanıp,
arkaplanda ağırlıklı olarak yapay zeka hesaplamaları gerçekleştiren,
ve dolgun vram boyutlarıyla binlerce tensör, ai, ray tracing çekirdeğine sahip canavarlar.
acınası tr gerçeği,
hiçbir zaman global pazara açılamayacağız demek bu.
çin gibi kendi ai kartlarımızı da üretemiyoruz biz.
bakın huawei ascend projesine,
adamlar abd ambargolarına rağmen her geçen sene yeni bi ivme kaydediyorlar,
yapay zeka sektörüne kazandırdıkları binlerce model,
onlarca github projesi ve kapalı kaynak kodlu yazılım ekosistemi de cabası! https://galeri.uludagsozluk.com/r/2430726/+
dünyanın en pahalı otomobilleri bile kapışılırken,
onca talebe rağmen stokta olmayan sayısız yapay zeka kartı var,
bunlar chatgpt gibi uygulamalarda, üniversite sunucularında onlarca kullanıcının çıktı almasına imkan tanıyan endüstriyel ürünler!
görmek beni oldukça etkiledi. Lisa Su'nun AMD gemisini yönlendirmek için elinden geleni yaptığını GPU'larda daha iyi yapay zeka desteği Huggingface ortaklığı ve ikna edici bir şekilde George Hotz daha fazla hata raporu gönderecek.
(Bağlam için, Hotz, RX 7900 XTX desteğini iyileştirmek ve 15.000 $'lık bir cihaz satmak için 5 milyon $ topladı 65B parametreli LLM'leri çalıştıran önceden oluşturulmuş tüketici bilgisayarı. Çok sayıda sürücü neredeyse (Daha sonra çöküntüler yaşayınca AMD'den vazgeçiyordu .)
Ancak üstesinden gelinmesi gereken birkaç sorun var. Bu GPU harika olsa da ( GPU maliyeti başına Kararlı Difüzyon yineleme hızı en üst seviyededir), yüzeysel bir çalışma hatalı olacaktır: TechPowerUp, TomsHardware vb. gibi genel GPU kıyaslamaları şunları veriyor:
RX 7900 XTX: 123 TFLOPS
RTX 4090: 82,58 TFLOPS
Peki bu rakamlar nereden geliyor?
Resmi bir döküm olmasa da, sadece resmi rakamlar , insanlar bunu şu şekilde hesaplıyor:
için NVIDIA : Boost Saati (THz) × CUDA Çekirdekleri × 2 (FMA talimatı iki kayan nokta işlemi yaptığından (1 CUDA çekirdek döngüsünde bir çarpma ve bir toplama).
için AMD RDNA3'teki : Yükseltme Frekansı (THz) × Akış işlemcileri × 2 (çift sayı) × 4 (nokta ürünü) , gibi RDNA3'ün sahip olduğu V_DUAL_DOT2ACC_F32_F16, iki nokta çarpımı yapan (a×b+c×d+e, 4 işlem), 1 işlemci döngüsünde.
Ancak bu haksız bir karşılaştırmadır, çünkü AMD'nin talimatı daha dar bir alana yöneliktir. FMA'dan daha iyi (bu performans tatlı noktasına ulaşmak bu nedenle nadirdir), ve bu GPU'ların her ikisinin de kollarında başka numaralar olduğundan, üstün FLOPS'lar üretiyor.
en büyük sorun NVIDIA'daki Tensor çekirdekleridir . Onlarla, şu komutu çalıştırabilirsiniz: 4×4'ten 4×8'e matris çarpımı (sayfa 25) tek bir Tensör Çekirdek (32 CUDA çekirdeği) içinde 1 döngüde.
google, openai gibi büyük firmaların desteği olmaksızın,
2-3 bin dolarlık pc lerde sınırsız üretim yapabileceğimiz yeni bi çağa doğru ilerliyoruz: https://galeri.uludagsozluk.com/r/2430713/+
20-24-32 gb vraminiz varsa,
fp8 veri formatındaki varyantları kullanarak dilediğiniz gibi çıktı alabiliyorsunuz.
orijinal resim: https://galeri.uludagsozluk.com/r/2430710/+
envai çeşit sonsuz yolu var,
orijinal fotoğrafta llava modeliyle örnek suratın tasvirini alıp,
bunu prompt olarak girebilirsin,
fotoğrafı latent olarak genişleterek,
modelden aslına uygun bir çıktı alman da mümkün,
eksik fotoğrafın siyah arkaplanın önüne alıp,
ekran görüntüsü alıp,
bu ekran görüntüsündeki karanlık alanı maskeleyerek yeniden üretmen de.
ya sen bu işi nasıl yapıyorsun diyenler olabilir,
erkek tarafı için colani ye ait fotoğraflar,
kadın tarafı için rastgele kadın yüzlerinden oluşan verisetiyle eğitilmiş bi modeli kullanarak,
colaninin çocuklarıyla torunlarının, kadın suratlarının neye benzeyebileceğini rahatlıkla çıkarsayabiliyorum.