yapay nöronlarla yeme ulaşmayı öğrenen ajan

1.

78 yapay nöronla yarattığımız mimari,
giriş katmanında sadece 10 nöron var,
32 nöronluk 2 adet gizli katmana sahibiz,
çıkışı 4 nörondan alıyoruz:

10+32+32+4=78!
https://galeri.uludagsozluk.com/r/2435954/+

Genel Mimari:
Girdi katmanı (input layer):

10 nöron var.

Bu 10 sayıdan 2'si ajan (avcı) pozisyonunun normalize edilmiş (0-1 arası) x ve y koordinatları.

Geri kalan 8 sayı, avcının etrafındaki 8 hücrelik çevrenin (duvar mı boş mu) bilgisi.

Bu sayede ajan kendisinin nerede olduğunu ve çevresindeki engelleri "görür".

Gizli Katmanlar:

iki adet gizli katman, her biri 32 nöron içerir.

Bu katmanlar, girdiden gelen bilgileri işler, karmaşık özellikler çıkarır (örneğin, hangi yönün engelli olduğu, hedefe ulaşmak için olası rotalar gibi).

Buradaki nöronlar ağırlıklarıyla girdileri çarpar ve toplayarak ileri geçirir, ardından ReLU aktivasyonuyla negatif değerleri sıfırlar.

Çıkış Katmanı:

4 nöron var.

Bunlar, ajan için 4 olası hareketi temsil eder: Yukarı, Aşağı, Sol, Sağ.

Her nöronun çıktısı, o hareketin beklenen "değerini" (Q-değeri) gösterir.

Ağırlıklar ve Parametreler:
Her katmanda ağırlıklar, nöronların girdileri nasıl birleştireceğini belirler.

Örneğin, bir gizli katmandaki bir nöron, 10 veya 32 farklı girdiden gelen sinyalleri ağırlıklarla çarpar, toplar ve üzerine bias ekler.

Bu parametreler (ağırlıklar + bias) eğitim sürecinde güncellenir, böylece ağ hangi girdilerin daha önemli olduğunu öğrenir.

Nöronların işleyişi:
Girdi vektörü → ağırlık matrisleri ile çarpılır → bias eklenir → aktivasyon uygulanır (ReLU veya doğrusal).

Böylece ilk katmandaki 10 sayı, 32 adet özellik değerine dönüşür.

Sonraki katmanda yine benzer işlemle özellikler daha soyut hale gelir.

Çıkış katmanında ise 4 sayı elde edilir; bunlar ajan için hareket önerileridir.

Mazede Avcı (Agent) ile Yem (Goal) Arasındaki ilişki:
State (durum): Agent'ın pozisyonu ve çevresi (duvarlar ve boşluklar) ağın girdi olarak aldığı bilgi.

Action (eylem): Agent, ağın çıktısına göre hareket eder.

Ağ, duruma göre dört hareketin her birinin beklenen ödülünü (Q-değerini) tahmin eder.

En yüksek Q-değerine sahip hareket seçilir (veya epsilon ile bazen rastgele hareket).

Reward (ödül):

Duvara çarptığında -1 ceza (agent yanlış karar verir).

Hedefe ulaşınca +10 ödül.

Bu ödüller, ağın ağırlıklarını güncellemesini sağlar, doğru hareketleri öğrenir.

Learning (öğrenme):

Agent, hareket sonrası aldığı ödül ve yeni duruma bakarak tahminlerini günceller.

Böylece zamanla labirentin yapısını ve hedefe ulaşma stratejilerini öğrenir.

Özet Akış:
Agent pozisyonu ve çevresi ağın girdisi olur.

Ağ bu girdiyi işleyip 4 hareketin değerini tahmin eder.

Agent hareket seçer ve labirentte yer değiştirir.

Ödül alır (ceza veya hedefe ulaşma ödülü).

Ağın ağırlıkları, tahmin hatasını minimize etmek için güncellenir.

Süreç tekrar eder, ajan labirenti daha iyi keşfeder ve hedefe ulaşmayı öğrenir.

ellerim bos gonlum hos 63 gün önce

0 ...

2.

Labirent Nedir?
Diyelim ki elimizde küçük bir oyun alanı var — içine duvarlar çizilmiş ve içinde hedef (yem) var.

Avcı bu labirentte dolaşıyor.

Amacı, yemeye (hedefe) ulaşmak.

Avcı Ne Biliyor?
Avcı nerede olduğunu ve çevresindeki 8 yöne (önü, yanları, çaprazlar) bakarak duvar var mı yok mu anlıyor.

Yani:

Şu an avcı “nerede?” (x ve y konumu)

Çevresinde sağda, solda, yukarıda, aşağıda ve çaprazlarda duvar var mı, yok mu?

Bu bilgi, avcının beynine (yapay sinir ağına) veriliyor.

Avcının Beyni (Yapay Sinir Ağı) Nedir?
Bu “beyin” 10 tane küçük düşünce hücresinden (nöron) oluşuyor.

Avcının pozisyonu ve çevresindeki duvar bilgisi bu 10 küçük hücreye giriyor.

Avcının Beyni Ne Yapıyor?
ilk olarak bu 10 hücre, bilgiyi diğer daha büyük hücrelere gönderiyor (ilk gizli katman: 32 nöron).

Bu 32 hücre gelen bilgileri toplayıp değerlendiriyor.

Sonra bu 32 hücre bilgiyi başka 32 hücreye iletiyor (ikinci gizli katman).

En son 32 hücre, 4 küçük hücreye iletiyor.

Bu 4 Hücre Ne Anlama Geliyor?
Her biri bir hareketi temsil ediyor:

Yukarı

Aşağı

Sol

Sağ

Her hücre bir sayı söylüyor; o sayının büyüklüğü o hareketin ne kadar iyi olduğunu söylüyor.

Avcı Hareketini Nasıl Seçiyor?
Beyninden çıkan bu 4 sayıdan en büyüğünü seçiyor.

Örneğin, yukarı hareketi için 0.8, sağ için 0.5, sol için 0.2, aşağı için 0.1 ise “yukarı” hareket ediyor.

Ama bazen (başlangıçta) rastgele hareket ederek keşif yapıyor.

Hareket Edince Ne Oluyor?
Avcı labirentte yeni bir yere gidiyor.

Eğer duvara çarparsa kötü puan alıyor (-1),

Eğer hedefe ulaşırsa iyi puan alıyor (+10).

Bu puanlar avcının beynindeki ağırlıkların (yani öğrenme kurallarının) güncellenmesine yardımcı oluyor.

Avcı Neden Öğreniyor?
Her hareketten sonra beynindeki bağlantılar (ağırlıklar) güncelleniyor.

Bu sayede zamanla hangi hareketin daha iyi olduğunu öğreniyor.

Böylece yavaş yavaş labirentte daha doğru, hedefe giden adımlar atmaya başlıyor.

ellerim bos gonlum hos 63 gün önce

0 ...

3.

Katman | Nöron | Girdi | Ağırlık | Bias | Toplam Parametre
-----------------|--------|-------|--------------|------|-----------------
Girdi→Gizli1 | 32 | 10 | 32 × 10 =320 | 32 | 352
Gizli1→Gizli2 | 32 | 32 | 32 × 32=1024 | 32 | 1056
Gizli2→Çıkış | 4 | 32 | 4 × 32 =128 | 4 | 132

ellerim bos gonlum hos 63 gün önce

0 ...

4.

kaynak kod ve başarı oranı:

https://galeri.uludagsozluk.com/r/2435956/+

https://github.com/edswrr...lob/main/labirentcikis.py

ellerim bos gonlum hos 63 gün önce

0 ...

5.

Nöron leyn...

manyak olmaya karar verdim

63 gün önce

0 ...