Bu 10 sayıdan 2'si ajan (avcı) pozisyonunun normalize edilmiş (0-1 arası) x ve y koordinatları.
Geri kalan 8 sayı, avcının etrafındaki 8 hücrelik çevrenin (duvar mı boş mu) bilgisi.
Bu sayede ajan kendisinin nerede olduğunu ve çevresindeki engelleri "görür".
Gizli Katmanlar:
iki adet gizli katman, her biri 32 nöron içerir.
Bu katmanlar, girdiden gelen bilgileri işler, karmaşık özellikler çıkarır (örneğin, hangi yönün engelli olduğu, hedefe ulaşmak için olası rotalar gibi).
Buradaki nöronlar ağırlıklarıyla girdileri çarpar ve toplayarak ileri geçirir, ardından ReLU aktivasyonuyla negatif değerleri sıfırlar.
Çıkış Katmanı:
4 nöron var.
Bunlar, ajan için 4 olası hareketi temsil eder: Yukarı, Aşağı, Sol, Sağ.
Her nöronun çıktısı, o hareketin beklenen "değerini" (Q-değeri) gösterir.
Ağırlıklar ve Parametreler:
Her katmanda ağırlıklar, nöronların girdileri nasıl birleştireceğini belirler.
Örneğin, bir gizli katmandaki bir nöron, 10 veya 32 farklı girdiden gelen sinyalleri ağırlıklarla çarpar, toplar ve üzerine bias ekler.
Bu parametreler (ağırlıklar + bias) eğitim sürecinde güncellenir, böylece ağ hangi girdilerin daha önemli olduğunu öğrenir.
Nöronların işleyişi:
Girdi vektörü → ağırlık matrisleri ile çarpılır → bias eklenir → aktivasyon uygulanır (ReLU veya doğrusal).
Böylece ilk katmandaki 10 sayı, 32 adet özellik değerine dönüşür.
Sonraki katmanda yine benzer işlemle özellikler daha soyut hale gelir.
Çıkış katmanında ise 4 sayı elde edilir; bunlar ajan için hareket önerileridir.
Mazede Avcı (Agent) ile Yem (Goal) Arasındaki ilişki:
State (durum): Agent'ın pozisyonu ve çevresi (duvarlar ve boşluklar) ağın girdi olarak aldığı bilgi.
Action (eylem): Agent, ağın çıktısına göre hareket eder.
Ağ, duruma göre dört hareketin her birinin beklenen ödülünü (Q-değerini) tahmin eder.
En yüksek Q-değerine sahip hareket seçilir (veya epsilon ile bazen rastgele hareket).
Reward (ödül):
Duvara çarptığında -1 ceza (agent yanlış karar verir).
Hedefe ulaşınca +10 ödül.
Bu ödüller, ağın ağırlıklarını güncellemesini sağlar, doğru hareketleri öğrenir.
Learning (öğrenme):
Agent, hareket sonrası aldığı ödül ve yeni duruma bakarak tahminlerini günceller.
Böylece zamanla labirentin yapısını ve hedefe ulaşma stratejilerini öğrenir.
Özet Akış:
Agent pozisyonu ve çevresi ağın girdisi olur.
Ağ bu girdiyi işleyip 4 hareketin değerini tahmin eder.
Agent hareket seçer ve labirentte yer değiştirir.
Ödül alır (ceza veya hedefe ulaşma ödülü).
Ağın ağırlıkları, tahmin hatasını minimize etmek için güncellenir.
Süreç tekrar eder, ajan labirenti daha iyi keşfeder ve hedefe ulaşmayı öğrenir.