BİM444 — Hafta 10
2026-04-06
| Paradigma | Veri | Öğretmen |
|---|---|---|
| Denetimli | Giriş + etiket | Var — doğru cevabı söyler |
| Denetimsiz | Yalnızca giriş | Yok — yapıyı kendin bul |
| Pekiştirmeli | Durum + ödül | Yok — sonucu kendin keşfet |
Bu hafta: Ajan deneyimden kendi politikasını öğreniyor
Bazı problemlerde etiket üretemezsiniz
Ortak özellik: Eylem → sonuç arasında zaman gecikmesi var
\[ s_t \xrightarrow{\text{eylem } a_t} \text{çevre} \xrightarrow{s_{t+1},\ r_t} \text{ajan} \]
Anlık ödül \(r_t\) değil — toplam ödül \(G_t\) hedef
\[ G_t = r_t + \gamma \cdot r_{t+1} + \gamma^2 \cdot r_{t+2} + \cdots \]
İkilem: Bildiklerimi mi kullanayım, yoksa yeni şeyler mi deneyelim?
Denge şart: hep sömürü → yerel optimumda sıkışırsın · hep keşif → hiç öğrenemezsin
Q(s, a) = “s durumunda a eylemini seçmenin uzun vadeli değeri”