Pekiştirmeli Öğrenme

BİM444 — Hafta 10

Öğr. Gör. Oktay Cesur

2026-04-06

Pekiştirmeli Öğrenme

Üç Paradigmayı Tamamlıyoruz

Paradigma Veri Öğretmen
Denetimli Giriş + etiket Var — doğru cevabı söyler
Denetimsiz Yalnızca giriş Yok — yapıyı kendin bul
Pekiştirmeli Durum + ödül Yok — sonucu kendin keşfet

Bu hafta: Ajan deneyimden kendi politikasını öğreniyor

Neden Pekiştirmeli Öğrenme?

Bazı problemlerde etiket üretemezsiniz

  • Satranç: hangi hamle “doğru”? — oyun bitene kadar bilinmiyor
  • Robot yürüyüşü: her adımın etiketi ne? — kimse bilmiyor
  • Reklam gösterimi: hangi sıra en iyi? — tıklama sonunda anlaşılıyor

Ortak özellik: Eylem → sonuç arasında zaman gecikmesi var

Temel Kavramlar

  • Ajan (Agent): kararı veren
  • Çevre (Environment): ajanın içinde olduğu dünya
  • Durum (State) \(s\): çevrenin anlık görüntüsü
  • Eylem (Action) \(a\): ajanın yapabileceği hamleler
  • Ödül (Reward) \(r\): eylemin hemen ardından gelen sinyal
  • Politika (Policy) \(\pi\): hangi durumda hangi eylem → öğrenilecek olan bu

Döngü: Ajan ↔︎ Çevre

\[ s_t \xrightarrow{\text{eylem } a_t} \text{çevre} \xrightarrow{s_{t+1},\ r_t} \text{ajan} \]

  • Ajan \(s_t\) durumunu görür → \(a_t\) eylemini seçer
  • Çevre \(s_{t+1}\) yeni durumu ve \(r_t\) ödülünü geri gönderir
  • Bu döngü tekrarlanır → deneyim birikir → politika gelişir

Ödül ve Uzun Vadeli Düşünme

Anlık ödül \(r_t\) değil — toplam ödül \(G_t\) hedef

\[ G_t = r_t + \gamma \cdot r_{t+1} + \gamma^2 \cdot r_{t+2} + \cdots \]

  • \(\gamma\) (gamma): iskonto faktörü — \(0 < \gamma < 1\)
  • Gelecekteki ödüller bugünden daha az değerli
  • Ajan hem şimdiki hem gelecekteki ödülü dengeler

Keşif mi, Sömürü mü?

İkilem: Bildiklerimi mi kullanayım, yoksa yeni şeyler mi deneyelim?

  • Sömürü (Exploitation): şimdiye kadar öğrenilmiş en iyi eylemi seç
  • Keşif (Exploration): bilinmeyen eylemleri dene, belki daha iyisi var

Denge şart: hep sömürü → yerel optimumda sıkışırsın · hep keşif → hiç öğrenemezsin

Q-Learning: Sezgi

Q(s, a) = “s durumunda a eylemini seçmenin uzun vadeli değeri”

  • Her (durum, eylem) çifti için bir değer tablo
  • Deneyim geldikçe tablo güncellenir
  • Öğrenme tamamlanınca: her durumda en yüksek Q değerli eylemi seç

Uygulama: Nerede Görüyoruz?

  • Oyun oynama: AlphaGo, Atari oyunları — insanı geçti
  • Robot kontrolü: yürüyüş, kavrama, denge
  • Öneri sistemleri: hangi içeriği göstereyim ki kullanıcı kalsın?
  • Enerji yönetimi: Google veri merkezi soğutması — %40 enerji tasarrufu
  • Diyalog sistemleri: konuşmayı nasıl sürdüreyim?

Ajan Bağlantısı

  • Dersin ilk haftası: ajan, çevre, algı, eylem
  • Pekiştirmeli öğrenme: bu döngüyü öğrenen bir sisteme dönüştürüyor
  • Politika elle yazılmıyor — deneyimden öğreniliyor
  • Hedef tabanlı ajan → öğrenen ajan

Özet

  • Pekiştirmeli öğrenme: ödül sinyalinden politika öğren
  • Temel döngü: durum → eylem → ödül → güncelle → tekrar
  • Gecikmiş geri bildirim: anlık değil, uzun vadeli toplam ödül hedef (\(G_t\))
  • İkilem: keşif ↔︎ sömürü — denge şart
  • Q-learning: (durum, eylem) → değer tablosu → en iyiyi seç
  • Ajan bağlantısı: dersin başından beri konuştuğumuz ajan, şimdi öğreniyor