Oktay Cesur – Pekiştirmeli Öğrenme

Pekiştirmeli Öğrenme

Üç Paradigmayı Tamamlıyoruz

Paradigma	Veri	Öğretmen
Denetimli	Giriş + etiket	Var — doğru cevabı söyler
Denetimsiz	Yalnızca giriş	Yok — yapıyı kendin bul
Pekiştirmeli	Durum + ödül	Yok — sonucu kendin keşfet

Bu hafta: Ajan deneyimden kendi politikasını öğreniyor

Neden Pekiştirmeli Öğrenme?

Bazı problemlerde etiket üretemezsiniz

Satranç: hangi hamle “doğru”? — oyun bitene kadar bilinmiyor
Robot yürüyüşü: her adımın etiketi ne? — kimse bilmiyor
Reklam gösterimi: hangi sıra en iyi? — tıklama sonunda anlaşılıyor

Ortak özellik: Eylem → sonuç arasında zaman gecikmesi var

Temel Kavramlar

Ajan (Agent): kararı veren
Çevre (Environment): ajanın içinde olduğu dünya
Durum (State) \(s\): çevrenin anlık görüntüsü
Eylem (Action) \(a\): ajanın yapabileceği hamleler
Ödül (Reward) \(r\): eylemin hemen ardından gelen sinyal
Politika (Policy) \(\pi\): hangi durumda hangi eylem → öğrenilecek olan bu

Bu altı kavram pekiştirmeli öğrenmenin tüm dilini oluşturuyor.

Ajan karar veriyor. Çevre bu kararı alıyor ve yeni bir durum üretiyor. Aynı zamanda ödül — ya da ceza — gönderiyor. Ajan bu ödülü gözlemliyor ve gelecekte daha iyi kararlar vermek için kullanıyor.

Politika ajanın stratejisi: “durum s’deyim, eylem a’yı seçiyorum.” Bu bir tablo olabilir, bir formül olabilir, bir sinir ağı olabilir. Önemli olan: politika öğreniliyor — başta kötü, zamanla iyi.

Ödül kısa vadeli bir sinyal. Asıl hedef kısa vadeli ödülü değil, uzun vadeli toplam ödülü maksimize etmek. Bu fark kritik — bazen kısa vadede ödülü bırakmak uzun vadede daha fazlasını getiriyor.

Bu terminoloji size tanıdık gelecek: dersin ilk haftasında “ajan, çevre, algı, eylem” diye konuşmuştuk. Pekiştirmeli öğrenme tam olarak o ajanı öğrenen bir sisteme dönüştürüyor.

Döngü: Ajan ↔︎ Çevre

\[ s_t \xrightarrow{\text{eylem } a_t} \text{çevre} \xrightarrow{s_{t+1},\ r_t} \text{ajan} \]

Ajan \(s_t\) durumunu görür → \(a_t\) eylemini seçer
Çevre \(s_{t+1}\) yeni durumu ve \(r_t\) ödülünü geri gönderir
Bu döngü tekrarlanır → deneyim birikir → politika gelişir

Ödül ve Uzun Vadeli Düşünme

Anlık ödül \(r_t\) değil — toplam ödül \(G_t\) hedef

\[ G_t = r_t + \gamma \cdot r_{t+1} + \gamma^2 \cdot r_{t+2} + \cdots \]

\(\gamma\) (gamma): iskonto faktörü — \(0 < \gamma < 1\)
Gelecekteki ödüller bugünden daha az değerli
Ajan hem şimdiki hem gelecekteki ödülü dengeler

Bu formüldeki \(\gamma\) — iskonto faktörü — çok önemli bir kavramı temsil ediyor.

Neden gelecekteki ödülleri iskonto ediyoruz? İki nedeni var. Birincisi, belirsizlik: gelecek kesin değil, şimdiki ödül elle tutulur. İkincisi, pratik hesaplama: sonsuz bir zaman ufkunu çözümlenebilir yapmak için.

\(\gamma = 0.9\) dersek: bir adım sonraki ödülün ağırlığı 0.9, iki adım sonraki 0.81, üç adım sonraki 0.73… Giderek azalıyor ama sıfıra düşmüyor.

Bunun pratik sonucu: ajan sadece anlık ödüle bakamaz. Satranç örneğine dönelim — bir taşı yemek anlık ödül verebilir ama üç hamle sonra mat yenilgisine yol açabilir. İyi bir ajan uzun vadeli toplam ödülü maksimize eden eylemleri öğreniyor.

Bu “uzun vadeli düşünme” insanların da çok zorlandığı bir şey. Pekiştirmeli öğrenmede bu matematiksel olarak formüle ediliyor.

Keşif mi, Sömürü mü?

İkilem: Bildiklerimi mi kullanayım, yoksa yeni şeyler mi deneyelim?

Sömürü (Exploitation): şimdiye kadar öğrenilmiş en iyi eylemi seç
Keşif (Exploration): bilinmeyen eylemleri dene, belki daha iyisi var

Denge şart: hep sömürü → yerel optimumda sıkışırsın · hep keşif → hiç öğrenemezsin

Bu ikilem pekiştirmeli öğrenmenin en ilgi çekici kavramlarından biri.

Şöyle düşünün: yeni bir şehirde yemek yiyeceksiniz. Dün gittiğiniz restoran iyiydi. Bugün aynı yere mi dönersiniz (sömürü) yoksa yeni bir yer mi denersiniz (keşif)? Eğer hep aynı yere giderseniz, belki beş dakika ötedeki mükemmel restoranı asla bulamazsınız. Hep yeni yer denerseniz, sürekli kötü deneyimler yaşarsınız.

Pekiştirmeli öğrenmede bu ikilem algoritmik olarak çözülmek zorunda. Yaygın strateji: başlangıçta çok keşfet, zamanla giderek daha fazla sömür. Epsilon-greedy yöntemi bunun basit halidir: yüzde epsilon olasılıkla rastgele eylem, yüzde (1-epsilon) olasılıkla en iyi bilinen eylem. Epsilon zamanla azalıyor.

Bu denge her öğrenen sistemde var — insanlarda da.

Q-Learning: Sezgi

Q(s, a) = “s durumunda a eylemini seçmenin uzun vadeli değeri”

Her (durum, eylem) çifti için bir değer tablo
Deneyim geldikçe tablo güncellenir
Öğrenme tamamlanınca: her durumda en yüksek Q değerli eylemi seç

Q-learning pekiştirmeli öğrenmenin en temel ve anlaşılır algoritmalarından biri.

Fikir şu: her durum-eylem çifti için bir değer tutuyoruz. “Şu durumda bu eylemi seçersem uzun vadede ne kadar ödül bekleyebilirim?” sorusunun cevabı bu değer.

Başta bu değerler rastgele ya da sıfır. Ajan deneyim yaşadıkça — eylem al, ödül gör, yeni duruma bak — bu değerleri güncelliyoruz. Güncelleme şöyle çalışıyor: “Beklediğimden daha iyi mi çıktı? O zaman bu eylem-durum çiftinin değerini biraz artır. Daha kötü mü? Biraz azalt.”

Yeterince deneyim biriktikten sonra tablo iyi tahminlere yaklaşmış oluyor. Artık her durumda tabloya bakıyor ve en yüksek Q değerli eylemi seçiyoruz.

Sorun: durum ve eylem uzayı büyüdükçe tablo tutmak imkânsız hale geliyor. Çözüm: tabloyu bir sinir ağıyla temsil et — bu Deep Q-Network, DQN. AlphaGo ve Atari oyunlarını oynayan sistemler temelde bunu kullanıyor.

Uygulama: Nerede Görüyoruz?

Oyun oynama: AlphaGo, Atari oyunları — insanı geçti
Robot kontrolü: yürüyüş, kavrama, denge
Öneri sistemleri: hangi içeriği göstereyim ki kullanıcı kalsın?
Enerji yönetimi: Google veri merkezi soğutması — %40 enerji tasarrufu
Diyalog sistemleri: konuşmayı nasıl sürdüreyim?

Pekiştirmeli öğrenme artık laboratuvardan çıkıp gerçek dünya problemlerine uygulanıyor.

AlphaGo hikâyesi çarpıcı: Go oyununda durum uzayı satranç’tan kat kat büyük — olası pozisyon sayısı evrendeki atomlardan fazla. Kural tabanlı ya da klasik arama algoritmaları ile çözmek imkânsız. DeepMind, pekiştirmeli öğrenmeyi derin öğrenmeyle birleştirerek dünya şampiyonunu yendi. 2016’da tarihe geçti.

Google’ın veri merkezi soğutma sistemi daha az bilinen ama belki daha etkileyici bir örnek. Binlerce sensör verisi, karmaşık termal dinamikler, çok sayıda kontrol kararı. RL sistemi kuruldu, milyonlarca sanal deneyimle eğitildi ve gerçek sistemde %40 enerji tasarrufu sağladı.

Öneri sistemleri biraz farklı: Netflix, YouTube, Spotify. “Hangi içeriği göstereyim ki kullanıcı platformda kalsın?” Bu da bir eylem-ödül döngüsü.

Ajan Bağlantısı

Dersin ilk haftası: ajan, çevre, algı, eylem
Pekiştirmeli öğrenme: bu döngüyü öğrenen bir sisteme dönüştürüyor
Politika elle yazılmıyor — deneyimden öğreniliyor
Hedef tabanlı ajan → öğrenen ajan

Özet

Pekiştirmeli öğrenme: ödül sinyalinden politika öğren
Temel döngü: durum → eylem → ödül → güncelle → tekrar
Gecikmiş geri bildirim: anlık değil, uzun vadeli toplam ödül hedef (\(G_t\))
İkilem: keşif ↔︎ sömürü — denge şart
Q-learning: (durum, eylem) → değer tablosu → en iyiyi seç
Ajan bağlantısı: dersin başından beri konuştuğumuz ajan, şimdi öğreniyor