Alpha-Beta Budama ve Modern Oyun Yapay Zekası
BİM444 — Hafta 5 · Ders 3
2026-03-23
Minimax Neden Ölçeklenmiyor?
Önceki derste minimax kararı nasıl verdiğini gördük.
Sorun: tüm ağacı geziyor.
- Satranç: b≈35, m≈100 → 10^120 durum → fiziksel olarak imkânsız
İki temel çözüm:
- Bazı dalları hiç açmadan kesmek — karar değişmeden
- Terminale gitmeden yaklaşık değerleme yapmak
Alpha-Beta Fikri
Bazı dalların sonucu kesinlikle etkilemeyeceği önceden bilinebilir.
Bu dalları hiç açmadan kes → aynı karar, daha az hesap
Budama Örneği
Adım adım:
- Sol dal incelenir → MIN sol = min(3,5) = 3 → α = 3
- Orta dal incelenir → MIN orta = min(6,9) = 6 → α = 6
- Sağ dal: ilk yaprak = 1 → MIN sağ ≤ 1 < α=6 → MAX bu dalı seçmez
- 7 yaprağı incelenmeden kesildi
Alpha ve Beta Sınırları
- α (alpha): MAX’ın bulduğu en iyi değer — alt sınır
- β (beta): MIN’in bulduğu en iyi değer — üst sınır
Budama koşulları:
- MIN düğümünde
v ≤ α → dal kesilir — MAX bu yolu zaten seçmez
- MAX düğümünde
v ≥ β → dal kesilir — MIN bu yolu zaten seçmez
Sıralama Neden Önemli?
Alpha-beta’nın kazancı doğrudan inceleme sırasına bağlı:
| Mükemmel (en iyi hamleler önce) |
O(b^(m/2)) |
| Rastgele |
O(b^(3m/4)) |
| En kötü (en kötü hamleler önce) |
O(b^m) — budama yok |
Mükemmel sıralamada: satranç b=35 → etkin b≈6 · aynı sürede iki kat daha derin
Kesme ve Değerlendirme Fonksiyonu
Alpha-beta sonrasında da ağaç büyük — başka araç gerekiyor:
- Kesme testi
CUTOFF(s, d): belli derinlikte dur
- Değerlendirme fonksiyonu
EVAL(s): terminal olmayan duruma sayısal değer ver
H-Minimax = Minimax + kesme testi + eval
Satrançta Eval Fonksiyonu
| Vezir |
9 |
| Kale |
5 |
| Fil / At |
3 |
| Piyon |
1 |
Üzerine eklenen: merkez kontrolü · kale açıklığı · şah güvenliği · piyon yapısı
Yataysallık Etkisi (Horizon Effect)
Sabit derinlikte kesince: tehlikeli durum kesim noktasının hemen ötesinde kalabilir
| d=4’te kes |
Pozisyon dengeli |
d=5’te vezir kaybı var |
- Ajan tehlikeyi görmüyor → sahte iyi değerlendirme
- Çözüm: quiescence search — taktiksel açıdan sakin olmayan pozisyonları daha derine tara
Kısa Ufuk: Stochastic Games
Tavla gibi oyunlarda şans unsuru var: zar atışı
Oyun ağacına şans düğümleri ekleniyor:
MAX → chance → MIN → chance → MAX → …
ExpectiMinimax: Şans düğümünün değeri = çocukların olasılık-ağırlıklı ortalaması
Kısa Ufuk: Deep Blue’dan AlphaZero’ya
| Deep Blue (1997) |
Elle yazılmış ~8.000 kural |
Minimax + α-β |
| AlphaGo (2016) |
Policy + value ağı (insan verisi) |
MCTS |
| AlphaZero (2017) |
Tek ağ — self-play ile öğrenilmiş |
MCTS |
Büyük fikir: Problem değişmedi — büyük uzayda iyi karar. Değişen: eval’in kaynağı.
Kapanış: Bu Hafta Neyi Gördük?
İki sınır vakası:
- Yerel arama: yolun değil varış noktasının önemli olduğu durumlar
- Düşmanca arama: çevrenin bize karşı oynadığı durumlar
Ortak kısıt: Tam arama ağacı oluşturmak imkânsız — her biri farklı biçimde başa çıkıyor
Bilgisiz aramadan A*’a, minimax’a, AlphaZero’ya — hepsinin özünde aynı soru: çok büyük uzaylarda nasıl iyi karar alınır?