Oktay Cesur – Alpha-Beta Budama ve Modern Oyun Yapay Zekası

Minimax Neden Ölçeklenmiyor?

Önceki derste minimax kararı nasıl verdiğini gördük.

Sorun: tüm ağacı geziyor.

Satranç: b≈35, m≈100 → 10^120 durum → fiziksel olarak imkânsız

İki temel çözüm:

Bazı dalları hiç açmadan kesmek — karar değişmeden
Terminale gitmeden yaklaşık değerleme yapmak

Alpha-Beta Fikri

Bazı dalların sonucu kesinlikle etkilemeyeceği önceden bilinebilir.

Bu dalları hiç açmadan kes → aynı karar, daha az hesap

Budama Örneği

Adım adım:

Sol dal incelenir → MIN sol = min(3,5) = 3 → α = 3
Orta dal incelenir → MIN orta = min(6,9) = 6 → α = 6
Sağ dal: ilk yaprak = 1 → MIN sağ ≤ 1 < α=6 → MAX bu dalı seçmez
7 yaprağı incelenmeden kesildi

Alpha ve Beta Sınırları

α (alpha): MAX’ın bulduğu en iyi değer — alt sınır
β (beta): MIN’in bulduğu en iyi değer — üst sınır

Budama koşulları:

MIN düğümünde v ≤ α → dal kesilir — MAX bu yolu zaten seçmez
MAX düğümünde v ≥ β → dal kesilir — MIN bu yolu zaten seçmez

Alpha ve beta iki izleme değeri; arama boyunca sürekli güncelleniyor. Alpha MAX’ın garanti edebildiği alt sınırı tutuyor: “Buraya kadar gördüğümde en az bu kadarı alabilirim.” Beta MIN’in garanti edebildiği üst sınırı tutuyor: “Buraya kadar gördüğümde en fazla bunu veririm.”

Budama koşuluna bakın: MIN düğümünde bir değer α’dan küçük eşit bulunursa dal kesilir. Çünkü MAX zaten α kadarını garantilemiş; MIN’in bu dalda vereceği değer α’dan düşük olacak — MAX bu dalı seçmez. Simetrik olarak MAX düğümünde β’dan büyük eşit değer bulunursa dal kesilir: MIN zaten β kadarını garantilemiş; bu daldan daha yüksek bir değer gelse bile MIN seçmez.

Bu iki koşul birlikte hem MAX hem MIN tarafında gereksiz alanı kesiyor.

Sıralama Neden Önemli?

Alpha-beta’nın kazancı doğrudan inceleme sırasına bağlı:

Hamle sıralaması	Zaman karmaşıklığı
Mükemmel (en iyi hamleler önce)	O(b^(m/2))
Rastgele	O(b^(3m/4))
En kötü (en kötü hamleler önce)	O(b^m) — budama yok

Mükemmel sıralamada: satranç b=35 → etkin b≈6 · aynı sürede iki kat daha derin

Mükemmel sıralama ne demek? En iyi hamlelerin önce incelenmesi. MAX için en yüksek değeri veren hamle ilk açılırsa α hızlı yükseliyor ve sonraki dallarda daha agresif budama yapılabiliyor. MIN için simetrik: en düşük değeri veren hamle ilk açılırsa β hızlı düşüyor.

Pratikte mükemmel sıralamayı önceden bilemeyiz — bunu bilseydik zaten cevabı bilirdik. Ama iyi tahminlerle yaklaşabiliriz. Killer heuristic bunun bir örneği: aynı derinlik seviyesinde daha önce iyi kesme sağlamış hamleyi tekrar dene. Iterative deepening ile sıralama da kullanılıyor: önceki daha yüzeysel aramada iyi bulunan hamleler bir sonraki aramada önce inceleniyor.

Tabloya bakın: mükemmel sıralamada O(b^(m/2)). Satranç için bu b=35’ten etkin b≈6’ya düşmek demek — aynı sürede ağacın iki kat daha derine bakılabilmesi.

Kesme ve Değerlendirme Fonksiyonu

Alpha-beta sonrasında da ağaç büyük — başka araç gerekiyor:

Kesme testi CUTOFF(s, d): belli derinlikte dur
Değerlendirme fonksiyonu EVAL(s): terminal olmayan duruma sayısal değer ver

H-Minimax = Minimax + kesme testi + eval

Satrançta Eval Fonksiyonu

Taş	Değer
Vezir	9
Kale	5
Fil / At	3
Piyon	1

Üzerine eklenen: merkez kontrolü · kale açıklığı · şah güvenliği · piyon yapısı

Yataysallık Etkisi (Horizon Effect)

Sabit derinlikte kesince: tehlikeli durum kesim noktasının hemen ötesinde kalabilir

	Ajan ne görüyor	Gerçekte
d=4’te kes	Pozisyon dengeli	d=5’te vezir kaybı var

Ajan tehlikeyi görmüyor → sahte iyi değerlendirme
Çözüm: quiescence search — taktiksel açıdan sakin olmayan pozisyonları daha derine tara

Kısa Ufuk: Stochastic Games

Tavla gibi oyunlarda şans unsuru var: zar atışı

Oyun ağacına şans düğümleri ekleniyor:

MAX → chance → MIN → chance → MAX → …

ExpectiMinimax: Şans düğümünün değeri = çocukların olasılık-ağırlıklı ortalaması

Kısa Ufuk: Deep Blue’dan AlphaZero’ya

Sistem	Eval Kaynağı	Arama
Deep Blue (1997)	Elle yazılmış ~8.000 kural	Minimax + α-β
AlphaGo (2016)	Policy + value ağı (insan verisi)	MCTS
AlphaZero (2017)	Tek ağ — self-play ile öğrenilmiş	MCTS

Büyük fikir: Problem değişmedi — büyük uzayda iyi karar. Değişen: eval’in kaynağı.

Deep Blue’dan AlphaZero’ya giderken minimax’ın özü değişmedi: hâlâ ileriye bakıyoruz, hâlâ pozisyonları değerlendiriyoruz. Değişen şey eval fonksiyonunun kaynağı.

Deep Blue’da bu fonksiyon elle yazılmıştı: satranç ustalarının bilgisi binlerce kural olarak kodlanmıştı. AlphaGo’da policy ve value ağları insan oyunlarından öğrendi; arama için Monte Carlo Tree Search kullandı — minimax’ın istatistiksel bir versiyonu. AlphaZero ise daha radikal: insan verisi yok, sadece self-play. Kendi kendine milyonlarca oyun oynayarak hem eval fonksiyonunu hem politikayı öğrendi.

Bu köprü önemli: minimax mekanizması hâlâ merkezde ama değerlendirme artık elle tasarlanmıyor — öğreniliyor. Bu, derin öğrenme ile klasik arama arasındaki bağı gösteren en net örnek.

Kapanış: Bu Hafta Neyi Gördük?

İki sınır vakası:

Yerel arama: yolun değil varış noktasının önemli olduğu durumlar
Düşmanca arama: çevrenin bize karşı oynadığı durumlar

Ortak kısıt: Tam arama ağacı oluşturmak imkânsız — her biri farklı biçimde başa çıkıyor

Bilgisiz aramadan A*’a, minimax’a, AlphaZero’ya — hepsinin özünde aynı soru: çok büyük uzaylarda nasıl iyi karar alınır?