Alpha-Beta Budama ve Modern Oyun Yapay Zekası

BİM444 — Hafta 5 · Ders 3

Öğr. Gör. Oktay Cesur

2026-03-23

Minimax Neden Ölçeklenmiyor?

Önceki derste minimax kararı nasıl verdiğini gördük.

Sorun: tüm ağacı geziyor.

  • Satranç: b≈35, m≈100 → 10^120 durum → fiziksel olarak imkânsız

İki temel çözüm:

  1. Bazı dalları hiç açmadan kesmek — karar değişmeden
  2. Terminale gitmeden yaklaşık değerleme yapmak

Alpha-Beta Fikri

Bazı dalların sonucu kesinlikle etkilemeyeceği önceden bilinebilir.

Bu dalları hiç açmadan kes → aynı karar, daha az hesap

Budama Örneği

Adım adım:

  1. Sol dal incelenir → MIN sol = min(3,5) = 3 → α = 3
  2. Orta dal incelenir → MIN orta = min(6,9) = 6 → α = 6
  3. Sağ dal: ilk yaprak = 1 → MIN sağ ≤ 1 < α=6 → MAX bu dalı seçmez
  4. 7 yaprağı incelenmeden kesildi

Alpha ve Beta Sınırları

  • α (alpha): MAX’ın bulduğu en iyi değer — alt sınır
  • β (beta): MIN’in bulduğu en iyi değer — üst sınır

Budama koşulları:

  • MIN düğümünde v ≤ α → dal kesilir — MAX bu yolu zaten seçmez
  • MAX düğümünde v ≥ β → dal kesilir — MIN bu yolu zaten seçmez

Sıralama Neden Önemli?

Alpha-beta’nın kazancı doğrudan inceleme sırasına bağlı:

Hamle sıralaması Zaman karmaşıklığı
Mükemmel (en iyi hamleler önce) O(b^(m/2))
Rastgele O(b^(3m/4))
En kötü (en kötü hamleler önce) O(b^m) — budama yok

Mükemmel sıralamada: satranç b=35 → etkin b≈6 · aynı sürede iki kat daha derin

Kesme ve Değerlendirme Fonksiyonu

Alpha-beta sonrasında da ağaç büyük — başka araç gerekiyor:

  • Kesme testi CUTOFF(s, d): belli derinlikte dur
  • Değerlendirme fonksiyonu EVAL(s): terminal olmayan duruma sayısal değer ver

H-Minimax = Minimax + kesme testi + eval

Satrançta Eval Fonksiyonu

Taş Değer
Vezir 9
Kale 5
Fil / At 3
Piyon 1

Üzerine eklenen: merkez kontrolü · kale açıklığı · şah güvenliği · piyon yapısı

Yataysallık Etkisi (Horizon Effect)

Sabit derinlikte kesince: tehlikeli durum kesim noktasının hemen ötesinde kalabilir

Ajan ne görüyor Gerçekte
d=4’te kes Pozisyon dengeli d=5’te vezir kaybı var
  • Ajan tehlikeyi görmüyor → sahte iyi değerlendirme
  • Çözüm: quiescence search — taktiksel açıdan sakin olmayan pozisyonları daha derine tara

Kısa Ufuk: Stochastic Games

Tavla gibi oyunlarda şans unsuru var: zar atışı

Oyun ağacına şans düğümleri ekleniyor:

MAX → chance → MIN → chance → MAX → …

ExpectiMinimax: Şans düğümünün değeri = çocukların olasılık-ağırlıklı ortalaması

Kısa Ufuk: Deep Blue’dan AlphaZero’ya

Sistem Eval Kaynağı Arama
Deep Blue (1997) Elle yazılmış ~8.000 kural Minimax + α-β
AlphaGo (2016) Policy + value ağı (insan verisi) MCTS
AlphaZero (2017) Tek ağ — self-play ile öğrenilmiş MCTS

Büyük fikir: Problem değişmedi — büyük uzayda iyi karar. Değişen: eval’in kaynağı.

Kapanış: Bu Hafta Neyi Gördük?

İki sınır vakası:

  • Yerel arama: yolun değil varış noktasının önemli olduğu durumlar
  • Düşmanca arama: çevrenin bize karşı oynadığı durumlar

Ortak kısıt: Tam arama ağacı oluşturmak imkânsız — her biri farklı biçimde başa çıkıyor

Bilgisiz aramadan A*’a, minimax’a, AlphaZero’ya — hepsinin özünde aynı soru: çok büyük uzaylarda nasıl iyi karar alınır?