Oktay Cesur – Makine Öğrenmesine Giriş

Makine Öğrenmesine Giriş

Buraya Nasıl Geldik?

Önceki haftalar: ajan, çevreyi önceden bilinen bir modelle temsil ediyordu
Durum uzayı, geçişler, maliyetler — hepsi verilmişti
Peki ya çevre çok karmaşık ve model elle tanımlanamıyorsa?

2000’li Yıllarda Bir Problem: Çeviri

Türkçe → İngilizce çeviri yazılımı yapın. Nasıl başlarsınız?

Kural Tabanlı (RBMT): dil bilgisi kurallarını elle yaz
Örnek Tabanlı (EBMT): çevrilmiş cümle çiftlerinden eşleştir
İstatistiksel (SMT): büyük veri + olasılık — kural öğren, yazma

Bu bir düşünce deneyi. 2000’li yıllarda Google Translate yoktu. Bir çeviri sistemi kurmak isteseydik ne yapardık?

İlk akla gelen: kuralları elle yaz. “Türkçe fiil sona gider”, “bu yapı şöyle bağlanır”… Bu RBMT yaklaşımı. Sorun: dil muazzam karmaşık. Her kural yeni bir istisna doğuruyor. Onlarca dil için binlerce kural yazmak hem sürdürülemez hem de hiçbir zaman tam olmuyor.

Sonra gelen fikir: cümle çiftlerini kullan. Milyonlarca çevrilmiş metin var — bu metinlerdeki kalıpları bul, yenisine uygula. Artık kuralı biz yazmıyoruz; sistem veriden çıkarıyor.

SMT bunu olasılıksal olarak yapıyor: “Bu Türkçe cümleyi gördüğümde hangi İngilizce çıkışın olasılığı en yüksek?” Bu geçişin işaret ettiği şey şu: problemin çözümünü elle yazmaktan, veriden öğrenmek yoluna geçtik. İşte makine öğrenmesinin ruhu bu.

İnsanlar Nasıl Öğrenir?

Dil nasıl öğrenilir? - Bebek: dinler → kalıpları içselleştirir → üretir → düzeltilir

Başka her şey nasıl öğrenilir? - Deneme-yanılma: eylem → sonuç → ödül ya da ceza → strateji güncelle - Gözlem: etiket olmadan yapıyı fark et

Bir adım geri çekilelim. Biz nasıl öğreniyoruz?

Bir bebeği düşünün. Dil öğrenirken kimse ona “özne + fiil + nesne” kuralını anlatmıyor. Duruyor, dinliyor, çevresindeki kalıpları içselleştiriyor. Bir süre sonra cümle kurmaya başlıyor. Yanlış yapıyor, düzeltiliyor, öğreniyor. Burada geri bildirim var: biri “evet” ya da “hayır” diyor. Bu denetimli öğrenme sezgisi.

Başka bir örnek: Edge of Tomorrow. Karakter her ölümünde sıfırlıyor ama deneyimini taşıyor. Kimse ona rehberlik etmiyor, kural vermiyor — sadece deney, sonuç, ödül ya da ceza. Zamanla en iyi stratejiyi buluyor. Bu takviyeli öğrenme.

Bir de şu var: elimizde binlerce müşteri işlem kaydı var. Kimse bize “bu müşteriler iki gruba ayrılıyor” demiyor; biz veriyi inceleyerek grubu kendimiz buluyoruz. Etiket yok, öğretmen yok — yapıyı veri içinden çıkarıyoruz. Bu denetimsiz öğrenme.

Makine öğrenmesi bu üç öğrenme biçimini sayısal olarak modellemeye çalışıyor.

Makine Öğrenmesi Nedir?

Bilgisayarların açıkça programlanmadan veriden öğrenmesini sağlayan YZ dalı

Geleneksel: veri + kural → çıktı
MÖ: veri + çıktı → kural

Alan haritası: - Yapay Zeka ⊃ Makine Öğrenmesi ⊃ Derin Öğrenme - Veri Bilimi: örtüşen ama farklı odak

Tanımı iki satıra indirgelersek: geleneksel programlamada biz kuralı yazıyoruz, bilgisayar onu veri üzerinde uyguluyor. Makine öğrenmesinde ise veriyi ve istenen çıktıyı veriyoruz; bilgisayar kuralı kendisi buluyor.

Somut örnek: spam filtresi. Geleneksel yol — “konu ‘kazandınız’ içeriyorsa spam” gibi kurallar yaz. Spam gönderenler birkaç gün içinde adapte oluyor. MÖ yolu — milyonlarca etiketli e-posta ver, model kalıpları öğrensin, yeni taktiklere karşı da genelleme yapsın.

Alan haritası: YZ en büyük şemsiye. Altında makine öğrenmesi — veriden öğrenen sistemler. Onun altında derin öğrenme — çok katmanlı sinir ağları. Veri bilimi farklı bir odakla kesişiyor: analiz, görselleştirme, iş kararları. Örtüşen alan var ama eş anlamlı değiller.

Üç Öğrenme Paradigması

Paradigma	Veri	Hedef	Sezgi
Denetimli	Giriş + etiket	Etiketi tahmin et	Öğretmenli öğrenme
Denetimsiz	Yalnızca giriş	Yapıyı keşfet	Kendi başına keşif
Takviyeli	Durum + ödül	Ödülü maksimize et	Deneme-yanılma

Bu üç paradigma makine öğrenmesinin çatısını oluşturuyor.

Denetimli öğrenmede etiket var. Elimizde “bu X-ışını görüntüsü pnömoni, bu normal” bilgisi var; model bu örneklerden görüntü → tanı eşlemesini öğreniyor. Öğretmen gibi: doğruyu söylüyor, model kalıbı çıkarıyor.

Denetimsiz öğrenmede kimse size etiket vermiyor. Elimizde sadece müşteri alışveriş verisi var; model benzer müşterileri grupluyor. Grupların ne anlama geldiğini siz yorumluyorsunuz. Yapı veride zaten var — siz onu açığa çıkarıyorsunuz.

Takviyeli öğrenmede ajan çevreyle etkileşiyor. Her eylemden sonra ödül ya da ceza alıyor. Zamanla ödülü maksimize eden politikayı öğreniyor. Bu, daha önce konuştuğumuz hedef tabanlı ajanlarla doğrudan bağlantılı: ajan artık kuralları biz vermeden kendi deneyiminden öğreniyor.

Önümüzdeki iki haftada denetimli ve denetimsiz öğrenmeye odaklanacağız.

Öğrenme Formülasyonu

Bilinmeyen bir \(f(x)\) var. Veriyle \(h(x) \approx f(x)\) bulmak istiyoruz.

\[ 1 \to 4 \quad 2 \to 11 \quad 3 \to 14 \quad 4 \to 21 \]

Gözlem: \(h(x) = 5x\) yakın bir tahmin
\(h\): hipotez · \(f\): gerçek fonksiyon · fark: hata
Öğrenme = hipotez uzayında hatayı minimize eden \(h\)’yi ara

Overfitting — Ezberleme mi, Genelleme mi?

Model eğitim verisinde çok iyi → yeni veriye genelleyemiyor
Aşırı uyum (overfitting): kalıbı değil, veriyi ezberledi
Yetersiz uyum (underfitting): model çok basit, hiçbir şeyi yakalayamıyor
Hedef: görülmemiş veride iyi performans

Değerlendirme: Görülmemiş Veriyle Test

Doğruluk (Accuracy): doğru tahmin / toplam tahmin
Modeli eğittiğiniz veri üzerinde test → yanıltıcı
Çözüm: eğitim / test ayrımı

Küme	Rol
Eğitim (train)	Model bu veriyle öğrenir
Test (test)	Yalnızca değerlendirmede kullanılır — model hiç görmedi

ML Projesi Nasıl Yürür? — CRISP-DM

İş anlama: problem ne? başarı kriteri ne?
Veri anlama: elimizde ne var?
Veri hazırlama: temizleme, dönüştürme — zamanın %60-80’i burada
Modelleme: algoritma seç, eğit
Değerlendirme: metrikler, overfitting kontrolü
Dağıtım: modeli canlıya al

Makine öğrenmesi bir algoritma seçmekten ibaret değil. Bir proje yaşam döngüsü var.

CRISP-DM — Cross-Industry Standard Process for Data Mining — bu döngüyü standartlaştıran bir çerçeve. Altı adım, ama dikkat: bunlar doğrusal değil. Değerlendirme aşamasında sorun bulunursa veri hazırlama adımına geri dönülüyor. Model tutmuyorsa iş tanımı yeniden gözden geçiriliyor.

Pratikte zamanın büyük kısmı veri anlama ve veri hazırlama aşamalarında geçiyor. Çünkü gerçek dünya verisi dağınık, eksik, tutarsız. Güzel bir model için önce güzel veri gerekiyor.

Bu çerçeveyi dersin ilerleyen haftalarında da referans alacağız. Bir ML projesiyle karşılaştığınızda “şu an hangi adımdayım?” sorusunu bu çerçeveye göre yanıtlayabilirsiniz.

Özet

MÖ: kural yazmak yerine veriden kural öğrenmek
Üç paradigma: Denetimli · Denetimsiz · Takviyeli
Formülasyon: \(h(x) \approx f(x)\) — hipotez uzayında arama
Temel gerilim: overfitting ↔︎ genelleme
Değerlendirme: görülmemiş test verisi üzerinde
Süreç: CRISP-DM — algoritma seçmekten önce problem ve veri anlama