LLM - İlk Yılları

BİM444 — Hafta 12 · Part 1

Öğr. Gör. Oktay Cesur

2026-04-20

Büyük Dil Modelleri

Çeviri Yazılımından Dil Modellerine

Dersin başında bir soru sormuştuk:
> 2000’li yıllarda çeviri yazılımı nasıl yapılırdı?

Bu soruyu şimdi daha geniş bir zaman dilimiyle yeniden ele alıyoruz.

LLM Nedir?

Büyük Dil Modeli (Large Language Model), çok büyük metin koleksiyonlarından dil örüntülerini öğrenen ve verilen bağlama göre bir sonraki kelime/parça olasılıklarını tahmin ederek metin üreten modeldir.

Bugünkü soru:

Dil için kural yazmaktan, dili büyük ölçekte veriden öğrenen modellere nasıl geldik?

Zaman Çizgisi

Dönem Yıllar Yaklaşım
I 1950–1966 Kuralcı makine çevirisi
II 1966–1985 Sembolik NLP ve bilgi temsili
III 1985–2000 İstatistiksel dönüş
IV 2000–2010 Denetimli öğrenme ve yapısal tahmin
V 2003–2011 Sinir ağlarına geçiş

I · 1950–1966: Kurallarla Çeviri

Problem: Soğuk Savaş’ın acil talebi — Rusça teknik belgeleri hızla çevirmek

  • Georgetown–IBM deneyi (1954): 6 kural, 250 kelime, 60 cümle
  • Kamuoyuna verilen mesaj: “3–5 yıl içinde çözülür”
  • Shannon (1948): dil olasılıksal bir kanal
  • Chomsky (1957): dil sonlu kurallardan sonsuz cümle üreten biçimsel sistem

ALPAC Raporu: İlk Büyük Hayal Kırıklığı (1966)

Tıkanma: Vaat ile gerçek arasındaki uçurum

  • ABD hükümeti 1964’te bağımsız değerlendirme istedi. Sonuç:

  • Vaat edilen otomatik çeviri, gerçek sistem performansına dönüşmedi.

  • İnsan çevirisine göre daha yavaş, daha pahalı, daha düşük kaliteli

  • Kural tabanı büyüdükçe istisnalar kontrolden çıktı

  • Her dil çifti ayrı uzman emeği gerektirdi

  • Sözcüksel, yapısal ve bağlamsal belirsizlik çözülemedi

Kritik sonuç

ABD’de makine çevirisi araştırmaları yaklaşık on yıl yavaşladı.

Uzun vadeli etki

Alan, hızlı uygulama vaadinden temel hesaplamalı dilbilim araştırmalarına yöneldi.

II · 1966–1985: Sembolik NLP

Makine çevirisinden sınırlı anlama sistemlerine

Problem:
Genel çeviri zor; peki daha dar bir alanda “anlama” mümkün mü?

İki ana hat

  • Diyalog sistemleri: ELIZA (1966), SHRDLU (1972)
  • Sözdizimsel ayrıştırma: parse tree, bilgi tabanları

Temel varsayım

Dil kuralları + açık kodlanmış bilgi tabanı = anlayan sistem

ELIZA ve SHRDLU: İki Farklı “Anlama”

Aynı etki, farklı mekanizma

ELIZA:
Kalıp eşleştirme; anlamsal model yok.

Girdi:  "Ben mutsuzum"
Kural:  IF "Ben X'im" → "Neden X'sin?"
Yanıt:  "Neden mutsuzsun?"

SHRDLU:
Sınırlı bir dünyada bağlam takibi.

Komut: "Kırmızı küpü yeşil kutuya koy"

→ Sistem sahnedeki nesneleri izler
→ Birden fazla yeşil kutu varsa sorar:
   "Hangi yeşil kutu?"

Bilgi Edinimi Darboğazı

  • Her alan için bilgi uzmanlar tarafından elle kodlanmalıydı.
  • Uzmana erişim sınırlıydı
  • Her yeni alan ayrı emek gerektiriyordu
  • Domain dışı genelleme yoktu
  • Gerçek dünya istisnaları kural tabanını büyütüyordu
  • Brittleness: Sistem kapsam dışına çıkınca çöküyordu

Sorun yalnızca sistemin dünyayı görememesi değildi;
Dünyaya dair bilgiyi taşıyacak ölçeklenebilir bir temsil yoktu.

III · 1985–2000: İstatistiksel Dönüş

Bilgiyi elle kodlamaktan veriden öğrenmeye

Yeni varsayım

Büyük korpuslardaki frekans dağılımları, dil hakkındaki bilgiyi taşır.

  • Kural yazmak yerine: frekans say
  • El yapımı bilgi tabanı yerine: korpustan olasılık öğren
  • Temel çerçeve: gürültülü kanal modeli

\[ \operatorname*{argmax}_e P(e \mid f) = \operatorname*{argmax}_e P(f \mid e) \cdot P(e) \]

HMM ve Yaygın İstatistiksel Araçlar

Gizli yapıyı gözlenen kelimelerden tahmin etmek

Örnek: Sözcük türü etiketleme

Gözlemlenen kelimeler: ["Bu",  "kedi", "uyudu"]
Gizli etiketler:       [DET,   NOUN,   VERB]

HMM iki olasılığı birlikte kullanır

  • Emission: Hangi etiket hangi kelimeyi üretir?
  • Transition: Hangi etiket hangi etiketi takip eder?
  • Viterbi: En olası etiket dizisini bulur

Dönemin temel araçları

n-gram LM · HMM · PCFG · Viterbi · EM algoritması · IBM Modelleri 1–5

İstatistiksel Yaklaşımın Sınırları

Frekans temelli modellerin genelleme problemi

Tıkanma:
İstatistiksel NLP üç yapısal sınıra çarptı.

  • Veri seyrekliği: Görülmemiş diziler → sıfır olasılık
  • Kısa bağlam: Trigram yalnızca 3 kelimelik pencere görür
  • Anlamsal körlük: Benzer kelimeler bağımsız semboller gibi işlenir

Kritik sonuç

Model, gördüğü örüntüleri sayabilir; fakat benzerlik, uzun bağımlılık ve anlam genellemesi kuramaz.

IV · 2000–2010: Yapısal Tahmin

  • İstatistiksel modeller dağılımları öğrendi; fakat birçok NLP görevi yapısal çıktı gerektiriyordu.
  • NER: “New York Times” → B-ORG I-ORG I-ORG
  • POS tagging: Her kelimeye sözcük türü etiketi verme
  • Bilgi çıkarımı: Metinden kişi, kurum, tarih, ilişki yakalama
  • Etiket tutarlılığı: Geçersiz geçişleri cezalandırma

Yeni varsayım

Özellik mühendisliği + ayrıştırıcı model
→ elle yazılmış kurallardan daha esnek sistemler

CRF: HMM’in Yapısal Aşılışı

HMM’in kısıtı:
Her kelime yalnızca o andaki gizli duruma bağlıdır.

CRF’in çözümü:
Tüm cümleyi görerek etiket dizisini birlikte tahmin eder.

  • HMM: üretici model
  • CRF: ayrıştırıcı model
  • HMM: sınırlı gözlem varsayımı
  • CRF: zengin özelliklerle koşullu tahmin
  • HMM: yerel bağımlılıklar
  • CRF: tüm etiket dizisinin tutarlılığı

CRF Örneği: Adlandırılmış Varlık Tanıma

Görev: : Cümledeki kurum adını tutarlı etiket dizisiyle bulmak

Cümle: "New York Times reported..."

Hedef:
New     York    Times   reported
B-ORG   I-ORG   I-ORG   O

CRF’in kullandığı ipuçları

  • “New York” birlikte sık görülür
  • Kelimeler büyük harfle başlar
  • “Times” kurum adlarında sık geçer
  • B-ORG → I-ORG geçişi tutarlıdır
  • I-ORG → O geçişi varlık sonunu gösterir

Phrase-Based SMT: Kelimeden Öbeğe

Çeviri birimi değişti: kelime → öbek

Model Çeviri birimi Katkı
IBM Modelleri 1–5 Kelime Hizalama istatistikleri
Phrase-Based SMT Öbek Daha doğal ve akıcı çeviri

Neyi düzeltti?

  • Kelime kelime çevirinin katılığını azalttı
  • Deyimsel ve çok kelimeli ifadeleri daha iyi yakaladı
  • Yerel yeniden sıralama ile hedef dile daha uygun çıktı üretti

2006 NIST Değerlendirmesi: SMT’nin Güç Gösterisi

Kural tabanlı çeviriden veri ölçekli çeviriye geçiş

Kırılma noktası:
Google’ın istatistiksel makine çevirisi sistemi, NIST MT-06 değerlendirmesinde güçlü sonuç aldı.

  • Görevler: Arapça → İngilizce, Çince → İngilizce
  • Ölçüt: İnsan referans çevirilerine yakınlık
  • Yaklaşım: Büyük paralel veri + istatistiksel modelleme
  • Sonuç: SMT, yalnızca akademik değil, endüstriyel olarak da baskın hâle gelmeye başladı
  • İyi çeviri için kural değil, veri ve daha iyi olasılıksal modelleme gerekiyordu.

Özellik Mühendisliği Darboğazı

Kuraldan sonra gelen yeni sınırlama

Tıkanma:
Bilgi artık kurallarda değil, seçilen özelliklerdeydi.

  • Hangi özelliğin önemli olduğuna uzman karar verir
  • Yeni dil / domain → yeniden feature tasarımı
  • Transfer yok
  • Özellikler hâlâ sembolik

Kural yazmayı bıraktık — ama neyi öğreneceğini hâlâ biz söylüyorduk.

Sinir Ağlarına Geçiş: Temsil Problemi

Asıl sorun model değil, temsil

Problem

  • Seyreklik: görülmemiş kombinasyonlara sıfır bilgi
  • Anlamsal körlük: benzer kelimeler bağımsız

Ortak kök

Kelimeler one-hot vektör ile temsil ediliyor

Çözüm

Öğrenilmiş sürekli vektörler → dağıtık temsil

Dağıtık Temsil: One-hot vs Embedding

Temsil farkı = genelleme farkı

One-hot (sembolik)


köpek = [0, 0, 1, 0, …]  
kedi = [0, 1, 0, 0, …]

→ Benzerlik: 0
→ Bilgi transferi yok

Embedding (öğrenilmiş)


köpek → [0.82, -0.14, 0.67, …]  
kedi → [0.79, -0.11, 0.71, …]

→ Yüksek benzerlik
→ Öğrenilen bilgi paylaşılır

Kritik kazanç

Benzer bağlam → benzer temsil → genelleme

RNN ve Vanishing Gradient

Uzun bağlamı modelleme denemesi

Amaç

n-gram sınırını aşmak → tüm geçmişi kullanmak

Araç

RNN (Recurrent Neural Network)

Tıkanma

  • Gradyan geriye yayılırken hızla küçülür
  • Uzun bağımlılıklar öğrenilemez

Sonuç

Teoride güçlü, pratikte sınırlı

Özet: Beş Paradigma

Her ilerleme yeni bir sınır üretti

Dönem Yaklaşım Tıkanma
1950–66 Kural tabanlı İstisna patlaması
1966–85 Sembolik NLP Bilgi edinimi darboğazı
1985–00 İstatistiksel Kısa bağlam, anlamsal körlük
2000–10 Özellik mühendisliği İnsan bağımlılığı
2003–11 Sinir ağları Hesap gücü, eğitim zorluğu

Ana desen

Her paradigma → bir problemi çözer
Ama yeni bir ölçeklenme sınırı üretir