LLM - Modern Dönem

BİM444 — Hafta 12 · Part 2

Öğr. Gör. Oktay Cesur

2026-04-20

Büyük Dil Modelleri · Part 2

Part 2: Transformer Sonrası Dönem

Geçen bölümdeki açık problem:

RNN ve erken sinir ağları uzun bağlam ve ölçekli eğitimde zorlanıyordu.

Bugünkü soru

Dil modeli nasıl genel amaçlı bir yapay zekâ arayüzüne dönüştü?

Geçen Bölümün Açık Problemi

Kısa bağlamdan uzun bağlama

  • n-gram: kısa pencere
  • RNN / LSTM: teoride uzun bağlam
  • Pratikte: eğitim zor, bellek sınırlı
  • Embedding: daha iyi temsil, ama tek başına yeterli değil

Geçiş sorusu

Model tüm bağlamı daha doğrudan görebilse ne olur?

Seq2seq: Çeviri İçin Genel Çerçeve

Girdi dizisi → çıktı dizisi

  • Encoder: kaynak cümleyi temsile çevirir
  • Decoder: hedef cümleyi üretir
  • Makine çevirisi için genel bir sinir ağı çerçevesi sundu

Tıkanma

Tüm girdi bilgisi tek bir temsile sıkıştırılıyordu.

Attention: Tek Vektöre Sıkıştırma Sorununu Gevşetmek

Sabit bellek → dinamik odak

  • Decoder, girdinin ilgili parçalarına bakabilir
  • Her üretim adımında farklı kelimelere odaklanabilir
  • Uzun cümlelerde bilgi kaybı azalır

Çeviri sezgisi

Bir kelimeyi çevirirken tüm cümleye değil, ilgili bölgeye bakarız.

Transformer: RNN’siz Sekans Modelleme

Mimari kırılma

  • Attention ana mekanizma hâline gelir
  • Tüm token’lar birbirleriyle ilişki kurabilir
  • Sıralı işleme bağımlılığı azalır
  • Paralel eğitim kolaylaşır

Sonuç

Transformer, modern LLM çizgisinin mimari temelidir.

Transformer Neyi Değiştirdi?

Ölçeklenebilir öğrenme

  • Büyük veriyle daha iyi çalıştı
  • Paralel eğitim kapasitesini artırdı
  • Uzun bağlam ilişkilerini daha kullanılabilir kıldı
  • Büyük ölçekli ön-eğitimin temelini attı

Kritik sonuç

Daha büyük modelleri eğitmek pratik olarak mümkün hâle geldi.

Pretraining Paradigması

Eski yaklaşım

Bir görev → bir veri seti → bir model

Yeni yaklaşım

Büyük metin üzerinde genel model eğit
sonra göreve uyarla veya prompt ile kullan

Neden önemli?

Dil bilgisi, dünya bilgisi ve görev örüntüleri tek modelde birikir.

GPT ve BERT: İki Farklı Yön

Aynı Transformer ailesi, farklı hedef

Model çizgisi Temel hedef Güçlü olduğu yön
GPT Sonraki token’ı üretmek Metin üretimi
BERT Maskelenmiş bağlamı anlamak Dil anlama

Basit ayrım

GPT: üretim
BERT: anlama

Ölçeklenme: Model Büyüdükçe Ne Değişti?

Üç büyüme ekseni

  • Daha büyük model
  • Daha fazla veri
  • Daha fazla hesaplama

Ortaya çıkan davranışlar

  • Daha geniş görev kapsamı
  • Daha iyi örnekten genelleme
  • Few-shot ve in-context kullanım

In-Context Learning

Prompt içindeki örnekten görev çıkarma

Modelin ağırlıkları değişmez.
Örnekler bağlamın içinde verilir.

Paris  → France
Berlin → Germany
Ankara → ?

Beklenen çıktı

Turkey

Instruction Tuning ve Alignment

Yeteneği kullanıcı davranışına çevirmek

  • Ön-eğitimli model metin tahmin eder
  • Kullanıcı asistanı yönerge takip etmelidir
  • Capability: neyi yapabilir?
  • Alignment: nasıl davranmalı?

Yüksek seviye fikir

İnsan geri bildirimiyle daha yararlı ve kontrollü davranış öğrenilir.

Prompting: Modeli Kullanma Katmanı

Modeli yönlendirme biçimleri

  • Açık yönerge
  • Örnekler
  • Rol ve bağlam
  • Adım adım isteme

Kritik ayrım

Prompting, model eğitimi değildir.

RAG: Model + Dış Bilgi

Problem

Modelin bilgisi eksik, eski veya hatalı olabilir.

Çözüm

İlgili belgeleri getir
cevabı bu belgelerle üret

Basit tanım

RAG = LLM + arama / doküman sistemi

LoRA ve Ucuz Uyarlama

Problem

Büyük modeli tamamen fine-tune etmek pahalıdır.

LoRA fikri

Ana modeli büyük ölçüde sabit tut
küçük eğitilebilir ekler öğren

Sonuç

Daha düşük maliyetle görev veya domain uyarlaması yapılabilir.

Multimodal LLM

Metinden çoklu veriye genişleme

  • Görsel açıklama
  • Diyagram yorumlama
  • Ses ve konuşma işleme
  • Belge analizi

Ana fikir

Doğal dil, farklı veri türleri için ortak arayüz hâline gelir.

Modern LLM Bir Model Değil, Sistemdir

Sistem bileşenleri

  • Base model
  • Prompting
  • RAG
  • Araçlar
  • Alignment
  • Evaluation

Ana mesaj

Kullanıcıya görünen davranış, tek başına model ağırlıklarından gelmez.

Sınırlar ve Riskler

Yüksek kapasite ≠ yüksek güvenilirlik

  • Hallucination
  • Bias
  • Güncelliğini yitirmiş bilgi
  • Gizlilik ve veri güvenliği
  • Benchmark ve değerlendirme sorunları

Ana mesaj

Model daha yetenekli oldukça otomatik olarak daha güvenilir olmaz.

Hafta 12 Genel Sentez

Part 1

Kural → istatistik → temsil

Part 2

Attention → Transformer → ölçek → alignment → sistemler

Ana cümle

LLM’ler tek bir buluşun değil; temsil, mimari, veri, ölçek, hizalama ve sistem entegrasyonunun birleşimidir.