LLM - Modern Dönem
BİM444 — Hafta 12 · Part 2
2026-04-20
Büyük Dil Modelleri · Part 2
Part 2: Transformer Sonrası Dönem
Geçen bölümdeki açık problem:
RNN ve erken sinir ağları uzun bağlam ve ölçekli eğitimde zorlanıyordu.
Bugünkü soru
Dil modeli nasıl genel amaçlı bir yapay zekâ arayüzüne dönüştü?
Geçen Bölümün Açık Problemi
Kısa bağlamdan uzun bağlama
- n-gram: kısa pencere
- RNN / LSTM: teoride uzun bağlam
- Pratikte: eğitim zor, bellek sınırlı
- Embedding: daha iyi temsil, ama tek başına yeterli değil
Geçiş sorusu
Model tüm bağlamı daha doğrudan görebilse ne olur?
Seq2seq: Çeviri İçin Genel Çerçeve
Girdi dizisi → çıktı dizisi
- Encoder: kaynak cümleyi temsile çevirir
- Decoder: hedef cümleyi üretir
- Makine çevirisi için genel bir sinir ağı çerçevesi sundu
Tıkanma
Tüm girdi bilgisi tek bir temsile sıkıştırılıyordu.
Attention: Tek Vektöre Sıkıştırma Sorununu Gevşetmek
Sabit bellek → dinamik odak
- Decoder, girdinin ilgili parçalarına bakabilir
- Her üretim adımında farklı kelimelere odaklanabilir
- Uzun cümlelerde bilgi kaybı azalır
Çeviri sezgisi
Bir kelimeyi çevirirken tüm cümleye değil, ilgili bölgeye bakarız.
Pretraining Paradigması
Eski yaklaşım
Bir görev → bir veri seti → bir model
Yeni yaklaşım
Büyük metin üzerinde genel model eğit
sonra göreve uyarla veya prompt ile kullan
Neden önemli?
Dil bilgisi, dünya bilgisi ve görev örüntüleri tek modelde birikir.
GPT ve BERT: İki Farklı Yön
Aynı Transformer ailesi, farklı hedef
| GPT |
Sonraki token’ı üretmek |
Metin üretimi |
| BERT |
Maskelenmiş bağlamı anlamak |
Dil anlama |
Basit ayrım
GPT: üretim
BERT: anlama
Ölçeklenme: Model Büyüdükçe Ne Değişti?
Üç büyüme ekseni
- Daha büyük model
- Daha fazla veri
- Daha fazla hesaplama
Ortaya çıkan davranışlar
- Daha geniş görev kapsamı
- Daha iyi örnekten genelleme
- Few-shot ve in-context kullanım
In-Context Learning
Prompt içindeki örnekten görev çıkarma
Modelin ağırlıkları değişmez.
Örnekler bağlamın içinde verilir.
Paris → France
Berlin → Germany
Ankara → ?
Beklenen çıktı
Instruction Tuning ve Alignment
Yeteneği kullanıcı davranışına çevirmek
- Ön-eğitimli model metin tahmin eder
- Kullanıcı asistanı yönerge takip etmelidir
- Capability: neyi yapabilir?
- Alignment: nasıl davranmalı?
Yüksek seviye fikir
İnsan geri bildirimiyle daha yararlı ve kontrollü davranış öğrenilir.
Prompting: Modeli Kullanma Katmanı
Modeli yönlendirme biçimleri
- Açık yönerge
- Örnekler
- Rol ve bağlam
- Adım adım isteme
Kritik ayrım
Prompting, model eğitimi değildir.
RAG: Model + Dış Bilgi
Problem
Modelin bilgisi eksik, eski veya hatalı olabilir.
Çözüm
İlgili belgeleri getir
cevabı bu belgelerle üret
Basit tanım
RAG = LLM + arama / doküman sistemi
LoRA ve Ucuz Uyarlama
Problem
Büyük modeli tamamen fine-tune etmek pahalıdır.
LoRA fikri
Ana modeli büyük ölçüde sabit tut
küçük eğitilebilir ekler öğren
Sonuç
Daha düşük maliyetle görev veya domain uyarlaması yapılabilir.
Multimodal LLM
Metinden çoklu veriye genişleme
- Görsel açıklama
- Diyagram yorumlama
- Ses ve konuşma işleme
- Belge analizi
Ana fikir
Doğal dil, farklı veri türleri için ortak arayüz hâline gelir.
Modern LLM Bir Model Değil, Sistemdir
Sistem bileşenleri
- Base model
- Prompting
- RAG
- Araçlar
- Alignment
- Evaluation
Ana mesaj
Kullanıcıya görünen davranış, tek başına model ağırlıklarından gelmez.
Sınırlar ve Riskler
Yüksek kapasite ≠ yüksek güvenilirlik
- Hallucination
- Bias
- Güncelliğini yitirmiş bilgi
- Gizlilik ve veri güvenliği
- Benchmark ve değerlendirme sorunları
Ana mesaj
Model daha yetenekli oldukça otomatik olarak daha güvenilir olmaz.
Hafta 12 Genel Sentez
Part 1
Kural → istatistik → temsil
Part 2
Attention → Transformer → ölçek → alignment → sistemler
Ana cümle
LLM’ler tek bir buluşun değil; temsil, mimari, veri, ölçek, hizalama ve sistem entegrasyonunun birleşimidir.