
Transformer Mimarisi ve GPT: Attention Mekanizması ve Büyük Dil Modellerinin Teknik Analizi
Bu çalışma, modern yapay zeka sistemlerinin temelini oluşturan Transformer mimarisini, self-attention mekanizmasını ve büyük dil modellerinin (LLM) çalışma prensiplerini akademik bir perspektifle incelemektedir.
Transformer Mimarisi ve Büyük Dil Modellerinin Teknik Analizi
Bu çalışma, 2017 yılında Vaswani ve arkadaşları tarafından önerilen Transformer mimarisinin teorik temellerini, matematiksel formülasyonlarını ve modern büyük dil modellerine (Large Language Models - LLM) evrimini kapsamlı bir şekilde incelemektedir. Çalışmada self-attention mekanizmasının çalışma prensipleri, positional encoding yöntemleri, multi-head attention yapısı ve feed-forward ağların rolü detaylı olarak ele alınmaktadır.
1. Bölüm | Başlangıç:
1.1 Tarihsel Bağlam
Doğal dil işleme (Natural Language Processing - NLP) alanı, son on yılda devrimsel değişikliklere sahne olmuştur. Geleneksel n-gram modelleri ve istatistiksel yöntemlerden, recurrent neural networks (RNN) ve long short-term memory (LSTM) ağlarına geçiş, ardından Transformer mimarisinin ortaya çıkışı, bu alandaki paradigma değişimlerini temsil etmektedir.
RNN tabanlı modellerin sekansiyel işleme zorunluluğu, uzun bağımlılıkları öğrenmede yaşanan zorluklar ve paralel hesaplama kapasitesinin kısıtlılığı, yeni bir mimari arayışını zorunlu kılmıştır. Vaswani ve arkadaşlarının "Attention Is All You Need" başlıklı makalesi, bu sorunlara elegant bir çözüm sunarak modern NLP'nin temellerini atmıştır.
1.2 Çalışmanın Kapsamı
Bu inceleme aşağıdaki konuları kapsamaktadır:
- Attention mekanizmasının matematiksel temelleri - Scaled dot-product attention ve multi-head attention formülasyonları
- Transformer encoder-decoder yapısı - Katman normalizasyonu, residual bağlantılar ve feed-forward ağlar
- Positional encoding stratejileri - Sinüzoidal kodlama ve öğrenilebilir pozisyon gömmeleri
- Büyük dil modellerinin evrimi - BERT, GPT serisi ve modern LLM'ler
- Hesaplama karmaşıklığı ve optimizasyon - Attention'ın O(n²) karmaşıklığı ve çözüm yaklaşımları
2. Teorik Çerçeve
2.1 Attention Mekanizmasının Matematiksel Formülasyonu
Attention mekanizması, bir sorgu (query) vektörünün, bir dizi anahtar-değer (key-value) çiftleriyle eşleştirilmesi olarak tanımlanabilir. Bu işlem, girdinin farklı bölümlerine dinamik olarak odaklanmayı sağlar.
2.1.1 Scaled Dot-Product Attention
Temel attention fonksiyonu şu şekilde formüle edilir:
Attention(Q, K, V) = softmax(QK^T / √d_k) V
Burada:
- Q (Query): Sorgu matrisi, boyut (n × d_k)
- K (Key): Anahtar matrisi, boyut (m × d_k)
- V (Value): Değer matrisi, boyut (m × d_v)
- d_k: Anahtar vektörlerinin boyutu
- √d_k: Ölçekleme faktörü (scaling factor)
Ölçekleme faktörünün kullanılma nedeni kritik öneme sahiptir. d_k değeri büyüdükçe, dot product değerleri de büyür ve softmax fonksiyonu son derece küçük gradyanlara sahip bölgelere itilir. Bu durum, eğitim sürecinde gradient vanishing problemine yol açar. √d_k ile bölme işlemi, bu sorunu hafifletir.
2.1.2 Self-Attention Mekanizması
Self-attention, bir sekansın kendi içindeki ilişkileri modellemek için kullanılır. Girdi sekansı X verildiğinde:
Q = XW_Q
K = XW_K
V = XW_V
Burada W_Q, W_K ve W_V öğrenilebilir projeksiyon matrisleridir. Bu dönüşümler, aynı girdiden farklı temsiller elde edilmesini sağlar.
2.2 Multi-Head Attention
Tek bir attention fonksiyonu yerine, birden fazla "attention head" kullanmak, modelin farklı alt-uzaylardaki ilişkileri eş zamanlı olarak öğrenmesine olanak tanır:
MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W_O
head_i = Attention(QW_Q^i, KW_K^i, VW_V^i)
Burada:
- h: Head sayısı (tipik olarak 8 veya 16)
- W_O: Çıktı projeksiyon matrisi
- Her head, d_model/h boyutunda projeksiyon kullanır
Multi-head attention'ın avantajları:
- Çoklu temsil uzayları: Her head, farklı türde ilişkileri yakalayabilir (örneğin, sözdizimsel vs. semantik)
- Hesaplama verimliliği: Paralel işleme imkanı
- Zengin özellik çıkarımı: Ensemble benzeri etki
3. Transformer Mimarisi
3.1 Encoder Yapısı
Transformer encoder, N adet özdeş katmandan oluşur (orijinal makalede N=6). Her katman iki alt-bileşen içerir:
3.1.1 Multi-Head Self-Attention Katmanı
Encoder'daki self-attention, giriş sekansındaki her pozisyonun diğer tüm pozisyonlara erişmesine izin verir. Bu, bidirectional context modeling sağlar.
3.1.2 Position-wise Feed-Forward Network
Her attention katmanının ardından, iki lineer dönüşüm ve bir ReLU aktivasyonu içeren feed-forward ağ uygulanır:
FFN(x) = max(0, xW_1 + b_1)W_2 + b_2
Tipik olarak:
- İç katman boyutu (d_ff) = 2048 veya 4096
- Model boyutu (d_model) = 512 veya 768
Bu ağ, her pozisyona bağımsız olarak uygulanır, ancak farklı katmanlar arasında parametreler paylaşılmaz.
3.2 Decoder Yapısı
Decoder da N katmandan oluşur, ancak encoder'dan farklı olarak üç alt-bileşen içerir:
- Masked Multi-Head Self-Attention: Gelecekteki pozisyonlara erişimi engelleyen maske kullanır
- Encoder-Decoder Attention: Encoder çıktısına attention uygular
- Position-wise Feed-Forward Network: Encoder ile aynı yapıda
3.2.1 Causal Masking
Oto-regresif üretim için decoder'da causal (nedensel) maskeleme uygulanır:
Mask[i,j] = {
0, eğer j ≤ i
-∞, eğer j > i
}
Bu maske, attention skorlarına eklenerek softmax sonrası gelecek pozisyonların ağırlıklarının sıfıra yakınsaması sağlanır.
3.3 Residual Connections ve Layer Normalization
Her alt-katman, residual bağlantı ve layer normalization ile sarmalanır:
Output = LayerNorm(x + Sublayer(x))
Residual bağlantılar:
- Gradient akışını kolaylaştırır
- Derin ağların eğitimini stabilize eder
- "Identity mapping" öğrenmeyi mümkün kılar
Layer normalization:
- Her örnek için bağımsız normalizasyon
- Batch normalization'a göre sekans uzunluğundan bağımsız
- Eğitim ve inference'da tutarlı davranış
4. Positional Encoding
4.1 Problem Tanımı
Self-attention mekanizması, doğası gereği permütasyon eşdeğerdir (permutation equivariant). Bu, girdi tokenlarının sırasının değiştirilmesinin çıktıyı etkilemeyeceği anlamına gelir. Ancak doğal dilde kelime sırası kritik öneme sahiptir.
4.2 Sinüzoidal Positional Encoding
Orijinal Transformer, sabit sinüzoidal fonksiyonlar kullanır:
PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
Bu tasarımın avantajları:
- Göreceli pozisyon bilgisi: PE(pos+k), PE(pos)'un lineer fonksiyonu olarak ifade edilebilir
- Sınırsız sekans uzunluğu: Eğitimde görülmemiş uzunluklara genelleme
- Boyut bazında farklı frekanslar: Düşük boyutlar yüksek frekans, yüksek boyutlar düşük frekans
4.3 Öğrenilebilir Positional Embeddings
BERT ve GPT gibi modeller, öğrenilebilir pozisyon gömmelerini tercih eder:
E_pos ∈ R^(max_len × d_model)
Bu yaklaşım:
- Veriye özgü pozisyon temsillerini öğrenebilir
- Maksimum sekans uzunluğu ile sınırlıdır
- Pratikte sinüzoidal encoding ile benzer performans gösterir
4.4 Rotary Position Embedding (RoPE)
Modern modellerde (LLaMA, PaLM) kullanılan RoPE, göreceli pozisyon bilgisini attention hesaplamasına doğrudan entegre eder:
q_m = R_θ,m · q
k_n = R_θ,n · k
Burada R_θ,m rotasyon matrisidir. Bu yaklaşım, ekstrapolasyon yeteneklerini önemli ölçüde artırır.
5. Büyük Dil Modellerinin Evrimi
5.1 BERT: Bidirectional Representations
BERT (Bidirectional Encoder Representations from Transformers), yalnızca encoder kullanarak çığır açmıştır:
Önceden eğitim görevleri:
- Masked Language Modeling (MLM): Rastgele maskelenen tokenların tahmin edilmesi
- Next Sentence Prediction (NSP): İki cümlenin ardışık olup olmadığının belirlenmesi
Mimari özellikler:
- BERT-Base: 12 katman, 768 boyut, 12 head, 110M parametre
- BERT-Large: 24 katman, 1024 boyut, 16 head, 340M parametre
5.2 GPT Serisi: Autoregressive Language Modeling
5.2.1 GPT-1 ve GPT-2
GPT modelleri, yalnızca decoder kullanarak sol-sağ dil modellemesi yapar:
P(x) = ∏ P(x_i | x_1, ..., x_{i-1})
GPT-2 yenilikleri:
- 1.5B parametreye ölçekleme
- Zero-shot transfer öğrenme
- WebText veri seti (8M web sayfası)
5.2.2 GPT-3 ve In-Context Learning
GPT-3 (175B parametre), few-shot learning paradigmasını ortaya koymuştur:
In-context learning türleri:
- Zero-shot: Yalnızca görev açıklaması
- One-shot: Bir örnek ile
- Few-shot: 10-100 örnek ile
Scaling laws: Model performansı, parametre sayısı, veri miktarı ve hesaplama bütçesi ile tahmin edilebilir güç yasalarına uyar.
5.2.3 GPT-4 ve Multimodal Yetenekler
GPT-4, metin ve görüntü girdilerini işleyebilen multimodal bir model olarak tanıtılmıştır. Özellikle:
- Gelişmiş muhakeme yetenekleri
- Uzun bağlam penceresi (32K-128K token)
- RLHF (Reinforcement Learning from Human Feedback) ile hizalama
5.3 Instruction Tuning ve Alignment
Modern LLM'ler, önceden eğitilmiş modellerin talimat takip etme yeteneklerini geliştirmek için ince ayar süreçlerinden geçer:
RLHF Pipeline:
- Supervised Fine-Tuning (SFT)
- Reward Model Eğitimi
- PPO (Proximal Policy Optimization) ile RL
Constitutional AI:
- Otomatik red-teaming
- Kendi kendine eleştiri ve revizyon
- İnsan geri bildirimi ihtiyacını azaltma
6. Hesaplama Karmaşıklığı ve Optimizasyon
6.1 Standart Attention'ın Karmaşıklığı
Self-attention'ın zaman ve bellek karmaşıklığı:
Zaman: O(n² · d)
Bellek: O(n² + n · d)
Burada n sekans uzunluğu, d model boyutudur. n² terimi, uzun sekanslar için ciddi bir darboğaz oluşturur.
6.2 Verimli Attention Mekanizmaları
6.2.1 Sparse Attention
Longformer ve BigBird gibi modeller, seyrek attention kalıpları kullanır:
- Sliding window: Yerel bağlam için
- Global tokens: Tüm sekansa erişen özel tokenlar
- Random attention: Rastgele bağlantılar
Karmaşıklık: O(n · w) burada w pencere boyutu
6.2.2 Linear Attention
Linear Transformer ve Performer, kernel yaklaşımları kullanır:
Attention(Q, K, V) ≈ φ(Q)(φ(K)^T V)
Bu, O(n · d²) karmaşıklık sağlar.
6.2.3 Flash Attention
Flash Attention, GPU bellek hiyerarşisini optimize eder:
- Tiling: Attention'ı bloklara böler
- Recomputation: İleri geçişte aktivasyonları yeniden hesaplar
- IO-aware algoritma tasarımı
Sonuç: Asimptotik karmaşıklık değişmese de, pratikte 2-4x hızlanma.
6.3 Model Parallelism
Büyük modellerin eğitimi için parallelism stratejileri:
- Data Parallelism: Veriyi GPU'lar arasında bölme
- Tensor Parallelism: Katmanları GPU'lar arasında bölme
- Pipeline Parallelism: Katmanları sıralı GPU'lara atama
- ZeRO Optimization: Optimizer state, gradient ve parametre sharding
7. Pratik Uygulamalar ve Değerlendirme
7.1 Benchmark'lar ve Metrikler
Dil anlama:
- GLUE/SuperGLUE
- MMLU (Massive Multitask Language Understanding)
- HellaSwag, WinoGrande
Üretim kalitesi:
- Perplexity
- BLEU, ROUGE (çeviri/özetleme)
- Human evaluation
Muhakeme:
- GSM8K (matematik)
- BIG-Bench
- ARC (AI2 Reasoning Challenge)
7.2 Prompt Engineering
Etkili prompt tasarımı için stratejiler:
- Chain-of-Thought (CoT): Adım adım muhakeme
- Self-Consistency: Çoklu örnekleme ve çoğunluk oyu
- Tree of Thoughts: Dallanmalı düşünce ağaçları
- ReAct: Reasoning + Acting döngüsü
7.3 Retrieval-Augmented Generation (RAG)
RAG, LLM'lerin bilgi tabanlarıyla entegrasyonunu sağlar:
P(y|x) = ∑_z P(z|x) · P(y|x,z)
Burada z, retrieve edilen dökümanları temsil eder. Bu yaklaşım:
- Güncel bilgiye erişim sağlar
- Hallucination'ı azaltır
- Domain-specific uygulamalar için kritiktir
8. Güncel Gelişmeler ve Araştırma Yönelimleri
8.1 Mixture of Experts (MoE)
Mixtral ve GPT-4 gibi modellerde kullanılan MoE:
y = ∑_i G(x)_i · E_i(x)
Burada G gating network, E_i expert ağlarıdır. Bu yaklaşım:
- Parametre sayısını artırırken hesaplama maliyetini sabit tutar
- Sparse aktivasyon ile verimlilik sağlar
8.2 State Space Models
Mamba gibi modeller, attention'a alternatif sunar:
- O(n) karmaşıklık
- Uzun bağlam için verimli
- Hardware-aware tasarım
8.3 Multimodal Foundation Models
Görüntü, ses, video ve metin entegrasyonu:
- CLIP, DALL-E, Stable Diffusion
- GPT-4V, Gemini
- Video anlama ve üretimi
9. Bölüm | Son:
Transformer mimarisi, yapay zeka alanında bir paradigma değişimi yaratmıştır. Self-attention mekanizmasının paralel işleme kapasitesi, uzun menzilli bağımlılıkları modelleme yeteneği ve ölçeklenebilirliği, bu başarının temel faktörleridir.
Büyük dil modelleri, milyarlarca parametreye ölçeklenerek, emergent yetenekler sergilemiştir. Few-shot learning, chain-of-thought reasoning ve instruction following gibi yetenekler, belirli ölçek eşiklerinin aşılmasıyla ortaya çıkmıştır.
Gelecekte, hesaplama verimliliği, multimodal entegrasyon, güvenilirlik ve hizalama konularında araştırmaların yoğunlaşması beklenmektedir. State space models ve mixture of experts gibi alternatif yaklaşımlar, Transformer'ın bazı sınırlamalarını aşma potansiyeli taşımaktadır.
Kaynakça
- Vaswani, A., et al. (2017). "Attention Is All You Need." NeurIPS.
- Devlin, J., et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL.
- Brown, T., et al. (2020). "Language Models are Few-Shot Learners." NeurIPS.
- Wei, J., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS.
- Dao, T., et al. (2022). "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness." NeurIPS.
- Gu, A., & Dao, T. (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces." arXiv.
- Touvron, H., et al. (2023). "LLaMA: Open and Efficient Foundation Language Models." arXiv.
- OpenAI. (2023). "GPT-4 Technical Report." arXiv.
Bu makale, yapay zeka ve derin öğrenme alanındaki güncel gelişmeleri akademik bir perspektifle ele almaktadır. İçerik, araştırma ve eğitim amaçlı hazırlanmıştır.
Bu İçerik Faydalı Oldu mu?
Benzer içerikler ve profesyonel hizmetler için iletişime geçin.