Yapay Zeka2 Aralık 202510 dk okuma

Transformer Mimarisi ve GPT: Attention Mekanizması ve Büyük Dil Modellerinin Teknik Analizi

Bu çalışma, modern yapay zeka sistemlerinin temelini oluşturan Transformer mimarisini, self-attention mekanizmasını ve büyük dil modellerinin (LLM) çalışma prensiplerini akademik bir perspektifle incelemektedir.

#Transformer#Deep Learning#NLP#GPT#Attention Mechanism#Machine Learning#Neural Networks#LLM

Transformer Mimarisi ve Büyük Dil Modellerinin Teknik Analizi

Bu çalışma, 2017 yılında Vaswani ve arkadaşları tarafından önerilen Transformer mimarisinin teorik temellerini, matematiksel formülasyonlarını ve modern büyük dil modellerine (Large Language Models - LLM) evrimini kapsamlı bir şekilde incelemektedir. Çalışmada self-attention mekanizmasının çalışma prensipleri, positional encoding yöntemleri, multi-head attention yapısı ve feed-forward ağların rolü detaylı olarak ele alınmaktadır.

1. Bölüm | Başlangıç:

1.1 Tarihsel Bağlam

Doğal dil işleme (Natural Language Processing - NLP) alanı, son on yılda devrimsel değişikliklere sahne olmuştur. Geleneksel n-gram modelleri ve istatistiksel yöntemlerden, recurrent neural networks (RNN) ve long short-term memory (LSTM) ağlarına geçiş, ardından Transformer mimarisinin ortaya çıkışı, bu alandaki paradigma değişimlerini temsil etmektedir.

RNN tabanlı modellerin sekansiyel işleme zorunluluğu, uzun bağımlılıkları öğrenmede yaşanan zorluklar ve paralel hesaplama kapasitesinin kısıtlılığı, yeni bir mimari arayışını zorunlu kılmıştır. Vaswani ve arkadaşlarının "Attention Is All You Need" başlıklı makalesi, bu sorunlara elegant bir çözüm sunarak modern NLP'nin temellerini atmıştır.

1.2 Çalışmanın Kapsamı

Bu inceleme aşağıdaki konuları kapsamaktadır:

Attention mekanizmasının matematiksel temelleri - Scaled dot-product attention ve multi-head attention formülasyonları
Transformer encoder-decoder yapısı - Katman normalizasyonu, residual bağlantılar ve feed-forward ağlar
Positional encoding stratejileri - Sinüzoidal kodlama ve öğrenilebilir pozisyon gömmeleri
Büyük dil modellerinin evrimi - BERT, GPT serisi ve modern LLM'ler
Hesaplama karmaşıklığı ve optimizasyon - Attention'ın O(n²) karmaşıklığı ve çözüm yaklaşımları

2. Teorik Çerçeve

2.1 Attention Mekanizmasının Matematiksel Formülasyonu

Attention mekanizması, bir sorgu (query) vektörünün, bir dizi anahtar-değer (key-value) çiftleriyle eşleştirilmesi olarak tanımlanabilir. Bu işlem, girdinin farklı bölümlerine dinamik olarak odaklanmayı sağlar.

2.1.1 Scaled Dot-Product Attention

Temel attention fonksiyonu şu şekilde formüle edilir:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

Burada:

Q (Query): Sorgu matrisi, boyut (n × d_k)
K (Key): Anahtar matrisi, boyut (m × d_k)
V (Value): Değer matrisi, boyut (m × d_v)
d_k: Anahtar vektörlerinin boyutu
√d_k: Ölçekleme faktörü (scaling factor)

Ölçekleme faktörünün kullanılma nedeni kritik öneme sahiptir. d_k değeri büyüdükçe, dot product değerleri de büyür ve softmax fonksiyonu son derece küçük gradyanlara sahip bölgelere itilir. Bu durum, eğitim sürecinde gradient vanishing problemine yol açar. √d_k ile bölme işlemi, bu sorunu hafifletir.

2.1.2 Self-Attention Mekanizması

Self-attention, bir sekansın kendi içindeki ilişkileri modellemek için kullanılır. Girdi sekansı X verildiğinde:

Q = XW_Q
K = XW_K
V = XW_V

Burada W_Q, W_K ve W_V öğrenilebilir projeksiyon matrisleridir. Bu dönüşümler, aynı girdiden farklı temsiller elde edilmesini sağlar.

2.2 Multi-Head Attention

Tek bir attention fonksiyonu yerine, birden fazla "attention head" kullanmak, modelin farklı alt-uzaylardaki ilişkileri eş zamanlı olarak öğrenmesine olanak tanır:

MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W_O

head_i = Attention(QW_Q^i, KW_K^i, VW_V^i)

Burada:

h: Head sayısı (tipik olarak 8 veya 16)
W_O: Çıktı projeksiyon matrisi
Her head, d_model/h boyutunda projeksiyon kullanır

Multi-head attention'ın avantajları:

Çoklu temsil uzayları: Her head, farklı türde ilişkileri yakalayabilir (örneğin, sözdizimsel vs. semantik)
Hesaplama verimliliği: Paralel işleme imkanı
Zengin özellik çıkarımı: Ensemble benzeri etki

3. Transformer Mimarisi

3.1 Encoder Yapısı

Transformer encoder, N adet özdeş katmandan oluşur (orijinal makalede N=6). Her katman iki alt-bileşen içerir:

3.1.1 Multi-Head Self-Attention Katmanı

Encoder'daki self-attention, giriş sekansındaki her pozisyonun diğer tüm pozisyonlara erişmesine izin verir. Bu, bidirectional context modeling sağlar.

3.1.2 Position-wise Feed-Forward Network

Her attention katmanının ardından, iki lineer dönüşüm ve bir ReLU aktivasyonu içeren feed-forward ağ uygulanır:

FFN(x) = max(0, xW_1 + b_1)W_2 + b_2

Tipik olarak:

İç katman boyutu (d_ff) = 2048 veya 4096
Model boyutu (d_model) = 512 veya 768

Bu ağ, her pozisyona bağımsız olarak uygulanır, ancak farklı katmanlar arasında parametreler paylaşılmaz.

3.2 Decoder Yapısı

Decoder da N katmandan oluşur, ancak encoder'dan farklı olarak üç alt-bileşen içerir:

Masked Multi-Head Self-Attention: Gelecekteki pozisyonlara erişimi engelleyen maske kullanır
Encoder-Decoder Attention: Encoder çıktısına attention uygular
Position-wise Feed-Forward Network: Encoder ile aynı yapıda

3.2.1 Causal Masking

Oto-regresif üretim için decoder'da causal (nedensel) maskeleme uygulanır:

Mask[i,j] = {
  0,    eğer j ≤ i
  -∞,   eğer j > i
}

Bu maske, attention skorlarına eklenerek softmax sonrası gelecek pozisyonların ağırlıklarının sıfıra yakınsaması sağlanır.

3.3 Residual Connections ve Layer Normalization

Her alt-katman, residual bağlantı ve layer normalization ile sarmalanır:

Output = LayerNorm(x + Sublayer(x))

Residual bağlantılar:

Gradient akışını kolaylaştırır
Derin ağların eğitimini stabilize eder
"Identity mapping" öğrenmeyi mümkün kılar

Layer normalization:

Her örnek için bağımsız normalizasyon
Batch normalization'a göre sekans uzunluğundan bağımsız
Eğitim ve inference'da tutarlı davranış

4. Positional Encoding

4.1 Problem Tanımı

Self-attention mekanizması, doğası gereği permütasyon eşdeğerdir (permutation equivariant). Bu, girdi tokenlarının sırasının değiştirilmesinin çıktıyı etkilemeyeceği anlamına gelir. Ancak doğal dilde kelime sırası kritik öneme sahiptir.

4.2 Sinüzoidal Positional Encoding

Orijinal Transformer, sabit sinüzoidal fonksiyonlar kullanır:

PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

Bu tasarımın avantajları:

Göreceli pozisyon bilgisi: PE(pos+k), PE(pos)'un lineer fonksiyonu olarak ifade edilebilir
Sınırsız sekans uzunluğu: Eğitimde görülmemiş uzunluklara genelleme
Boyut bazında farklı frekanslar: Düşük boyutlar yüksek frekans, yüksek boyutlar düşük frekans

4.3 Öğrenilebilir Positional Embeddings

BERT ve GPT gibi modeller, öğrenilebilir pozisyon gömmelerini tercih eder:

E_pos ∈ R^(max_len × d_model)

Bu yaklaşım:

Veriye özgü pozisyon temsillerini öğrenebilir
Maksimum sekans uzunluğu ile sınırlıdır
Pratikte sinüzoidal encoding ile benzer performans gösterir

4.4 Rotary Position Embedding (RoPE)

Modern modellerde (LLaMA, PaLM) kullanılan RoPE, göreceli pozisyon bilgisini attention hesaplamasına doğrudan entegre eder:

q_m = R_θ,m · q
k_n = R_θ,n · k

Burada R_θ,m rotasyon matrisidir. Bu yaklaşım, ekstrapolasyon yeteneklerini önemli ölçüde artırır.

5. Büyük Dil Modellerinin Evrimi

5.1 BERT: Bidirectional Representations

BERT (Bidirectional Encoder Representations from Transformers), yalnızca encoder kullanarak çığır açmıştır:

Önceden eğitim görevleri:

Masked Language Modeling (MLM): Rastgele maskelenen tokenların tahmin edilmesi
Next Sentence Prediction (NSP): İki cümlenin ardışık olup olmadığının belirlenmesi

Mimari özellikler:

BERT-Base: 12 katman, 768 boyut, 12 head, 110M parametre
BERT-Large: 24 katman, 1024 boyut, 16 head, 340M parametre

5.2 GPT Serisi: Autoregressive Language Modeling

5.2.1 GPT-1 ve GPT-2

GPT modelleri, yalnızca decoder kullanarak sol-sağ dil modellemesi yapar:

P(x) = ∏ P(x_i | x_1, ..., x_{i-1})

GPT-2 yenilikleri:

1.5B parametreye ölçekleme
Zero-shot transfer öğrenme
WebText veri seti (8M web sayfası)

5.2.2 GPT-3 ve In-Context Learning

GPT-3 (175B parametre), few-shot learning paradigmasını ortaya koymuştur:

In-context learning türleri:

Zero-shot: Yalnızca görev açıklaması
One-shot: Bir örnek ile
Few-shot: 10-100 örnek ile

Scaling laws: Model performansı, parametre sayısı, veri miktarı ve hesaplama bütçesi ile tahmin edilebilir güç yasalarına uyar.

5.2.3 GPT-4 ve Multimodal Yetenekler

GPT-4, metin ve görüntü girdilerini işleyebilen multimodal bir model olarak tanıtılmıştır. Özellikle:

Gelişmiş muhakeme yetenekleri
Uzun bağlam penceresi (32K-128K token)
RLHF (Reinforcement Learning from Human Feedback) ile hizalama

5.3 Instruction Tuning ve Alignment

Modern LLM'ler, önceden eğitilmiş modellerin talimat takip etme yeteneklerini geliştirmek için ince ayar süreçlerinden geçer:

RLHF Pipeline:

Supervised Fine-Tuning (SFT)
Reward Model Eğitimi
PPO (Proximal Policy Optimization) ile RL

Constitutional AI:

Otomatik red-teaming
Kendi kendine eleştiri ve revizyon
İnsan geri bildirimi ihtiyacını azaltma

6. Hesaplama Karmaşıklığı ve Optimizasyon

6.1 Standart Attention'ın Karmaşıklığı

Self-attention'ın zaman ve bellek karmaşıklığı:

Zaman: O(n² · d)
Bellek: O(n² + n · d)

Burada n sekans uzunluğu, d model boyutudur. n² terimi, uzun sekanslar için ciddi bir darboğaz oluşturur.

6.2 Verimli Attention Mekanizmaları

6.2.1 Sparse Attention

Longformer ve BigBird gibi modeller, seyrek attention kalıpları kullanır:

Sliding window: Yerel bağlam için
Global tokens: Tüm sekansa erişen özel tokenlar
Random attention: Rastgele bağlantılar

Karmaşıklık: O(n · w) burada w pencere boyutu

6.2.2 Linear Attention

Linear Transformer ve Performer, kernel yaklaşımları kullanır:

Attention(Q, K, V) ≈ φ(Q)(φ(K)^T V)

Bu, O(n · d²) karmaşıklık sağlar.

6.2.3 Flash Attention

Flash Attention, GPU bellek hiyerarşisini optimize eder:

Tiling: Attention'ı bloklara böler
Recomputation: İleri geçişte aktivasyonları yeniden hesaplar
IO-aware algoritma tasarımı

Sonuç: Asimptotik karmaşıklık değişmese de, pratikte 2-4x hızlanma.

6.3 Model Parallelism

Büyük modellerin eğitimi için parallelism stratejileri:

Data Parallelism: Veriyi GPU'lar arasında bölme
Tensor Parallelism: Katmanları GPU'lar arasında bölme
Pipeline Parallelism: Katmanları sıralı GPU'lara atama
ZeRO Optimization: Optimizer state, gradient ve parametre sharding

7. Pratik Uygulamalar ve Değerlendirme

7.1 Benchmark'lar ve Metrikler

Dil anlama:

GLUE/SuperGLUE
MMLU (Massive Multitask Language Understanding)
HellaSwag, WinoGrande

Üretim kalitesi:

Perplexity
BLEU, ROUGE (çeviri/özetleme)
Human evaluation

Muhakeme:

GSM8K (matematik)
BIG-Bench
ARC (AI2 Reasoning Challenge)

7.2 Prompt Engineering

Etkili prompt tasarımı için stratejiler:

Chain-of-Thought (CoT): Adım adım muhakeme
Self-Consistency: Çoklu örnekleme ve çoğunluk oyu
Tree of Thoughts: Dallanmalı düşünce ağaçları
ReAct: Reasoning + Acting döngüsü

7.3 Retrieval-Augmented Generation (RAG)

RAG, LLM'lerin bilgi tabanlarıyla entegrasyonunu sağlar:

P(y|x) = ∑_z P(z|x) · P(y|x,z)

Burada z, retrieve edilen dökümanları temsil eder. Bu yaklaşım:

Güncel bilgiye erişim sağlar
Hallucination'ı azaltır
Domain-specific uygulamalar için kritiktir

8. Güncel Gelişmeler ve Araştırma Yönelimleri

8.1 Mixture of Experts (MoE)

Mixtral ve GPT-4 gibi modellerde kullanılan MoE:

y = ∑_i G(x)_i · E_i(x)

Burada G gating network, E_i expert ağlarıdır. Bu yaklaşım:

Parametre sayısını artırırken hesaplama maliyetini sabit tutar
Sparse aktivasyon ile verimlilik sağlar

8.2 State Space Models

Mamba gibi modeller, attention'a alternatif sunar:

O(n) karmaşıklık
Uzun bağlam için verimli
Hardware-aware tasarım

8.3 Multimodal Foundation Models

Görüntü, ses, video ve metin entegrasyonu:

CLIP, DALL-E, Stable Diffusion
GPT-4V, Gemini
Video anlama ve üretimi

9. Bölüm | Son:

Transformer mimarisi, yapay zeka alanında bir paradigma değişimi yaratmıştır. Self-attention mekanizmasının paralel işleme kapasitesi, uzun menzilli bağımlılıkları modelleme yeteneği ve ölçeklenebilirliği, bu başarının temel faktörleridir.

Büyük dil modelleri, milyarlarca parametreye ölçeklenerek, emergent yetenekler sergilemiştir. Few-shot learning, chain-of-thought reasoning ve instruction following gibi yetenekler, belirli ölçek eşiklerinin aşılmasıyla ortaya çıkmıştır.

Gelecekte, hesaplama verimliliği, multimodal entegrasyon, güvenilirlik ve hizalama konularında araştırmaların yoğunlaşması beklenmektedir. State space models ve mixture of experts gibi alternatif yaklaşımlar, Transformer'ın bazı sınırlamalarını aşma potansiyeli taşımaktadır.

Kaynakça

Vaswani, A., et al. (2017). "Attention Is All You Need." NeurIPS.
Devlin, J., et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL.
Brown, T., et al. (2020). "Language Models are Few-Shot Learners." NeurIPS.
Wei, J., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS.
Dao, T., et al. (2022). "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness." NeurIPS.
Gu, A., & Dao, T. (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces." arXiv.
Touvron, H., et al. (2023). "LLaMA: Open and Efficient Foundation Language Models." arXiv.
OpenAI. (2023). "GPT-4 Technical Report." arXiv.

Bu makale, yapay zeka ve derin öğrenme alanındaki güncel gelişmeleri akademik bir perspektifle ele almaktadır. İçerik, araştırma ve eğitim amaçlı hazırlanmıştır.

Bu İçerik Faydalı Oldu mu?

Benzer içerikler ve profesyonel hizmetler için iletişime geçin.

İletişime Geç Hizmetleri İncele