2026'da kendi barındırmalı AI hesaplaması için RTX 4090, RTX 5090 ve H100 SXM5 arasında seçim yapmak nadiren başlık TFLOPS sayısıyla ilgilidir. Doğru GPU, gerçekte çalıştırdığınız model sınıfına ve batch şekline uyan VRAM'i, bellek bant genişliğini ve çıkarım saati başına fiyatı olan GPU'dur. Bu kılavuz, ServPrivate'nin sunduğu dört GPU kademesini, her birinin boyutlandırıldığı iş yüklerini ve grafikteki verimlilik sayılarını nasıl okuyacağınızı ele alır.
Dört kademe tek paragrafta
RTX 4090 (GPU-S, aylık $122.00-329), ~1 TB/s bellek bant genişliğinde 24 GB GDDR6X ve ~83 TFLOPS FP16 sunar. 7B-13B dil modelleri, FLUX.1 / SDXL görüntü oluşturma, Whisper transkripsiyon ve Bark metinden konuşmaya için doğru seçimdir. RTX 5090 (GPU-M, aylık $195.50-519), ~1,8 TB/s'de 32 GB GDDR7 ve ~104 TFLOPS FP16'ya yükselir; fazladan 8 GB ve ~%80 bant genişliği artışı, 27B-32B modellerin rahatça çalıştırılmasını (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) ve küçük Llama modellerinin ince ayarlanmasını sağlar. H100 SXM5 (GPU-L, aylık $832.50-1899) farklı bir kategoridir — ~3,35 TB/s'de 80 GB HBM3, ~989 TFLOPS FP16 (Tensor Çekirdeği), kullanılabilir NVLink sınıfı fabric; 70B sınıfı dil modelleri, daha uzun bağlamlı çıkarım ve daha hızlı eğitim için boyutlandırılmıştır. 2× H100 SXM5 (GPU-XL, aylık $1567.50-3599), tam hassasiyetli 70B çıkarımı, çok GPU'lu eğitim ve Q4/Q5'te 100B+ modeller içindir.

Bellek bant genişliği LLM çıkarımına hâkimdir
Yaklaşık 16'ya kadar batch boyutlarında yalnızca decoder transformer çıkarımı için darboğaz, ham TFLOPS değil bellek bant genişliğidir. Her oluşturulan token, model ağırlıklarının VRAM'den tam okunmasını zorunlu kılar (prefill aşaması K-V önbelleğini yeniden kullanır, ancak her yeni token ağırlık matrislerini tekrar okur). H100'ün 3,35 TB/s HBM3'ü, onu 70B sınıfı bir modelde 4090'dan token başına ~3 kat daha hızlı yapan şeydir — daha yüksek TFLOPS sayısı değil. Bu aynı zamanda RTX 5090'ın GDDR6X'ten GDDR7'ye geçişinin (~1,8 TB/s - ~1 TB/s) çıkarım için ham TFLOPS artışından neden daha önemli olduğunu da açıklar. İş yükünüz eğitim yerine çıkarım ağırlıklıysa, TFLOPS'tan çok bant genişliğini önceliklendirin.
24 GB / 32 GB / 80 GB'a ne sığar
Kuantizasyon tabloyu değiştirir. Q4_K_M'de (tipik "iyi kalite" kuant): 7B model ~4,5 GB, 13B ~8 GB, 27-32B ~20 GB, 70B ~42 GB, 100B ~60 GB gerektirir. K-V önbelleği ve CUDA çalışma alanı için ~%10-15 ek pay ekleyin. Pratik sığmalar: 24 GB = 7B-13B rahat, 27-32B offload yüküyle, 70B uygulanamaz. 32 GB = 27-32B rahat, 70B CPU offload ile (yavaş). 80 GB = 70B, Q4-Q5'te rahat, 100B offload ile. 160 GB (çift H100) = 70B, FP16/BF16'da; 100-180B, Q4'te. FP16/BF16'da (kuantizasyon yok) sayılar iki katına çıkar: 70B, FP16'da ~140 GB gerektirir; bu yüzden 2× H100, tam hassasiyetli amiral gemisi model çıkarımı için giriş noktasıdır.
RTX 5090'ın doğru yanıt olduğu durumlar
RTX 5090'ın 2025 başında piyasaya çıkması yeni bir tatlı nokta yarattı. 2026'da en çok önem taşıyan 27B-32B sınıfı modeller (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B) için 5090, bir H100'ün yarı maliyetinde 4090'ın yaklaşık 2,5 katı verime ulaşır. İş yükünüz "Akıl yürütme, çok dilli destek ve 32K bağlam penceresiyle gerçekten yetenekli bir asistan modeline ihtiyacım var, ancak 70B+'a gerek yok" şeklindeyse, başlangıç noktanız GPU-M kademesi olmalıdır. 5090 aynı zamanda cömert bir görüntü oluşturma platformu olarak da işlev görür — FLUX.1-dev, yüksek çözünürlüklü batch'ler için 16 GB VRAM boşluğuyla rahatça çalışır.
H100 istediğiniz durumlar
Satın alma kararını GPU-L'ye (tek H100) taşıyan üç sinyal vardır: (1) 70B sınıfı modelleri veya DeepSeek-R1-Distill-Llama-70B'yi sunuyor ve batch 1'de saniyenin altında ilk token süresini istiyorsunuz; (2) H100'ün bellek bant genişliğinin darboğaz kırıcı olduğu yüksek-batch eşzamanlı çıkarım (batch 16+ kullanıcıyla vLLM) çalıştırıyorsunuz; (3) ~10M token üzerindeki veri kümeleri üzerinde eğitim yapıyor ya da LoRA ile ince ayar uyguluyor ve 4090/5090'ın sahip olmadığı FP8 eğitim yolunu istiyorsunuz. H100'ün FP8 Transformer Engine'i, eğitim verimini FP16'ya kıyasla yaklaşık iki katına çıkarır; bu da tek bir kartta 70B Llama'nın ince ayarlanmasını uygulanabilir kılan şeydir.
Token başına maliyet ekonomisi
Yüksek hacimli iş yükleri için doğru karşılaştırma, sürekli verimde milyar token başına dolardır. Llama-3.1-70B Q4, vLLM 0.7+, batch 16 üzerinde: RTX 4090, modeli offload olmadan barındıramaz (CPU-RAM offload verimi ~10 kat düşürür). CPU offload ile RTX 5090, 1M token başına yaklaşık $X'da konumlanır (kaba; kuanta göre değişir). Tek bir H100 SXM5, aylık $832.50 giriş fiyatımızda 1M çıktı token başına yaklaşık $1,40-2,20'de konumlanır. OpenAI GPT-4o çıktısının ~$10/1M ve Claude Sonnet'in ~$15/1M ile karşılaştırıldığında — iş yükünüz günde yaklaşık 30M tokena ulaştığında, tek bir H100'de kendi barındırma, barındırılan API'leri çağırmaktan daha ucuz olur ve gizlilik sonucu uçtan uca olur. Daha düşük hacimlerde barındırılan API'ler maliyet açısından kazanır.
Görüntü, video ve ses iş yükleri
Görüntü oluşturma, nadiren 4090'dan fazlasına ihtiyaç duyar — FLUX.1-dev, SDXL ve SD 3.5 hepsi üretim kalitesinde 24 GB'a sığar ve RTX 4090'ın ~83 TFLOPS FP16'sı yeterlidir. 5090/H100'e geçmek çoğunlukla görüntü başına hız değil, batch boyutu kapasitesi (daha fazla eşzamanlı oluşturma) kazandırır. AI video (Wan-2.1, CogVideoX-5B, Runway sınıfı iş akışları) daha talepkârdır — GPU-M pratik giriş noktası, üretim kalitesinde uzun biçim için GPU-L. Whisper Large v3 ASR ve Bark TTS her ikisi de 4090 üzerinde rahatça çalışır; H100 bunlar için gereğinden fazladır. 7B-13B üzerinde LoRA veya QLoRA ile ince ayar bir 4090'da işe yarar; 32B-70B ince ayarı gerçekçi biçimde en az 5090, zamanınıza değer veriyorsanız H100 ister.
RTX 5090 ile RTX A6000 / A100 karşılaştırması
Tüketici kartı serisinin dışındaki GPU seçeneklerine baktıysanız RTX A6000 (48 GB, veri merkezi kartı) veya A100 (40/80 GB, önceki nesil HBM2e) ile karşılaşmış olabilirsiniz. Kısa karar: A6000, VRAM'in darboğazınız olduğu ancak bant genişliğinin olmadığı (nadir) durumlarda kullanışlı olan, iki kat VRAM'e sahip yaklaşık 4090 sınıfı hesaplama sunar; A100 ise H100'ün bir nesil gerisindedir ve artık çoğunlukla ikincil piyasada mevcuttur — ucuza bulursanız güvenilir bir 70B çıkarım kartı olmayı sürdürür, ancak 2026'daki yeni kurulumlar genellikle H100'dür. Şu anda A6000 veya A100 kademeleri sunmuyoruz; katalog RTX 5090'dan H100'e atlıyor.
Ne sunduğumuz ve ne seçeceğiniz
GPU satın alma kararını iş yükü başına tek cümlede özetlemek gerekirse: 32B altı chatbot/kodlama asistanı → 7B-13B için GPU-S (RTX 4090), 27B-32B için GPU-M (RTX 5090); amiral gemisi 70B çıkarımı (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); tam hassasiyetli 70B veya çok GPU'lu eğitim → GPU-XL (2× H100 SXM5); görüntü/video/ses oluşturma → batch kapasitesine ihtiyaç duymadıkça GPU-S, aksi hâlde GPU-M. Dört kademenin tamamı önceden yüklenmiş CUDA 12.4 + cuDNN ile birlikte gelir ve tek tıkla vLLM / Ollama / ComfyUI / Stable Diffusion şablonlarına sahiptir. Tam donanım özellikleri /gpu adresindedir.