Memilih antara RTX 4090, RTX 5090, dan H100 SXM5 untuk komputasi AI yang di-host sendiri di tahun 2026 jarang tentang angka TFLOPS headline. GPU yang tepat adalah yang VRAM, bandwidth memori, dan harga per jam inferensi-nya sesuai dengan kelas model dan bentuk batch yang benar-benar Anda jalankan. Panduan ini membahas empat tingkatan GPU yang dikirimkan ServPrivate, workload yang masing-masing dirancang untuknya, dan cara membaca angka throughput pada grafik.
Empat tingkatan dalam satu paragraf
RTX 4090 (GPU-S, $122.00-329/bln) menghadirkan 24 GB GDDR6X pada ~1 TB/s bandwidth memori dan ~83 TFLOPS FP16. Ini adalah pilihan tepat untuk model bahasa 7B-13B, generasi gambar FLUX.1 / SDXL, transkripsi Whisper, dan text-to-speech Bark. RTX 5090 (GPU-M, $195.50-519/bln) meningkat ke 32 GB GDDR7 pada ~1,8 TB/s dan ~104 TFLOPS FP16; 8 GB tambahan dan ~80% peningkatan bandwidth membuka model 27B-32B dengan nyaman (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) dan memungkinkan Anda melakukan fine-tuning Llama kecil. H100 SXM5 (GPU-L, $832.50-1899/bln) adalah kategori berbeda — 80 GB HBM3 pada ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), dengan fabric kelas NVLink yang tersedia; ini dirancang untuk model bahasa kelas 70B, inferensi konteks panjang, dan pelatihan lebih cepat. 2× H100 SXM5 (GPU-XL, $1567.50-3599/bln) adalah untuk inferensi 70B presisi penuh, pelatihan multi-GPU, dan model 100B+ pada Q4 / Q5.

Bandwidth memori mendominasi inferensi LLM
Untuk inferensi transformer decoder-only pada ukuran batch hingga sekitar 16, hambatannya adalah bandwidth memori, bukan raw FLOPS. Setiap token yang dihasilkan memaksa pembacaan penuh bobot model dari VRAM (fase prefill menggunakan kembali cache K-V, tetapi setiap token baru membaca matriks bobot lagi). 3,35 TB/s HBM3 H100 itulah yang membuatnya ~3x lebih cepat per token dari 4090 pada model kelas 70B — bukan angka TFLOPS yang lebih tinggi. Inilah juga mengapa lompatan RTX 5090 dari GDDR6X ke GDDR7 (~1,8 TB/s vs ~1 TB/s) lebih penting untuk inferensi daripada peningkatan raw FLOPS. Jika workload Anda didominasi oleh inferensi daripada pelatihan, prioritaskan bandwidth daripada TFLOPS.
Apa yang muat di 24 GB / 32 GB / 80 GB
Kuantisasi mengubah gambarannya. Pada Q4_K_M (kuantisasi "kualitas bagus" yang khas): model 7B membutuhkan ~4,5 GB, 13B membutuhkan ~8 GB, 27-32B membutuhkan ~20 GB, 70B membutuhkan ~42 GB, 100B membutuhkan ~60 GB. Tambahkan ~10-15% headroom untuk cache K-V dan ruang kerja CUDA. Kesesuaian praktis: 24 GB = 7B-13B nyaman, 27-32B dengan kesulitan offload, 70B tidak layak. 32 GB = 27-32B nyaman, 70B dengan CPU offload (lambat). 80 GB = 70B nyaman pada Q4-Q5, 100B dengan offload. 160 GB (dual H100) = 70B pada FP16 / BF16, 100-180B pada Q4. Pada FP16 / BF16 (tanpa kuantisasi) angkanya berlipat ganda: 70B pada FP16 membutuhkan ~140 GB, itulah mengapa 2× H100 adalah titik masuk untuk inferensi model flagship presisi penuh.
Kapan RTX 5090 adalah jawaban yang tepat
Peluncuran RTX 5090 di awal 2025 menciptakan sweet spot baru. Untuk model kelas 27B-32B yang paling penting di 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 kira-kira 2,5x throughput 4090 dengan setengah biaya H100. Jika workload Anda adalah "saya butuh model asisten yang benar-benar capable dengan penalaran, dukungan multibahasa, dan jendela konteks 32K, tetapi saya tidak butuh 70B+", tingkat GPU-M adalah tempat Anda harus mulai. Ia juga berfungsi ganda sebagai rig generasi gambar yang generous — FLUX.1-dev berjalan dengan nyaman dengan 16 GB headroom VRAM untuk batch resolusi tinggi.
Kapan Anda ingin H100, bukan 4090
Tiga sinyal mendorong keputusan pembelian ke GPU-L (H100 tunggal): (1) Anda melayani model kelas 70B atau DeepSeek-R1-Distill-Llama-70B dan ingin time-to-first-token di bawah satu detik pada batch 1; (2) Anda menjalankan inferensi bersamaan dengan batch tinggi (vLLM dengan batch 16+ pengguna) di mana bandwidth memori H100 adalah pemutus hambatan; (3) Anda melatih atau LoRA-finetune pada dataset di atas ~10M token dan ingin jalur pelatihan FP8 yang tidak dimiliki 4090 / 5090. Transformer Engine FP8 H100 kira-kira menggandakan throughput pelatihan vs FP16, itulah yang membuat fine-tuning 70B Llama layak pada satu kartu.
Ekonomika $/token
Untuk workload volume tinggi, perbandingan yang tepat adalah dolar per juta token pada throughput berkelanjutan. Pada Llama-3.1-70B Q4, vLLM 0.7+, batch 16: RTX 4090 tidak bisa meng-host model tanpa offload (CPU-RAM offload menghancurkan throughput ~10x). RTX 5090 dengan CPU-offload berada di sekitar $X per 1M token (kasar; bervariasi per kuantisasi). H100 SXM5 tunggal berada di sekitar $1,40-2,20 per 1M token output pada harga $832.50/bln kami. Bandingkan dengan GPT-4o OpenAI output pada ~$10 / 1M dan Claude Sonnet pada ~$15 / 1M — begitu workload Anda mencapai sekitar 30M token per hari, self-hosting pada H100 tunggal lebih murah dari memanggil API yang di-host, dan hasilnya privasi end-to-end. Untuk volume lebih rendah, API yang di-host menang dalam hal biaya.
Workload gambar, video, dan audio
Generasi gambar jarang membutuhkan lebih dari 4090 — FLUX.1-dev, SDXL, SD 3.5 semuanya muat dalam 24 GB pada kualitas produksi, dan ~83 TFLOPS FP16 RTX 4090 sudah lebih dari cukup. Naik ke 5090 / H100 sebagian besar membeli headroom ukuran batch (lebih banyak generasi bersamaan) daripada kecepatan per gambar. Video AI (Wan-2.1, CogVideoX-5B, alur kerja kelas Runway) lebih menuntut — GPU-M adalah titik masuk praktis, GPU-L untuk video panjang berkualitas produksi. Whisper Large v3 ASR dan Bark TTS keduanya berjalan nyaman pada 4090; H100 berlebihan untuk keduanya. Fine-tuning dengan LoRA atau QLoRA pada 7B-13B berfungsi pada 4090; fine-tuning 32B-70B secara realistis menginginkan 5090 minimum, H100 jika Anda menghargai waktu.
Bagaimana dengan RTX 5090 vs RTX A6000 / A100?
Jika Anda telah melihat opsi GPU di luar lini kartu konsumer, Anda mungkin telah menemukan RTX A6000 (48 GB, kartu datacenter) atau A100 (40 / 80 GB, HBM2e generasi sebelumnya). Vonis cepat: A6000 kira-kira setara komputasi 4090 dengan VRAM dua kali lipat, berguna jika VRAM adalah hambatan tetapi bandwidth tidak (jarang); A100 adalah satu generasi di belakang H100 dan sekarang sebagian besar tersedia di pasar sekunder — jika Anda bisa menemukannya dengan harga murah ia tetap merupakan kartu inferensi 70B yang kredibel, tetapi build baru di 2026 biasanya menggunakan H100. Kami saat ini tidak menawarkan tingkatan A6000 atau A100; katalog melompat dari RTX 5090 ke H100.
Yang kami kirimkan dan apa yang harus dipilih
Untuk meringkas keputusan pembelian GPU dalam satu kalimat per workload: chatbot / coding-assistant di bawah 32B → GPU-S (RTX 4090) untuk 7B-13B, GPU-M (RTX 5090) untuk 27B-32B; inferensi 70B flagship (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B presisi penuh atau pelatihan multi-GPU → GPU-XL (2× H100 SXM5); generasi gambar / video / suara → GPU-S kecuali Anda membutuhkan headroom batch, maka GPU-M. Semua empat tingkatan dikirimkan dengan CUDA 12.4 + cuDNN yang sudah terpasang dan template vLLM / Ollama / ComfyUI / Stable Diffusion 1-klik. Spek hardware lengkap ada di /gpu.