Beranda / Privasi Hosting Guides / RTX 4090 vs H100 SXM5 untuk Inferensi AI (dan Di Mana RTX 5090 Cocok)
Pembelian

RTX 4090 vs H100 — GPU Mana untuk Workload AI Anda?

Memilih NVIDIA GPU yang tepat untuk self-hosted AI bukan hanya soal VRAM. RTX 4090 adalah sweet spot harga untuk inference 7B-13B dan image generation; RTX 5090 (32 GB GDDR7) adalah mid-tier baru untuk 27B-32B; H100 SXM5 (80 GB HBM3) ditujukan untuk workload kelas 70B ketika memory bandwidth mendominasi. Panduan ini membahas trade-off per kelas workload, angka throughput, ekonomi $/token, dan apa yang cocok di setiap tier GPU ServPrivate.

Tanpa KYC
Hanya Kripto
Tanpa Log
DMCA Diabaikan
Root penuh
NVMe SSD

Memilih antara RTX 4090, RTX 5090, dan H100 SXM5 untuk komputasi AI yang di-host sendiri di tahun 2026 jarang tentang angka TFLOPS headline. GPU yang tepat adalah yang VRAM, bandwidth memori, dan harga per jam inferensi-nya sesuai dengan kelas model dan bentuk batch yang benar-benar Anda jalankan. Panduan ini membahas empat tingkatan GPU yang dikirimkan ServPrivate, workload yang masing-masing dirancang untuknya, dan cara membaca angka throughput pada grafik.

Empat tingkatan dalam satu paragraf

RTX 4090 (GPU-S, $122.00-329/bln) menghadirkan 24 GB GDDR6X pada ~1 TB/s bandwidth memori dan ~83 TFLOPS FP16. Ini adalah pilihan tepat untuk model bahasa 7B-13B, generasi gambar FLUX.1 / SDXL, transkripsi Whisper, dan text-to-speech Bark. RTX 5090 (GPU-M, $195.50-519/bln) meningkat ke 32 GB GDDR7 pada ~1,8 TB/s dan ~104 TFLOPS FP16; 8 GB tambahan dan ~80% peningkatan bandwidth membuka model 27B-32B dengan nyaman (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) dan memungkinkan Anda melakukan fine-tuning Llama kecil. H100 SXM5 (GPU-L, $832.50-1899/bln) adalah kategori berbeda — 80 GB HBM3 pada ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), dengan fabric kelas NVLink yang tersedia; ini dirancang untuk model bahasa kelas 70B, inferensi konteks panjang, dan pelatihan lebih cepat. 2× H100 SXM5 (GPU-XL, $1567.50-3599/bln) adalah untuk inferensi 70B presisi penuh, pelatihan multi-GPU, dan model 100B+ pada Q4 / Q5.

RTX 4090 vs H100 — GPU Mana untuk Workload AI Anda?
Throughput vs ukuran batch pada RTX 4090 (24 GB), RTX 5090 (32 GB) dan H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct dikuantisasi ke Q4_K_M, vLLM 0.7+, batch 1 hingga batch 32.

Bandwidth memori mendominasi inferensi LLM

Untuk inferensi transformer decoder-only pada ukuran batch hingga sekitar 16, hambatannya adalah bandwidth memori, bukan raw FLOPS. Setiap token yang dihasilkan memaksa pembacaan penuh bobot model dari VRAM (fase prefill menggunakan kembali cache K-V, tetapi setiap token baru membaca matriks bobot lagi). 3,35 TB/s HBM3 H100 itulah yang membuatnya ~3x lebih cepat per token dari 4090 pada model kelas 70B — bukan angka TFLOPS yang lebih tinggi. Inilah juga mengapa lompatan RTX 5090 dari GDDR6X ke GDDR7 (~1,8 TB/s vs ~1 TB/s) lebih penting untuk inferensi daripada peningkatan raw FLOPS. Jika workload Anda didominasi oleh inferensi daripada pelatihan, prioritaskan bandwidth daripada TFLOPS.

Apa yang muat di 24 GB / 32 GB / 80 GB

Kuantisasi mengubah gambarannya. Pada Q4_K_M (kuantisasi "kualitas bagus" yang khas): model 7B membutuhkan ~4,5 GB, 13B membutuhkan ~8 GB, 27-32B membutuhkan ~20 GB, 70B membutuhkan ~42 GB, 100B membutuhkan ~60 GB. Tambahkan ~10-15% headroom untuk cache K-V dan ruang kerja CUDA. Kesesuaian praktis: 24 GB = 7B-13B nyaman, 27-32B dengan kesulitan offload, 70B tidak layak. 32 GB = 27-32B nyaman, 70B dengan CPU offload (lambat). 80 GB = 70B nyaman pada Q4-Q5, 100B dengan offload. 160 GB (dual H100) = 70B pada FP16 / BF16, 100-180B pada Q4. Pada FP16 / BF16 (tanpa kuantisasi) angkanya berlipat ganda: 70B pada FP16 membutuhkan ~140 GB, itulah mengapa 2× H100 adalah titik masuk untuk inferensi model flagship presisi penuh.

Kapan RTX 5090 adalah jawaban yang tepat

Peluncuran RTX 5090 di awal 2025 menciptakan sweet spot baru. Untuk model kelas 27B-32B yang paling penting di 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 kira-kira 2,5x throughput 4090 dengan setengah biaya H100. Jika workload Anda adalah "saya butuh model asisten yang benar-benar capable dengan penalaran, dukungan multibahasa, dan jendela konteks 32K, tetapi saya tidak butuh 70B+", tingkat GPU-M adalah tempat Anda harus mulai. Ia juga berfungsi ganda sebagai rig generasi gambar yang generous — FLUX.1-dev berjalan dengan nyaman dengan 16 GB headroom VRAM untuk batch resolusi tinggi.

Kapan Anda ingin H100, bukan 4090

Tiga sinyal mendorong keputusan pembelian ke GPU-L (H100 tunggal): (1) Anda melayani model kelas 70B atau DeepSeek-R1-Distill-Llama-70B dan ingin time-to-first-token di bawah satu detik pada batch 1; (2) Anda menjalankan inferensi bersamaan dengan batch tinggi (vLLM dengan batch 16+ pengguna) di mana bandwidth memori H100 adalah pemutus hambatan; (3) Anda melatih atau LoRA-finetune pada dataset di atas ~10M token dan ingin jalur pelatihan FP8 yang tidak dimiliki 4090 / 5090. Transformer Engine FP8 H100 kira-kira menggandakan throughput pelatihan vs FP16, itulah yang membuat fine-tuning 70B Llama layak pada satu kartu.

Ekonomika $/token

Untuk workload volume tinggi, perbandingan yang tepat adalah dolar per juta token pada throughput berkelanjutan. Pada Llama-3.1-70B Q4, vLLM 0.7+, batch 16: RTX 4090 tidak bisa meng-host model tanpa offload (CPU-RAM offload menghancurkan throughput ~10x). RTX 5090 dengan CPU-offload berada di sekitar $X per 1M token (kasar; bervariasi per kuantisasi). H100 SXM5 tunggal berada di sekitar $1,40-2,20 per 1M token output pada harga $832.50/bln kami. Bandingkan dengan GPT-4o OpenAI output pada ~$10 / 1M dan Claude Sonnet pada ~$15 / 1M — begitu workload Anda mencapai sekitar 30M token per hari, self-hosting pada H100 tunggal lebih murah dari memanggil API yang di-host, dan hasilnya privasi end-to-end. Untuk volume lebih rendah, API yang di-host menang dalam hal biaya.

Workload gambar, video, dan audio

Generasi gambar jarang membutuhkan lebih dari 4090 — FLUX.1-dev, SDXL, SD 3.5 semuanya muat dalam 24 GB pada kualitas produksi, dan ~83 TFLOPS FP16 RTX 4090 sudah lebih dari cukup. Naik ke 5090 / H100 sebagian besar membeli headroom ukuran batch (lebih banyak generasi bersamaan) daripada kecepatan per gambar. Video AI (Wan-2.1, CogVideoX-5B, alur kerja kelas Runway) lebih menuntut — GPU-M adalah titik masuk praktis, GPU-L untuk video panjang berkualitas produksi. Whisper Large v3 ASR dan Bark TTS keduanya berjalan nyaman pada 4090; H100 berlebihan untuk keduanya. Fine-tuning dengan LoRA atau QLoRA pada 7B-13B berfungsi pada 4090; fine-tuning 32B-70B secara realistis menginginkan 5090 minimum, H100 jika Anda menghargai waktu.

Bagaimana dengan RTX 5090 vs RTX A6000 / A100?

Jika Anda telah melihat opsi GPU di luar lini kartu konsumer, Anda mungkin telah menemukan RTX A6000 (48 GB, kartu datacenter) atau A100 (40 / 80 GB, HBM2e generasi sebelumnya). Vonis cepat: A6000 kira-kira setara komputasi 4090 dengan VRAM dua kali lipat, berguna jika VRAM adalah hambatan tetapi bandwidth tidak (jarang); A100 adalah satu generasi di belakang H100 dan sekarang sebagian besar tersedia di pasar sekunder — jika Anda bisa menemukannya dengan harga murah ia tetap merupakan kartu inferensi 70B yang kredibel, tetapi build baru di 2026 biasanya menggunakan H100. Kami saat ini tidak menawarkan tingkatan A6000 atau A100; katalog melompat dari RTX 5090 ke H100.

Yang kami kirimkan dan apa yang harus dipilih

Untuk meringkas keputusan pembelian GPU dalam satu kalimat per workload: chatbot / coding-assistant di bawah 32B → GPU-S (RTX 4090) untuk 7B-13B, GPU-M (RTX 5090) untuk 27B-32B; inferensi 70B flagship (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B presisi penuh atau pelatihan multi-GPU → GPU-XL (2× H100 SXM5); generasi gambar / video / suara → GPU-S kecuali Anda membutuhkan headroom batch, maka GPU-M. Semua empat tingkatan dikirimkan dengan CUDA 12.4 + cuDNN yang sudah terpasang dan template vLLM / Ollama / ComfyUI / Stable Diffusion 1-klik. Spek hardware lengkap ada di /gpu.

FAQ

Pembelian GPU — pertanyaan yang sering diajukan

01 Mengapa bandwidth memori lebih penting daripada TFLOPS untuk inference?

Inference decoder-only transformer pada batch kecil sampai menengah bersifat memory-bound: setiap token yang dihasilkan membutuhkan pembacaan seluruh weight matrix dari VRAM. Compute kernel cukup cepat sehingga GPU menghabiskan sebagian besar waktu menunggu memory load. Karena itu H100 dengan HBM3 3.35 TB/s kira-kira 3x lebih cepat per token dibanding 4090 dengan GDDR6X 1 TB/s pada model 70B yang sama, meskipun angka TFLOPS H100 yang lebih besar hampir hanya faktor sampingan.

02 Bisakah saya menjalankan Llama-3.3-70B di RTX 4090?

Secara teknis bisa dengan CPU offload melalui llama.cpp atau KTransformers, tetapi throughput long-form generation turun ke sekitar 3-5 tokens/sec, terlalu lambat untuk chat. Secara praktis, 70B adalah workload H100. Jika tidak ingin harga H100, pertimbangkan DeepSeek-R1-Distill-Llama-8B atau Qwen-14B di 4090.

03 Apakah RTX 5090 lebih baik dari A100 untuk AI?

Untuk inference, sebagian besar ya. Bandwidth GDDR7 pada 5090 sekitar 1.8 TB/s, sedikit di atas HBM2e A100 40GB sekitar 1.55 TB/s, dan FLOPS-nya juga lebih tinggi. Namun SKU A100 80GB memiliki VRAM lebih besar, penting untuk inference 70B. Untuk training, A100 masih memiliki ECC memory dan fitur datacenter yang tidak dimiliki 5090. Build baru pada 2026 biasanya memilih H100 daripada A100; 5090 mengisi celah consumer-class.

04 Kapan self-hosting benar-benar lebih murah dari OpenAI / Anthropic?

Gambaran kasarnya: satu H100 SXM5 seharga $832.50/mo yang menjalankan Llama-3.3-70B pada sustained batch-16 throughput menghasilkan ~30-50M output tokens/hari. Dengan harga GPT-4o ($10/1M output), itu setara $300-500/hari hosted spend. Break-even point sekitar 5-7M output tokens per hari. Di bawah itu, hosted APIs menang; di atas itu, self-hosting menang. Break-even RTX 4090 / 5090 turun sesuai model lebih kecil yang muat di kartu tersebut.

05 Bagaimana perbandingan GPU ServPrivate dengan Vast.ai atau RunPod?

Vast.ai lebih murah untuk hourly spot ($0.30-0.70/h untuk 4090) tetapi kualitasnya sangat bervariasi: hardware consumer di rumah, networking campuran, risiko eviction. RunPod lebih konsisten ($0.69-3.99/h on-demand) tetapi berada di US yurisdiksi dengan email/payment-method KYC. ServPrivate lebih mahal per jam daripada Vast.ai spot dan kira-kira sebanding dengan RunPod on-demand secara bulanan, tetapi memberi token-only signup, native Monero, tanpa eviction, tanpa KYC, dan 4 offshore yurisdiksi. Pilihan tepat bergantung pada apakah privasi dan predictability atau cents-per-hour murni lebih penting.

06 Bagaimana dengan H200 atau B200 — apakah sebaiknya saya menunggu?

H200 (141 GB HBM3e) ada di katalog penyedia hyperscale seperti CoreWeave, tetapi supply di segmen offshore privasi-host dibatasi oleh status channel partner NVIDIA; kami sedang mengevaluasi availability 2026-Q3. B200 NVL72 saat ini bersifat hyperscale-fabric-only dan tidak feasible untuk rental single-card. Untuk sebagian besar self-hoster, H100 SXM5 pada 2026 sudah cukup untuk workload kelas 70B. Alasan menunggu H200 terutama berlaku untuk use case multi-modal long-context, seperti 200K+ token.

Siap untuk deploy box AI Anda?

RTX 4090 from $122.00/mo, RTX 5090 from $195.50/mo, H100 SXM5 from $832.50/mo. Token-only signup, kripto checkout, CUDA 12 + 1-click AI templates.

Lihat Paket GPU No-KYC GPU Hosting Self-Host LLM