Trang chủ / Hướng Dẫn Privacy Hosting / RTX 4090 vs H100 SXM5 cho AI Inference (và Vị trí của RTX 5090)

Mua hàng

RTX 4090 vs H100 — GPU nào phù hợp cho workload AI của bạn?

Chọn GPU NVIDIA phù hợp cho AI tự lưu trữ không chỉ là câu hỏi về VRAM. RTX 4090 là điểm cân bằng tối ưu giữa giá và hiệu năng cho suy luận 7B–13B và tạo ảnh; RTX 5090 (32 GB GDDR7) là tầm trung mới cho 27B–32B; H100 SXM5 (80 GB HBM3) dành cho khối lượng công việc cỡ 70B khi băng thông bộ nhớ là yếu tố quyết định. Chúng tôi phân tích các đánh đổi theo từng lớp khối lượng công việc với số liệu thông lượng, kinh tế $/token, và những gì phù hợp với từng gói GPU của ServPrivate.

Đọc hướng dẫn FAQ

Không KYC

Chỉ nhận Crypto

Không lưu nhật ký

Bỏ qua DMCA

Toàn quyền Root

NVMe SSD

Khi chọn giữa RTX 4090, RTX 5090 và H100 SXM5 cho điện toán AI tự host vào năm 2026, hiếm khi quyết định nằm ở con số TFLOPS quảng cáo. GPU phù hợp là chiếc có VRAM, băng thông bộ nhớ và chi phí trên mỗi giờ inference khớp với lớp model và hình dạng batch bạn thực sự chạy. Hướng dẫn này trình bày bốn bậc GPU mà ServPrivate cung cấp, khối lượng công việc phù hợp với từng bậc, và cách đọc các con số thông lượng trên biểu đồ.

Bốn bậc trong một đoạn

RTX 4090 (GPU-S, $122.00–329/tháng) cung cấp 24 GB GDDR6X với băng thông bộ nhớ ~1 TB/s và ~83 TFLOPS FP16. Đây là lựa chọn phù hợp cho các ngôn ngữ model 7B–13B, tạo ảnh FLUX.1 / SDXL, chuyển giọng nói thành văn bản Whisper và tổng hợp giọng nói Bark. RTX 5090 (GPU-M, $195.50–519/tháng) nâng lên 32 GB GDDR7 với ~1.8 TB/s và ~104 TFLOPS FP16; thêm 8 GB cùng mức tăng băng thông ~80% giúp vận hành thoải mái các model 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) và cho phép fine-tune các Llama nhỏ hơn. H100 SXM5 (GPU-L, $832.50–1899/tháng) thuộc một hạng khác — 80 GB HBM3 ở ~3.35 TB/s, ~989 TFLOPS FP16 (Tensor Core), với fabric NVLink-class sẵn có; được thiết kế cho các ngôn ngữ model hạng 70B, inference ngữ cảnh dài và huấn luyện nhanh hơn. 2× H100 SXM5 (GPU-XL, $1567.50–3599/tháng) dành cho inference 70B full-precision, huấn luyện đa GPU và các model 100B+ ở Q4 / Q5.

RTX 4090 vs H100 — GPU nào phù hợp cho workload AI của bạn? — Thông lượng so với kích thước batch trên RTX 4090 (24 GB), RTX 5090 (32 GB) và H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct lượng tử hóa ở Q4_K_M, vLLM 0.7+, batch 1 đến batch 32.

Băng thông bộ nhớ quyết định inference LLM

Với inference transformer decoder-only ở batch size lên đến khoảng 16, nút thắt là băng thông bộ nhớ, không phải FLOPS thô. Mỗi token được tạo ra buộc phải đọc toàn bộ trọng số model từ VRAM (giai đoạn prefill tái sử dụng K-V cache, nhưng mỗi token mới vẫn đọc lại các ma trận trọng số). 3.35 TB/s HBM3 của H100 chính là thứ khiến nó nhanh hơn ~3× mỗi token so với 4090 trên cùng model hạng 70B — không phải con số TFLOPS cao hơn. Đó cũng là lý do tại sao bước nhảy của RTX 5090 từ GDDR6X lên GDDR7 (~1.8 TB/s so với ~1 TB/s) quan trọng hơn cho inference so với mức tăng FLOPS thô. Nếu khối lượng công việc của bạn nghiêng về inference hơn là huấn luyện, hãy ưu tiên băng thông hơn FLOPS.

Những gì vừa trong 24 GB / 32 GB / 80 GB

Lượng tử hóa thay đổi bức tranh. Ở Q4_K_M (mức lượng tử hóa "chất lượng tốt" điển hình): model 7B cần ~4.5 GB, 13B ~8 GB, 27–32B ~20 GB, 70B ~42 GB, 100B ~60 GB. Cộng thêm ~10–15% headroom cho K-V cache và CUDA workspace. Khả năng thực tế: 24 GB = 7B–13B thoải mái, 27–32B vất vả khi offload, 70B không khả thi. 32 GB = 27–32B thoải mái, 70B với CPU offload (chậm). 80 GB = 70B thoải mái ở Q4–Q5, 100B với offload. 160 GB (dual H100) = 70B ở FP16 / BF16, 100–180B ở Q4. Ở FP16 / BF16 (không lượng tử hóa) các con số tăng gấp đôi: 70B ở FP16 cần ~140 GB, đó là lý do 2× H100 là ngưỡng vào cho inference model flagship full-precision.

Khi nào RTX 5090 là câu trả lời đúng

Việc ra mắt RTX 5090 đầu năm 2025 tạo ra một điểm ngọt mới. Với các model hạng 27B–32B quan trọng nhất năm 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 mang lại thông lượng gấp khoảng 2.5× so với 4090 ở nửa chi phí của H100. Nếu nhu cầu của bạn là "cần một model trợ lý thực sự có năng lực với khả năng suy luận, hỗ trợ đa ngôn ngữ và cửa sổ ngữ cảnh 32K, nhưng không cần 70B+", bậc GPU-M là điểm khởi đầu. Nó cũng phục vụ tốt cho tạo ảnh — FLUX.1-dev chạy thoải mái với 16 GB VRAM headroom cho các batch độ phân giải cao.

Khi nào nên chọn H100 thay vì 4090

Ba tín hiệu khiến quyết định mua chuyển sang GPU-L (H100 đơn): (1) bạn đang phục vụ các model hạng 70B hoặc DeepSeek-R1-Distill-Llama-70B và muốn thời gian tạo token đầu tiên dưới một giây ở batch 1; (2) bạn đang chạy inference cao tải (vLLM với batch 16+ người dùng) nơi băng thông bộ nhớ của H100 là yếu tố phá vỡ nút thắt; (3) bạn đang huấn luyện hoặc fine-tune LoRA trên các tập dữ liệu hơn ~10M token và muốn đường huấn luyện FP8 mà 4090 / 5090 không có. Tensor Engine FP8 của H100 tăng gấp đôi thông lượng huấn luyện so với FP16, khiến việc fine-tune Llama 70B trên một card đơn trở nên khả thi.

Kinh tế $/token

Với các khối lượng công việc lớn, so sánh đúng đắn là đô la trên mỗi triệu token ở thông lượng duy trì. Trên Llama-3.1-70B Q4, vLLM 0.7+, batch 16: RTX 4090 không thể host model mà không offload (CPU-RAM offload làm giảm thông lượng ~10×). RTX 5090 với CPU offload chạy ở khoảng $X mỗi 1M token (ước tính; tùy thuộc vào quant). H100 SXM5 đơn đạt khoảng $1.40–2.20 mỗi 1M token output ở mức giá vào $832.50/tháng của chúng tôi. So với OpenAI GPT-4o output ~$10 / 1M và Claude Sonnet ~$15 / 1M — khi khối lượng công việc của bạn đạt khoảng 30M token mỗi ngày, tự host trên một H100 đơn rẻ hơn so với gọi API hosted, và kết quả về quyền riêng tư là end-to-end. Ở lượng thấp hơn, API hosted thắng về giá.

Khối lượng công việc ảnh, video và âm thanh

Tạo ảnh hiếm khi cần hơn một 4090 — FLUX.1-dev, SDXL, SD 3.5 đều vừa trong 24 GB ở chất lượng sản xuất, và ~83 TFLOPS FP16 của RTX 4090 là đủ. Nâng lên 5090 / H100 chủ yếu mua thêm headroom batch-size (nhiều lần tạo đồng thời hơn) thay vì tốc độ mỗi ảnh. Video AI (Wan-2.1, CogVideoX-5B, các quy trình làm việc kiểu Runway) đòi hỏi nhiều hơn — GPU-M là điểm vào thực tế, GPU-L cho chất lượng sản xuất dài. Whisper Large v3 ASR và Bark TTS đều chạy thoải mái trên 4090; H100 là quá mức cần thiết cho chúng. Fine-tuning với LoRA hoặc QLoRA trên 7B–13B hoạt động trên 4090; fine-tuning 32B–70B thực tế cần ít nhất 5090, H100 nếu bạn coi trọng thời gian.

RTX 5090 so với RTX A6000 / A100 thì sao?

Nếu bạn đã xem xét các tùy chọn GPU ngoài dòng card consumer, bạn có thể đã gặp RTX A6000 (48 GB, card datacenter) hoặc A100 (40 / 80 GB, HBM2e thế hệ trước). Nhận định nhanh: A6000 có compute tương đương 4090 với VRAM gấp đôi, hữu ích nếu VRAM là nút thắt nhưng băng thông không phải (hiếm gặp); A100 lùi một thế hệ so với H100 và hiện chủ yếu có trên thị trường thứ cấp — nếu bạn tìm thấy với giá rẻ vẫn là card inference 70B đáng tin, nhưng các build mới năm 2026 thường là H100. Chúng tôi hiện không cung cấp bậc A6000 hay A100; danh mục nhảy thẳng từ RTX 5090 lên H100.

Chúng tôi cung cấp gì và nên chọn gì

Tóm tắt quyết định mua GPU trong một câu cho mỗi khối lượng công việc: chatbot / trợ lý lập trình dưới 32B → GPU-S (RTX 4090) cho 7B–13B, GPU-M (RTX 5090) cho 27B–32B; inference flagship 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B full-precision hoặc huấn luyện đa GPU → GPU-XL (2× H100 SXM5); tạo ảnh / video / giọng nói → GPU-S trừ khi bạn cần headroom batch, thì chọn GPU-M. Tất cả bốn bậc đều đi kèm CUDA 12.4 + cuDNN được cài đặt sẵn và các template 1-click cho vLLM / Ollama / ComfyUI / Stable Diffusion. Thông số phần cứng đầy đủ tại /gpu.

FAQ

Mua GPU — Câu hỏi thường gặp

01 Tại sao băng thông bộ nhớ quan trọng hơn TFLOPS khi chạy inference?

Inference trên transformer decoder-only với batch nhỏ đến vừa bị giới hạn bởi bộ nhớ: mỗi token được tạo ra đều phải đọc toàn bộ ma trận trọng số từ VRAM. Các kernel tính toán nhanh đến mức GPU phần lớn thời gian chỉ ngồi chờ tải dữ liệu từ bộ nhớ. Đó là lý do HBM3 3,35 TB/s của H100 nhanh hơn ~3× so với GDDR6X 1 TB/s của 4090 trên cùng một model 70B, dù con số TFLOPS cao hơn của H100 gần như chỉ là phụ.

02 Tôi có thể chạy Llama-3.3-70B trên RTX 4090 không?

Về mặt kỹ thuật thì được, khi dùng CPU offload qua llama.cpp hoặc KTransformers — nhưng throughput giảm xuống chỉ còn ~3–5 token/giây với văn bản dài, quá chậm để dùng trong chat. Trên thực tế, 70B là workload dành cho H100 (hoặc 2× RTX 5090 với NVLink, mà chúng tôi không cung cấp). Nếu bạn cần 70B nhưng không muốn trả giá H100, hãy cân nhắc DeepSeek-R1-Distill-Llama-8B hoặc DeepSeek-R1-Distill-Qwen-14B trên 4090 — các model distilled này có khả năng suy luận đáng ngạc nhiên.

03 RTX 5090 có tốt hơn A100 cho AI không?

Cho inference thì phần lớn là có — GDDR7 của 5090 (~1,8 TB/s) nhỉnh hơn một chút so với HBM2e của A100 40 GB (~1,55 TB/s) về băng thông, và FLOPS cũng cao hơn. Dòng A100 80 GB có nhiều VRAM hơn (80 so với 32 GB), điều này quan trọng khi chạy inference 70B. Cho việc training, A100 vẫn có bộ nhớ ECC và bộ tính năng datacenter chuyên dụng mà 5090 thiếu. Các build mới năm 2026 thường chọn H100 thay vì A100; 5090 lấp đầy khoảng trống ở phân khúc consumer.

04 Khi nào tự host thực sự rẻ hơn OpenAI / Anthropic?

Ước tính: một H100 SXM5 $832,50/tháng chạy Llama-3.3-70B ở throughput batch-16 liên tục tạo ra ~30–50M token đầu ra/ngày. Theo giá GPT-4o ($10/1M token đầu ra), đó tương đương $300–500/ngày chi phí hosted. Điểm hòa vốn là khoảng 5–7M token đầu ra mỗi ngày. Dưới mức đó thì API hosted thắng; vượt qua mức đó thì tự host thắng. Điểm hòa vốn của RTX 4090 / 5090 thấp hơn tương ứng với các model nhỏ hơn mà chúng host.

05 GPU của ServPrivate so với Vast.ai hay RunPod như thế nào?

Vast.ai rẻ hơn theo giờ spot ($0,30–0,70/h cho 4090) nhưng chất lượng dao động lớn (phần cứng consumer trong nhà riêng, mạng lẫn lộn, rủi ro bị evict). RunPod ổn định hơn ($0,69–3,99/h on-demand) nhưng thuộc khu vực pháp lý US với KYC qua email / phương thức thanh toán. ServPrivate đắt hơn Vast.ai spot và tương đương RunPod on-demand trên cơ sở hàng tháng, nhưng với đăng ký chỉ cần token, hỗ trợ Monero gốc, không bị evict, không KYC, và 4 khu vực pháp lý offshore. Lựa chọn đúng phụ thuộc vào việc bạn coi trọng quyền riêng tư và tính ổn định hay chi phí thuần túy mỗi giờ hơn.

06 Còn H200 hay B200 thì sao — tôi có nên đợi không?

H200 (141 GB HBM3e) đã có trong catalog của các nhà cung cấp hyperscale như CoreWeave, nhưng nguồn cung trong phân khúc privacy-host offshore bị giới hạn bởi tư cách channel-partner của NVIDIA — chúng tôi đang đánh giá tình trạng sẵn hàng cho 2026-Q3. B200 NVL72 hiện chỉ nằm trong hạ tầng hyperscale và chưa khả thi cho thuê lẻ từng card. Với hầu hết người tự host, H100 SXM5 trong năm 2026 đủ năng lực cho các workload 70B — lý do chờ H200 chủ yếu là các use case multimodal long-context (200K+ token).

Sẵn sàng triển khai máy AI của bạn?

RTX 4090 từ $122,00/tháng, RTX 5090 từ $195,50/tháng, H100 SXM5 từ $832,50/tháng. Đăng ký chỉ cần token, thanh toán crypto, CUDA 12 + template AI 1-click.

Xem các gói GPU No-KYC GPU Hosting Self-Host LLM

RTX 4090 vs H100 — GPU nào phù hợp cho workload AI của bạn?

Trên trang này

Bốn bậc trong một đoạn

Băng thông bộ nhớ quyết định inference LLM

Những gì vừa trong 24 GB / 32 GB / 80 GB

Khi nào RTX 5090 là câu trả lời đúng

Khi nào nên chọn H100 thay vì 4090

Kinh tế $/token

Khối lượng công việc ảnh, video và âm thanh

RTX 5090 so với RTX A6000 / A100 thì sao?

Chúng tôi cung cấp gì và nên chọn gì

Mua GPU — Câu hỏi thường gặp

Đọc tiếp

Cách chọn khu vực pháp lý offshore hosting năm 2026

VPS vs máy chủ dedicated cho workload yêu cầu quyền riêng tư cao

VPN Tự Lưu Trữ trên VPS No-KYC: WireGuard vs OpenVPN

Offshore Windows RDP cho Giao dịch Forex MT4 / MT5 / cTrader

Giải thích Hosting Bỏ qua DMCA: Thực sự có Nghĩa gì vào năm 2026

Đăng ký tên miền ẩn danh bằng Crypto: WHOIS Privacy năm 2026

Thanh toán Crypto cho Hosting: Monero vs Bitcoin vs USDT

Hosting Offshore Có Thực Sự Ẩn Danh Không? Câu Trả Lời Trung Thực

Giờ Đầu Tiên Gia Cố VPS: Một Checklist

What Is No-KYC Hosting? Definition, Legality & How It Works

Is Offshore Hosting Legal? The Honest 2026 Answer

How to Pay for Hosting with Monero (XMR) — Step by Step

How to Host a Website Anonymously — A Practical 2026 Guide

How to Set Up a WireGuard VPN on a VPS — Step-by-Step Guide

How to Self-Host an LLM on a GPU Server — 2026 Guide

Bulletproof Hosting vs Offshore Hosting — What Is the Difference?

How to Buy a VPS with Bitcoin — Step-by-Step (2026)

Best Countries for DMCA-Ignored Hosting in 2026

How to Host a Tor Hidden Service (.onion Site) — 2026 Guide

Offshore Mail Server Setup — Self-Host Private Email in 2026

Crypto Node Hosting Guide — Run a Blockchain Node on a VPS

GPU Hosting for Stable Diffusion — Run Your Own Image Server

Server OpSec — Staying Anonymous When You Run a Server

Seedbox Setup Guide — Build Your Own Private Seedbox in 2026

Sẵn sàng triển khai máy AI của bạn?