Khi chọn giữa RTX 4090, RTX 5090 và H100 SXM5 cho điện toán AI tự host vào năm 2026, hiếm khi quyết định nằm ở con số TFLOPS quảng cáo. GPU phù hợp là chiếc có VRAM, băng thông bộ nhớ và chi phí trên mỗi giờ inference khớp với lớp model và hình dạng batch bạn thực sự chạy. Hướng dẫn này trình bày bốn bậc GPU mà ServPrivate cung cấp, khối lượng công việc phù hợp với từng bậc, và cách đọc các con số thông lượng trên biểu đồ.
Bốn bậc trong một đoạn
RTX 4090 (GPU-S, $122.00–329/tháng) cung cấp 24 GB GDDR6X với băng thông bộ nhớ ~1 TB/s và ~83 TFLOPS FP16. Đây là lựa chọn phù hợp cho các ngôn ngữ model 7B–13B, tạo ảnh FLUX.1 / SDXL, chuyển giọng nói thành văn bản Whisper và tổng hợp giọng nói Bark. RTX 5090 (GPU-M, $195.50–519/tháng) nâng lên 32 GB GDDR7 với ~1.8 TB/s và ~104 TFLOPS FP16; thêm 8 GB cùng mức tăng băng thông ~80% giúp vận hành thoải mái các model 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) và cho phép fine-tune các Llama nhỏ hơn. H100 SXM5 (GPU-L, $832.50–1899/tháng) thuộc một hạng khác — 80 GB HBM3 ở ~3.35 TB/s, ~989 TFLOPS FP16 (Tensor Core), với fabric NVLink-class sẵn có; được thiết kế cho các ngôn ngữ model hạng 70B, inference ngữ cảnh dài và huấn luyện nhanh hơn. 2× H100 SXM5 (GPU-XL, $1567.50–3599/tháng) dành cho inference 70B full-precision, huấn luyện đa GPU và các model 100B+ ở Q4 / Q5.

Băng thông bộ nhớ quyết định inference LLM
Với inference transformer decoder-only ở batch size lên đến khoảng 16, nút thắt là băng thông bộ nhớ, không phải FLOPS thô. Mỗi token được tạo ra buộc phải đọc toàn bộ trọng số model từ VRAM (giai đoạn prefill tái sử dụng K-V cache, nhưng mỗi token mới vẫn đọc lại các ma trận trọng số). 3.35 TB/s HBM3 của H100 chính là thứ khiến nó nhanh hơn ~3× mỗi token so với 4090 trên cùng model hạng 70B — không phải con số TFLOPS cao hơn. Đó cũng là lý do tại sao bước nhảy của RTX 5090 từ GDDR6X lên GDDR7 (~1.8 TB/s so với ~1 TB/s) quan trọng hơn cho inference so với mức tăng FLOPS thô. Nếu khối lượng công việc của bạn nghiêng về inference hơn là huấn luyện, hãy ưu tiên băng thông hơn FLOPS.
Những gì vừa trong 24 GB / 32 GB / 80 GB
Lượng tử hóa thay đổi bức tranh. Ở Q4_K_M (mức lượng tử hóa "chất lượng tốt" điển hình): model 7B cần ~4.5 GB, 13B ~8 GB, 27–32B ~20 GB, 70B ~42 GB, 100B ~60 GB. Cộng thêm ~10–15% headroom cho K-V cache và CUDA workspace. Khả năng thực tế: 24 GB = 7B–13B thoải mái, 27–32B vất vả khi offload, 70B không khả thi. 32 GB = 27–32B thoải mái, 70B với CPU offload (chậm). 80 GB = 70B thoải mái ở Q4–Q5, 100B với offload. 160 GB (dual H100) = 70B ở FP16 / BF16, 100–180B ở Q4. Ở FP16 / BF16 (không lượng tử hóa) các con số tăng gấp đôi: 70B ở FP16 cần ~140 GB, đó là lý do 2× H100 là ngưỡng vào cho inference model flagship full-precision.
Khi nào RTX 5090 là câu trả lời đúng
Việc ra mắt RTX 5090 đầu năm 2025 tạo ra một điểm ngọt mới. Với các model hạng 27B–32B quan trọng nhất năm 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 mang lại thông lượng gấp khoảng 2.5× so với 4090 ở nửa chi phí của H100. Nếu nhu cầu của bạn là "cần một model trợ lý thực sự có năng lực với khả năng suy luận, hỗ trợ đa ngôn ngữ và cửa sổ ngữ cảnh 32K, nhưng không cần 70B+", bậc GPU-M là điểm khởi đầu. Nó cũng phục vụ tốt cho tạo ảnh — FLUX.1-dev chạy thoải mái với 16 GB VRAM headroom cho các batch độ phân giải cao.
Khi nào nên chọn H100 thay vì 4090
Ba tín hiệu khiến quyết định mua chuyển sang GPU-L (H100 đơn): (1) bạn đang phục vụ các model hạng 70B hoặc DeepSeek-R1-Distill-Llama-70B và muốn thời gian tạo token đầu tiên dưới một giây ở batch 1; (2) bạn đang chạy inference cao tải (vLLM với batch 16+ người dùng) nơi băng thông bộ nhớ của H100 là yếu tố phá vỡ nút thắt; (3) bạn đang huấn luyện hoặc fine-tune LoRA trên các tập dữ liệu hơn ~10M token và muốn đường huấn luyện FP8 mà 4090 / 5090 không có. Tensor Engine FP8 của H100 tăng gấp đôi thông lượng huấn luyện so với FP16, khiến việc fine-tune Llama 70B trên một card đơn trở nên khả thi.
Kinh tế $/token
Với các khối lượng công việc lớn, so sánh đúng đắn là đô la trên mỗi triệu token ở thông lượng duy trì. Trên Llama-3.1-70B Q4, vLLM 0.7+, batch 16: RTX 4090 không thể host model mà không offload (CPU-RAM offload làm giảm thông lượng ~10×). RTX 5090 với CPU offload chạy ở khoảng $X mỗi 1M token (ước tính; tùy thuộc vào quant). H100 SXM5 đơn đạt khoảng $1.40–2.20 mỗi 1M token output ở mức giá vào $832.50/tháng của chúng tôi. So với OpenAI GPT-4o output ~$10 / 1M và Claude Sonnet ~$15 / 1M — khi khối lượng công việc của bạn đạt khoảng 30M token mỗi ngày, tự host trên một H100 đơn rẻ hơn so với gọi API hosted, và kết quả về quyền riêng tư là end-to-end. Ở lượng thấp hơn, API hosted thắng về giá.
Khối lượng công việc ảnh, video và âm thanh
Tạo ảnh hiếm khi cần hơn một 4090 — FLUX.1-dev, SDXL, SD 3.5 đều vừa trong 24 GB ở chất lượng sản xuất, và ~83 TFLOPS FP16 của RTX 4090 là đủ. Nâng lên 5090 / H100 chủ yếu mua thêm headroom batch-size (nhiều lần tạo đồng thời hơn) thay vì tốc độ mỗi ảnh. Video AI (Wan-2.1, CogVideoX-5B, các quy trình làm việc kiểu Runway) đòi hỏi nhiều hơn — GPU-M là điểm vào thực tế, GPU-L cho chất lượng sản xuất dài. Whisper Large v3 ASR và Bark TTS đều chạy thoải mái trên 4090; H100 là quá mức cần thiết cho chúng. Fine-tuning với LoRA hoặc QLoRA trên 7B–13B hoạt động trên 4090; fine-tuning 32B–70B thực tế cần ít nhất 5090, H100 nếu bạn coi trọng thời gian.
RTX 5090 so với RTX A6000 / A100 thì sao?
Nếu bạn đã xem xét các tùy chọn GPU ngoài dòng card consumer, bạn có thể đã gặp RTX A6000 (48 GB, card datacenter) hoặc A100 (40 / 80 GB, HBM2e thế hệ trước). Nhận định nhanh: A6000 có compute tương đương 4090 với VRAM gấp đôi, hữu ích nếu VRAM là nút thắt nhưng băng thông không phải (hiếm gặp); A100 lùi một thế hệ so với H100 và hiện chủ yếu có trên thị trường thứ cấp — nếu bạn tìm thấy với giá rẻ vẫn là card inference 70B đáng tin, nhưng các build mới năm 2026 thường là H100. Chúng tôi hiện không cung cấp bậc A6000 hay A100; danh mục nhảy thẳng từ RTX 5090 lên H100.
Chúng tôi cung cấp gì và nên chọn gì
Tóm tắt quyết định mua GPU trong một câu cho mỗi khối lượng công việc: chatbot / trợ lý lập trình dưới 32B → GPU-S (RTX 4090) cho 7B–13B, GPU-M (RTX 5090) cho 27B–32B; inference flagship 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B full-precision hoặc huấn luyện đa GPU → GPU-XL (2× H100 SXM5); tạo ảnh / video / giọng nói → GPU-S trừ khi bạn cần headroom batch, thì chọn GPU-M. Tất cả bốn bậc đều đi kèm CUDA 12.4 + cuDNN được cài đặt sẵn và các template 1-click cho vLLM / Ollama / ComfyUI / Stable Diffusion. Thông số phần cứng đầy đủ tại /gpu.