Home / Guide di Hosting Privato / RTX 4090 vs H100 SXM5 per inferenza IA (e dove rientra la RTX 5090)
Compra

RTX 4090 vs H100 — Quale GPU scegliere per il tuo carico di lavoro IA?

Scegliere la GPU NVIDIA corretta per IA autoalojada non è solo cuestión di VRAM. La RTX 4090 è il punto óptimo di prezzo per inferenza 7B-13B e generazione di imágenes; la RTX 5090 (32 GB GDDR7) è il nuovo livello medio per 27B-32B; la H100 SXM5 (80 GB HBM3) è per carichi di lavoro di clase 70B dove il banda di memoria è dominante. Analizamos i compromessi per clase di carico di lavoro con números di prestazioni, economía $/token e quale rientra in ogni livello GPU di ServPrivate.

Senza KYC
Solo crypto
Nessun log
DMCA ignorato
Root completo
NVMe SSD

Scegliere tra RTX 4090, RTX 5090 e H100 SXM5 per il calcolo AI self-hosted nel 2026 riguarda raramente il numero TFLOPS di punta. Il GPU giusto è quello la cui VRAM, banda di memoria e prezzo per ora di inference si adattano alla classe di modello e alla forma del batch che eseguite davvero. Questa guida percorre i quattro tier GPU che ServPrivate offre, i workload per cui ciascuno è dimensionato e come leggere i numeri di throughput nel grafico.

I quattro tier in un paragrafo

RTX 4090 (GPU-S, $122.00–329/mese) offre 24 GB di GDDR6X a ~1 TB/s di banda di memoria e ~83 TFLOPS FP16. È la scelta giusta per modelli linguistici 7B–13B, image generation FLUX.1/SDXL, trascrizione Whisper e text-to-speech Bark. RTX 5090 (GPU-M, $195.50–519/mese) sale a 32 GB GDDR7 a ~1,8 TB/s e ~104 TFLOPS FP16; gli 8 GB aggiuntivi e il ~80% di aumento della banda sbloccano comodamente i modelli 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) e consentono il fine-tuning di Llama piccoli. H100 SXM5 (GPU-L, $832.50–1899/mese) è una categoria diversa — 80 GB HBM3 a ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), con fabric NVLink disponibile; è dimensionato per modelli linguistici 70B, inference a contesto più lungo e training più veloce. 2× H100 SXM5 (GPU-XL, $1567.50–3599/mese) è per l'inference 70B a piena precisione, training multi-GPU e modelli 100B+ a Q4/Q5.

RTX 4090 vs H100 — Quale GPU scegliere per il tuo carico di lavoro IA?
Rendimiento vs tamaño di lote in RTX 4090 (24 GB), RTX 5090 (32 GB) e H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct cuantizado a Q4_K_M, vLLM 0.7+, lote 1 a lote 32.

La banda di memoria domina l'inference LLM

Per l'inference con transformer decoder-only a batch size fino a circa 16, il collo di bottiglia è la banda di memoria, non i FLOPS grezzi. Ogni token generato forza una lettura completa dei pesi del modello dalla VRAM (la fase di prefill riutilizza la K-V cache, ma ogni nuovo token rilegge le matrici dei pesi). I 3,35 TB/s HBM3 dell'H100 sono ciò che lo rende ~3x più veloce per token rispetto a un 4090 su un modello 70B — non il numero TFLOPS più alto. Questo spiega anche perché il salto RTX 5090 da GDDR6X a GDDR7 (~1,8 TB/s vs ~1 TB/s) conta più per l'inference che per il miglioramento dei TFLOPS grezzi. Se il vostro workload è dominato dall'inference piuttosto che dal training, privilegiate la banda rispetto ai TFLOPS.

Cosa entra in 24 GB / 32 GB / 80 GB

La quantizzazione cambia il quadro. A Q4_K_M (una quantizzazione tipicamente "di buona qualità"): un modello 7B richiede ~4,5 GB, 13B ~8 GB, 27–32B ~20 GB, 70B ~42 GB, 100B ~60 GB. Aggiungete ~10–15% di headroom per la K-V cache e il workspace CUDA. Le capienza pratiche: 24 GB = 7B–13B comodamente, 27–32B con difficoltà di offload, 70B non praticabile. 32 GB = 27–32B comodamente, 70B con CPU offload (lento). 80 GB = 70B comodamente a Q4–Q5, 100B con offload. 160 GB (H100 dual) = 70B a FP16/BF16, 100–180B a Q4. A FP16/BF16 (senza quantizzazione) i numeri raddoppiano: un 70B a FP16 richiede ~140 GB, ecco perché 2× H100 è il punto di ingresso per l'inference a piena precisione sui modelli flagship.

Quando RTX 5090 è la risposta giusta

L'uscita dell'RTX 5090 all'inizio del 2025 ha creato un nuovo sweet spot. Per i modelli 27B–32B che contano di più nel 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), il 5090 offre circa 2,5x il throughput di un 4090 alla metà del costo di un H100. Se il vostro workload è "ho bisogno di un modello assistente davvero capace con ragionamento, supporto multilingue e una finestra di contesto da 32K, ma non ho bisogno di 70B+", il tier GPU-M è il punto di partenza. Funziona anche come generoso rig di image generation — FLUX.1-dev gira comodamente con 16 GB di headroom VRAM per batch ad alta risoluzione.

Quando volete H100, non 4090

Tre segnali portano la decisione d'acquisto al GPU-L (singolo H100): (1) servite modelli 70B o DeepSeek-R1-Distill-Llama-70B e volete un time-to-first-token inferiore al secondo a batch 1; (2) eseguite inference concorrente ad alto batch (vLLM con batch 16+ utenti) dove la banda di memoria dell'H100 è il risolutore del collo di bottiglia; (3) fate training o LoRA fine-tuning su dataset superiori a ~10M token e volete il percorso di training FP8 che 4090/5090 non hanno. Il Transformer Engine FP8 dell'H100 raddoppia grossomodo il throughput di training rispetto a FP16, il che rende il fine-tuning di Llama 70B praticabile su una singola scheda.

Economia $/token

Per workload ad alto volume, il confronto corretto è dollari per milione di token a throughput sostenuto. Su Llama-3.1-70B Q4, vLLM 0.7+, batch 16: un RTX 4090 non riesce ad hostare il modello senza offload (il CPU-RAM offload riduce il throughput di ~10x). Un RTX 5090 con CPU-offload si aggira intorno a $X per 1M token (approssimativo; varia per quant). Un singolo H100 SXM5 si aggira intorno a $1,40–$2,20 per 1M token di output al nostro prezzo di ingresso di $832.50/mese. Confrontate con OpenAI GPT-4o output a ~$10/1M e Claude Sonnet a ~$15/1M — una volta che il vostro workload raggiunge circa 30M token al giorno, il self-hosting su un singolo H100 è più economico della chiamata alle API hosted, e il risultato in termini di privacy è end-to-end. Per volumi inferiori, le API hosted vincono sul costo.

Workload immagine, video e audio

La generazione di immagini raramente richiede più di un 4090 — FLUX.1-dev, SDXL, SD 3.5 entrano tutti in 24 GB a qualità produzione, e i ~83 TFLOPS FP16 dell'RTX 4090 sono più che sufficienti. Passare a 5090/H100 acquista principalmente headroom di batch size (più generazioni concorrenti) piuttosto che velocità per immagine. Il video AI (Wan-2.1, CogVideoX-5B, workflow stile Runway) è più esigente — GPU-M è l'ingresso pratico, GPU-L per contenuti long-form a qualità produzione. Whisper Large v3 ASR e Bark TTS girano comodamente sul 4090; l'H100 è eccessivo per loro. Il fine-tuning con LoRA o QLoRA su 7B–13B funziona su un 4090; il fine-tuning 32B–70B vuole realisticamente almeno un 5090, H100 se il tempo conta.

RTX 5090 vs RTX A6000 / A100?

Se avete guardato le opzioni GPU al di fuori delle schede consumer, potreste aver incontrato RTX A6000 (48 GB, scheda datacenter) o A100 (40/80 GB, HBM2e di generazione precedente). Verdetto rapido: l'A6000 è computazionalmente simile al 4090 con il doppio della VRAM, utile se la VRAM è il vostro collo di bottiglia ma la banda non lo è (raro); l'A100 è una generazione dietro all'H100 e ora disponibile principalmente sul mercato secondario — se lo trovate a buon prezzo rimane una scheda credibile per l'inference 70B, ma i nuovi sistemi nel 2026 sono tipicamente H100. Attualmente non offriamo tier A6000 o A100; il catalogo salta da RTX 5090 a H100.

Cosa offriamo e cosa scegliere

Per riassumere la decisione d'acquisto GPU in una frase per workload: chatbot / coding-assistant sotto 32B → GPU-S (RTX 4090) per 7B–13B, GPU-M (RTX 5090) per 27B–32B; inference flagship 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B a piena precisione o training multi-GPU → GPU-XL (2× H100 SXM5); generazione immagine/video/voce → GPU-S salvo necessità di headroom batch, in tal caso GPU-M. Tutti e quattro i tier vengono consegnati con CUDA 12.4 + cuDNN preinstallati e template 1-click per vLLM/Ollama/ComfyUI/Stable Diffusion. Le specifiche hardware complete sono su /gpu.

FAQ

Domande frequenti tuo acquisto di GPU

01 Perché il banda di memoria è più contanote che i TFLOPS per la inferenza?

La inferenza di transformadores solo decodificadores in tamaños di lote piccoli a medianos è limitada per la memoria: ogni token generado richiede leggere la matriz di pesos completa dalla VRAM. I kernels di cómputo sono lo suficientemente veloci come che la GPU pasa la maggiore parte del tempo esperando cargas di memoria. Por eso i 3,35 TB/s di HBM3 della H100 sono aproximadamente 3x più veloci per token che i 1 TB/s di GDDR6X di una 4090 nel stesso modello 70B, a pesar di che il maggiore número di TFLOPS della H100 è casi incidental.

02 Posso ejecutar Llama-3.3-70B in una RTX 4090?

Técnicamente sì, con offload a CPU mediante llama.cpp o KTransformers — ma il prestazioni cae a ~3-5 token/segundo in generazione in modoto largo, lo cual è inusablemente lento per chat. En la pratica, 70B è una carico di lavoro per H100 (o 2× RTX 5090 con NVLink, che non ofrecemos). Si 70B è lo che ti serve e non vuoi prezzi di H100, considera DeepSeek-R1-Distill-Llama-8B o DeepSeek-R1-Distill-Qwen-14B in una 4090 — i modelli destilatos sono sorprendentemente competitivi in razonamiento.

03 Es la RTX 5090 migliore che una A100 per IA?

Per inferenza, maggioremente sì — il GDDR7 della 5090 (~1,8 TB/s) supera il HBM2e della A100 40GB (~1,55 TB/s) in banda, e i FLOPS sono maggiorees. Il SKU di 80 GB della A100 ha più VRAM (80 vs 32), lo che importa per inferenza 70B. Per training, la A100 ancora ha memoria ECC e il insieme di caratteristicas di datacenter che alla 5090 le falta. Le nuove installaciones in 2026 típicamente sceglin H100 tuo A100; la 5090 llena il hueco di clase consumidor.

04 Quando il autohosting è davvero più economico che OpenAI / Anthropic?

Aproximadamente: una H100 SXM5 semplice a $832.50/mo eseguonodo Llama-3.3-70B a prestazioni sostenuto di lote 16 consegna ~30-50M token di uscita/giorno. Al prezzo di GPT-4o ($10/1M di uscita) eso sono $300-500/giorno di gasto equivalente hospedado. Il punto di equilibrio è alrededor di 5-7M token di uscita per giorno. Sotto di eso, le APIs hospedadas vincen; per encima di eso, il autohosting vince. I punti di equilibrio della RTX 4090 / 5090 scalan verso abajo con i modelli più piccoli che alojan.

05 Come se comper la GPU di ServPrivate con Vast.ai o RunPod?

Vast.ai è più economico per ora spot ($0,30-0,70/h per una 4090) ma la qualità varía enormemente (hardware di consumidor in hogares, reti mixtas, rischio di desalojo). RunPod è più consistente ($0,69-3,99/h sotto causa) ma giurisdizione in USA con KYC di email/método di pagamento. ServPrivate è più caro per ora che il spot di Vast.ai e aproximadamente comperble a RunPod sotto causa in base mensile, ma log solo con token, Monero nativo, senza desalojo, senza KYC e 4 giurisdizioni offshore. La scelta corretta dipende di se la privacy e la predictibilidad o i centesimi puras per ora contano più.

06 Quale ci sono della H200 o B200 — devería esperar a esas?

La H200 (141 GB HBM3e) è nel catálogo di provider a hiperscala come CoreWeave, ma il suministro nel segmento di host di privacy offshore è condicionado al estale tue di socio di canal NVIDIA — estamos evaluando disponibilità in 2026-Q3. La B200 NVL72 è fabric di hiperscala esclusivamente in este punto e non è factible per alquileres di carta unica. Per la maggior parte di quienes autoalojan, una H100 SXM5 in 2026 ha livellocidad suficiente per carichi di lavoro di clase 70B — il argomento per esperar la H200 è principalmente per casi d'uso multimodal di contesto largo (200K+ token).

Pronto per distribuire il tuo caja IA?

RTX 4090 da $122.00/mo, RTX 5090 da $195.50/mo, H100 SXM5 da $832.50/mo. Registrazione solo con token, checkout in crypto, CUDA 12 + plantillas IA di 1 clic.

Vedi i piani GPU No-KYC GPU Hosting Self-Host LLM