Home / Guide di Hosting Privato / RTX 4090 vs H100 SXM5 per inferenza IA (e dove rientra la RTX 5090)

Compra

RTX 4090 vs H100 — Quale GPU scegliere per il tuo carico di lavoro IA?

Scegliere la GPU NVIDIA giusta per l'IA self-hosted non è solo una questione di VRAM. La RTX 4090 è il punto ottimale prezzo/prestazioni per l'inferenza 7B–13B e la generazione di immagini; la RTX 5090 (32 GB GDDR7) è il nuovo livello intermedio per 27B–32B; la H100 SXM5 (80 GB HBM3) è per workload di classe 70B dove la banda di memoria è determinante. Analizziamo i compromessi per classe di workload con dati di throughput, economia $/token e cosa rientra in ciascun livello GPU di ServPrivate.

Leer la guida FAQ

Senza KYC

Solo crypto

Nessun log

DMCA ignorato

Root completo

NVMe SSD

Scegliere tra RTX 4090, RTX 5090 e H100 SXM5 per il calcolo AI self-hosted nel 2026 riguarda raramente il numero TFLOPS di punta. Il GPU giusto è quello la cui VRAM, banda di memoria e prezzo per ora di inference si adattano alla classe di modello e alla forma del batch che eseguite davvero. Questa guida percorre i quattro tier GPU che ServPrivate offre, i workload per cui ciascuno è dimensionato e come leggere i numeri di throughput nel grafico.

I quattro tier in un paragrafo

RTX 4090 (GPU-S, $122.00–329/mese) offre 24 GB di GDDR6X a ~1 TB/s di banda di memoria e ~83 TFLOPS FP16. È la scelta giusta per modelli linguistici 7B–13B, image generation FLUX.1/SDXL, trascrizione Whisper e text-to-speech Bark. RTX 5090 (GPU-M, $195.50–519/mese) sale a 32 GB GDDR7 a ~1,8 TB/s e ~104 TFLOPS FP16; gli 8 GB aggiuntivi e il ~80% di aumento della banda sbloccano comodamente i modelli 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) e consentono il fine-tuning di Llama piccoli. H100 SXM5 (GPU-L, $832.50–1899/mese) è una categoria diversa — 80 GB HBM3 a ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), con fabric NVLink disponibile; è dimensionato per modelli linguistici 70B, inference a contesto più lungo e training più veloce. 2× H100 SXM5 (GPU-XL, $1567.50–3599/mese) è per l'inference 70B a piena precisione, training multi-GPU e modelli 100B+ a Q4/Q5.

RTX 4090 vs H100 — Quale GPU scegliere per il tuo carico di lavoro IA? — Throughput rispetto al batch size su RTX 4090 (24 GB), RTX 5090 (32 GB) e H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct quantizzato a Q4_K_M, vLLM 0.7+, da batch 1 a batch 32.

La banda di memoria domina l'inference LLM

Per l'inference con transformer decoder-only a batch size fino a circa 16, il collo di bottiglia è la banda di memoria, non i FLOPS grezzi. Ogni token generato forza una lettura completa dei pesi del modello dalla VRAM (la fase di prefill riutilizza la K-V cache, ma ogni nuovo token rilegge le matrici dei pesi). I 3,35 TB/s HBM3 dell'H100 sono ciò che lo rende ~3x più veloce per token rispetto a un 4090 su un modello 70B — non il numero TFLOPS più alto. Questo spiega anche perché il salto RTX 5090 da GDDR6X a GDDR7 (~1,8 TB/s vs ~1 TB/s) conta più per l'inference che per il miglioramento dei TFLOPS grezzi. Se il vostro workload è dominato dall'inference piuttosto che dal training, privilegiate la banda rispetto ai TFLOPS.

Cosa entra in 24 GB / 32 GB / 80 GB

La quantizzazione cambia il quadro. A Q4_K_M (una quantizzazione tipicamente "di buona qualità"): un modello 7B richiede ~4,5 GB, 13B ~8 GB, 27–32B ~20 GB, 70B ~42 GB, 100B ~60 GB. Aggiungete ~10–15% di headroom per la K-V cache e il workspace CUDA. Le capienza pratiche: 24 GB = 7B–13B comodamente, 27–32B con difficoltà di offload, 70B non praticabile. 32 GB = 27–32B comodamente, 70B con CPU offload (lento). 80 GB = 70B comodamente a Q4–Q5, 100B con offload. 160 GB (H100 dual) = 70B a FP16/BF16, 100–180B a Q4. A FP16/BF16 (senza quantizzazione) i numeri raddoppiano: un 70B a FP16 richiede ~140 GB, ecco perché 2× H100 è il punto di ingresso per l'inference a piena precisione sui modelli flagship.

Quando RTX 5090 è la risposta giusta

L'uscita dell'RTX 5090 all'inizio del 2025 ha creato un nuovo sweet spot. Per i modelli 27B–32B che contano di più nel 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), il 5090 offre circa 2,5x il throughput di un 4090 alla metà del costo di un H100. Se il vostro workload è "ho bisogno di un modello assistente davvero capace con ragionamento, supporto multilingue e una finestra di contesto da 32K, ma non ho bisogno di 70B+", il tier GPU-M è il punto di partenza. Funziona anche come generoso rig di image generation — FLUX.1-dev gira comodamente con 16 GB di headroom VRAM per batch ad alta risoluzione.

Quando volete H100, non 4090

Tre segnali portano la decisione d'acquisto al GPU-L (singolo H100): (1) servite modelli 70B o DeepSeek-R1-Distill-Llama-70B e volete un time-to-first-token inferiore al secondo a batch 1; (2) eseguite inference concorrente ad alto batch (vLLM con batch 16+ utenti) dove la banda di memoria dell'H100 è il risolutore del collo di bottiglia; (3) fate training o LoRA fine-tuning su dataset superiori a ~10M token e volete il percorso di training FP8 che 4090/5090 non hanno. Il Transformer Engine FP8 dell'H100 raddoppia grossomodo il throughput di training rispetto a FP16, il che rende il fine-tuning di Llama 70B praticabile su una singola scheda.

Economia $/token

Per workload ad alto volume, il confronto corretto è dollari per milione di token a throughput sostenuto. Su Llama-3.1-70B Q4, vLLM 0.7+, batch 16: un RTX 4090 non riesce ad hostare il modello senza offload (il CPU-RAM offload riduce il throughput di ~10x). Un RTX 5090 con CPU-offload si aggira intorno a $X per 1M token (approssimativo; varia per quant). Un singolo H100 SXM5 si aggira intorno a $1,40–$2,20 per 1M token di output al nostro prezzo di ingresso di $832.50/mese. Confrontate con OpenAI GPT-4o output a ~$10/1M e Claude Sonnet a ~$15/1M — una volta che il vostro workload raggiunge circa 30M token al giorno, il self-hosting su un singolo H100 è più economico della chiamata alle API hosted, e il risultato in termini di privacy è end-to-end. Per volumi inferiori, le API hosted vincono sul costo.

Workload immagine, video e audio

La generazione di immagini raramente richiede più di un 4090 — FLUX.1-dev, SDXL, SD 3.5 entrano tutti in 24 GB a qualità produzione, e i ~83 TFLOPS FP16 dell'RTX 4090 sono più che sufficienti. Passare a 5090/H100 acquista principalmente headroom di batch size (più generazioni concorrenti) piuttosto che velocità per immagine. Il video AI (Wan-2.1, CogVideoX-5B, workflow stile Runway) è più esigente — GPU-M è l'ingresso pratico, GPU-L per contenuti long-form a qualità produzione. Whisper Large v3 ASR e Bark TTS girano comodamente sul 4090; l'H100 è eccessivo per loro. Il fine-tuning con LoRA o QLoRA su 7B–13B funziona su un 4090; il fine-tuning 32B–70B vuole realisticamente almeno un 5090, H100 se il tempo conta.

RTX 5090 vs RTX A6000 / A100?

Se avete guardato le opzioni GPU al di fuori delle schede consumer, potreste aver incontrato RTX A6000 (48 GB, scheda datacenter) o A100 (40/80 GB, HBM2e di generazione precedente). Verdetto rapido: l'A6000 è computazionalmente simile al 4090 con il doppio della VRAM, utile se la VRAM è il vostro collo di bottiglia ma la banda non lo è (raro); l'A100 è una generazione dietro all'H100 e ora disponibile principalmente sul mercato secondario — se lo trovate a buon prezzo rimane una scheda credibile per l'inference 70B, ma i nuovi sistemi nel 2026 sono tipicamente H100. Attualmente non offriamo tier A6000 o A100; il catalogo salta da RTX 5090 a H100.

Cosa offriamo e cosa scegliere

Per riassumere la decisione d'acquisto GPU in una frase per workload: chatbot / coding-assistant sotto 32B → GPU-S (RTX 4090) per 7B–13B, GPU-M (RTX 5090) per 27B–32B; inference flagship 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B a piena precisione o training multi-GPU → GPU-XL (2× H100 SXM5); generazione immagine/video/voce → GPU-S salvo necessità di headroom batch, in tal caso GPU-M. Tutti e quattro i tier vengono consegnati con CUDA 12.4 + cuDNN preinstallati e template 1-click per vLLM/Ollama/ComfyUI/Stable Diffusion. Le specifiche hardware complete sono su /gpu.

FAQ

Domande frequenti tuo acquisto di GPU

01 Perché il banda di memoria è più contanote che i TFLOPS per la inferenza?

L'inferenza su transformer decoder-only a batch size piccole-medie è limitata dalla memoria: ogni token generato richiede la lettura dell'intera matrice dei pesi dalla VRAM. I kernel di calcolo sono abbastanza veloci che la GPU trascorre la maggior parte del tempo in attesa dei caricamenti di memoria. Per questo gli HBM3 a 3,35 TB/s dell'H100 sono circa 3 volte più veloci per token rispetto ai GDDR6X a 1 TB/s di una 4090 sullo stesso modello 70B, anche se il valore più alto di TFLOPS dell'H100 è quasi marginale.

02 Posso ejecutar Llama-3.3-70B in una RTX 4090?

Tecnicamente sì, con CPU offload tramite llama.cpp o KTransformers — ma il throughput scende a ~3–5 token/secondo nella generazione lunga, il che è troppo lento per la chat. In pratica, 70B è un workload da H100 (oppure 2× RTX 5090 con NVLink, che non offriamo). Se ti serve un 70B ma non vuoi i prezzi dell'H100, valuta DeepSeek-R1-Distill-Llama-8B o DeepSeek-R1-Distill-Qwen-14B su una 4090 — i modelli distillati sono sorprendentemente competitivi nel ragionamento.

03 Es la RTX 5090 migliore che una A100 per IA?

Per l'inferenza, per lo più sì — il GDDR7 della 5090 (~1,8 TB/s) supera leggermente l'HBM2e della A100 40 GB (~1,55 TB/s) in banda, e i FLOPS sono più alti. Lo SKU A100 da 80 GB ha più VRAM (80 contro 32 GB), il che conta per l'inferenza su modelli 70B. Per il training, la A100 ha ancora memoria ECC e il set di funzionalità da datacenter che alla 5090 manca. Le nuove installazioni nel 2026 scelgono tipicamente H100 rispetto ad A100; la 5090 colma il divario nella fascia consumer.

04 Quando l'autohosting è davvero più economico rispetto a OpenAI / Anthropic?

Approssimativamente: un singolo H100 SXM5 a $832.50/mese, eseguendo Llama-3.3-70B a throughput sostenuto con batch 16, produce ~30–50M token di output al giorno. Al prezzo di GPT-4o ($10/1M di output) equivale a $300–500/giorno di spesa hosted equivalente. Il punto di pareggio è intorno a 5–7M token di output al giorno. Sotto quella soglia vincono le API hosted; sopra vince il self-hosting. I punti di pareggio per RTX 4090 / 5090 scendono in proporzione ai modelli più piccoli che ospitano.

05 Come se comper la GPU di ServPrivate con Vast.ai o RunPod?

Vast.ai è più economico sullo spot orario ($0.30–0.70/h per una 4090) ma la qualità varia molto (hardware consumer in abitazioni private, rete mista, rischio di eviction). RunPod è più costante ($0.69–3.99/h on-demand) ma è in giurisdizione USA con KYC su email/metodo di pagamento. ServPrivate è più caro per ora rispetto allo spot di Vast.ai e grosso modo comparabile a RunPod on-demand su base mensile, ma con iscrizione solo a token, Monero nativo, nessuna eviction, nessun KYC e 4 giurisdizioni offshore. La scelta giusta dipende da cosa conta di più: privacy e prevedibilità, oppure il puro costo per ora.

06 E H200 o B200 — dovrei aspettarle?

L'H200 (141 GB HBM3e) è a catalogo presso provider hyperscale come CoreWeave, ma la disponibilità nel segmento degli host privacy offshore è vincolata allo stato di channel partner NVIDIA — stiamo valutando la disponibilità per il Q3 2026. La B200 NVL72 al momento esiste solo in fabric hyperscale e non è praticabile per noleggi a scheda singola. Per la maggior parte di chi fa self-hosting, un H100 SXM5 nel 2026 ha capacità sufficiente per workload di classe 70B — il motivo per attendere l'H200 riguarda principalmente casi d'uso multimodali a contesto lungo (200K+ token).

Pronto per distribuire il tuo caja IA?

RTX 4090 da $122.00/mese, RTX 5090 da $195.50/mese, H100 SXM5 da $832.50/mese. Iscrizione solo con token, checkout in crypto, CUDA 12 + template IA con un clic.

Vedi i piani GPU No-KYC GPU Hosting Self-Host LLM

RTX 4090 vs H100 — Quale GPU scegliere per il tuo carico di lavoro IA?

En questa pagina

I quattro tier in un paragrafo

La banda di memoria domina l'inference LLM

Cosa entra in 24 GB / 32 GB / 80 GB

Quando RTX 5090 è la risposta giusta

Quando volete H100, non 4090

Economia $/token

Workload immagine, video e audio

RTX 5090 vs RTX A6000 / A100?

Cosa offriamo e cosa scegliere

Domande frequenti tuo acquisto di GPU

Seguir leyendo

Come Scegliere una Giurisdizione di Hosting Offshore in 2026

VPS vs Server Dedicato per Workload Critici per la Privacy

VPN Autogestionulla in un VPS Senza KYC: WireGuard vs OpenVPN

RDP Windows Offshore per Trading Forex con MT4 / MT5 / cTrader

Hosting con DMCA Ignorato: Cosa Significa Davvero nel 2026

Registrazione Anonima di Domini con Crypto: Privacy WHOIS nel 2026

Pagamenti Crypto per Hosting: Monero vs Bitcoin vs USDT

L'hosting offshore è davvero anonimo? Una risposta onesta

La prima ora di hardening di un VPS: una checklist

Cos'è l'Hosting No-KYC? Definizione, Legalità e Come Funziona

L'Hosting Offshore è Legale? La Risposta Onesta per il 2026

Come pagare l'hosting con Monero (XMR) — Guida passo dopo passo

Come ospitare un sito web in modo anonimo — Guida pratica 2026

Come Configurare una VPN WireGuard su un VPS — Guida Passo dopo Passo

Come fare self-hosting di un LLM su un server GPU — Guida 2026

Hosting Bulletproof vs Hosting Offshore — Qual è la Differenza?

Come acquistare un VPS con Bitcoin — Guida passo dopo passo (2026)

I migliori paesi per l'hosting ignorato dal DMCA nel 2026

Come ospitare un servizio nascosto Tor (sito .onion) — Guida 2026

Configurazione di un Server Mail Offshore — Self-Hosting di Email Private nel 2026

Guida all'Hosting di Nodi Crypto — Esegui un Nodo Blockchain su un VPS

GPU Hosting per Stable Diffusion — Esegui il Tuo Server di Immagini

Server OpSec — Restare Anonimi Quando Gestisci un Server

Guida alla configurazione di una seedbox — Costruisci la tua seedbox privata nel 2026

Pronto per distribuire il tuo caja IA?