Scegliere tra RTX 4090, RTX 5090 e H100 SXM5 per il calcolo AI self-hosted nel 2026 riguarda raramente il numero TFLOPS di punta. Il GPU giusto è quello la cui VRAM, banda di memoria e prezzo per ora di inference si adattano alla classe di modello e alla forma del batch che eseguite davvero. Questa guida percorre i quattro tier GPU che ServPrivate offre, i workload per cui ciascuno è dimensionato e come leggere i numeri di throughput nel grafico.
I quattro tier in un paragrafo
RTX 4090 (GPU-S, $122.00–329/mese) offre 24 GB di GDDR6X a ~1 TB/s di banda di memoria e ~83 TFLOPS FP16. È la scelta giusta per modelli linguistici 7B–13B, image generation FLUX.1/SDXL, trascrizione Whisper e text-to-speech Bark. RTX 5090 (GPU-M, $195.50–519/mese) sale a 32 GB GDDR7 a ~1,8 TB/s e ~104 TFLOPS FP16; gli 8 GB aggiuntivi e il ~80% di aumento della banda sbloccano comodamente i modelli 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) e consentono il fine-tuning di Llama piccoli. H100 SXM5 (GPU-L, $832.50–1899/mese) è una categoria diversa — 80 GB HBM3 a ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), con fabric NVLink disponibile; è dimensionato per modelli linguistici 70B, inference a contesto più lungo e training più veloce. 2× H100 SXM5 (GPU-XL, $1567.50–3599/mese) è per l'inference 70B a piena precisione, training multi-GPU e modelli 100B+ a Q4/Q5.

La banda di memoria domina l'inference LLM
Per l'inference con transformer decoder-only a batch size fino a circa 16, il collo di bottiglia è la banda di memoria, non i FLOPS grezzi. Ogni token generato forza una lettura completa dei pesi del modello dalla VRAM (la fase di prefill riutilizza la K-V cache, ma ogni nuovo token rilegge le matrici dei pesi). I 3,35 TB/s HBM3 dell'H100 sono ciò che lo rende ~3x più veloce per token rispetto a un 4090 su un modello 70B — non il numero TFLOPS più alto. Questo spiega anche perché il salto RTX 5090 da GDDR6X a GDDR7 (~1,8 TB/s vs ~1 TB/s) conta più per l'inference che per il miglioramento dei TFLOPS grezzi. Se il vostro workload è dominato dall'inference piuttosto che dal training, privilegiate la banda rispetto ai TFLOPS.
Cosa entra in 24 GB / 32 GB / 80 GB
La quantizzazione cambia il quadro. A Q4_K_M (una quantizzazione tipicamente "di buona qualità"): un modello 7B richiede ~4,5 GB, 13B ~8 GB, 27–32B ~20 GB, 70B ~42 GB, 100B ~60 GB. Aggiungete ~10–15% di headroom per la K-V cache e il workspace CUDA. Le capienza pratiche: 24 GB = 7B–13B comodamente, 27–32B con difficoltà di offload, 70B non praticabile. 32 GB = 27–32B comodamente, 70B con CPU offload (lento). 80 GB = 70B comodamente a Q4–Q5, 100B con offload. 160 GB (H100 dual) = 70B a FP16/BF16, 100–180B a Q4. A FP16/BF16 (senza quantizzazione) i numeri raddoppiano: un 70B a FP16 richiede ~140 GB, ecco perché 2× H100 è il punto di ingresso per l'inference a piena precisione sui modelli flagship.
Quando RTX 5090 è la risposta giusta
L'uscita dell'RTX 5090 all'inizio del 2025 ha creato un nuovo sweet spot. Per i modelli 27B–32B che contano di più nel 2026 (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), il 5090 offre circa 2,5x il throughput di un 4090 alla metà del costo di un H100. Se il vostro workload è "ho bisogno di un modello assistente davvero capace con ragionamento, supporto multilingue e una finestra di contesto da 32K, ma non ho bisogno di 70B+", il tier GPU-M è il punto di partenza. Funziona anche come generoso rig di image generation — FLUX.1-dev gira comodamente con 16 GB di headroom VRAM per batch ad alta risoluzione.
Quando volete H100, non 4090
Tre segnali portano la decisione d'acquisto al GPU-L (singolo H100): (1) servite modelli 70B o DeepSeek-R1-Distill-Llama-70B e volete un time-to-first-token inferiore al secondo a batch 1; (2) eseguite inference concorrente ad alto batch (vLLM con batch 16+ utenti) dove la banda di memoria dell'H100 è il risolutore del collo di bottiglia; (3) fate training o LoRA fine-tuning su dataset superiori a ~10M token e volete il percorso di training FP8 che 4090/5090 non hanno. Il Transformer Engine FP8 dell'H100 raddoppia grossomodo il throughput di training rispetto a FP16, il che rende il fine-tuning di Llama 70B praticabile su una singola scheda.
Economia $/token
Per workload ad alto volume, il confronto corretto è dollari per milione di token a throughput sostenuto. Su Llama-3.1-70B Q4, vLLM 0.7+, batch 16: un RTX 4090 non riesce ad hostare il modello senza offload (il CPU-RAM offload riduce il throughput di ~10x). Un RTX 5090 con CPU-offload si aggira intorno a $X per 1M token (approssimativo; varia per quant). Un singolo H100 SXM5 si aggira intorno a $1,40–$2,20 per 1M token di output al nostro prezzo di ingresso di $832.50/mese. Confrontate con OpenAI GPT-4o output a ~$10/1M e Claude Sonnet a ~$15/1M — una volta che il vostro workload raggiunge circa 30M token al giorno, il self-hosting su un singolo H100 è più economico della chiamata alle API hosted, e il risultato in termini di privacy è end-to-end. Per volumi inferiori, le API hosted vincono sul costo.
Workload immagine, video e audio
La generazione di immagini raramente richiede più di un 4090 — FLUX.1-dev, SDXL, SD 3.5 entrano tutti in 24 GB a qualità produzione, e i ~83 TFLOPS FP16 dell'RTX 4090 sono più che sufficienti. Passare a 5090/H100 acquista principalmente headroom di batch size (più generazioni concorrenti) piuttosto che velocità per immagine. Il video AI (Wan-2.1, CogVideoX-5B, workflow stile Runway) è più esigente — GPU-M è l'ingresso pratico, GPU-L per contenuti long-form a qualità produzione. Whisper Large v3 ASR e Bark TTS girano comodamente sul 4090; l'H100 è eccessivo per loro. Il fine-tuning con LoRA o QLoRA su 7B–13B funziona su un 4090; il fine-tuning 32B–70B vuole realisticamente almeno un 5090, H100 se il tempo conta.
RTX 5090 vs RTX A6000 / A100?
Se avete guardato le opzioni GPU al di fuori delle schede consumer, potreste aver incontrato RTX A6000 (48 GB, scheda datacenter) o A100 (40/80 GB, HBM2e di generazione precedente). Verdetto rapido: l'A6000 è computazionalmente simile al 4090 con il doppio della VRAM, utile se la VRAM è il vostro collo di bottiglia ma la banda non lo è (raro); l'A100 è una generazione dietro all'H100 e ora disponibile principalmente sul mercato secondario — se lo trovate a buon prezzo rimane una scheda credibile per l'inference 70B, ma i nuovi sistemi nel 2026 sono tipicamente H100. Attualmente non offriamo tier A6000 o A100; il catalogo salta da RTX 5090 a H100.
Cosa offriamo e cosa scegliere
Per riassumere la decisione d'acquisto GPU in una frase per workload: chatbot / coding-assistant sotto 32B → GPU-S (RTX 4090) per 7B–13B, GPU-M (RTX 5090) per 27B–32B; inference flagship 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5); 70B a piena precisione o training multi-GPU → GPU-XL (2× H100 SXM5); generazione immagine/video/voce → GPU-S salvo necessità di headroom batch, in tal caso GPU-M. Tutti e quattro i tier vengono consegnati con CUDA 12.4 + cuDNN preinstallati e template 1-click per vLLM/Ollama/ComfyUI/Stable Diffusion. Le specifiche hardware complete sono su /gpu.