CUDA 12
CUDA 12.4/12.6 + cuDNN preinstallati. Avvia, connettiti via SSH, esegui nvidia-smi.
Server GPU NVIDIA RTX 4090, RTX 5090 e H100 SXM5 per training IA, inferenza, generazione di immagini e video. CUDA 12 e cuDNN preinstallati, più preset PyTorch / ComfyUI / Ollama pronti per SSH. Host Threadripper Pro nei livelli H100 per il numero completo di canali PCIe Gen 5. Disponibile in 4 giurisdizioni offshore, senza KYC, pagamento solo in crypto in 20 coin incluso Monero.
Il stesso hardware NVIDIA in tutte le giurisdizioni, con banda illimitata in ogni piano. I prezzi variano per giurisdizione — Iceland è la opzione di minore huella di carbono, Moldova la più economica.
| Piano | GPU | VRAM | CPU | RAM | NVMe | Banda | Prezzo | |
|---|---|---|---|---|---|---|---|---|
| IS-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Illimitato | $146.50/mo | Ordine |
| IS-M Popolare | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Illimitato | $234.50/mo | Ordine |
| IS-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Illimitato | $906.00/mo | Ordine |
| IS-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Illimitato | $1714.50/mo | Ordine |
| Piano | GPU | VRAM | CPU | RAM | NVMe | Banda | Prezzo | |
|---|---|---|---|---|---|---|---|---|
| MD-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Illimitato | $122.00/mo | Ordine |
| MD-M Popolare | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Illimitato | $195.50/mo | Ordine |
| MD-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Illimitato | $832.50/mo | Ordine |
| MD-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Illimitato | $1567.50/mo | Ordine |
| Piano | GPU | VRAM | CPU | RAM | NVMe | Banda | Prezzo | |
|---|---|---|---|---|---|---|---|---|
| RO-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Illimitato | $132.00/mo | Ordine |
| RO-M Popolare | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Illimitato | $210.00/mo | Ordine |
| RO-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Illimitato | $857.00/mo | Ordine |
| RO-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Illimitato | $1616.50/mo | Ordine |
| Piano | GPU | VRAM | CPU | RAM | NVMe | Banda | Prezzo | |
|---|---|---|---|---|---|---|---|---|
| NL-S | 1× NVIDIA RTX 4090 | 24 GB GDDR6X | 12 vCPU | 64 GB DDR5 | 1 TB NVMe | Illimitato | $136.50/mo | Ordine |
| NL-M Popolare | 1× NVIDIA RTX 5090 | 32 GB GDDR7 | 16 vCPU | 96 GB DDR5 | 1.5 TB NVMe | Illimitato | $220.00/mo | Ordine |
| NL-L | 1× NVIDIA H100 SXM5 | 80 GB HBM3 | 24 vCPU | 192 GB DDR5 | 2 TB NVMe | Illimitato | $881.50/mo | Ordine |
| NL-XL | 2× NVIDIA H100 SXM5 | 160 GB HBM3 | 32 vCPU | 384 GB DDR5 | 4 TB NVMe | Illimitato | $1665.50/mo | Ordine |
Il hosting GPU è disponibile in 4 giurisdizioni al lanzamiento (Iceland, Netherlands, Romania, Moldova). Russia è excluida per le sanciones di exportación di NVIDIA; Switzerland e Panama se mantengono solo con Linux per ora.
CUDA 12.4/12.6 + cuDNN preinstallati. Avvia, connettiti via SSH, esegui nvidia-smi.
Del ordine pagado al risultato di nvidia-smi in meno di 60 secondi.
Fino a 4 TB NVMe SSD, insieme a RAM DDR5 per I/O rapido sui dataset.
SSH con root completo, più JupyterLab priconfigurato nel porta 8888 con autenticazione per token.
Finetuning di Llama, Mistral, Qwen, DeepSeek con LoRA / QLoRA / FT completo in H100. O inferenza auto-hospedada con vLLM / TGI / Ollama per serving di modelli in produzione.
Stable Diffusion, FLUX.1, SDXL con ComfyUI o Forge. Entrena il tuo proprio LoRA, genera in blocco a scala o auto-hospeda un endpoint di inferenza.
OpenSora, CogVideoX, Wan-2.1, AnimateDiff. La generazione di video impone mucha VRAM — empieza con RTX 5090 (32 GB) o H100 (80 GB).
Distribuisci modelli ajustados detrás del tuo propria API. Costos predecibles, senza cobros per token, senza dati saliendo del tuo giurisdizione. JupyterLab + FastAPI inclusi.
Seleziona una qualsiasi di queste all'ordine e il tuo server GPU si avvia con il stack già installato, configurato e avviato tramite systemd. Agrega modelli pre-scaricati abajo per saltare anche la descarga di HuggingFace di 30-60 min.
Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.
Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".
Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.
HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.
YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.
2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.
WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.
Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.
The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.
A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.
GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.
ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.
Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.
OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.
Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.
Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.
VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.
Combina più stacks nella stessa GPU — il script di distribuzione resuelve conflictos di dependencias e asigna porte senza colisiones.
Marca i modelli che ti serve all'ordine e estarán in caché in /root/.cache/huggingface prima di che inicies sessione. 🔒 I modelli restringidos (Llama, Mistral, Gemma, FLUX-dev, SD 3.5) richiedono il tuo token di HuggingFace (anche se richiede all'ordine).
| Modelo | HuggingFace | Tamaño | VRAM mín. | Nivel GPU mín. | Tipo |
|---|---|---|---|---|---|
| Llama 3.3 70B Instruct 🔒 Restringido | meta-llama/Llama-3.3-70B-Instruct |
140 GB | 160 GB | GPU-L | LLM |
| Qwen3 32B | Qwen/Qwen3-32B |
64 GB | 80 GB | GPU-L | LLM |
| Qwen3 14B | Qwen/Qwen3-14B |
28 GB | 32 GB | GPU-S | LLM |
| Qwen3 8B | Qwen/Qwen3-8B |
16 GB | 20 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Qwen 32B | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B |
64 GB | 80 GB | GPU-S | LLM |
| DeepSeek-R1 Distill Llama 70B | deepseek-ai/DeepSeek-R1-Distill-Llama-70B |
140 GB | 160 GB | GPU-S | LLM |
| Mistral Small 3.2 24B (multimodal) | mistralai/Mistral-Small-3.2-24B-Instruct-2506 |
48 GB | 60 GB | GPU-S | LLM |
| Gemma 3 27B (multimodal) 🔒 Restringido | google/gemma-3-27b-it |
54 GB | 64 GB | GPU-L | LLM |
| Gemma 3 12B (multimodal) 🔒 Restringido | google/gemma-3-12b-it |
24 GB | 28 GB | GPU-S | LLM |
| Phi-4 (14B) | microsoft/phi-4 |
28 GB | 32 GB | GPU-S | LLM |
| Phi-4 Mini Instruct (3.8B) | microsoft/Phi-4-mini-instruct |
8 GB | 10 GB | GPU-S | LLM |
| FLUX.1 [dev] 🔒 Restringido | black-forest-labs/FLUX.1-dev |
24 GB | 24 GB | GPU-S | Imagen |
| FLUX.1 [schnell] | black-forest-labs/FLUX.1-schnell |
24 GB | 24 GB | GPU-S | Imagen |
| FLUX.1 Kontext [dev] (image editing) 🔒 Restringido | black-forest-labs/FLUX.1-Kontext-dev |
24 GB | 24 GB | GPU-S | Imagen |
| Stable Diffusion 3.5 Large 🔒 Restringido | stabilityai/stable-diffusion-3.5-large |
16 GB | 18 GB | GPU-S | Imagen |
| Stable Diffusion 3.5 Medium 🔒 Restringido | stabilityai/stable-diffusion-3.5-medium |
5 GB | 10 GB | GPU-S | Imagen |
| HiDream-I1 Full | HiDream-ai/HiDream-I1-Full |
34 GB | 40 GB | GPU-S | Imagen |
| Wan 2.2 T2V A14B | Wan-AI/Wan2.2-T2V-A14B |
28 GB | 40 GB | GPU-S | Video |
| Wan 2.1 T2V 1.3B (low VRAM) | Wan-AI/Wan2.1-T2V-1.3B |
3 GB | 8 GB | GPU-S | Video |
| HunyuanVideo 1.5 (8.3B) | tencent/HunyuanVideo-1.5 |
17 GB | 24 GB | GPU-S | Video |
| LTX-Video 0.9.8 13B | Lightricks/LTX-Video |
26 GB | 24 GB | GPU-S | Video |
| CogVideoX-5B | zai-org/CogVideoX-5b |
10 GB | 16 GB | GPU-S | Video |
| Whisper Large v3 Turbo | openai/whisper-large-v3-turbo |
2 GB | 4 GB | GPU-S | Audio |
| Whisper Large v3 | openai/whisper-large-v3 |
3 GB | 6 GB | GPU-S | Audio |
| Kokoro 82M (TTS) | hexgrad/Kokoro-82M |
1 GB | 2 GB | GPU-S | Audio |
| Sesame CSM-1B (conversational TTS) | sesame/csm-1b |
2 GB | 6 GB | GPU-S | Audio |
| Stable Audio Open 1.0 🔒 Restringido | stabilityai/stable-audio-open-1.0 |
3 GB | 8 GB | GPU-S | Audio |
I tamaños sono pesos FP16. Per RTX 4090 (24 GB VRAM) con modelli di 70B, la variante cuantizada AWQ se descarga in parallelo automaticamente.
Pagamento solo in crypto, Monero nativo, log solo con token, stacks di IA preinstallatos, modelli HuggingFace pre-scaricati, token HF cifraturas, endpoints Let's Encrypt automáticos, banda illimitata e 100% energia rinnovabile in Islanda — lee la fila "ServPrivate" e juzga per ti stesso.
| Característica | ServPrivate | Vast.ai | RunPod | Paperspace | Lambda | TensorDock |
|---|---|---|---|---|---|---|
| Pagamento solo in crypto | ✅ 20 coins | ⚠️ BTC | ⚠️ Gateway | ❌ | ❌ | ⚠️ BTC/ETH/USDT |
| Monero (XMR) nativo | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| Senza KYC, senza log per email | ✅ Token-only | ⚠️ Email + ID for trust | ⚠️ Email + payment | ❌ Full KYC | ❌ Enterprise KYC | ⚠️ Email + light KYC |
| Stacks di IA preinstallatos | ✅ 17 templates | ⚠️ Docker BYO | ✅ 100+ | ⚠️ Notebooks only | ⚠️ Lambda Stack only | ⚠️ Docker BYO |
| Modelos pre-scaricati all'ordine | ✅ 27 models | ❌ | ❌ | ❌ | ❌ | ❌ |
| Token HuggingFace all'ordine | ✅ Encrypted, used once | ❌ | ❌ | ❌ | ❌ | ❌ |
| Chiave SSH all'ordine | ✅ | ✅ | ✅ | ⚠️ | ✅ | ⚠️ |
| Temporizador di apagado automatico | ✅ 6h-7d | ✅ | ⚠️ Spot only | ❌ | ❌ | ❌ |
| Endpoint HTTPS pubblico (Let's Encrypt) | ✅ Auto | ⚠️ Manual | ✅ Pods | ✅ | ❌ | ⚠️ Manual |
| Banda illimitata | ✅ | ⚠️ Per host | ⚠️ Capped | ⚠️ Capped | ⚠️ Capped | ⚠️ Per host |
| Datacenter con energia rinnovabile | ✅ Iceland 100% geo+hydro | ❌ Variable | ⚠️ US grid | ⚠️ US grid | ⚠️ US grid | ⚠️ Variable |
| Giurisdizione offshore | ✅ IS / NL / RO / MD | ❌ Distributed P2P | ❌ US-centric | ❌ US | ❌ US-only | ⚠️ Multi-region |
| Modo sandbox di test in seco | ✅ ?dry_run=1 | ⚠️ Trial credit | ⚠️ Limited | ⚠️ Free GPU tier | ❌ | ❌ |
| Agente IA / MCP primoo | ✅ MCP + REST + x402 | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST | ⚠️ REST |
| RTX 4090 ingresso / mese | $122.00 | ~$216 spot | ~$396 on-demand | n/a | n/a | ~$252 spot |
Dati di confronto ottenuti dalle pagine pubbliche di prezzi e dai flussi di registrazione dei concorrenti nel 2026-05. ServPrivate RTX 4090 entry-level = $122.00/mese in Moldavia; i prezzi spot dei concorrenti sono tariffe medie per hardware equivalente.
Passthrough completo di hardware. Ottieni la carta física NVIDIA completa con accesso diretto alla VRAM — non un segmento vGPU, non una partición MIG di tempo compartido. nvidia-smi entro del tuo VM muestra i stessos números che il host bare-metal. Accesso completo al driver, CUDA completo, stack completo di PyTorch / TensorFlow — senza reservas SR-IOV.
Imagen predeterminata: Ubunil tuo 22.04 + CUDA 12.4 + cuDNN 9 + driver NVIDIA 550. Otras imágenes listas per usare: Ubunil tuo 24.04 + CUDA 12.6, Ubunil tuo 22 + PyTorch 2.5, Ubunil tuo 22 + ComfyUI + Flux, Ubunil tuo 22 + Ollama + Open WebUI. También se offrono Ubunil tuo / Debian / AlmaLinux / Rocky standard se vuoi installar il tuo proprio stack. Puòs cambiare le versiones del driver in qualsiasi momento con root completo.
Sì. Molti di nostri clienti GPU eseguono APIs di inferenza pubblica tuo vLLM / TGI / FastAPI. I server GPU vienen con root completo, fatturazione mensile predecible (senza sorpresas per token) e una IP giurisdizionale fija. Il banda è illimitato in tutti i piani GPU, quindi che puòs servir endpoints pubblici di alto traffico senza vigilar medidores ni pagare cargos per exceso.
Le carte NVIDIA H100, A100 e RTX di alta gamma (4090 e superiorees) sono sujetas ai controles di exportación del Departamento di Comercio statunitensi (15 CFR Part 744) e a le regulaciones europeas di doble uso che vietan tuo invio a data center in Russia. No le aprovisionamos lì per adempiere con i controles che applicano a nostra chain di suministro. Si ti serve Linux VPS o Dedicato offshore in Russia, esas lineas di producto non sono afectadas.
I centri dati di Iceland funzionano con 100% di energia rinnovabile geotérmica e hidroeléctrica, e la bassa temperatura ambenete reduce in modo significativa la sucarga di refrigeración in i server H100 che consuman 700W ogni uno sotto caricamento sostenida. Il risultato è il cómputo GPU offshore con minore huella di carbono nel mercado. Il prezzo premium copre il maggiore costo del data center in Iceland e il uso di energia più pulita — per team di IA con criterios ESG, esta è la unica risposta offshore creíble.
Sì. Il livello GPU-XL include 2× H100 SXM5 con interconnessione NVLink nella stessa macchina, idealee per FSDP / DeepSpeed Zero-3 / DDP sullo stesso server. Per training multi-node puoi noleggiare più server GPU-XL nello stesso data center e coarrivarli tramite link da 10 Gbps. Non offriamo ancora nodi cluster 8× H100; contattaci se il tuo processo di training richiede maggiore scala.
Scegli il tuo giurisdizione, scegli il tuo GPU NVIDIA, paga con una qualsiasi delle 20 cryptos. JupyterLab in vivo in meno di 60 secondi. Senza KYC, senza email, senza telefono — solo un token.
Vedi i piani GPU