홈 / GPU AI 호스팅

RTX 4090 · RTX 5090 · H100 SXM5 · CUDA 12

익명 오프쇼어 GPU AI 호스팅, KYC 없음

Name: Offshore GPU AI Hosting
Brand: ServPrivate
Availability: InStock

AI 학습, 추론, 이미지 및 영상 생성을 위한 NVIDIA RTX 4090, RTX 5090, H100 SXM5 GPU 서버. CUDA 12와 cuDNN이 사전 설치되어 있으며, PyTorch / ComfyUI / Ollama 이미지 프리셋에 바로 SSH로 접속할 수 있습니다. H100 등급은 완전한 PCIe Gen 5 레인 수를 위한 Threadripper Pro 호스트를 사용합니다. 4개 오프쇼어 관할권에서 제공, KYC 없음, Monero를 포함한 20종 코인의 암호화폐 전용 결제.

GPU 플랜 보기 전용 서버 아니요-KYC GPU Uncensored AI 호스팅

모든 GPU 서버에 포함된 사항

NVIDIA 하드웨어, 완전한 passthrough
CUDA 12 + cuDNN preinstalled
Threadripper / Ryzen 9 hosts
NVMe SSD & DDR5
60-second 배포
Monero를 포함한 8종 암호화폐 지원

KYC 없음

암호화폐 결제 전용

CUDA 12

클린 IP

전체 root 권한

Monero accepted

전체 GPU 플랜

위치별 GPU 요금제

모든 관할권에서 동일한 NVIDIA 하드웨어, 모든 플랜에 무제한 대역폭 포함. 가격은 관할권마다 다릅니다 — 아이슬란드가 탄소 배출이 가장 적은 옵션이며, 몰도바가 가장 저렴합니다.

아이슬란드 표현의 자유 친화적

요금제	GPU	VRAM	CPU	RAM	NVMe	대역폭	가격
IS-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	무제한	$146.50/mo	주문
IS-M 인기	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	무제한	$234.50/mo	주문
IS-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	무제한	$906.00/mo	주문
IS-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	무제한	$1714.50/mo	주문

몰도바 저비용 오프쇼어

요금제	GPU	VRAM	CPU	RAM	NVMe	대역폭	가격
MD-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	무제한	$122.00/mo	주문
MD-M 인기	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	무제한	$195.50/mo	주문
MD-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	무제한	$832.50/mo	주문
MD-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	무제한	$1567.50/mo	주문

루마니아 반(反) 보존

요금제	GPU	VRAM	CPU	RAM	NVMe	대역폭	가격
RO-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	무제한	$132.00/mo	주문
RO-M 인기	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	무제한	$210.00/mo	주문
RO-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	무제한	$857.00/mo	주문
RO-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	무제한	$1616.50/mo	주문

네덜란드 최고의 피어링

요금제	GPU	VRAM	CPU	RAM	NVMe	대역폭	가격
NL-S	1× NVIDIA RTX 4090	24 GB GDDR6X	12 vCPU	64 GB DDR5	1 TB NVMe	무제한	$136.50/mo	주문
NL-M 인기	1× NVIDIA RTX 5090	32 GB GDDR7	16 vCPU	96 GB DDR5	1.5 TB NVMe	무제한	$220.00/mo	주문
NL-L	1× NVIDIA H100 SXM5	80 GB HBM3	24 vCPU	192 GB DDR5	2 TB NVMe	무제한	$881.50/mo	주문
NL-XL	2× NVIDIA H100 SXM5	160 GB HBM3	32 vCPU	384 GB DDR5	4 TB NVMe	무제한	$1665.50/mo	주문

GPU 호스팅은 출시 시점 기준 4개 관할권(아이슬란드, 네덜란드, 루마니아, 몰도바)에서 제공됩니다. 러시아는 NVIDIA 수출 제재로 제외되며, 스위스와 파나마는 당분간 Linux 전용으로 유지됩니다.

모든 GPU 서버에 포함

CUDA 12

CUDA 12.4/12.6 + cuDNN preinstalled. Boot, ssh in, run nvidia-smi.

60-second 배포

결제 완료된 주문부터 nvidia-smi 출력까지 60초 이내.

NVMe SSD

빠른 데이터셋 I/O를 위해 DDR5 RAM과 짝을 이룬 최대 4 TB NVMe SSD.

SSH + Jupyter

완전한 root SSH에 더해, 토큰 인증이 적용된 JupyterLab이 8888 포트에 미리 바인딩되어 제공됩니다.

사용 사례

What GPU AI Hosting is Used For

LLM 파인튜닝 & 추론

H100에서 LoRA / QLoRA / 전체 FT로 진행하는 Llama, Mistral, Qwen, DeepSeek 파인튜닝. 또는 프로덕션 모델 서빙을 위한 vLLM / TGI / Ollama 자체 호스팅 추론.

이미지 생성

ComfyUI 또는 Forge와 함께 쓰는 Stable Diffusion, FLUX.1, SDXL. 자신만의 LoRA를 학습시키거나, 대규모로 배치 생성하거나, 추론 엔드포인트를 직접 호스팅하세요.

AI 영상 생성

OpenSora, CogVideoX, Wan-2.1, AnimateDiff. 영상 생성에는 상당한 VRAM이 필요합니다 — RTX 5090(32 GB) 또는 H100(80 GB)부터 시작하세요.

프로덕션 추론

파인튜닝한 모델을 자체 API 뒤에 배포하세요. 예측 가능한 비용, 토큰당 요금 없음, 관할권 밖으로 나가는 데이터 없음. JupyterLab + FastAPI 포함.

1-click 배포

사전 설치된 AI 템플릿

주문 시 원하는 항목을 선택하면 GPU 서버가 해당 스택이 이미 설치, 구성되어 systemd를 통해 시작된 상태로 부팅됩니다. 아래에서 사전 다운로드된 모델을 추가하면 HuggingFace의 30~60분 다운로드도 건너뛸 수 있습니다.

LLM 추론

vLLM (OpenAI-compatible)

Production-grade LLM serving with continuous batching and paged attention. Exposes an /v1/completions endpoint compatible with the OpenAI SDK.

LLMOpenAI APIproduction 16 GB+

LLM 추론

Ollama + Open WebUI

Self-hosted ChatGPT-style web UI. Pulls Ollama-native quantized weights; easiest path to "talk to my LLM in a browser".

LLMchat UIbeginner 8 GB+

LLM 추론

text-generation-webui (Oobabooga)

Gradio UI with broad backend support — Transformers, ExLlamaV2, llama.cpp, AWQ, GPTQ. Power-user choice for benchmarking quantizations.

LLMmulti-backendpower user 16 GB+

LLM 추론

HuggingFace TGI

HuggingFace Text Generation Inference — production server with token streaming, tensor parallelism, paged attention.

LLMproductionHuggingFace 24 GB+

파인튜닝

Axolotl (LLM finetuning)

YAML-config driven finetuning. Supports LoRA, QLoRA, full FT, DPO, ORPO. Pre-cloned to /opt/axolotl with starter configs for Llama / Qwen / Mistral.

finetuneLoRAQLoRA 24 GB+

파인튜닝

Unsloth (2× faster finetune)

2× faster + 70% less VRAM finetuning via custom Triton kernels. Ideal for budget runs on RTX 4090. Pre-installed in /opt/unsloth.

finetunefastlow VRAM 16 GB+

파인튜닝

LLaMA-Factory

WebUI-driven finetuning platform. SFT / RLHF / DPO / KTO. Good entry point for non-coders who want to finetune on a UI.

finetuneGUI 24 GB+

이미지 생성

ComfyUI + FLUX.1

Node-graph image-gen interface, ships with FLUX.1-schnell + Kontext workflows. Power-user image generation pipeline.

imageFLUXworkflow 24 GB+

이미지 생성

Automatic1111 + SD 3.5

The mainstream Stable Diffusion WebUI. Stable Diffusion 3.5 + extensions ecosystem. Familiar UI for users coming from civitai.

imageSD 3.5 16 GB+

이미지 생성

Forge (faster A1111)

A1111 fork optimized for FLUX, faster sampling, lower VRAM. Drop-in replacement for users coming from Auto1111.

imageFLUXfast 16 GB+

이미지 생성

Kohya SS (LoRA training)

GUI for training Stable Diffusion / FLUX LoRA, DreamBooth, textual inversion. Trains a custom-style LoRA on RTX 4090 in 30-90 min.

LoRA trainingimageGUI 16 GB+

AI 영상

ComfyUI + Wan 2.2 / HunyuanVideo

ComfyUI with video-gen workflows preloaded — Wan 2.2 T2V, HunyuanVideo, LTX-Video. Needs 40+ GB VRAM for usable speed at 720p.

videoWan 2.2HunyuanVideo 40 GB+

AI 영상

ComfyUI Video Lite (CogVideoX / LTX)

Lightweight video workflows — CogVideoX-5B, Wan 2.1 1.3B, LTX-Video. Runs on a single RTX 4090.

videoCogVideoXlow VRAM 16 GB+

오디오

Whisper Large v3 Turbo server

OpenAI Whisper Large v3 Turbo with faster-whisper backend behind a /transcribe HTTP API. 8× faster than v3, 99 langs, real-time on any GPU.

audiospeech-to-textAPI 6 GB+

오디오

TTS server (Kokoro + CSM-1B)

Multi-model TTS endpoint serving Kokoro 82M (54 voices, 8 langs) and Sesame CSM-1B (conversational with context). REST + WebSocket streaming.

audiotext-to-speechAPI 6 GB+

노트북 & Dev

JupyterLab + PyTorch baseline

Always installed. PyTorch 2.5 + CUDA 12.4 + Transformers + diffusers + accelerate + bitsandbytes + xformers + flash-attn. The universal AI dev baseline.

notebookbaselinealways-on 0 GB+

노트북 & Dev

code-server (VSCode in browser)

VSCode running in your browser, full Python/IPython/extensions. For users who prefer IDE workflow over notebooks.

IDEVSCodedev 0 GB+

같은 GPU에서 여러 스택을 조합할 수 있습니다 — 배포 스크립트가 의존성 충돌을 해결하고 서로 충돌하지 않는 포트를 할당합니다.

다운로드 건너뛰기

사전 다운로드된 오픈 웨이트 모델

주문 시 필요한 모델을 선택하면 로그인 전에 /root/.cache/huggingface에 캐시됩니다. 🔒 게이티드 모델(Llama, Mistral, Gemma, FLUX-dev, SD 3.5)은 HuggingFace 토큰이 필요합니다(주문 시 함께 입력).

모델	HuggingFace	Size	최소 VRAM	최소 GPU 등급	유형
Llama 3.3 70B Instruct 🔒 Gated	`meta-llama/Llama-3.3-70B-Instruct`	140 GB	160 GB	GPU-L	LLM
Qwen3 32B	`Qwen/Qwen3-32B`	64 GB	80 GB	GPU-L	LLM
Qwen3 14B	`Qwen/Qwen3-14B`	28 GB	32 GB	GPU-S	LLM
Qwen3 8B	`Qwen/Qwen3-8B`	16 GB	20 GB	GPU-S	LLM
DeepSeek-R1 Distill Qwen 32B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-32B`	64 GB	80 GB	GPU-S	LLM
DeepSeek-R1 Distill Llama 70B	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B`	140 GB	160 GB	GPU-S	LLM
Mistral Small 3.2 24B (multimodal)	`mistralai/Mistral-Small-3.2-24B-Instruct-2506`	48 GB	60 GB	GPU-S	LLM
Gemma 3 27B (multimodal) 🔒 Gated	`google/gemma-3-27b-it`	54 GB	64 GB	GPU-L	LLM
Gemma 3 12B (multimodal) 🔒 Gated	`google/gemma-3-12b-it`	24 GB	28 GB	GPU-S	LLM
Phi-4 (14B)	`microsoft/phi-4`	28 GB	32 GB	GPU-S	LLM
Phi-4 Mini Instruct (3.8B)	`microsoft/Phi-4-mini-instruct`	8 GB	10 GB	GPU-S	LLM
FLUX.1 [dev] 🔒 Gated	`black-forest-labs/FLUX.1-dev`	24 GB	24 GB	GPU-S	이미지
FLUX.1 [schnell]	`black-forest-labs/FLUX.1-schnell`	24 GB	24 GB	GPU-S	이미지
FLUX.1 Kontext [dev] (image editing) 🔒 Gated	`black-forest-labs/FLUX.1-Kontext-dev`	24 GB	24 GB	GPU-S	이미지
Stable Diffusion 3.5 Large 🔒 Gated	`stabilityai/stable-diffusion-3.5-large`	16 GB	18 GB	GPU-S	이미지
Stable Diffusion 3.5 Medium 🔒 Gated	`stabilityai/stable-diffusion-3.5-medium`	5 GB	10 GB	GPU-S	이미지
HiDream-I1 Full	`HiDream-ai/HiDream-I1-Full`	34 GB	40 GB	GPU-S	이미지
Wan 2.2 T2V A14B	`Wan-AI/Wan2.2-T2V-A14B`	28 GB	40 GB	GPU-S	영상
Wan 2.1 T2V 1.3B (low VRAM)	`Wan-AI/Wan2.1-T2V-1.3B`	3 GB	8 GB	GPU-S	영상
HunyuanVideo 1.5 (8.3B)	`tencent/HunyuanVideo-1.5`	17 GB	24 GB	GPU-S	영상
LTX-Video 0.9.8 13B	`Lightricks/LTX-Video`	26 GB	24 GB	GPU-S	영상
CogVideoX-5B	`zai-org/CogVideoX-5b`	10 GB	16 GB	GPU-S	영상
Whisper Large v3 Turbo	`openai/whisper-large-v3-turbo`	2 GB	4 GB	GPU-S	오디오
Whisper Large v3	`openai/whisper-large-v3`	3 GB	6 GB	GPU-S	오디오
Kokoro 82M (TTS)	`hexgrad/Kokoro-82M`	1 GB	2 GB	GPU-S	오디오
Sesame CSM-1B (conversational TTS)	`sesame/csm-1b`	2 GB	6 GB	GPU-S	오디오
Stable Audio Open 1.0 🔒 Gated	`stabilityai/stable-audio-open-1.0`	3 GB	8 GB	GPU-S	오디오

크기는 FP16 가중치 기준입니다. RTX 4090(24 GB VRAM)에서 70B 모델의 경우, AWQ 양자화 변형이 병렬로 자동 다운로드됩니다.

비교 보기

ServPrivate vs Vast.ai · RunPod · Paperspace · Lambda Labs · TensorDock

암호화폐 전용 결제, 네이티브 Monero, 토큰만으로 가입, 사전 설치된 AI 스택, 사전 다운로드된 HuggingFace 모델, 암호화된 HF 토큰, 자동 Let's Encrypt 엔드포인트, 무제한 대역폭, 그리고 아이슬란드의 100% 재생 에너지 — ServPrivate 행을 읽고 직접 판단해 보세요.

기능	ServPrivate	Vast.ai	RunPod	Paperspace	Lambda	TensorDock
Crypto-전용 결제 플로우	✅ 8 coins	⚠️ BTC	⚠️ Gateway	❌	❌	⚠️ BTC/ETH/USDT
Native Monero (XMR)	✅	❌	❌	❌	❌	❌
없음 KYC, no 이메일 가입	✅ Token-only	⚠️ Email + ID for trust	⚠️ Email + payment	❌ Full KYC	❌ Enterprise KYC	⚠️ Email + light KYC
사전 설치된 AI 스택	✅ 17 templates	⚠️ Docker BYO	✅ 100+	⚠️ Notebooks only	⚠️ Lambda Stack only	⚠️ Docker BYO
주문 시 사전 다운로드된 모델	✅ 27 models	❌	❌	❌	❌	❌
HuggingFace 토큰 at 주문	✅ Encrypted, used once	❌	❌	❌	❌	❌
SSH key at 주문	✅	✅	✅	⚠️	✅	⚠️
자동 종료 타이머	✅ 6h-7d	✅	⚠️ Spot only	❌	❌	❌
Public HTTPS endpoint (Let's Encrypt)	✅ Auto	⚠️ Manual	✅ Pods	✅	❌	⚠️ Manual
무제한 대역폭	✅	⚠️ Per host	⚠️ Capped	⚠️ Capped	⚠️ Capped	⚠️ Per host
재생에너지 데이터센터	✅ Iceland 100% geo+hydro	❌ Variable	⚠️ US grid	⚠️ US grid	⚠️ US grid	⚠️ Variable
오프쇼어 관할권	✅ IS / NL / RO / MD	❌ Distributed P2P	❌ US-centric	❌ US	❌ US-only	⚠️ Multi-region
샌드박스 드라이런 모드	✅ ?dry_run=1	⚠️ Trial credit	⚠️ Limited	⚠️ Free GPU tier	❌	❌
AI 에이전트 / MCP 우선	✅ MCP + REST + x402	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST	⚠️ REST
입문형 RTX 4090 / 월	$122.00	~$216 spot	~$396 on-demand	n/a	n/a	~$252 spot

비교 데이터는 2026-05 기준 경쟁사의 공개 가격 페이지와 가입 플로우에서 수집했습니다. ServPrivate 엔트리 RTX 4090 = 몰도바 $249/mo이며, 경쟁사의 "spot" 가격은 동급 하드웨어의 평균치입니다.

FAQ

GPU AI 호스팅 FAQ

01 GPU는 완전한 하드웨어 액세스로 패스스루되나요, 아니면 공유 / vGPU 분할 방식인가요?

완전한 하드웨어 패스스루. vGPU 슬라이스나 타임셰어드 MIG 파티션이 아닌, 직접 VRAM 접근이 가능한 물리적 NVIDIA 카드 전체를 제공합니다. VM 내 nvidia-smi는 베어메탈 호스트와 동일한 수치를 표시합니다. 완전한 드라이버 접근, 완전한 CUDA, 완전한 PyTorch / TensorFlow 스택 — SR-IOV 예약 없음.

02 어떤 CUDA / 드라이버 버전이 사전 설치되어 있나요?

기본 이미지: Ubuntu 22.04 + CUDA 12.4 + cuDNN 9 + NVIDIA 드라이버 550. 즉시 사용 가능한 기타 이미지: Ubuntu 24.04 + CUDA 12.6, Ubuntu 22 + PyTorch 2.5, Ubuntu 22 + ComfyUI + Flux, Ubuntu 22 + Ollama + Open WebUI. 직접 스택을 설치하려면 순정 Ubuntu / Debian / AlmaLinux / Rocky도 제공됩니다. 완전한 root 권한으로 언제든지 드라이버 버전을 전환할 수 있습니다.

03 이 GPU에서 내 AI 스타트업의 프로덕션 추론을 실행할 수 있나요?

예. 많은 GPU 고객이 vLLM / TGI / FastAPI 위에 공개 추론 API를 운영하고 있습니다. GPU 서버는 완전한 root 권한, 예측 가능한 월정 청구(토큰당 추가 비용 없음), 고정된 관할권별 IP를 제공합니다. 모든 GPU 플랜에서 대역폭은 무제한이므로, 트래픽이 많은 공개 엔드포인트를 추가 요금 걱정 없이 서비스할 수 있습니다.

04 왜 러시아 excluded부터 GPU 로케이션인가요?

NVIDIA H100, A100, 고급 RTX 카드(4090 이상)는 미국 상무부 수출통제(15 CFR Part 744)와 EU 이중용도 규정의 적용을 받으며, 러시아 데이터센터로의 공급이 금지됩니다. 우리는 공급망에 적용되는 통제를 준수하기 위해 러시아에서 이러한 GPU를 프로비저닝하지 않습니다. 러시아 오프쇼어 Linux VPS 또는 Dedicated가 필요하다면 해당 제품군은 영향을 받지 않습니다.

05 왜 아이슬란드 positioned as the 프리미엄 GPU 로케이션인가요?

아이슬란드 데이터센터는 100% 재생 가능한 지열 및 수력 전력으로 운영되며, 낮은 외기 온도는 지속 부하에서 각각 700W를 소비하는 H100 박스의 냉각 부담을 실질적으로 줄여줍니다. 결과적으로 시장에서 탄소 배출이 가장 낮은 오프쇼어 GPU 컴퓨트를 제공합니다. 더 높은 가격은 아이슬란드 데이터센터 비용과 더 깨끗한 에너지 조달을 반영합니다. ESG를 중시하는 AI 팀에게는 가장 신뢰할 수 있는 오프쇼어 답입니다.

06 분산 학습(DDP / FSDP)에 여러 GPU를 사용할 수 있나요?

예. GPU-XL 티어는 한 박스 안에 NVLink 인터커넥트가 포함된 2× H100 SXM5 구성이며, 같은 머신에서 FSDP, DeepSpeed Zero-3, DDP를 실행하기에 적합합니다. 멀티노드 학습이 필요하면 같은 데이터센터에서 여러 GPU-XL 서버를 임대해 10Gbps 업링크로 연결할 수 있습니다. 아직 8× H100 클러스터 노드는 제공하지 않습니다. 더 큰 학습 규모가 필요하면 문의하세요.

배포 귀하의 오프쇼어 GPU Server

관할권을 선택하고, NVIDIA GPU를 선택하고, 20개 크립토 중 하나로 결제하세요. 60초 이내에 JupyterLab이 라이브로 제공됩니다. KYC 없음, 이메일 없음, 전화번호 없음 — 토큰만으로 완료됩니다.

GPU 플랜 보기