/ Privacy 호스팅 Guides / RTX 4090 vs H100 SXM5용 AI Inference (and Where RTX 5090 Fits)
구매

RTX 4090 vs H100 — Which GPU용 귀하의 AI Workload?

셀프호스트 AI에 적합한 NVIDIA GPU 선택은 VRAM만의 문제가 아닙니다. RTX 4090은 7B~13B 추론과 이미지 생성에서 가격 대비 최적점입니다. RTX 5090(32GB GDDR7)은 27B~32B를 위한 새로운 중간 티어입니다. H100 SXM5(80GB HBM3)는 메모리 대역폭이 지배적인 70B급 워크로드에 적합합니다. 이 가이드는 워크로드별 트레이드오프, 처리량, 토큰 단가, ServPrivate의 각 GPU 티어에 무엇이 들어가는지를 설명합니다.

KYC 없음
암호화폐 결제 전용
로그 없음
DMCA 무시
전체 root 권한
NVMe SSD

2026년에 자체 호스팅 AI 컴퓨팅을 위해 RTX 4090, RTX 5090, H100 SXM5 중 선택하는 것은 헤드라인 TFLOPS 수치에 관한 것이 아닙니다. 올바른 GPU는 VRAM, 메모리 대역폭, 추론 시간당 가격이 실제로 실행하는 모델 클래스와 배치 형태에 맞는 것입니다. 이 가이드는 ServPrivate가 제공하는 네 가지 GPU 티어, 각각에 맞게 설계된 워크로드, 그리고 차트의 처리량 수치를 읽는 방법을 설명합니다.

한 문단으로 본 네 가지 티어

RTX 4090 (GPU-S, 월 $122.00-329)는 메모리 대역폭 ~1TB/s와 ~83 TFLOPS FP16의 24GB GDDR6X를 제공합니다. 7B-13B 언어 모델, FLUX.1 / SDXL 이미지 생성, Whisper 전사, Bark 텍스트-음성 변환에 적합한 선택입니다. RTX 5090 (GPU-M, 월 $195.50-519)는 ~1.8TB/s와 ~104 TFLOPS FP16의 32GB GDDR7로 향상됩니다; 추가 8GB와 ~80% 대역폭 증가로 27B-32B 모델(Gemma-3-27B, Qwen3-32B, Mistral-Small-3)을 편안하게 실행하고 소형 Llama 파인튜닝이 가능합니다. H100 SXM5 (GPU-L, 월 $832.50-1899)는 다른 카테고리입니다 — ~3.35TB/s의 80GB HBM3, ~989 TFLOPS FP16(텐서 코어), NVLink급 패브릭 이용 가능; 70B급 언어 모델, 긴 컨텍스트 추론, 빠른 훈련에 맞게 설계되었습니다. 2× H100 SXM5 (GPU-XL, 월 $1567.50-3599)는 완전 정밀도 70B 추론, 멀티 GPU 훈련, Q4/Q5의 100B+ 모델에 적합합니다.

RTX 4090 vs H100 — Which GPU용 귀하의 AI Workload?
Throughput vs batch size on RTX 4090 (24 GB), RTX 5090 (32 GB) 및 H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct quantized to Q4_K_M, vLLM 0.7+, batch 1 to batch 32.

LLM 추론에서 메모리 대역폭이 지배

배치 크기 약 16까지의 디코더 전용 트랜스포머 추론에서 병목은 원시 FLOPS가 아닌 메모리 대역폭입니다. 생성된 모든 토큰은 VRAM에서 모델 가중치를 전체 읽어야 합니다(프리필 단계는 K-V 캐시를 재사용하지만, 새 토큰마다 가중치 행렬을 다시 읽습니다). H100의 3.35TB/s HBM3이 70B급 모델에서 4090보다 토큰당 ~3배 빠른 이유가 이것입니다 — 더 높은 TFLOPS 수치 때문이 아닙니다. 이것이 RTX 5090의 GDDR6X에서 GDDR7로의 전환(~1.8TB/s vs ~1TB/s)이 원시 FLOPS 증가보다 추론에 더 중요한 이유이기도 합니다. 워크로드가 훈련보다 추론에 지배된다면, TFLOPS보다 대역폭을 우선시하세요.

24GB / 32GB / 80GB에 맞는 것

양자화가 그림을 바꿉니다. Q4_K_M("좋은 품질" 양자화)에서: 7B 모델은 ~4.5GB 필요, 13B는 ~8GB, 27-32B는 ~20GB, 70B는 ~42GB, 100B는 ~60GB. K-V 캐시와 CUDA 작업 공간을 위해 ~10-15% 여유분을 추가하세요. 실질적 수용: 24GB = 7B-13B 쾌적, 27-32B는 오프로드 고통 동반, 70B 불가. 32GB = 27-32B 쾌적, CPU 오프로드(느림)로 70B. 80GB = Q4-Q5에서 70B 쾌적, 오프로드로 100B. 160GB (듀얼 H100) = FP16 / BF16에서 70B, Q4에서 100-180B. FP16 / BF16(양자화 없음)에서는 수치가 두 배: FP16의 70B는 ~140GB 필요, 완전 정밀도 플래그십 모델 추론의 진입점이 2× H100인 이유입니다.

RTX 5090이 올바른 답인 경우

2025년 초 RTX 5090 출시는 새로운 최적 지점을 만들었습니다. 2026년에 가장 중요한 27B-32B급 모델(Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B)에서, 5090은 H100 비용의 절반으로 4090의 약 2.5배 처리량을 제공합니다. 워크로드가 "추론, 다국어 지원, 32K 컨텍스트 윈도우를 갖춘 정말 유능한 어시스턴트 모델이 필요하지만 70B 이상은 필요 없다"라면, GPU-M 티어에서 시작하는 것이 좋습니다. 또한 관대한 이미지 생성 장비로도 사용할 수 있습니다 — FLUX.1-dev는 고해상도 배치를 위해 16GB VRAM 여유분으로 편안하게 실행됩니다.

4090이 아닌 H100이 필요한 경우

세 가지 신호가 구매 결정을 GPU-L(단일 H100)로 밀어 올립니다: (1) 70B급 모델 또는 DeepSeek-R1-Distill-Llama-70B를 서비스하며 배치 1에서 1초 미만의 첫 토큰 시간을 원하는 경우; (2) H100의 메모리 대역폭이 병목 해결사인 높은 배치 동시 추론(vLLM, 배치 16+ 사용자)을 실행하는 경우; (3) ~1000만 토큰 이상의 데이터셋에서 훈련 또는 LoRA 파인튜닝을 하며 4090/5090이 갖지 않은 FP8 훈련 경로를 원하는 경우. H100의 FP8 트랜스포머 엔진은 FP16 대비 훈련 처리량을 대략 두 배로 늘리며, 이것이 단일 카드에서 70B Llama 파인튜닝을 실현 가능하게 만드는 것입니다.

$/토큰 경제성

대용량 워크로드의 경우, 올바른 비교는 지속적인 처리량에서 백만 토큰당 달러입니다. Llama-3.1-70B Q4, vLLM 0.7+, 배치 16에서: RTX 4090은 오프로드 없이 모델을 호스팅할 수 없습니다(CPU-RAM 오프로드는 처리량을 ~10배 줄임). CPU 오프로드가 있는 RTX 5090은 100만 토큰당 약 $X입니다(대략적; 양자화에 따라 다름). 단일 H100 SXM5는 당사의 월 $832.50 입문 가격에서 백만 출력 토큰당 약 $1.40-2.20입니다. OpenAI GPT-4o 출력 ~$10/1M 및 Claude Sonnet ~$15/1M과 비교 — 워크로드가 하루 약 3000만 토큰에 도달하면, 단일 H100에서의 자체 호스팅이 호스팅 API 호출보다 저렴하며 프라이버시 결과는 종단 간입니다. 더 낮은 볼륨에서는 호스팅 API가 비용 면에서 유리합니다.

이미지, 동영상, 오디오 워크로드

이미지 생성은 거의 4090 이상을 필요로 하지 않습니다 — FLUX.1-dev, SDXL, SD 3.5는 모두 24GB에서 프로덕션 품질로 실행되며, RTX 4090의 ~83 TFLOPS FP16은 충분합니다. 5090/H100으로 가는 것은 주로 이미지당 속도가 아닌 배치 크기 여유(더 많은 동시 생성)를 제공합니다. AI 동영상(Wan-2.1, CogVideoX-5B, Runway급 워크플로우)은 더 까다롭습니다 — GPU-M이 실질적인 진입점, 프로덕션 품질 장편은 GPU-L. Whisper Large v3 ASRBark TTS는 모두 4090에서 쾌적하게 실행됩니다; H100은 이들에게 과도합니다. 파인튜닝은 LoRA 또는 QLoRA로 7B-13B는 4090에서 작동하며; 32B-70B 파인튜닝은 현실적으로 5090 최소, 시간을 중요시한다면 H100이 필요합니다.

RTX 5090 vs RTX A6000 / A100은 어떤가?

소비자 카드 라인 외의 GPU 옵션을 살펴본 적 있다면, RTX A6000(48GB, 데이터센터 카드) 또는 A100(40/80GB, 이전 세대 HBM2e)을 접했을 수 있습니다. 간단한 평가: A6000은 두 배의 VRAM을 가진 대략 4090급 컴퓨팅으로, VRAM이 병목이지만 대역폭이 아닌 경우에 유용합니다(드문 경우); A100은 H100보다 한 세대 뒤쳐져 있으며 현재 대부분 중고 시장에서 구할 수 있습니다 — 저렴하게 찾을 수 있다면 신뢰할 수 있는 70B 추론 카드지만, 2026년의 신규 구성은 일반적으로 H100입니다. 당사는 현재 A6000 또는 A100 티어를 제공하지 않으며; 카탈로그는 RTX 5090에서 H100으로 넘어갑니다.

당사의 제품과 선택 기준

워크로드별 GPU 구매 결정을 한 문장으로 요약하면: 32B 이하 챗봇 / 코딩 어시스턴트 → 7B-13B는 GPU-S(RTX 4090), 27B-32B는 GPU-M(RTX 5090); 플래그십 70B 추론(Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L(H100 SXM5); 완전 정밀도 70B 또는 멀티 GPU 훈련 → GPU-XL(2× H100 SXM5); 이미지 / 동영상 / 음성 생성 → 배치 여유가 필요하지 않으면 GPU-S, 필요하면 GPU-M. 네 가지 티어 모두 CUDA 12.4 + cuDNN 사전 설치 및 1클릭 vLLM / Ollama / ComfyUI / Stable Diffusion 템플릿과 함께 제공됩니다. 전체 하드웨어 사양은 /gpu에 있습니다.

FAQ

GPU 구매 — 자주 묻는 질문

01 왜 memory 대역폭 더 많은 important than TFLOPS용 inference인가요?

소형에서 중형 배치 크기의 decoder-only transformer 추론은 메모리 바운드입니다. 생성되는 토큰마다 전체 weight matrix를 VRAM에서 읽어야 합니다. compute kernel은 충분히 빠르기 때문에 GPU는 대부분의 시간을 메모리 로드를 기다리며 보냅니다. 그래서 H100의 3.35 TB/s HBM3는 같은 70B 모델에서 4090의 1 TB/s GDDR6X보다 토큰당 대략 3배 빠릅니다. H100의 더 큰 TFLOPS 수치는 이 경우 거의 부차적입니다.

02 run Llama-3.3-70B on an RTX 4090할 수 있나요?

기술적으로는 llama.cpp 또는 KTransformers의 CPU offload로 가능합니다. 하지만 long-form generation throughput이 3-5 tokens/sec 수준까지 떨어져 chat 용도로는 느립니다. 실무적으로 70B는 H100 workload입니다. H100 가격을 원하지 않는다면 4090에서 DeepSeek-R1-Distill-Llama-8B 또는 Qwen-14B 계열을 고려하세요.

03 Is the RTX 5090 better than an A100용 AI?

추론 기준으로는 대체로 그렇습니다. 5090의 GDDR7 대역폭은 약 1.8 TB/s로 A100 40GB의 HBM2e 약 1.55 TB/s를 앞서고, FLOPS도 더 높습니다. 다만 A100의 80GB SKU는 VRAM이 80GB라 70B 추론에서 유리합니다. 학습에서는 A100이 여전히 ECC 메모리와 5090에는 없는 데이터센터 기능을 갖추고 있습니다. 2026년 신규 구축은 보통 A100보다 H100을 선택하고, 5090은 소비자급 공백을 채웁니다.

04 When is self-호스팅 actually 저렴한er than OpenAI / Anthropic?

대략적으로, 월 $832.50의 단일 H100 SXM5가 Llama-3.3-70B를 지속 batch-16 throughput으로 실행하면 하루 약 30-50M output tokens를 제공합니다. GPT-4o 가격($10/1M output)으로 환산하면 하루 $300-500 상당의 hosted spend입니다. 손익분기점은 하루 약 5-7M output tokens입니다. 그 아래에서는 hosted APIs가 유리하고, 그 위에서는 self-hosting이 유리합니다. RTX 4090 / 5090의 손익분기점은 해당 카드에 맞는 더 작은 모델 기준으로 내려갑니다.

05 How does ServPrivate GPU compare to Vast.ai 또는 RunPod?

Vast.ai는 시간당 스팟 요금($0.30-0.70/h, RTX 4090 기준)이 더 저렴하지만, 품질 편차가 큽니다(가정용 소비자 하드웨어, 혼합 네트워크, 강제 종료 위험). RunPod는 더 안정적이지만($0.69-3.99/h 온디맨드), 미국 관할권에 이메일/결제 수단 KYC가 요구됩니다. ServPrivate는 시간당 비용이 Vast.ai 스팟보다 비싸고 월 기준으로는 RunPod 온디맨드와 비슷하지만, 토큰 전용 가입, 네이티브 Monero 결제, 강제 종료 없음, KYC 없음, 4개 역외 관할권을 제공합니다. 프라이버시와 예측 가능성을 중시하느냐, 순수한 시간당 비용을 중시하느냐에 따라 최선의 선택이 달라집니다.

06 H200 또는 B200은 어떻습니까 — 기다려야 할까요?

H200(141GB HBM3e)은 CoreWeave 같은 hyperscale 제공업체 카탈로그에 있지만, 오프쇼어 privacy-host 세그먼트의 공급은 NVIDIA 채널 파트너 지위에 의해 제한됩니다. 우리는 2026년 3분기 가용성을 평가 중입니다. B200 NVL72는 현재 hyperscale fabric 전용에 가까워 단일 카드 임대에는 현실적이지 않습니다. 대부분의 self-hoster에게 2026년의 H100 SXM5는 70B급 워크로드에 충분합니다. H200을 기다릴 이유는 주로 200K+ token의 멀티모달 long-context use case입니다.

Ready to 배포 귀하의 AI box?

RTX 4090부터 $122.00/mo, RTX 5090부터 $195.50/mo, H100 SXM5부터 $832.50/mo. Token-전용 가입, crypto 결제 플로우, CUDA 12 + 1-click AI templates.

GPU 플랜 보기 No-KYC GPU Hosting Self-Host LLM