2026년에 자체 호스팅 AI 컴퓨팅을 위해 RTX 4090, RTX 5090, H100 SXM5 중 선택하는 것은 헤드라인 TFLOPS 수치에 관한 것이 아닙니다. 올바른 GPU는 VRAM, 메모리 대역폭, 추론 시간당 가격이 실제로 실행하는 모델 클래스와 배치 형태에 맞는 것입니다. 이 가이드는 ServPrivate가 제공하는 네 가지 GPU 티어, 각각에 맞게 설계된 워크로드, 그리고 차트의 처리량 수치를 읽는 방법을 설명합니다.
한 문단으로 본 네 가지 티어
RTX 4090 (GPU-S, 월 $122.00-329)는 메모리 대역폭 ~1TB/s와 ~83 TFLOPS FP16의 24GB GDDR6X를 제공합니다. 7B-13B 언어 모델, FLUX.1 / SDXL 이미지 생성, Whisper 전사, Bark 텍스트-음성 변환에 적합한 선택입니다. RTX 5090 (GPU-M, 월 $195.50-519)는 ~1.8TB/s와 ~104 TFLOPS FP16의 32GB GDDR7로 향상됩니다; 추가 8GB와 ~80% 대역폭 증가로 27B-32B 모델(Gemma-3-27B, Qwen3-32B, Mistral-Small-3)을 편안하게 실행하고 소형 Llama 파인튜닝이 가능합니다. H100 SXM5 (GPU-L, 월 $832.50-1899)는 다른 카테고리입니다 — ~3.35TB/s의 80GB HBM3, ~989 TFLOPS FP16(텐서 코어), NVLink급 패브릭 이용 가능; 70B급 언어 모델, 긴 컨텍스트 추론, 빠른 훈련에 맞게 설계되었습니다. 2× H100 SXM5 (GPU-XL, 월 $1567.50-3599)는 완전 정밀도 70B 추론, 멀티 GPU 훈련, Q4/Q5의 100B+ 모델에 적합합니다.

LLM 추론에서 메모리 대역폭이 지배
배치 크기 약 16까지의 디코더 전용 트랜스포머 추론에서 병목은 원시 FLOPS가 아닌 메모리 대역폭입니다. 생성된 모든 토큰은 VRAM에서 모델 가중치를 전체 읽어야 합니다(프리필 단계는 K-V 캐시를 재사용하지만, 새 토큰마다 가중치 행렬을 다시 읽습니다). H100의 3.35TB/s HBM3이 70B급 모델에서 4090보다 토큰당 ~3배 빠른 이유가 이것입니다 — 더 높은 TFLOPS 수치 때문이 아닙니다. 이것이 RTX 5090의 GDDR6X에서 GDDR7로의 전환(~1.8TB/s vs ~1TB/s)이 원시 FLOPS 증가보다 추론에 더 중요한 이유이기도 합니다. 워크로드가 훈련보다 추론에 지배된다면, TFLOPS보다 대역폭을 우선시하세요.
24GB / 32GB / 80GB에 맞는 것
양자화가 그림을 바꿉니다. Q4_K_M("좋은 품질" 양자화)에서: 7B 모델은 ~4.5GB 필요, 13B는 ~8GB, 27-32B는 ~20GB, 70B는 ~42GB, 100B는 ~60GB. K-V 캐시와 CUDA 작업 공간을 위해 ~10-15% 여유분을 추가하세요. 실질적 수용: 24GB = 7B-13B 쾌적, 27-32B는 오프로드 고통 동반, 70B 불가. 32GB = 27-32B 쾌적, CPU 오프로드(느림)로 70B. 80GB = Q4-Q5에서 70B 쾌적, 오프로드로 100B. 160GB (듀얼 H100) = FP16 / BF16에서 70B, Q4에서 100-180B. FP16 / BF16(양자화 없음)에서는 수치가 두 배: FP16의 70B는 ~140GB 필요, 완전 정밀도 플래그십 모델 추론의 진입점이 2× H100인 이유입니다.
RTX 5090이 올바른 답인 경우
2025년 초 RTX 5090 출시는 새로운 최적 지점을 만들었습니다. 2026년에 가장 중요한 27B-32B급 모델(Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B)에서, 5090은 H100 비용의 절반으로 4090의 약 2.5배 처리량을 제공합니다. 워크로드가 "추론, 다국어 지원, 32K 컨텍스트 윈도우를 갖춘 정말 유능한 어시스턴트 모델이 필요하지만 70B 이상은 필요 없다"라면, GPU-M 티어에서 시작하는 것이 좋습니다. 또한 관대한 이미지 생성 장비로도 사용할 수 있습니다 — FLUX.1-dev는 고해상도 배치를 위해 16GB VRAM 여유분으로 편안하게 실행됩니다.
4090이 아닌 H100이 필요한 경우
세 가지 신호가 구매 결정을 GPU-L(단일 H100)로 밀어 올립니다: (1) 70B급 모델 또는 DeepSeek-R1-Distill-Llama-70B를 서비스하며 배치 1에서 1초 미만의 첫 토큰 시간을 원하는 경우; (2) H100의 메모리 대역폭이 병목 해결사인 높은 배치 동시 추론(vLLM, 배치 16+ 사용자)을 실행하는 경우; (3) ~1000만 토큰 이상의 데이터셋에서 훈련 또는 LoRA 파인튜닝을 하며 4090/5090이 갖지 않은 FP8 훈련 경로를 원하는 경우. H100의 FP8 트랜스포머 엔진은 FP16 대비 훈련 처리량을 대략 두 배로 늘리며, 이것이 단일 카드에서 70B Llama 파인튜닝을 실현 가능하게 만드는 것입니다.
$/토큰 경제성
대용량 워크로드의 경우, 올바른 비교는 지속적인 처리량에서 백만 토큰당 달러입니다. Llama-3.1-70B Q4, vLLM 0.7+, 배치 16에서: RTX 4090은 오프로드 없이 모델을 호스팅할 수 없습니다(CPU-RAM 오프로드는 처리량을 ~10배 줄임). CPU 오프로드가 있는 RTX 5090은 100만 토큰당 약 $X입니다(대략적; 양자화에 따라 다름). 단일 H100 SXM5는 당사의 월 $832.50 입문 가격에서 백만 출력 토큰당 약 $1.40-2.20입니다. OpenAI GPT-4o 출력 ~$10/1M 및 Claude Sonnet ~$15/1M과 비교 — 워크로드가 하루 약 3000만 토큰에 도달하면, 단일 H100에서의 자체 호스팅이 호스팅 API 호출보다 저렴하며 프라이버시 결과는 종단 간입니다. 더 낮은 볼륨에서는 호스팅 API가 비용 면에서 유리합니다.
이미지, 동영상, 오디오 워크로드
이미지 생성은 거의 4090 이상을 필요로 하지 않습니다 — FLUX.1-dev, SDXL, SD 3.5는 모두 24GB에서 프로덕션 품질로 실행되며, RTX 4090의 ~83 TFLOPS FP16은 충분합니다. 5090/H100으로 가는 것은 주로 이미지당 속도가 아닌 배치 크기 여유(더 많은 동시 생성)를 제공합니다. AI 동영상(Wan-2.1, CogVideoX-5B, Runway급 워크플로우)은 더 까다롭습니다 — GPU-M이 실질적인 진입점, 프로덕션 품질 장편은 GPU-L. Whisper Large v3 ASR과 Bark TTS는 모두 4090에서 쾌적하게 실행됩니다; H100은 이들에게 과도합니다. 파인튜닝은 LoRA 또는 QLoRA로 7B-13B는 4090에서 작동하며; 32B-70B 파인튜닝은 현실적으로 5090 최소, 시간을 중요시한다면 H100이 필요합니다.
RTX 5090 vs RTX A6000 / A100은 어떤가?
소비자 카드 라인 외의 GPU 옵션을 살펴본 적 있다면, RTX A6000(48GB, 데이터센터 카드) 또는 A100(40/80GB, 이전 세대 HBM2e)을 접했을 수 있습니다. 간단한 평가: A6000은 두 배의 VRAM을 가진 대략 4090급 컴퓨팅으로, VRAM이 병목이지만 대역폭이 아닌 경우에 유용합니다(드문 경우); A100은 H100보다 한 세대 뒤쳐져 있으며 현재 대부분 중고 시장에서 구할 수 있습니다 — 저렴하게 찾을 수 있다면 신뢰할 수 있는 70B 추론 카드지만, 2026년의 신규 구성은 일반적으로 H100입니다. 당사는 현재 A6000 또는 A100 티어를 제공하지 않으며; 카탈로그는 RTX 5090에서 H100으로 넘어갑니다.
당사의 제품과 선택 기준
워크로드별 GPU 구매 결정을 한 문장으로 요약하면: 32B 이하 챗봇 / 코딩 어시스턴트 → 7B-13B는 GPU-S(RTX 4090), 27B-32B는 GPU-M(RTX 5090); 플래그십 70B 추론(Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B) → GPU-L(H100 SXM5); 완전 정밀도 70B 또는 멀티 GPU 훈련 → GPU-XL(2× H100 SXM5); 이미지 / 동영상 / 음성 생성 → 배치 여유가 필요하지 않으면 GPU-S, 필요하면 GPU-M. 네 가지 티어 모두 CUDA 12.4 + cuDNN 사전 설치 및 1클릭 vLLM / Ollama / ComfyUI / Stable Diffusion 템플릿과 함께 제공됩니다. 전체 하드웨어 사양은 /gpu에 있습니다.