خانه / راهنماهای میزبانی با حریم خصوصی / RTX 4090 در مقابل H100 SXM5 برای استنتاج هوش مصنوعی (و جایگاه RTX 5090)
خرید

RTX 4090 در مقابل H100 — کدام GPU برای بار کاری هوش مصنوعی شما؟

انتخاب GPU مناسب NVIDIA برای هوش مصنوعی self-hosted تنها به مقدار VRAM بستگی ندارد. RTX 4090 بهترین تعادل قیمت/عملکرد برای استنتاج مدل‌های 7B تا 13B و تولید تصویر است؛ RTX 5090 (32 GB GDDR7) لایه میانی جدید برای مدل‌های 27B تا 32B محسوب می‌شود؛ و H100 SXM5 (80 GB HBM3) برای بارهای کاری در کلاس 70B طراحی شده که پهنای باند حافظه نقش تعیین‌کننده‌ای دارد. ما مقایسه دقیقی بر اساس نوع کار ارائه می‌دهیم، شامل اعداد throughput، اقتصاد $/token، و اینکه هر مدل در کدام لایه GPU سرویس ServPrivate جای می‌گیرد.

بدون KYC
فقط ارز دیجیتال
بدون لاگ
DMCA نادیده گرفته می‌شود
دسترسی کامل Root
NVMe SSD

انتخاب میان RTX 4090، RTX 5090، و H100 SXM5 برای محاسبات AI خودمیزبان در 2026 به‌ندرت به عدد TFLOPS تبلیغاتی بستگی دارد. GPU مناسب آن است که VRAM، پهنای باند حافظه و هزینه‌اش به‌ازای هر ساعت استنتاج با کلاس مدل و شکل دسته‌ای که واقعاً اجرا می‌کنید هم‌خوانی داشته باشد. این راهنما چهار رده GPU که ServPrivate ارائه می‌دهد، بارکاری مناسب هر یک، و نحوه خواندن اعداد توان‌عملی در نمودار را شرح می‌دهد.

چهار رده در یک پاراگراف

RTX 4090 (GPU-S، $122.00–329 در ماه) با 24 GB GDDR6X، پهنای باند حافظه ~1 TB/s و ~83 TFLOPS FP16 عرضه می‌شود. برای مدل‌های زبانی 7B تا 13B، تولید تصویر FLUX.1 / SDXL، رونویسی Whisper، و گفتار متن Bark گزینه مناسبی است. RTX 5090 (GPU-M، $195.50–519 در ماه) با 32 GB GDDR7 و ~1.8 TB/s و ~104 TFLOPS FP16 یک پله بالاتر می‌رود؛ 8 GB اضافی و ~80% افزایش پهنای باند، اجرای مدل‌های 27B تا 32B (Gemma-3-27B، Qwen3-32B، Mistral-Small-3) را راحت می‌کند و فاین‌تیونینگ Llama‌های کوچک‌تر را ممکن می‌سازد. H100 SXM5 (GPU-L، $832.50–1899 در ماه) دسته‌بندی متفاوتی است — 80 GB HBM3 با ~3.35 TB/s و ~989 TFLOPS FP16 (Tensor Core)، با فابریک NVLink؛ مناسب مدل‌های زبانی 70B، استنتاج با زمینه بلند، و آموزش سریع‌تر. 2× H100 SXM5 (GPU-XL، $1567.50–3599 در ماه) برای استنتاج 70B با دقت کامل، آموزش چندGPU، و مدل‌های 100B+ با کوانتیزاسیون Q4 / Q5 است.

RTX 4090 در مقابل H100 — کدام GPU برای بار کاری هوش مصنوعی شما؟
مقایسه throughput در برابر batch size روی RTX 4090 (24 GB)، RTX 5090 (32 GB) و H100 SXM5 (80 GB) — مدل Llama-3.1-70B-Instruct کوانتیزه‌شده با Q4_K_M، با vLLM 0.7+ و batch از 1 تا 32.

پهنای باند حافظه بر استنتاج LLM غلبه دارد

در استنتاج ترنسفورمر decoder-only با اندازه دسته تا حدود 16، گلوگاه پهنای باند حافظه است، نه FLOPS خام. هر توکن تولیدشده یک خوانش کامل وزن‌های مدل از VRAM را اجبار می‌کند (فاز prefill از K-V cache استفاده مجدد می‌کند، اما هر توکن جدید ماتریس‌های وزن را دوباره می‌خواند). HBM3 با 3.35 TB/s در H100 همان چیزی است که آن را ~3× سریع‌تر از 4090 در تولید توکن روی همان مدل 70B می‌کند — نه عدد بالاتر TFLOPS. به همین دلیل است که جهش RTX 5090 از GDDR6X به GDDR7 (~1.8 TB/s در مقابل ~1 TB/s) برای استنتاج بیشتر از افزایش FLOPS خام اهمیت دارد. اگر بارکاری شما بیشتر استنتاج است تا آموزش، پهنای باند را به FLOPS ترجیح دهید.

چه چیزی در 24 GB / 32 GB / 80 GB جا می‌شود

کوانتیزاسیون تصویر را تغییر می‌دهد. در Q4_K_M (یک کوانت معمول «کیفیت خوب»): یک مدل 7B به ~4.5 GB نیاز دارد، یک 13B به ~8 GB، یک 27 تا 32B به ~20 GB، یک 70B به ~42 GB، یک 100B به ~60 GB. حدود 10 تا 15% فضای خالی برای K-V cache و CUDA workspace اضافه کنید. برازش‌های عملی: 24 GB = 7B تا 13B راحت، 27 تا 32B با offload دردسرساز، 70B ممکن نیست. 32 GB = 27 تا 32B راحت، 70B با CPU offload (کند). 80 GB = 70B راحت در Q4 تا Q5، 100B با offload. 160 GB (dual H100) = 70B در FP16 / BF16، 100 تا 180B در Q4. در FP16 / BF16 (بدون کوانتیزاسیون) اعداد دو برابر می‌شوند: یک 70B در FP16 به ~140 GB نیاز دارد، به همین دلیل است که 2× H100 نقطه ورود برای استنتاج مدل‌های پرچم‌دار با دقت کامل است.

وقتی RTX 5090 پاسخ درست است

عرضه RTX 5090 در اوایل 2025 یک نقطه شیرین جدید ایجاد کرد. برای مدل‌های 27B تا 32B که در 2026 بیشترین اهمیت را دارند (Gemma-3-27B، Qwen3-32B، Mistral-Small-3، Phi-4، DeepSeek-R1-Distill-Qwen-32B)، 5090 تقریباً 2.5× توان‌عملی بیشتری نسبت به 4090 با نصف هزینه H100 ارائه می‌دهد. اگر بارکاری شما «یک مدل دستیار واقعاً توانمند با استدلال، پشتیبانی چندزبانه، و پنجره زمینه 32K می‌خواهم، اما به 70B+ نیازی ندارم» باشد، رده GPU-M نقطه شروع شماست. همچنین به‌عنوان یک ریگ تولید تصویر سخاوتمند عمل می‌کند — FLUX.1-dev با 16 GB فضای خالی VRAM برای دسته‌های با وضوح بالا راحت اجرا می‌شود.

وقتی H100 را به 4090 ترجیح می‌دهید

سه نشانه تصمیم خرید را به GPU-L (H100 تکی) تغییر می‌دهند: (1) مدل‌های 70B یا DeepSeek-R1-Distill-Llama-70B سرویس می‌دهید و می‌خواهید time-to-first-token زیر یک ثانیه در batch 1 داشته باشید؛ (2) استنتاج با همزمانی بالا (vLLM با batch 16+ کاربر) اجرا می‌کنید که پهنای باند حافظه H100 گلوگاه را می‌شکند؛ (3) روی مجموعه داده‌های بیش از ~10M توکن آموزش می‌دهید یا فاین‌تیون LoRA می‌کنید و مسیر آموزش FP8 که 4090 / 5090 ندارند برایتان ارزشمند است. Transformer Engine FP8 در H100 توان‌عملی آموزش را تقریباً دو برابر FP16 می‌کند و فاین‌تیونینگ Llama 70B روی یک کارت را ممکن می‌سازد.

اقتصاد دلار به‌ازای توکن

برای بارکاری‌های پرحجم، مقایسه درست دلار به‌ازای هر میلیون توکن در توان‌عملی پایدار است. روی Llama-3.1-70B Q4، vLLM 0.7+، batch 16: RTX 4090 بدون offload نمی‌تواند مدل را میزبانی کند (CPU-RAM offload توان‌عملی را ~10× کاهش می‌دهد). RTX 5090 با CPU offload تقریباً $X به‌ازای هر 1M توکن اجرا می‌کند (تقریبی؛ بسته به کوانت متفاوت است). یک H100 SXM5 در قیمت ورودی $832.50 در ماه ما تقریباً $1.40 تا 2.20 به‌ازای هر 1M توکن خروجی قرار می‌گیرد. در مقایسه با OpenAI GPT-4o خروجی با ~$10 / 1M و Claude Sonnet با ~$15 / 1M — وقتی بارکاری شما به حدود 30M توکن در روز برسد، خودمیزبانی روی یک H100 ارزان‌تر از فراخوانی APIهای میزبانی‌شده است و نتیجه حریم خصوصی نیز end-to-end می‌شود. در حجم‌های پایین‌تر، APIهای میزبانی‌شده از نظر قیمت برنده‌اند.

بارکاری‌های تصویر، ویدیو، و صوت

تولید تصویر به‌ندرت به بیشتر از یک 4090 نیاز دارد — FLUX.1-dev، SDXL، SD 3.5 همه در 24 GB با کیفیت تولیدی جا می‌شوند، و ~83 TFLOPS FP16 در RTX 4090 کافی است. رفتن به 5090 / H100 عمدتاً فضای دسته (تولیدات همزمان بیشتر) می‌خرد نه سرعت تک‌تصویر. ویدیوی AI (Wan-2.1، CogVideoX-5B، جریان‌های کاری Runway) تقاضای بیشتری دارد — GPU-M نقطه ورود عملی است، GPU-L برای کیفیت تولیدی بلندمدت. Whisper Large v3 ASR و Bark TTS هر دو روی 4090 راحت اجرا می‌شوند؛ H100 برای آن‌ها اضافه است. فاین‌تیونینگ با LoRA یا QLoRA روی 7B تا 13B روی 4090 کار می‌کند؛ فاین‌تیونینگ 32B تا 70B واقع‌بینانه حداقل به 5090 نیاز دارد، H100 اگر وقت برایتان ارزشمند است.

RTX 5090 در مقابل RTX A6000 / A100 چطور؟

اگر به گزینه‌های GPU خارج از خط کارت‌های مصرف‌کننده نگاه کرده‌اید، شاید با RTX A6000 (48 GB، کارت دیتاسنتر) یا A100 (40 / 80 GB، HBM2e نسل قبل) مواجه شده باشید. حکم سریع: A6000 تقریباً محاسبات هم‌رده 4090 با دو برابر VRAM است، مفید اگر VRAM گلوگاه شماست نه پهنای باند (نادر)؛ A100 یک نسل پشت H100 است و اکنون عمدتاً در بازار ثانویه موجود است — اگر ارزان پیدا کردید هنوز یک کارت استنتاج 70B قابل‌قبول است، اما بیلدهای جدید در 2026 معمولاً H100 هستند. ما در حال حاضر رده A6000 یا A100 ارائه نمی‌دهیم؛ کاتالوگ از RTX 5090 مستقیماً به H100 می‌رود.

چه ارائه می‌دهیم و چه بردارید

برای خلاصه کردن تصمیم خرید GPU در یک جمله به‌ازای هر بارکاری: چت‌بات / دستیار کدنویسی زیر 32B → GPU-S (RTX 4090) برای 7B تا 13B، GPU-M (RTX 5090) برای 27B تا 32B؛ استنتاج 70B پرچم‌دار (Llama-3.3-70B-Instruct، DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5)؛ استنتاج 70B با دقت کامل یا آموزش چندGPU → GPU-XL (2× H100 SXM5)؛ تولید تصویر / ویدیو / گفتار → GPU-S مگر اینکه به فضای دسته نیاز دارید، آنگاه GPU-M. همه چهار رده با CUDA 12.4 + cuDNN از پیش نصب‌شده و قالب‌های تک‌کلیک vLLM / Ollama / ComfyUI / Stable Diffusion عرضه می‌شوند. مشخصات سخت‌افزار کامل در /gpu.

سؤالات متداول

خرید GPU — سؤالات متداول

01 چرا پهنای باند حافظه از TFLOPS برای inference مهم‌تر است؟

inference ترانسفورمر decoder-only در اندازه‌های batch کوچک تا متوسط، به حافظه وابسته است: هر توکن تولیدشده نیازمند خواندن کل ماتریس وزن از VRAM است. کرنل‌های محاسباتی آن‌قدر سریع هستند که GPU بیشتر وقت خود را صرف انتظار برای بارگذاری از حافظه می‌کند. به همین دلیل است که HBM3 با 3.35 TB/s در H100 به ازای هر توکن تقریباً 3 برابر سریع‌تر از GDDR6X با 1 TB/s در 4090 روی همان مدل 70B عمل می‌کند، حتی اگر عدد TFLOPS بالاتر H100 تقریباً جانبی باشد.

02 آیا می‌توانم Llama-3.3-70B را روی RTX 4090 اجرا کنم؟

از نظر فنی بله، با CPU offload از طریق llama.cpp یا KTransformers — اما throughput برای تولید متن طولانی به ~3–5 توکن در ثانیه کاهش می‌یابد که برای چت بسیار کند است. در عمل، 70B یک workload مربوط به H100 است (یا 2× RTX 5090 با NVLink که ما ارائه نمی‌دهیم). اگر به 70B نیاز دارید اما نمی‌خواهید هزینه H100 بپردازید، DeepSeek-R1-Distill-Llama-8B یا DeepSeek-R1-Distill-Qwen-14B روی 4090 را در نظر بگیرید — مدل‌های تقطیر شده در استدلال به طرز شگفت‌انگیزی رقابتی هستند.

03 آیا RTX 5090 برای AI از A100 بهتر است؟

برای inference، اغلب بله — GDDR7 کارت 5090 (~1.8 TB/s) از نظر پهنای باند کمی از HBM2e کارت A100 40 GB (~1.55 TB/s) پیشی می‌گیرد و FLOPS هم بالاتر است. نسخه A100 80 GB دارای VRAM بیشتری (80 در مقابل 32 GB) است که برای inference مدل 70B اهمیت دارد. برای training، A100 همچنان حافظه ECC و مجموعه ویژگی‌های مناسب datacenter را دارد که 5090 فاقد آن است. پروژه‌های جدید در سال 2026 معمولاً H100 را به A100 ترجیح می‌دهند؛ 5090 شکاف کلاس consumer را پر می‌کند.

04 میزبانی شخصی واقعاً چه زمانی از OpenAI / Anthropic ارزان‌تر است؟

تقریباً: یک H100 SXM5 با $832.50 در ماه که Llama-3.3-70B را با batch-16 پایدار اجرا می‌کند، ~30–50M توکن خروجی در روز تولید می‌کند. با قیمت‌گذاری GPT-4o ($10 به ازای 1M خروجی)، این معادل $300–500 در روز هزینه میزبانی است. نقطه سربه‌سر حدود 5–7M توکن خروجی در روز است. زیر این مقدار APIهای میزبانی‌شده برنده‌اند؛ بالاتر از آن میزبانی شخصی مقرون‌به‌صرفه‌تر است. نقطه سربه‌سر برای RTX 4090 / 5090 با مدل‌های کوچک‌تری که میزبانی می‌کنند به همان نسبت پایین‌تر است.

05 GPU سرویس ServPrivate در مقایسه با Vast.ai یا RunPod چگونه است؟

Vast.ai از نظر هزینه ساعتی spot ارزان‌تر است ($0.30–0.70/h برای 4090) اما کیفیت بسیار متفاوت است (سخت‌افزار consumer در منازل شخصی، شبکه‌های ناهمگون، ریسک قطع سرویس). RunPod ثبات بیشتری دارد ($0.69–3.99/h on-demand) اما با حوزه قضایی آمریکا و KYC ایمیل / روش پرداخت. ServPrivate از نظر هزینه ساعتی نسبت به spot در Vast.ai گران‌تر و در مقایسه با on-demand در RunPod تقریباً مشابه است، اما با ثبت‌نام token-only، Monero بومی، بدون قطع سرویس، بدون KYC و 4 حوزه قضایی آفشور. انتخاب درست بستگی دارد به اینکه حریم خصوصی و قابلیت پیش‌بینی مهم‌تر است یا هزینه خالص در ساعت.

06 در مورد H200 یا B200 چطور — آیا باید منتظر آن‌ها بمانم؟

H200 (141 GB HBM3e) در کاتالوگ ارائه‌دهندگان hyperscale مانند CoreWeave موجود است، اما عرضه در بخش privacy-host آفشور به وضعیت channel-partner بودن NVIDIA گره خورده — ما در حال بررسی دسترس‌پذیری برای 2026-Q3 هستیم. B200 NVL72 در این مرحله صرفاً در زیرساخت hyperscale قرار دارد و برای اجاره تک‌کارتی قابل استفاده نیست. برای اکثر کاربران با میزبانی شخصی، H100 SXM5 در سال 2026 ظرفیت کافی برای workloadهای کلاس 70B دارد — دلیل اصلی انتظار برای H200 عمدتاً موارد استفاده multimodal با context طولانی است (+200K توکن).

آماده استقرار سرور AI خود هستید؟

RTX 4090 از $122.00 در ماه، RTX 5090 از $195.50 در ماه، H100 SXM5 از $832.50 در ماه. ثبت‌نام token-only، پرداخت با ارز دیجیتال، CUDA 12 + قالب‌های AI با یک کلیک.

مشاهده پلن‌های GPU No-KYC GPU Hosting Self-Host LLM