انتخاب میان RTX 4090، RTX 5090، و H100 SXM5 برای محاسبات AI خودمیزبان در 2026 بهندرت به عدد TFLOPS تبلیغاتی بستگی دارد. GPU مناسب آن است که VRAM، پهنای باند حافظه و هزینهاش بهازای هر ساعت استنتاج با کلاس مدل و شکل دستهای که واقعاً اجرا میکنید همخوانی داشته باشد. این راهنما چهار رده GPU که ServPrivate ارائه میدهد، بارکاری مناسب هر یک، و نحوه خواندن اعداد توانعملی در نمودار را شرح میدهد.
چهار رده در یک پاراگراف
RTX 4090 (GPU-S، $122.00–329 در ماه) با 24 GB GDDR6X، پهنای باند حافظه ~1 TB/s و ~83 TFLOPS FP16 عرضه میشود. برای مدلهای زبانی 7B تا 13B، تولید تصویر FLUX.1 / SDXL، رونویسی Whisper، و گفتار متن Bark گزینه مناسبی است. RTX 5090 (GPU-M، $195.50–519 در ماه) با 32 GB GDDR7 و ~1.8 TB/s و ~104 TFLOPS FP16 یک پله بالاتر میرود؛ 8 GB اضافی و ~80% افزایش پهنای باند، اجرای مدلهای 27B تا 32B (Gemma-3-27B، Qwen3-32B، Mistral-Small-3) را راحت میکند و فاینتیونینگ Llamaهای کوچکتر را ممکن میسازد. H100 SXM5 (GPU-L، $832.50–1899 در ماه) دستهبندی متفاوتی است — 80 GB HBM3 با ~3.35 TB/s و ~989 TFLOPS FP16 (Tensor Core)، با فابریک NVLink؛ مناسب مدلهای زبانی 70B، استنتاج با زمینه بلند، و آموزش سریعتر. 2× H100 SXM5 (GPU-XL، $1567.50–3599 در ماه) برای استنتاج 70B با دقت کامل، آموزش چندGPU، و مدلهای 100B+ با کوانتیزاسیون Q4 / Q5 است.

پهنای باند حافظه بر استنتاج LLM غلبه دارد
در استنتاج ترنسفورمر decoder-only با اندازه دسته تا حدود 16، گلوگاه پهنای باند حافظه است، نه FLOPS خام. هر توکن تولیدشده یک خوانش کامل وزنهای مدل از VRAM را اجبار میکند (فاز prefill از K-V cache استفاده مجدد میکند، اما هر توکن جدید ماتریسهای وزن را دوباره میخواند). HBM3 با 3.35 TB/s در H100 همان چیزی است که آن را ~3× سریعتر از 4090 در تولید توکن روی همان مدل 70B میکند — نه عدد بالاتر TFLOPS. به همین دلیل است که جهش RTX 5090 از GDDR6X به GDDR7 (~1.8 TB/s در مقابل ~1 TB/s) برای استنتاج بیشتر از افزایش FLOPS خام اهمیت دارد. اگر بارکاری شما بیشتر استنتاج است تا آموزش، پهنای باند را به FLOPS ترجیح دهید.
چه چیزی در 24 GB / 32 GB / 80 GB جا میشود
کوانتیزاسیون تصویر را تغییر میدهد. در Q4_K_M (یک کوانت معمول «کیفیت خوب»): یک مدل 7B به ~4.5 GB نیاز دارد، یک 13B به ~8 GB، یک 27 تا 32B به ~20 GB، یک 70B به ~42 GB، یک 100B به ~60 GB. حدود 10 تا 15% فضای خالی برای K-V cache و CUDA workspace اضافه کنید. برازشهای عملی: 24 GB = 7B تا 13B راحت، 27 تا 32B با offload دردسرساز، 70B ممکن نیست. 32 GB = 27 تا 32B راحت، 70B با CPU offload (کند). 80 GB = 70B راحت در Q4 تا Q5، 100B با offload. 160 GB (dual H100) = 70B در FP16 / BF16، 100 تا 180B در Q4. در FP16 / BF16 (بدون کوانتیزاسیون) اعداد دو برابر میشوند: یک 70B در FP16 به ~140 GB نیاز دارد، به همین دلیل است که 2× H100 نقطه ورود برای استنتاج مدلهای پرچمدار با دقت کامل است.
وقتی RTX 5090 پاسخ درست است
عرضه RTX 5090 در اوایل 2025 یک نقطه شیرین جدید ایجاد کرد. برای مدلهای 27B تا 32B که در 2026 بیشترین اهمیت را دارند (Gemma-3-27B، Qwen3-32B، Mistral-Small-3، Phi-4، DeepSeek-R1-Distill-Qwen-32B)، 5090 تقریباً 2.5× توانعملی بیشتری نسبت به 4090 با نصف هزینه H100 ارائه میدهد. اگر بارکاری شما «یک مدل دستیار واقعاً توانمند با استدلال، پشتیبانی چندزبانه، و پنجره زمینه 32K میخواهم، اما به 70B+ نیازی ندارم» باشد، رده GPU-M نقطه شروع شماست. همچنین بهعنوان یک ریگ تولید تصویر سخاوتمند عمل میکند — FLUX.1-dev با 16 GB فضای خالی VRAM برای دستههای با وضوح بالا راحت اجرا میشود.
وقتی H100 را به 4090 ترجیح میدهید
سه نشانه تصمیم خرید را به GPU-L (H100 تکی) تغییر میدهند: (1) مدلهای 70B یا DeepSeek-R1-Distill-Llama-70B سرویس میدهید و میخواهید time-to-first-token زیر یک ثانیه در batch 1 داشته باشید؛ (2) استنتاج با همزمانی بالا (vLLM با batch 16+ کاربر) اجرا میکنید که پهنای باند حافظه H100 گلوگاه را میشکند؛ (3) روی مجموعه دادههای بیش از ~10M توکن آموزش میدهید یا فاینتیون LoRA میکنید و مسیر آموزش FP8 که 4090 / 5090 ندارند برایتان ارزشمند است. Transformer Engine FP8 در H100 توانعملی آموزش را تقریباً دو برابر FP16 میکند و فاینتیونینگ Llama 70B روی یک کارت را ممکن میسازد.
اقتصاد دلار بهازای توکن
برای بارکاریهای پرحجم، مقایسه درست دلار بهازای هر میلیون توکن در توانعملی پایدار است. روی Llama-3.1-70B Q4، vLLM 0.7+، batch 16: RTX 4090 بدون offload نمیتواند مدل را میزبانی کند (CPU-RAM offload توانعملی را ~10× کاهش میدهد). RTX 5090 با CPU offload تقریباً $X بهازای هر 1M توکن اجرا میکند (تقریبی؛ بسته به کوانت متفاوت است). یک H100 SXM5 در قیمت ورودی $832.50 در ماه ما تقریباً $1.40 تا 2.20 بهازای هر 1M توکن خروجی قرار میگیرد. در مقایسه با OpenAI GPT-4o خروجی با ~$10 / 1M و Claude Sonnet با ~$15 / 1M — وقتی بارکاری شما به حدود 30M توکن در روز برسد، خودمیزبانی روی یک H100 ارزانتر از فراخوانی APIهای میزبانیشده است و نتیجه حریم خصوصی نیز end-to-end میشود. در حجمهای پایینتر، APIهای میزبانیشده از نظر قیمت برندهاند.
بارکاریهای تصویر، ویدیو، و صوت
تولید تصویر بهندرت به بیشتر از یک 4090 نیاز دارد — FLUX.1-dev، SDXL، SD 3.5 همه در 24 GB با کیفیت تولیدی جا میشوند، و ~83 TFLOPS FP16 در RTX 4090 کافی است. رفتن به 5090 / H100 عمدتاً فضای دسته (تولیدات همزمان بیشتر) میخرد نه سرعت تکتصویر. ویدیوی AI (Wan-2.1، CogVideoX-5B، جریانهای کاری Runway) تقاضای بیشتری دارد — GPU-M نقطه ورود عملی است، GPU-L برای کیفیت تولیدی بلندمدت. Whisper Large v3 ASR و Bark TTS هر دو روی 4090 راحت اجرا میشوند؛ H100 برای آنها اضافه است. فاینتیونینگ با LoRA یا QLoRA روی 7B تا 13B روی 4090 کار میکند؛ فاینتیونینگ 32B تا 70B واقعبینانه حداقل به 5090 نیاز دارد، H100 اگر وقت برایتان ارزشمند است.
RTX 5090 در مقابل RTX A6000 / A100 چطور؟
اگر به گزینههای GPU خارج از خط کارتهای مصرفکننده نگاه کردهاید، شاید با RTX A6000 (48 GB، کارت دیتاسنتر) یا A100 (40 / 80 GB، HBM2e نسل قبل) مواجه شده باشید. حکم سریع: A6000 تقریباً محاسبات همرده 4090 با دو برابر VRAM است، مفید اگر VRAM گلوگاه شماست نه پهنای باند (نادر)؛ A100 یک نسل پشت H100 است و اکنون عمدتاً در بازار ثانویه موجود است — اگر ارزان پیدا کردید هنوز یک کارت استنتاج 70B قابلقبول است، اما بیلدهای جدید در 2026 معمولاً H100 هستند. ما در حال حاضر رده A6000 یا A100 ارائه نمیدهیم؛ کاتالوگ از RTX 5090 مستقیماً به H100 میرود.
چه ارائه میدهیم و چه بردارید
برای خلاصه کردن تصمیم خرید GPU در یک جمله بهازای هر بارکاری: چتبات / دستیار کدنویسی زیر 32B → GPU-S (RTX 4090) برای 7B تا 13B، GPU-M (RTX 5090) برای 27B تا 32B؛ استنتاج 70B پرچمدار (Llama-3.3-70B-Instruct، DeepSeek-R1-Distill-Llama-70B) → GPU-L (H100 SXM5)؛ استنتاج 70B با دقت کامل یا آموزش چندGPU → GPU-XL (2× H100 SXM5)؛ تولید تصویر / ویدیو / گفتار → GPU-S مگر اینکه به فضای دسته نیاز دارید، آنگاه GPU-M. همه چهار رده با CUDA 12.4 + cuDNN از پیش نصبشده و قالبهای تککلیک vLLM / Ollama / ComfyUI / Stable Diffusion عرضه میشوند. مشخصات سختافزار کامل در /gpu.