[Главная](https://servprivate.com/ru) /
[Руководства по приватному хостингу](https://servprivate.com/ru/guides) /
RTX 4090 vs H100 SXM5 для AI-инференса (и где помещается RTX 5090)


Перед покупкой


# RTX 4090 vs H100 — какой GPU для вашей AI-задачи?


Выбор правильного GPU NVIDIA для self-хостируемого AI — это не только VRAM. RTX 4090 — оптимальное соотношение цены и качества для инференса 7B–13B и генерации изображений; RTX 5090 (32 ГБ GDDR7) — новый средний уровень для 27B–32B; H100 SXM5 (80 ГБ HBM3) — для задач класса 70B, где доминирует пропускная способность памяти. Мы разбираем компромиссы по классам задач с данными о пропускной способности, экономикой $/токен и тем, что вмещается в каждый GPU-уровень ServPrivate.


[Читать руководство](#guide-body)
[FAQ](#guide-faq)


#### На этой странице


- [Руководство](#guide-body)

- [FAQ](#guide-faq)

- [Похожие руководства](#guide-related)

- [Рекомендуемые страницы](#guide-cta)


Без KYC
Только крипто
Без логов
DMCA игнорируется
Полный root
NVMe SSD


7 мин чтения
Обновлено May 2026

На этой странице

[01Четыре уровня в одном абзаце](#Четыре-уровня-в-одном-абзаце)
[02Пропускная способность памяти доминирует в LLM-инференсе](#Пропускная-способность-памяти-доминирует-в-llm-инференсе)
[03Что помещается в 24 ГБ / 32 ГБ / 80 ГБ](#Что-помещается-в-24-ГБ-32-ГБ-80-ГБ)
[04Когда RTX 5090 — правильный ответ](#Когда-rtx-5090-правильный-ответ)
[05Когда нужен H100, а не 4090](#Когда-нужен-h100-а-не-4090)
[06Экономика $/токен](#Экономика-токен)
[07Задачи с изображениями, видео и аудио](#Задачи-с-изображениями-видео-и-аудио)
[08Что насчёт RTX 5090 vs RTX A6000 / A100?](#Что-насчёт-rtx-5090-vs-rtx-a6000-a100)
[09Что мы поставляем и что выбрать](#Что-мы-поставляем-и-что-выбрать)
[FAQЧастые вопросы](#guide-faq)
[→Рекомендуемые страницы](#guide-cta)


Выбор между RTX 4090, RTX 5090 и H100 SXM5 для self-хостируемых AI-вычислений в 2026 году редко определяется числом TFLOPS в заголовке. Правильный GPU — тот, чья VRAM, пропускная способность памяти и цена за час инференса соответствуют классу модели и форме батча, которые вы реально используете. Это руководство рассматривает четыре GPU-уровня ServPrivate, задачи, для которых каждый из них рассчитан, и как читать данные о пропускной способности на графике.

## Четыре уровня в одном абзаце

**RTX 4090 (GPU-S, $122.00–329/мес)** — 24 ГБ GDDR6X при ~1 ТБ/с пропускной способности памяти и ~83 TFLOPS FP16. Правильный выбор для языковых моделей 7B–13B, генерации изображений FLUX.1 / SDXL, транскрипции Whisper и синтеза речи Bark. **RTX 5090 (GPU-M, $195.50–519/мес)** — 32 ГБ GDDR7 при ~1.8 ТБ/с и ~104 TFLOPS FP16; дополнительные 8 ГБ и ~80% прироста пропускной способности открывают комфортную работу с моделями 27B–32B (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) и файнтюнинг небольших Llama. **H100 SXM5 (GPU-L, $832.50–1899/мес)** — другая категория: 80 ГБ HBM3 при ~3.35 ТБ/с, ~989 TFLOPS FP16 (Tensor-Core), с доступной фабрикой NVLink; рассчитан на языковые модели класса 70B, инференс с длинным контекстом и более быстрое обучение. **2× H100 SXM5 (GPU-XL, $1567.50–3599/мес)** — для инференса 70B в полной точности, многокарточного обучения и моделей 100B+ на Q4 / Q5.

Пропускная способность vs размер батча на RTX 4090 (24 ГБ), RTX 5090 (32 ГБ) и H100 SXM5 (80 ГБ) — Llama-3.1-70B-Instruct, квантизованная до Q4_K_M, vLLM 0.7+, батч от 1 до 32.

## Пропускная способность памяти доминирует в LLM-инференсе

Для инференса трансформера только с декодером при размерах батча до примерно 16 узким местом является пропускная способность памяти, а не сырые FLOPS. Каждый генерируемый токен требует полного считывания весов модели из VRAM (фаза prefill повторно использует K-V кэш, но каждый новый токен снова читает весовые матрицы). 3.35 ТБ/с HBM3 у H100 обеспечивает ~3x более быстрый инференс на токен по сравнению с 4090 на модели класса 70B — а не числа TFLOPS. Именно поэтому переход RTX 5090 от GDDR6X до GDDR7 (~1.8 ТБ/с vs ~1 ТБ/с) важнее для инференса, чем прирост FLOPS. Если ваша задача — инференс, а не обучение, приоритизируйте пропускную способность над TFLOPS.

## Что помещается в 24 ГБ / 32 ГБ / 80 ГБ

Квантизация меняет картину. При **Q4_K_M** (типичный «хорошего качества» quant): модель 7B требует ~4.5 ГБ, 13B — ~8 ГБ, 27–32B — ~20 ГБ, 70B — ~42 ГБ, 100B — ~60 ГБ. Добавьте ~10–15% запаса для K-V кэша и CUDA workspace. Практические варианты: **24 ГБ** = 7B–13B комфортно, 27–32B с болезненным offload, 70B не реально. **32 ГБ** = 27–32B комфортно, 70B с CPU offload (медленно). **80 ГБ** = 70B комфортно на Q4–Q5, 100B с offload. **160 ГБ (двойной H100)** = 70B на FP16 / BF16, 100–180B на Q4. При **FP16 / BF16** (без квантизации) числа удваиваются: 70B на FP16 требует ~140 ГБ, поэтому 2× H100 — это точка входа для инференса флагманских моделей в полной точности.

## Когда RTX 5090 — правильный ответ

Выпуск RTX 5090 в начале 2025 года создал новую оптимальную точку. Для моделей класса 27B–32B, наиболее востребованных в 2026 году (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), 5090 обеспечивает примерно в 2.5 раза большую пропускную способность, чем 4090, при половине стоимости H100. Если ваша задача — «мне нужна по-настоящему способная модель-ассистент с рассуждением, многоязычной поддержкой и 32K контекстным окном, но не 70B+», уровень GPU-M — с него следует начинать. Он также удваивается как щедрый сервер для генерации изображений — FLUX.1-dev работает комфортно с 16 ГБ запаса VRAM для высокоразрешающих батчей.

## Когда нужен H100, а не 4090

Три сигнала толкают решение о покупке к GPU-L (одиночный H100): (1) вы обслуживаете модели класса 70B или DeepSeek-R1-Distill-Llama-70B и хотите время до первого токена менее секунды при батче 1; (2) вы выполняете конкурентный инференс с большими батчами (vLLM с батчом 16+ пользователей), где пропускная способность памяти H100 является решением узкого места; (3) вы обучаете или LoRA-файнтюните на датасетах свыше ~10M токенов и хотите путь обучения FP8, которого нет у 4090 / 5090. FP8 Transformer Engine H100 примерно удваивает пропускную способность обучения по сравнению с FP16, что делает файнтюнинг 70B Llama реальным на одной карте.

## Экономика $/токен

Для высоконагруженных задач правильным сравнением является стоимость в долларах за миллион токенов при устойчивой пропускной способности. На Llama-3.1-70B Q4, vLLM 0.7+, батч 16: RTX 4090 не может хостить модель без offload (CPU-RAM offload снижает пропускную способность в ~10 раз). RTX 5090 с CPU-offload — около $X за 1M токенов (приблизительно; зависит от quant). Одиночный H100 SXM5 — около $1.40–2.20 за 1M output-токенов при нашей начальной цене $832.50/мес. Сравните с OpenAI GPT-4o output по ~$10 / 1M и Claude Sonnet по ~$15 / 1M — как только ваша задача достигает примерно 30M токенов в день, self-хостинг на одиночном H100 дешевле обращения к хостируемым API, и результат в части приватности является сквозным. При меньших объёмах хостируемые API выигрывают по стоимости.

## Задачи с изображениями, видео и аудио

**Генерация изображений** редко требует более чем 4090 — FLUX.1-dev, SDXL, SD 3.5 вмещаются в 24 ГБ при производственном качестве, а ~83 TFLOPS FP16 RTX 4090 более чем достаточно. Переход к 5090 / H100 в основном даёт запас размера батча (больше параллельных генераций), а не скорость на изображение. **AI-видео** (Wan-2.1, CogVideoX-5B, рабочие процессы класса Runway) требовательнее — GPU-M является практической точкой входа, GPU-L для длинного форма производственного качества. **Whisper Large v3 ASR** и **Bark TTS** комфортно работают на 4090; H100 для них избыточен. **Файнтюнинг** с LoRA или QLoRA на 7B–13B работает на 4090; файнтюнинг 32B–70B реально хочет минимум 5090, H100 — если цените время.

## Что насчёт RTX 5090 vs RTX A6000 / A100?

Если вы изучали варианты GPU за пределами потребительской линейки, вы могли встречать RTX A6000 (48 ГБ, датацентровая карта) или A100 (40 / 80 ГБ, предыдущее поколение HBM2e). Краткий вердикт: A6000 — примерно вычисления уровня 4090 с вдвое большим VRAM, полезно, если VRAM является узким местом, но не пропускная способность (редкость); A100 на поколение позади H100 и сейчас доступна преимущественно на вторичном рынке — при дешёвой цене остаётся приемлемой картой для инференса 70B, но новые сборки в 2026 году, как правило, выбирают H100. Уровни A6000 или A100 мы сейчас не предлагаем; каталог переходит от RTX 5090 к H100.

## Что мы поставляем и что выбрать

Чтобы подытожить решение о покупке GPU в одной фразе на задачу: **чат-бот / ассистент по коду до 32B** → GPU-S (RTX 4090) для 7B–13B, GPU-M (RTX 5090) для 27B–32B; **флагманский инференс 70B (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B)** → GPU-L (H100 SXM5); **инференс 70B в полной точности или многокарточное обучение** → GPU-XL (2× H100 SXM5); **генерация изображений / видео / голоса** → GPU-S, если не нужен запас батча, тогда GPU-M. Все четыре уровня поставляются с предустановленными CUDA 12.4 + cuDNN и 1-кликовыми шаблонами vLLM / Ollama / ComfyUI / Stable Diffusion. Полная спецификация оборудования на [/gpu](https://servprivate.com/ru/gpu).


FAQ

## Выбор GPU — часто задаваемые вопросы


### 01
Почему пропускная способность памяти важнее TFLOPS для инференса?


Инференс трансформера только с декодером при малых и средних размерах батча ограничен памятью: каждый генерируемый токен требует считывания всей весовой матрицы из VRAM. Вычислительные ядра достаточно быстры, чтобы GPU большую часть времени ждал загрузки из памяти. Именно поэтому 3.35 ТБ/с HBM3 у H100 примерно в 3 раза быстрее на токен, чем 1 ТБ/с GDDR6X 4090 на той же модели 70B, несмотря на то что большее число TFLOPS у H100 почти не имеет значения.


### 02
Можно ли запустить Llama-3.3-70B на RTX 4090?


Технически да, с CPU-offload через llama.cpp или KTransformers — но пропускная способность падает до ~3–5 токен/сек при длинной генерации, что неприемлемо медленно для чата. Практически 70B — это задача для H100 (или 2× RTX 5090 с NVLink, которого мы не предлагаем). Если 70B — это то, что вам нужно, и вы не хотите платить за H100, рассмотрите DeepSeek-R1-Distill-Llama-8B или DeepSeek-R1-Distill-Qwen-14B на 4090 — дистиллированные модели удивительно конкурентоспособны в рассуждении.


### 03
RTX 5090 лучше A100 для AI?


Для инференса — в основном да: GDDR7 у 5090 (~1.8 ТБ/с) превосходит HBM2e A100 40GB (~1.55 ТБ/с) по пропускной способности, и FLOPS выше. SKU A100 на 80 ГБ имеет больше VRAM (80 vs 32 ГБ), что важно для инференса 70B. Для обучения у A100 по-прежнему есть ECC-память и надлежащий набор функций датацентрового класса, которых нет у 5090. Новые сборки в 2026 году, как правило, выбирают H100 вместо A100; 5090 заполняет потребительский разрыв.


### 04
Когда self-хостинг действительно дешевле OpenAI / Anthropic?


Приблизительно: одиночный H100 SXM5 за $832.50/мес, запускающий Llama-3.3-70B при устойчивой пропускной способности батча-16, даёт ~30–50M output-токенов/день. По ценам GPT-4o ($10/1M output) это $300–500/день эквивалентных хостируемых расходов. Точка безубыточности — около 5–7M output-токенов в день. Ниже — хостируемые API выигрывают; выше — self-хостинг выигрывает. Точки безубыточности RTX 4090 / 5090 масштабируются вниз с меньшими моделями, которые в них помещаются.


### 05
Как ServPrivate GPU сравнивается с Vast.ai или RunPod?


Vast.ai дешевле почасовом споте ($0.30–0.70/ч для 4090), но качество сильно варьируется (потребительское железо в частных домах, смешанная сеть, риск вытеснения). RunPod более стабилен ($0.69–3.99/ч по запросу), но американская юрисдикция с email/способом оплаты и KYC. ServPrivate дороже, чем Vast.ai по споту и примерно сопоставим с RunPod по запросу в месячном пересчёте, но регистрация только по токену, нативный Monero, без вытеснения, без KYC и 4 офшорных юрисдикции. Правильный выбор зависит от того, что важнее — приватность и предсказуемость или сырые центы за час.


### 06
Что насчёт H200 или B200 — стоит ли ждать?


H200 (141 ГБ HBM3e) есть в каталоге гиперскейл-провайдеров, таких как CoreWeave, но поставки в сегменте приватных офшорных хостингов ограничены статусом канального партнёра NVIDIA — мы оцениваем доступность в 2026 Q3. B200 NVL72 на данный момент только для гиперскейл-фабрик и нереалистичен для аренды одиночных карт. Для большинства self-хостеров H100 SXM5 в 2026 году обладает достаточными возможностями для задач класса 70B — аргумент в пользу ожидания H200 в основном касается случаев использования мультимодального длинного контекста (200K+ токенов).


Похожие руководства

## Читайте также


[### Как выбрать офшорную юрисдикцию для хостинга в 2026 году

Перед покупкой


Практическая система принятия решений при выборе офшорной юрисдикции: законы о хранении данных, MLAT-риски, позиция по DMCA, скорость судебных решений и реальная практика правоприменения — по каждой стране.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/choosing-an-offshore-jurisdiction)
[### VPS против выделенного сервера для задач с требованиями к конфиденциальности

Перед покупкой


Когда VPS достаточен, когда общая аренда становится уязвимостью, а когда bare metal — единственный честный ответ. Аппаратная изоляция, риски гипервизора и соотношение цены и модели угроз.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/vps-vs-dedicated-for-privacy)
[### Собственный VPN на VPS без KYC: WireGuard против OpenVPN

Эксплуатация


Почему собственный VPN превосходит коммерческих провайдеров, и как WireGuard и OpenVPN реально сравниваются по конфиденциальности, производительности и операционным рискам в 2026 году.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/self-hosted-vpn-wireguard-vs-openvpn)
[### Офшорный Windows RDP для форекс-трейдинга MT4 / MT5 / cTrader

Эксплуатация


Полное руководство: зачем нужен Windows RDP для форекс-трейдинга, как выбрать офшорную юрисдикцию с низкой латентностью, настройка MT4 / MT5 / cTrader / Expert Advisor, латентность до брокерских серверов и путь no-KYC чекаута.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/offshore-windows-rdp-for-forex-trading)
[### Хостинг с игнорированием DMCA: что это реально означает в 2026 году

Перед покупкой


Что на самом деле даёт хостинг с «игнорированием DMCA», какие юрисдикции действительно его поддерживают, для каких задач он нужен и какие авторско-правовые ловушки этот термин не покрывает.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/dmca-ignored-hosting-explained)
[### Анонимная регистрация домена за криптовалюту: WHOIS-приватность в 2026 году

Конфиденциальность


Практическое руководство 2026 года по регистрации доменов без раскрытия личности: режимы WHOIS по TLD, выбор регистратора, варианты оплаты криптовалютой и операционные ошибки, которые всё равно вас раскроют.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/anonymous-domain-registration-with-crypto)
[### Криптоплатежи за хостинг: Monero против Bitcoin против USDT

Конфиденциальность


Как выбор монеты влияет на то, что провайдер узнаёт о вас. Конфиденциальность, комиссии, финальность и уязвимость к анализу блокчейна для XMR, BTC и USDT — с чёткой рекомендацией.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/crypto-payments-monero-vs-bitcoin-vs-usdt)
[### Что такое хостинг без KYC? Определение, законность и принцип работы

Конфиденциальность


Хостинг без KYC позволяет арендовать сервер без какой-либо проверки личности — без имени, электронной почты и документов. Здесь подробно объясняется, что это означает, как работает технически, законно ли это и как выбрать надёжного провайдера.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/what-is-no-kyc-hosting)
[### Законен ли офшорный хостинг? Честный ответ 2026 года

Перед покупкой


Офшорный хостинг законен — и для вас, и для провайдера. Разбираемся, что на самом деле означает этот термин, где проходит настоящая правовая граница, какие мифы стоит отбросить и как пользоваться им ответственно.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/is-offshore-hosting-legal)
[### Как оплатить хостинг через Monero (XMR) — пошаговое руководство

Конфиденциальность


Пошаговое руководство по оплате VPS или выделенного сервера с помощью Monero (XMR): почему XMR — наиболее приватный вариант, как его приобрести и как работает оформление заказа — от выставления счёта до запуска сервера за считанные минуты.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/how-to-pay-for-hosting-with-monero)
[### Как анонимно разместить сайт — практическое руководство 2026

Конфиденциальность


Практическое многоуровневое руководство по размещению сайта без привязки к личности: аккаунт, оплата, домен, юрисдикция, подключение и контент — каждый уровень разобран отдельно.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/how-to-host-a-website-anonymously)
[### Как настроить WireGuard VPN на VPS — пошаговое руководство

Эксплуатация


Создайте собственный приватный VPN на VPS с помощью WireGuard: почему самостоятельный хостинг надёжнее коммерческих решений, полная инструкция от установки до подключения клиента, а также советы по укреплению безопасности.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/how-to-set-up-wireguard-vpn-on-a-vps)
[### Как самостоятельно разместить LLM на GPU-сервере — руководство 2026 года

Эксплуатация


Запустите собственную большую языковую модель на арендованном GPU-сервере: почему самостоятельный хостинг превосходит API, какой GPU и модель выбрать, настройка с Ollama или vLLM и стоимость.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/self-host-an-llm-on-a-gpu-server)
[### Bulletproof-хостинг против офшорного хостинга — в чём разница?

Перед покупкой


Bulletproof-хостинг и офшорный хостинг постоянно путают — но это совершенно разные вещи. Здесь объясняется реальная разница, почему это важно и что именно вам нужно.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/bulletproof-vs-offshore-hosting)
[### Как купить VPS за Bitcoin — пошаговая инструкция (2026)

Перед покупкой


Понятное руководство для начинающих: как купить VPS за Bitcoin — получить BTC, выбрать тариф, оплатить счёт и запустить сервер без банковской карты и без привязки личных данных.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/how-to-buy-a-vps-with-bitcoin)
[### Лучшие страны для хостинга, игнорирующего DMCA, в 2026 году

Перед покупкой


Где размещать серверы, недосягаемые для американских требований о снятии контента: юрисдикции, которые реально работают, что на самом деле означает «игнорирование DMCA» и как сделать правильный выбор.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/best-countries-for-dmca-ignored-hosting)
[### Как разместить скрытый сервис Tor (сайт .onion) — руководство 2026 года

Эксплуатация


Настройте onion-сервис Tor на VPS: что такое скрытый сервис, почему это наиболее надёжная форма анонимного хостинга, полная инструкция по настройке и способы сохранить реальную анонимность.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/how-to-host-a-tor-hidden-service)
[### Настройка офшорного почтового сервера — самостоятельный хостинг частной почты в 2026 году

Эксплуатация


Запустите собственный приватный почтовый сервер на офшорном VPS: зачем переходить на самостоятельный хостинг, что для этого нужно, практическая настройка с готовым почтовым стеком и как обеспечить доставляемость писем.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/offshore-mail-server-setup)
[### Руководство по хостингу криптонод — запустите блокчейн-ноду на VPS

Эксплуатация


Как разместить блокчейн-ноду на сервере: зачем запускать собственную ноду, как подобрать конфигурацию для Bitcoin, Ethereum, Monero и других сетей, настройка и обеспечение конфиденциальности.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/crypto-node-hosting-guide)
[### GPU-хостинг для Stable Diffusion — запустите собственный сервер генерации изображений

Эксплуатация


Запустите Stable Diffusion на собственном GPU-сервере: зачем самостоятельно хостить генерацию изображений, какой GPU выбрать, как настроить веб-интерфейс и во сколько это обойдётся по сравнению с облачными сервисами.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/gpu-hosting-for-stable-diffusion)
[### OpSec сервера — Как оставаться анонимным при управлении сервером

Конфиденциальность


Операционная безопасность для тех, кто управляет анонимным сервером: ошибки, которые раскрывают личность, привычки, которые их предотвращают, и способы по-настоящему разделить идентичности.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/server-opsec-staying-anonymous)
[### Руководство по настройке сидбокса — создайте собственный приватный сидбокс в 2026 году

Эксплуатация


Как развернуть собственный сидбокс на сервере: что такое сидбокс, как подобрать конфигурацию, установить торрент-клиент с веб-интерфейсом и обеспечить приватность и безопасность.


FAQ из 6 вопросов](https://servprivate.com/ru/guides/seedbox-setup-guide)


## Готовы развернуть ваш AI-сервер?


RTX 4090 от $122.00/мес, RTX 5090 от $195.50/мес, H100 SXM5 от $832.50/мес. Регистрация только по токену, криптовалютный чекаут, CUDA 12 + 1-кликовые AI-шаблоны.


[Смотреть тарифы GPU](https://servprivate.com/ru/gpu)
[No-KYC GPU Hosting](https://servprivate.com/ru/no-kyc-gpu)
[Self-Host LLM](https://servprivate.com/ru/uncensored-ai-hosting)


## Structured data (JSON-LD)

```json
{
    "@context": "https://schema.org",
    "@type": "Organization",
    "@id": "https://servprivate.com/#organization",
    "name": "ServPrivate",
    "alternateName": "ServPrivacy",
    "url": "https://servprivate.com",
    "description": "Офшорные VPS и выделенные серверы в 7 юрисдикциях. Без KYC, без логов, только криптовалюта. Приватность — не функция, а архитектура.",
    "logo": {
        "@type": "ImageObject",
        "url": "https://servprivate.com/ServPrivate.webp",
        "width": 512,
        "height": 512
    },
    "foundingDate": "2025",
    "areaServed": [
        {
            "@type": "Country",
            "name": "Iceland"
        },
        {
            "@type": "Country",
            "name": "Panama"
        },
        {
            "@type": "Country",
            "name": "Moldova"
        },
        {
            "@type": "Country",
            "name": "Romania"
        },
        {
            "@type": "Country",
            "name": "Switzerland"
        },
        {
            "@type": "Country",
            "name": "Netherlands"
        },
        {
            "@type": "Country",
            "name": "Russia"
        }
    ],
    "knowsAbout": [
        "Offshore hosting",
        "Offshore VPS",
        "Bare-metal dedicated servers",
        "DMCA-ignored hosting",
        "No KYC hosting",
        "Cryptocurrency payments",
        "Privacy engineering",
        "Token-based authentication",
        "Anonymous domain name registration",
        "No-KYC domain registrar",
        "WHOIS privacy",
        "Cheap .com domains",
        "Crypto-paid domain names",
        "NVIDIA GPU compute",
        "Windows RDP hosting",
        "Agentic commerce"
    ],
    "contactPoint": {
        "@type": "ContactPoint",
        "contactType": "customer support",
        "url": "https://servprivate.com/contact",
        "availableLanguage": [
            "en",
            "ru",
            "zh",
            "es",
            "fr",
            "de",
            "pt",
            "ar",
            "ja",
            "ko",
            "hi",
            "id",
            "it",
            "tr",
            "fa",
            "vi"
        ]
    },
    "sameAs": [
        "https://servprivate.com/canary",
        "https://servprivate.com/press"
    ]
}
```

```json
{
    "@context": "https://schema.org",
    "@type": "WebSite",
    "@id": "https://servprivate.com/#website",
    "url": "https://servprivate.com",
    "name": "ServPrivate",
    "publisher": {
        "@id": "https://servprivate.com/#organization"
    },
    "inLanguage": [
        "en",
        "ru",
        "zh",
        "es",
        "fr",
        "de",
        "pt",
        "ar",
        "ja",
        "ko",
        "hi",
        "id",
        "it",
        "tr",
        "fa",
        "vi"
    ]
}
```

```json
{
    "@context": "https://schema.org",
    "@type": "Article",
    "headline": "RTX 4090 vs H100 SXM5 для AI-инференса (и где помещается RTX 5090)",
    "description": "Руководство по выбору GPU: какая NVIDIA GPU подходит для self-хостируемых LLM, изображений, видео, голоса и файнтюнинга в 2026 году. RTX 4090 vs RTX 5090 vs H100 SXM5 vs двойной H100 — VRAM, пропускная способность, $/токен, когда каждый из них выигрывает.",
    "image": "https://servprivate.com/assets/img/guides/rtx-4090-vs-h100-for-ai-inference.webp?v=1777901067",
    "author": {
        "@type": "Organization",
        "@id": "https://servprivate.com/#editorial",
        "name": "ServPrivate Editorial",
        "url": "https://servprivate.com/about",
        "description": "Operator-side editorial team writing about offshore hosting jurisdictions, offshore server architecture, self-hosted privacy stacks and crypto payments.",
        "knowsAbout": [
            "Offshore hosting jurisdictions",
            "Data retention law",
            "MLAT and judicial cooperation",
            "WireGuard and OpenVPN deployment",
            "Tor relay operation",
            "Monero and Bitcoin payment privacy",
            "KVM virtualization and bare-metal hosting",
            "DMCA-ignored hosting"
        ],
        "parentOrganization": {
            "@id": "https://servprivate.com/#organization"
        }
    },
    "publisher": {
        "@id": "https://servprivate.com/#organization"
    },
    "datePublished": "2026-05-28T11:23:56+00:00",
    "dateModified": "2026-05-29T16:35:14+00:00",
    "mainEntityOfPage": "https://servprivate.com/guides/rtx-4090-vs-h100-for-ai-inference",
    "inLanguage": "ru",
    "keywords": "RTX 4090 vs H100, best GPU for AI inference, H100 vs 4090 LLM, RTX 5090 vs H100, GPU choice for self-hosted LLM",
    "articleSection": "Перед покупкой",
    "wordCount": 1268
}
```

```json
{
    "@context": "https://schema.org",
    "@type": "FAQPage",
    "mainEntity": [
        {
            "@type": "Question",
            "name": "Почему пропускная способность памяти важнее TFLOPS для инференса?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Инференс трансформера только с декодером при малых и средних размерах батча ограничен памятью: каждый генерируемый токен требует считывания всей весовой матрицы из VRAM. Вычислительные ядра достаточно быстры, чтобы GPU большую часть времени ждал загрузки из памяти. Именно поэтому 3.35 ТБ/с HBM3 у H100 примерно в 3 раза быстрее на токен, чем 1 ТБ/с GDDR6X 4090 на той же модели 70B, несмотря на то что большее число TFLOPS у H100 почти не имеет значения."
            }
        },
        {
            "@type": "Question",
            "name": "Можно ли запустить Llama-3.3-70B на RTX 4090?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Технически да, с CPU-offload через llama.cpp или KTransformers — но пропускная способность падает до ~3–5 токен/сек при длинной генерации, что неприемлемо медленно для чата. Практически 70B — это задача для H100 (или 2× RTX 5090 с NVLink, которого мы не предлагаем). Если 70B — это то, что вам нужно, и вы не хотите платить за H100, рассмотрите DeepSeek-R1-Distill-Llama-8B или DeepSeek-R1-Distill-Qwen-14B на 4090 — дистиллированные модели удивительно конкурентоспособны в рассуждении."
            }
        },
        {
            "@type": "Question",
            "name": "RTX 5090 лучше A100 для AI?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Для инференса — в основном да: GDDR7 у 5090 (~1.8 ТБ/с) превосходит HBM2e A100 40GB (~1.55 ТБ/с) по пропускной способности, и FLOPS выше. SKU A100 на 80 ГБ имеет больше VRAM (80 vs 32 ГБ), что важно для инференса 70B. Для обучения у A100 по-прежнему есть ECC-память и надлежащий набор функций датацентрового класса, которых нет у 5090. Новые сборки в 2026 году, как правило, выбирают H100 вместо A100; 5090 заполняет потребительский разрыв."
            }
        },
        {
            "@type": "Question",
            "name": "Когда self-хостинг действительно дешевле OpenAI / Anthropic?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Приблизительно: одиночный H100 SXM5 за $832.50/мес, запускающий Llama-3.3-70B при устойчивой пропускной способности батча-16, даёт ~30–50M output-токенов/день. По ценам GPT-4o ($10/1M output) это $300–500/день эквивалентных хостируемых расходов. Точка безубыточности — около 5–7M output-токенов в день. Ниже — хостируемые API выигрывают; выше — self-хостинг выигрывает. Точки безубыточности RTX 4090 / 5090 масштабируются вниз с меньшими моделями, которые в них помещаются."
            }
        },
        {
            "@type": "Question",
            "name": "Как ServPrivate GPU сравнивается с Vast.ai или RunPod?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Vast.ai дешевле почасовом споте ($0.30–0.70/ч для 4090), но качество сильно варьируется (потребительское железо в частных домах, смешанная сеть, риск вытеснения). RunPod более стабилен ($0.69–3.99/ч по запросу), но американская юрисдикция с email/способом оплаты и KYC. ServPrivate дороже, чем Vast.ai по споту и примерно сопоставим с RunPod по запросу в месячном пересчёте, но регистрация только по токену, нативный Monero, без вытеснения, без KYC и 4 офшорных юрисдикции. Правильный выбор зависит от того, что важнее — приватность и предсказуемость или сырые центы за час."
            }
        },
        {
            "@type": "Question",
            "name": "Что насчёт H200 или B200 — стоит ли ждать?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "H200 (141 ГБ HBM3e) есть в каталоге гиперскейл-провайдеров, таких как CoreWeave, но поставки в сегменте приватных офшорных хостингов ограничены статусом канального партнёра NVIDIA — мы оцениваем доступность в 2026 Q3. B200 NVL72 на данный момент только для гиперскейл-фабрик и нереалистичен для аренды одиночных карт. Для большинства self-хостеров H100 SXM5 в 2026 году обладает достаточными возможностями для задач класса 70B — аргумент в пользу ожидания H200 в основном касается случаев использования мультимодального длинного контекста (200K+ токенов)."
            }
        }
    ]
}
```

```json
{
    "@context": "https://schema.org",
    "@type": "BreadcrumbList",
    "itemListElement": [
        {
            "@type": "ListItem",
            "position": 1,
            "name": "Главная",
            "item": "https://servprivate.com/"
        },
        {
            "@type": "ListItem",
            "position": 2,
            "name": "Руководства по приватному хостингу",
            "item": "https://servprivate.com/guides"
        },
        {
            "@type": "ListItem",
            "position": 3,
            "name": "RTX 4090 vs H100 SXM5 для AI-инференса (и где помещается RTX 5090)",
            "item": "https://servprivate.com/guides/rtx-4090-vs-h100-for-ai-inference"
        }
    ]
}
```