ホーム / プライバシー ホスティング ガイド / RTX 4090 vs H100 SXM5向けAI Inference (と どこ RTX 5090 Fits)
購入

RTX 4090 vs H100 — AIワークロードに適したGPUは?

セルフホストAIに適したNVIDIA GPU選びは、VRAMだけの問題ではありません。RTX 4090は7B〜13B推論と画像生成の価格面での最適点です。RTX 5090(32GB GDDR7)は27B〜32B向けの新しい中間ティアです。H100 SXM5(80GB HBM3)は、メモリ帯域が支配的な70B級ワークロード向けです。このガイドでは、ワークロード別のトレードオフ、スループット、トークン単価、ServPrivateの各GPUティアに何が収まるかを説明します。

KYC不要
暗号資産決済のみ
ログなし
DMCA無視
フルroot
NVMe SSD

2026年のセルフホスト AI コンピュートにおいて、RTX 4090・RTX 5090・H100 SXM5 のどれを選ぶかは、カタログスペックの TFLOPS 数値だけで判断できるものではありません。最適な GPU とは、VRAM 容量・メモリ帯域・推論時間あたりの単価が、実際に使用するモデルのクラスとバッチ形状に合致しているものです。このガイドでは、ServPrivate が提供する 4 つの GPU ティア、各ティアが想定するワークロード、そしてチャートのスループット数値の読み方を解説します。

4 つのティアをひとことで

RTX 4090(GPU-S、$122.00〜329/月)は 24 GB の GDDR6X を搭載し、メモリ帯域は約 1 TB/s、FP16 性能は約 83 TFLOPS です。7B〜13B の言語モデル、FLUX.1 / SDXL による画像生成、Whisper による文字起こし、Bark によるテキスト読み上げに最適です。RTX 5090(GPU-M、$195.50〜519/月)は 32 GB GDDR7・約 1.8 TB/s・約 104 TFLOPS FP16 に強化されており、8 GB の追加 VRAM と約 80% の帯域向上により 27B〜32B モデル(Gemma-3-27B、Qwen3-32B、Mistral-Small-3)を快適に動作させ、小規模な Llama のファインチューニングも可能です。H100 SXM5(GPU-L、$832.50〜1899/月)は別次元の存在で、80 GB HBM3・約 3.35 TB/s・約 989 TFLOPS FP16(Tensor-Core)を備え、NVLink クラスのファブリックも利用できます。70B クラスの言語モデル、長文コンテキスト推論、高速トレーニングに対応します。2× H100 SXM5(GPU-XL、$1567.50〜3599/月)は、フル精度 70B 推論・マルチ GPU トレーニング・Q4 / Q5 での 100B 超モデルに向けたティアです。

RTX 4090 vs H100 — AIワークロードに適したGPUは?
Throughput vs バッチ size on RTX 4090 (24 GB), RTX 5090 (32 GB)とH100 SXM5 (80 GB) — Llama-3.1-70B-Instruct quantizedにQ4_K_M, vLLM 0.7+, バッチ 1にバッチ 32.

LLM 推論ではメモリ帯域が支配的

バッチサイズが概ね 16 以下のデコーダー専用トランスフォーマー推論では、ボトルネックは FLOPS ではなくメモリ帯域です。生成されるトークンごとに VRAM からモデルの重みを全量読み出す必要があります(プリフィルフェーズは K-V キャッシュを再利用しますが、新しいトークンを生成するたびに重み行列を再読み込みします)。H100 の HBM3 が持つ 3.35 TB/s という帯域こそが、70B クラスのモデルで 4090 の約 3 倍の速度を実現する要因であり、高い TFLOPS 数値のおかげではありません。これはまた、RTX 5090 の GDDR6X から GDDR7 への移行(約 1 TB/s→約 1.8 TB/s)が、FLOPS の向上よりも推論においてより大きな意味を持つ理由でもあります。ワークロードがトレーニングではなく推論中心であれば、TFLOPS よりも帯域を優先してください。

24 GB / 32 GB / 80 GB に収まるモデル

量子化によって状況は変わります。Q4_K_M(「品質と圧縮のバランスが良い」代表的な量子化)での目安:7B モデルは約 4.5 GB、13B は約 8 GB、27〜32B は約 20 GB、70B は約 42 GB、100B は約 60 GB が必要です。K-V キャッシュと CUDA ワークスペース用に 10〜15% のヘッドルームを加算してください。実用上の目安:24 GB = 7B〜13B は快適、27〜32B はオフロードが必要で負荷あり、70B は非実用的。32 GB = 27〜32B は快適、70B は CPU オフロード(低速)で可。80 GB = Q4〜Q5 で 70B は快適、100B はオフロードで可。160 GB(デュアル H100) = FP16 / BF16 で 70B、Q4 で 100〜180B。FP16 / BF16(量子化なし)では数値が倍になります。FP16 で 70B を動かすには約 140 GB が必要なため、フル精度でのフラッグシップモデル推論には 2× H100 が最低ラインとなります。

RTX 5090 が最適な答えとなるとき

2025 年初頭の RTX 5090 登場により、新たな最適ポイントが生まれました。2026 年において重要な 27B〜32B クラスのモデル(Gemma-3-27B、Qwen3-32B、Mistral-Small-3、Phi-4、DeepSeek-R1-Distill-Qwen-32B)に対して、5090 は 4090 の約 2.5 倍のスループットを H100 の半額以下で実現します。「推論能力・多言語対応・32K コンテキストウィンドウを備えた高性能なアシスタントモデルが欲しいが、70B 以上は不要」というニーズには、GPU-M ティアが出発点として最適です。また、FLUX.1-dev が 16 GB の VRAM ヘッドルームを持ちながら高解像度バッチを快適にこなせるため、画像生成用途にも十分な選択肢です。

4090 ではなく H100 を選ぶべきとき

GPU-L(シングル H100)への移行を促す 3 つのシグナルがあります。(1) 70B クラスのモデルや DeepSeek-R1-Distill-Llama-70B を提供しており、バッチ 1 でのサブ秒 TTFT(最初のトークンまでの時間)を求めている場合。(2) 高バッチの同時推論(vLLM でバッチ 16 以上のユーザー)を実行しており、H100 のメモリ帯域がボトルネック解消の鍵となる場合。(3) 約 1000 万トークン以上のデータセットでトレーニングや LoRA ファインチューニングを行い、4090 / 5090 には備わっていない FP8 トレーニングパスを活用したい場合。H100 の FP8 Transformer Engine はトレーニングスループットを FP16 比で約 2 倍にするため、シングルカードで 70B Llama のファインチューニングを現実的にしています。

$/トークン のコスト比較

大量処理のワークロードでは、比較すべき指標は持続スループット時の 100 万トークンあたりのコストです。Llama-3.1-70B Q4、vLLM 0.7+、バッチ 16 での参考値:RTX 4090 はオフロードなしではモデルを収められず(CPU-RAM オフロードはスループットを約 1/10 に低下させます)。RTX 5090 は CPU オフロードを使うと 100 万トークンあたり約 $X(量子化方式により変動)。シングル H100 SXM5 は月額 $832.50 の最安プランで 100 万出力トークンあたり約 $1.40〜2.20 です。OpenAI GPT-4o の出力が約 $10 / 1M、Claude Sonnet が約 $15 / 1M であることと比較すると、ワークロードが 1 日あたり約 3000 万トークンに達した時点で、シングル H100 でのセルフホストはホスト型 API の呼び出しよりもコスト効率が高く、かつエンドツーエンドのプライバシーも確保できます。使用量が少ない場合は、ホスト型 API のほうがコスト面で有利です。

画像・動画・音声ワークロード

画像生成は 4090 以上を必要とすることはほとんどありません。FLUX.1-dev、SDXL、SD 3.5 はいずれも本番品質で 24 GB に収まり、RTX 4090 の約 83 TFLOPS FP16 で十分です。5090 / H100 への移行は主にバッチサイズのヘッドルーム(より多くの同時生成)をもたらすものであり、1 枚あたりの速度向上は限定的です。AI 動画(Wan-2.1、CogVideoX-5B、Runway クラスのワークフロー)はより要求が高く、実用的な最低ラインは GPU-M、本番品質の長尺動画には GPU-L が必要です。Whisper Large v3 ASRBark TTS はどちらも 4090 で快適に動作します。H100 はこれらの用途にはオーバースペックです。LoRA / QLoRA によるファインチューニングは 7B〜13B であれば 4090 で可能ですが、32B〜70B のファインチューニングには実質的に最低でも 5090、時間を重視するなら H100 が必要です。

RTX 5090 vs RTX A6000 / A100 について

コンシューマーカード以外の GPU オプションを検討した場合、RTX A6000(48 GB、データセンター向けカード)や A100(40 / 80 GB、旧世代 HBM2e)に行き当たることがあります。簡単な結論:A6000 は VRAM が 2 倍でほぼ 4090 クラスのコンピュート性能を持ちます。帯域がボトルネックではなく VRAM がボトルネックである場合(レアケース)に有用です。A100 は H100 の一世代前であり、現在は主に中古市場で入手可能です。安価に入手できれば 70B 推論カードとして今でも有力ですが、2026 年の新規構築では通常 H100 が選択されます。現時点では A6000 および A100 ティアは提供しておらず、カタログは RTX 5090 から H100 に直接ジャンプします。

提供ラインアップと選び方

ワークロード別の GPU 選択をひとことでまとめます。32B 未満のチャットボット / コーディングアシスタント → 7B〜13B は GPU-S(RTX 4090)、27B〜32B は GPU-M(RTX 5090)。フラッグシップ 70B 推論(Llama-3.3-70B-Instruct、DeepSeek-R1-Distill-Llama-70B) → GPU-L(H100 SXM5)。フル精度 70B またはマルチ GPU トレーニング → GPU-XL(2× H100 SXM5)。画像 / 動画 / 音声生成 → バッチのヘッドルームが不要であれば GPU-S、必要であれば GPU-M。全 4 ティアには CUDA 12.4 + cuDNN がプリインストールされており、vLLM / Ollama / ComfyUI / Stable Diffusion の 1 クリックテンプレートも付属します。完全なハードウェア仕様は /gpu をご覧ください。

FAQ

GPU 購入 FAQ

01 なぜです メモリ 帯域 さらに 重要よりTFLOPS向け推論?

デコーダーオンリーの Transformer 推論は、小〜中規模のバッチサイズではメモリ帯域律速となります。生成されるトークンごとに VRAM から重み行列全体を読み込む必要があるためです。演算カーネルは十分に高速であるため、GPU はほとんどの時間をメモリロードの待機に費やしています。これが、同じ 70B モデルにおいて H100 の 3.35 TB/s HBM3 が 4090 の 1 TB/s GDDR6X よりトークンあたり約 3 倍高速な理由です。H100 の大きな TFLOPS 数値はここではほぼ関係ありません。

02 RTX 4090でLlama-3.3-70Bを運用できますか?

技術的には可能です。llama.cpp や KTransformersでCPU オフロードを使えば動きます。ただし長文生成ではスループットが約 3〜5 トークン/秒まで落ち、チャット用途には実用的ではありません。現実的には、70BはH100 のワークロードです。もしくは NVLink付き2× RTX 5090 ですが、当社では提供していません。70B が必要で H100 料金を避けたい場合は、4090 上で DeepSeek-R1-Distill-Llama-8B や DeepSeek-R1-Distill-Qwen-14B を検討してください。蒸留モデルは推論タスクで驚くほど競争力があります。

03 Is RTX 5090 betterよりA100向けAI?

向け 推論, mostly はい — 5090's GDDR7 (~1.8 TB/s) edges out A100 40GB's HBM2e (~1.55 TB/s) on 帯域,とFLOPSはhigher. A100's 80 GB SKU を備えます さらに VRAM (80 vs 32), どの 重要です向け70B 推論.向けtraining, A100 依然として を備えます ECC メモリとproper データセンター 機能 set 5090 lacks. New ビルドで2026 typically 選ぶ H100 に対する A100; 5090 fills consumer-class gap.

04 いつです self-ホスティング 実際に cheaperよりOpenAI / Anthropic?

概算では、月額$832.50の単一H100 SXM5でLlama-3.3-70Bをバッチ-16 継続 スループットで動かすと、1日あたり約3000万〜5000万output トークンを処理できます。GPT-4oの料金 ($10/1M output) に換算すると、1日$300〜$500相当です。break-even pointは1日あたり約500万〜700万output トークンです。それ未満ならホステッドAPIが有利で、それを超えるとセルフホスティングが有利になります。RTX 4090 / 5090のbreak-even pointは、収まる小型モデルに合わせて下がります。

05 どのように 行います ServPrivate GPU 比較にVast.aiまたはRunPod?

Vast.ai は時間単位のスポット料金が安く(4090 で $0.30〜0.70/h)、ただし品質にはばらつきがあります(自宅の家庭用ハードウェア、ネットワーク環境の差異、退去リスク)。RunPod はより安定しており(オンデマンドで $0.69〜3.99/h)、ただし米国の法域でメールアドレス・支払い方法による KYC があります。ServPrivate は Vast.ai のスポット料金より時間単価が高く、月単位では RunPod のオンデマンドとほぼ同等ですが、トークンのみの登録、Monero ネイティブ決済、退去なし、KYC 不要、4 つのオフショア法域という違いがあります。プライバシーと予測可能性を重視するか、純粋な時間単価を重視するかによって選択が変わります。

06 約 H200またはB200 — べき I wait向けそれら?

H200 (141 GB HBM3e)ですでcatalog at hyperscale プロバイダー like CoreWeave, ただし supply on オフショア プライバシー-ホスト segmentです gated による NVIDIchannel partner ステータス — 当社はevaluating 2026-Q3 提供状況. B200 NVL72です hyperscale-fabric-のみ at この point とではありません 現実的向け単一-カード rentals.向け多くの セルフホスト利用者, H100 SXM5で2026 を備えます sufficient capability向け70B-class ワークロード — case向けwaiting向けH200です mostly multi-modal long-context 使用 cases (200K+ トークン).

AI マシンをデプロイする準備はできましたか?

RTX 4090から$122.00/mo, RTX 5090から$195.50/mo, H100 SXM5から$832.50/mo. トークン-のみ 登録, 暗号資産 決済フロー, CUD12 + 1-クリック AI テンプレート.

表示 GPU プラン No-KYC GPU Hosting Self-Host LLM