ホーム / プライバシーホスティングガイド / AI推論向けRTX 4090 vs H100 SXM5比較（RTX 5090はどこに位置するか）

購入

RTX 4090 vs H100 — AIワークロードに適したGPUは？

セルフホストAIに適したNVIDIA GPU選びは、VRAMだけの問題ではありません。RTX 4090は7B〜13B推論と画像生成の価格面での最適点です。RTX 5090（32GB GDDR7）は27B〜32B向けの新しい中間ティアです。H100 SXM5（80GB HBM3）は、メモリ帯域が支配的な70B級ワークロード向けです。このガイドでは、ワークロード別のトレードオフ、スループット、トークン単価、ServPrivateの各GPUティアに何が収まるかを説明します。

ガイドを読む FAQ

KYC不要

暗号資産決済のみ

ログなし

DMCA無視

フルroot

NVMe SSD

2026年のセルフホスト AI コンピュートにおいて、RTX 4090・RTX 5090・H100 SXM5 のどれを選ぶかは、カタログスペックの TFLOPS 数値だけで判断できるものではありません。最適な GPU とは、VRAM 容量・メモリ帯域・推論時間あたりの単価が、実際に使用するモデルのクラスとバッチ形状に合致しているものです。このガイドでは、ServPrivate が提供する 4 つの GPU ティア、各ティアが想定するワークロード、そしてチャートのスループット数値の読み方を解説します。

4 つのティアをひとことで

RTX 4090（GPU-S、$122.00〜329/月）は 24 GB の GDDR6X を搭載し、メモリ帯域は約 1 TB/s、FP16 性能は約 83 TFLOPS です。7B〜13B の言語モデル、FLUX.1 / SDXL による画像生成、Whisper による文字起こし、Bark によるテキスト読み上げに最適です。RTX 5090（GPU-M、$195.50〜519/月）は 32 GB GDDR7・約 1.8 TB/s・約 104 TFLOPS FP16 に強化されており、8 GB の追加 VRAM と約 80% の帯域向上により 27B〜32B モデル（Gemma-3-27B、Qwen3-32B、Mistral-Small-3）を快適に動作させ、小規模な Llama のファインチューニングも可能です。H100 SXM5（GPU-L、$832.50〜1899/月）は別次元の存在で、80 GB HBM3・約 3.35 TB/s・約 989 TFLOPS FP16（Tensor-Core）を備え、NVLink クラスのファブリックも利用できます。70B クラスの言語モデル、長文コンテキスト推論、高速トレーニングに対応します。2× H100 SXM5（GPU-XL、$1567.50〜3599/月）は、フル精度 70B 推論・マルチ GPU トレーニング・Q4 / Q5 での 100B 超モデルに向けたティアです。

RTX 4090 vs H100 — AIワークロードに適したGPUは？ — RTX 4090（24GB）、RTX 5090（32GB）、H100 SXM5（80GB）におけるバッチサイズ別スループット——Llama-3.1-70B-InstructをQ4_K_Mに量子化、vLLM 0.7以降、バッチ1からバッチ32まで。

LLM 推論ではメモリ帯域が支配的

バッチサイズが概ね 16 以下のデコーダー専用トランスフォーマー推論では、ボトルネックは FLOPS ではなくメモリ帯域です。生成されるトークンごとに VRAM からモデルの重みを全量読み出す必要があります（プリフィルフェーズは K-V キャッシュを再利用しますが、新しいトークンを生成するたびに重み行列を再読み込みします）。H100 の HBM3 が持つ 3.35 TB/s という帯域こそが、70B クラスのモデルで 4090 の約 3 倍の速度を実現する要因であり、高い TFLOPS 数値のおかげではありません。これはまた、RTX 5090 の GDDR6X から GDDR7 への移行（約 1 TB/s→約 1.8 TB/s）が、FLOPS の向上よりも推論においてより大きな意味を持つ理由でもあります。ワークロードがトレーニングではなく推論中心であれば、TFLOPS よりも帯域を優先してください。

24 GB / 32 GB / 80 GB に収まるモデル

量子化によって状況は変わります。Q4_K_M（「品質と圧縮のバランスが良い」代表的な量子化）での目安：7B モデルは約 4.5 GB、13B は約 8 GB、27〜32B は約 20 GB、70B は約 42 GB、100B は約 60 GB が必要です。K-V キャッシュと CUDA ワークスペース用に 10〜15% のヘッドルームを加算してください。実用上の目安：24 GB = 7B〜13B は快適、27〜32B はオフロードが必要で負荷あり、70B は非実用的。32 GB = 27〜32B は快適、70B は CPU オフロード（低速）で可。80 GB = Q4〜Q5 で 70B は快適、100B はオフロードで可。160 GB（デュアル H100） = FP16 / BF16 で 70B、Q4 で 100〜180B。FP16 / BF16（量子化なし）では数値が倍になります。FP16 で 70B を動かすには約 140 GB が必要なため、フル精度でのフラッグシップモデル推論には 2× H100 が最低ラインとなります。

RTX 5090 が最適な答えとなるとき

2025 年初頭の RTX 5090 登場により、新たな最適ポイントが生まれました。2026 年において重要な 27B〜32B クラスのモデル（Gemma-3-27B、Qwen3-32B、Mistral-Small-3、Phi-4、DeepSeek-R1-Distill-Qwen-32B）に対して、5090 は 4090 の約 2.5 倍のスループットを H100 の半額以下で実現します。「推論能力・多言語対応・32K コンテキストウィンドウを備えた高性能なアシスタントモデルが欲しいが、70B 以上は不要」というニーズには、GPU-M ティアが出発点として最適です。また、FLUX.1-dev が 16 GB の VRAM ヘッドルームを持ちながら高解像度バッチを快適にこなせるため、画像生成用途にも十分な選択肢です。

4090 ではなく H100 を選ぶべきとき

GPU-L（シングル H100）への移行を促す 3 つのシグナルがあります。(1) 70B クラスのモデルや DeepSeek-R1-Distill-Llama-70B を提供しており、バッチ 1 でのサブ秒 TTFT（最初のトークンまでの時間）を求めている場合。(2) 高バッチの同時推論（vLLM でバッチ 16 以上のユーザー）を実行しており、H100 のメモリ帯域がボトルネック解消の鍵となる場合。(3) 約 1000 万トークン以上のデータセットでトレーニングや LoRA ファインチューニングを行い、4090 / 5090 には備わっていない FP8 トレーニングパスを活用したい場合。H100 の FP8 Transformer Engine はトレーニングスループットを FP16 比で約 2 倍にするため、シングルカードで 70B Llama のファインチューニングを現実的にしています。

$/トークンのコスト比較

大量処理のワークロードでは、比較すべき指標は持続スループット時の 100 万トークンあたりのコストです。Llama-3.1-70B Q4、vLLM 0.7+、バッチ 16 での参考値：RTX 4090 はオフロードなしではモデルを収められず（CPU-RAM オフロードはスループットを約 1/10 に低下させます）。RTX 5090 は CPU オフロードを使うと 100 万トークンあたり約 $X（量子化方式により変動）。シングル H100 SXM5 は月額 $832.50 の最安プランで 100 万出力トークンあたり約 $1.40〜2.20 です。OpenAI GPT-4o の出力が約 $10 / 1M、Claude Sonnet が約 $15 / 1M であることと比較すると、ワークロードが 1 日あたり約 3000 万トークンに達した時点で、シングル H100 でのセルフホストはホスト型 API の呼び出しよりもコスト効率が高く、かつエンドツーエンドのプライバシーも確保できます。使用量が少ない場合は、ホスト型 API のほうがコスト面で有利です。

画像・動画・音声ワークロード

画像生成は 4090 以上を必要とすることはほとんどありません。FLUX.1-dev、SDXL、SD 3.5 はいずれも本番品質で 24 GB に収まり、RTX 4090 の約 83 TFLOPS FP16 で十分です。5090 / H100 への移行は主にバッチサイズのヘッドルーム（より多くの同時生成）をもたらすものであり、1 枚あたりの速度向上は限定的です。AI 動画（Wan-2.1、CogVideoX-5B、Runway クラスのワークフロー）はより要求が高く、実用的な最低ラインは GPU-M、本番品質の長尺動画には GPU-L が必要です。Whisper Large v3 ASR と Bark TTS はどちらも 4090 で快適に動作します。H100 はこれらの用途にはオーバースペックです。LoRA / QLoRA によるファインチューニングは 7B〜13B であれば 4090 で可能ですが、32B〜70B のファインチューニングには実質的に最低でも 5090、時間を重視するなら H100 が必要です。

RTX 5090 vs RTX A6000 / A100 について

コンシューマーカード以外の GPU オプションを検討した場合、RTX A6000（48 GB、データセンター向けカード）や A100（40 / 80 GB、旧世代 HBM2e）に行き当たることがあります。簡単な結論：A6000 は VRAM が 2 倍でほぼ 4090 クラスのコンピュート性能を持ちます。帯域がボトルネックではなく VRAM がボトルネックである場合（レアケース）に有用です。A100 は H100 の一世代前であり、現在は主に中古市場で入手可能です。安価に入手できれば 70B 推論カードとして今でも有力ですが、2026 年の新規構築では通常 H100 が選択されます。現時点では A6000 および A100 ティアは提供しておらず、カタログは RTX 5090 から H100 に直接ジャンプします。

提供ラインアップと選び方

ワークロード別の GPU 選択をひとことでまとめます。32B 未満のチャットボット / コーディングアシスタント → 7B〜13B は GPU-S（RTX 4090）、27B〜32B は GPU-M（RTX 5090）。フラッグシップ 70B 推論（Llama-3.3-70B-Instruct、DeepSeek-R1-Distill-Llama-70B） → GPU-L（H100 SXM5）。フル精度 70B またはマルチ GPU トレーニング → GPU-XL（2× H100 SXM5）。画像 / 動画 / 音声生成 → バッチのヘッドルームが不要であれば GPU-S、必要であれば GPU-M。全 4 ティアには CUDA 12.4 + cuDNN がプリインストールされており、vLLM / Ollama / ComfyUI / Stable Diffusion の 1 クリックテンプレートも付属します。完全なハードウェア仕様は /gpu をご覧ください。

FAQ

GPU 購入 FAQ

01 推論においてなぜTFLOPSよりメモリ帯域が重要なのですか?

デコーダーオンリーの Transformer 推論は、小〜中規模のバッチサイズではメモリ帯域律速となります。生成されるトークンごとに VRAM から重み行列全体を読み込む必要があるためです。演算カーネルは十分に高速であるため、GPU はほとんどの時間をメモリロードの待機に費やしています。これが、同じ 70B モデルにおいて H100 の 3.35 TB/s HBM3 が 4090 の 1 TB/s GDDR6X よりトークンあたり約 3 倍高速な理由です。H100 の大きな TFLOPS 数値はここではほぼ関係ありません。

02 RTX 4090でLlama-3.3-70Bを運用できますか？

技術的には可能です。llama.cpp や KTransformersでCPU オフロードを使えば動きます。ただし長文生成ではスループットが約 3〜5 トークン/秒まで落ち、チャット用途には実用的ではありません。現実的には、70BはH100 のワークロードです。もしくは NVLink付き2× RTX 5090 ですが、当社では提供していません。70B が必要で H100 料金を避けたい場合は、4090 上で DeepSeek-R1-Distill-Llama-8B や DeepSeek-R1-Distill-Qwen-14B を検討してください。蒸留モデルは推論タスクで驚くほど競争力があります。

03 Is RTX 5090 betterよりA100向けAI?

推論用途であれば、おおむねその通りです——5090のGDDR7（約1.8 TB/s）は、A100 40GBのHBM2e（約1.55 TB/s）を帯域幅でわずかに上回り、FLOPSも高くなります。A100の80GB SKUはVRAMが多く（80GB対32GB）、これは70B推論では重要な差になります。トレーニング用途では、A100は依然としてECCメモリと、5090にはない本格的なデータセンター向け機能を備えています。2026年の新規構築では通常A100よりH100が選ばれますが、5090はコンシューマークラスの空白を埋める存在です。

04 セルフホストが実際にOpenAI / Anthropicより安くなるのはどのような場合ですか？

概算では、月額$832.50の単一H100 SXM5でLlama-3.3-70Bをバッチサイズ16の持続スループットで動かした場合、1日あたり約3000万〜5000万の出力トークンを生成できます。GPT-4oの料金（$10/100万出力トークン）に換算すると、1日あたり$300〜500相当のホスト型API利用料に相当します。損益分岐点は1日あたり出力トークン約500万〜700万です。それを下回ればホスト型APIが有利、上回ればセルフホストが有利になります。RTX 4090 / 5090の損益分岐点は、それらが動かせるより小さなモデルに応じて下がります。

05 ServPrivateのGPUはVast.aiやRunPodと比べてどうですか?

Vast.ai は時間単位のスポット料金が安く（4090 で $0.30〜0.70/h）、ただし品質にはばらつきがあります（自宅の家庭用ハードウェア、ネットワーク環境の差異、退去リスク）。RunPod はより安定しており（オンデマンドで $0.69〜3.99/h）、ただし米国の法域でメールアドレス・支払い方法による KYC があります。ServPrivate は Vast.ai のスポット料金より時間単価が高く、月単位では RunPod のオンデマンドとほぼ同等ですが、トークンのみの登録、Monero ネイティブ決済、退去なし、KYC 不要、4 つのオフショア法域という違いがあります。プライバシーと予測可能性を重視するか、純粋な時間単価を重視するかによって選択が変わります。

06 約 H200またはB200 — べき I wait向けそれら?

H200（141GB HBM3e）はCoreWeaveのようなハイパースケールプロバイダーのカタログには存在しますが、オフショアのプライバシーホスティング分野での供給はNVIDIAのチャンネルパートナー資格によって制限されています——当社では2026年第3四半期の提供可否を検討中です。B200 NVL72は現段階ではハイパースケール向けファブリックに限定されており、単体カードでのレンタルには対応できません。ほとんどのセルフホスト利用者にとって、2026年時点のH100 SXM5は70Bクラスのワークロードに十分な性能を備えています——H200を待つ理由があるとすれば、主にマルチモーダルな長文コンテキスト用途（20万トークン以上）です。

AI マシンをデプロイする準備はできましたか？

RTX 4090は月額$122.00から、RTX 5090は月額$195.50から、H100 SXM5は月額$832.50から。トークンのみの登録、暗号資産決済、CUDA 12+ワンクリックAIテンプレート。

表示 GPU プラン No-KYC GPU Hosting Self-Host LLM

RTX 4090 vs H100 — AIワークロードに適したGPUは？

このページの内容

4 つのティアをひとことで

LLM 推論ではメモリ帯域が支配的

24 GB / 32 GB / 80 GB に収まるモデル

RTX 5090 が最適な答えとなるとき

4090 ではなく H100 を選ぶべきとき

$/トークンのコスト比較

画像・動画・音声ワークロード

RTX 5090 vs RTX A6000 / A100 について

提供ラインアップと選び方

GPU 購入 FAQ

続けて読む

2026年にオフショアホスティング法域を選ぶ方法

プライバシーが重要なワークロード向けのVPS vs 専用サーバー

No-KYC VPS上のセルフホストVPN: WireGuard vs OpenVPN

MT4 / MT5 / cTrader Forexトレード向けのオフショアWindows RDP

DMCA無視ホスティング解説：2026年における本当の意味

暗号通貨による匿名ドメイン登録：2026年のWHOISプライバシー

暗号資産決済向けホスティング: Monero vs Bitcoin vs USDT

オフショアホスティングは本当に匿名なのか?正直な答え

VPSハードニングの最初の1時間:チェックリスト

No-KYCホスティングとは？定義・合法性・仕組みを解説

オフショアホスティングは合法か？2026年版・正直な回答

Monero（XMR）でホスティングを支払う方法 — ステップバイステップ

ウェブサイトを匿名でホスティングする方法 — 2026年版実践ガイド

VPSにWireGuard VPNを構築する — ステップバイステップガイド

GPUサーバーでLLMをセルフホストする方法 — 2026年版ガイド

バレットプルーフホスティングとオフショアホスティング — その違いとは？

BitcoinでVPSを購入する方法――ステップバイステップ完全ガイド（2026年版）

DMCAを無視できるホスティングに最適な国（2026年版）

Torの隠しサービス（.onionサイト）のホスティング方法 — 2026年版ガイド

オフショアメールサーバーの構築 — 2026年版・プライベートメールを自己ホスト

暗号ノードホスティングガイド — VPS でブロックチェーンノードを運用する

Stable Diffusion 向け GPU ホスティング — 自分だけの画像生成サーバーを運用する

サーバーOpSec — サーバー運用時に匿名性を維持する方法

シードボックス設定ガイド — 2026年版プライベートシードボックスの自己構築

AI マシンをデプロイする準備はできましたか？