2026年のセルフホスト AI コンピュートにおいて、RTX 4090・RTX 5090・H100 SXM5 のどれを選ぶかは、カタログスペックの TFLOPS 数値だけで判断できるものではありません。最適な GPU とは、VRAM 容量・メモリ帯域・推論時間あたりの単価が、実際に使用するモデルのクラスとバッチ形状に合致しているものです。このガイドでは、ServPrivate が提供する 4 つの GPU ティア、各ティアが想定するワークロード、そしてチャートのスループット数値の読み方を解説します。
4 つのティアをひとことで
RTX 4090(GPU-S、$122.00〜329/月)は 24 GB の GDDR6X を搭載し、メモリ帯域は約 1 TB/s、FP16 性能は約 83 TFLOPS です。7B〜13B の言語モデル、FLUX.1 / SDXL による画像生成、Whisper による文字起こし、Bark によるテキスト読み上げに最適です。RTX 5090(GPU-M、$195.50〜519/月)は 32 GB GDDR7・約 1.8 TB/s・約 104 TFLOPS FP16 に強化されており、8 GB の追加 VRAM と約 80% の帯域向上により 27B〜32B モデル(Gemma-3-27B、Qwen3-32B、Mistral-Small-3)を快適に動作させ、小規模な Llama のファインチューニングも可能です。H100 SXM5(GPU-L、$832.50〜1899/月)は別次元の存在で、80 GB HBM3・約 3.35 TB/s・約 989 TFLOPS FP16(Tensor-Core)を備え、NVLink クラスのファブリックも利用できます。70B クラスの言語モデル、長文コンテキスト推論、高速トレーニングに対応します。2× H100 SXM5(GPU-XL、$1567.50〜3599/月)は、フル精度 70B 推論・マルチ GPU トレーニング・Q4 / Q5 での 100B 超モデルに向けたティアです。

LLM 推論ではメモリ帯域が支配的
バッチサイズが概ね 16 以下のデコーダー専用トランスフォーマー推論では、ボトルネックは FLOPS ではなくメモリ帯域です。生成されるトークンごとに VRAM からモデルの重みを全量読み出す必要があります(プリフィルフェーズは K-V キャッシュを再利用しますが、新しいトークンを生成するたびに重み行列を再読み込みします)。H100 の HBM3 が持つ 3.35 TB/s という帯域こそが、70B クラスのモデルで 4090 の約 3 倍の速度を実現する要因であり、高い TFLOPS 数値のおかげではありません。これはまた、RTX 5090 の GDDR6X から GDDR7 への移行(約 1 TB/s→約 1.8 TB/s)が、FLOPS の向上よりも推論においてより大きな意味を持つ理由でもあります。ワークロードがトレーニングではなく推論中心であれば、TFLOPS よりも帯域を優先してください。
24 GB / 32 GB / 80 GB に収まるモデル
量子化によって状況は変わります。Q4_K_M(「品質と圧縮のバランスが良い」代表的な量子化)での目安:7B モデルは約 4.5 GB、13B は約 8 GB、27〜32B は約 20 GB、70B は約 42 GB、100B は約 60 GB が必要です。K-V キャッシュと CUDA ワークスペース用に 10〜15% のヘッドルームを加算してください。実用上の目安:24 GB = 7B〜13B は快適、27〜32B はオフロードが必要で負荷あり、70B は非実用的。32 GB = 27〜32B は快適、70B は CPU オフロード(低速)で可。80 GB = Q4〜Q5 で 70B は快適、100B はオフロードで可。160 GB(デュアル H100) = FP16 / BF16 で 70B、Q4 で 100〜180B。FP16 / BF16(量子化なし)では数値が倍になります。FP16 で 70B を動かすには約 140 GB が必要なため、フル精度でのフラッグシップモデル推論には 2× H100 が最低ラインとなります。
RTX 5090 が最適な答えとなるとき
2025 年初頭の RTX 5090 登場により、新たな最適ポイントが生まれました。2026 年において重要な 27B〜32B クラスのモデル(Gemma-3-27B、Qwen3-32B、Mistral-Small-3、Phi-4、DeepSeek-R1-Distill-Qwen-32B)に対して、5090 は 4090 の約 2.5 倍のスループットを H100 の半額以下で実現します。「推論能力・多言語対応・32K コンテキストウィンドウを備えた高性能なアシスタントモデルが欲しいが、70B 以上は不要」というニーズには、GPU-M ティアが出発点として最適です。また、FLUX.1-dev が 16 GB の VRAM ヘッドルームを持ちながら高解像度バッチを快適にこなせるため、画像生成用途にも十分な選択肢です。
4090 ではなく H100 を選ぶべきとき
GPU-L(シングル H100)への移行を促す 3 つのシグナルがあります。(1) 70B クラスのモデルや DeepSeek-R1-Distill-Llama-70B を提供しており、バッチ 1 でのサブ秒 TTFT(最初のトークンまでの時間)を求めている場合。(2) 高バッチの同時推論(vLLM でバッチ 16 以上のユーザー)を実行しており、H100 のメモリ帯域がボトルネック解消の鍵となる場合。(3) 約 1000 万トークン以上のデータセットでトレーニングや LoRA ファインチューニングを行い、4090 / 5090 には備わっていない FP8 トレーニングパスを活用したい場合。H100 の FP8 Transformer Engine はトレーニングスループットを FP16 比で約 2 倍にするため、シングルカードで 70B Llama のファインチューニングを現実的にしています。
$/トークン のコスト比較
大量処理のワークロードでは、比較すべき指標は持続スループット時の 100 万トークンあたりのコストです。Llama-3.1-70B Q4、vLLM 0.7+、バッチ 16 での参考値:RTX 4090 はオフロードなしではモデルを収められず(CPU-RAM オフロードはスループットを約 1/10 に低下させます)。RTX 5090 は CPU オフロードを使うと 100 万トークンあたり約 $X(量子化方式により変動)。シングル H100 SXM5 は月額 $832.50 の最安プランで 100 万出力トークンあたり約 $1.40〜2.20 です。OpenAI GPT-4o の出力が約 $10 / 1M、Claude Sonnet が約 $15 / 1M であることと比較すると、ワークロードが 1 日あたり約 3000 万トークンに達した時点で、シングル H100 でのセルフホストはホスト型 API の呼び出しよりもコスト効率が高く、かつエンドツーエンドのプライバシーも確保できます。使用量が少ない場合は、ホスト型 API のほうがコスト面で有利です。
画像・動画・音声ワークロード
画像生成は 4090 以上を必要とすることはほとんどありません。FLUX.1-dev、SDXL、SD 3.5 はいずれも本番品質で 24 GB に収まり、RTX 4090 の約 83 TFLOPS FP16 で十分です。5090 / H100 への移行は主にバッチサイズのヘッドルーム(より多くの同時生成)をもたらすものであり、1 枚あたりの速度向上は限定的です。AI 動画(Wan-2.1、CogVideoX-5B、Runway クラスのワークフロー)はより要求が高く、実用的な最低ラインは GPU-M、本番品質の長尺動画には GPU-L が必要です。Whisper Large v3 ASR と Bark TTS はどちらも 4090 で快適に動作します。H100 はこれらの用途にはオーバースペックです。LoRA / QLoRA によるファインチューニングは 7B〜13B であれば 4090 で可能ですが、32B〜70B のファインチューニングには実質的に最低でも 5090、時間を重視するなら H100 が必要です。
RTX 5090 vs RTX A6000 / A100 について
コンシューマーカード以外の GPU オプションを検討した場合、RTX A6000(48 GB、データセンター向けカード)や A100(40 / 80 GB、旧世代 HBM2e)に行き当たることがあります。簡単な結論:A6000 は VRAM が 2 倍でほぼ 4090 クラスのコンピュート性能を持ちます。帯域がボトルネックではなく VRAM がボトルネックである場合(レアケース)に有用です。A100 は H100 の一世代前であり、現在は主に中古市場で入手可能です。安価に入手できれば 70B 推論カードとして今でも有力ですが、2026 年の新規構築では通常 H100 が選択されます。現時点では A6000 および A100 ティアは提供しておらず、カタログは RTX 5090 から H100 に直接ジャンプします。
提供ラインアップと選び方
ワークロード別の GPU 選択をひとことでまとめます。32B 未満のチャットボット / コーディングアシスタント → 7B〜13B は GPU-S(RTX 4090)、27B〜32B は GPU-M(RTX 5090)。フラッグシップ 70B 推論(Llama-3.3-70B-Instruct、DeepSeek-R1-Distill-Llama-70B) → GPU-L(H100 SXM5)。フル精度 70B またはマルチ GPU トレーニング → GPU-XL(2× H100 SXM5)。画像 / 動画 / 音声生成 → バッチのヘッドルームが不要であれば GPU-S、必要であれば GPU-M。全 4 ティアには CUDA 12.4 + cuDNN がプリインストールされており、vLLM / Ollama / ComfyUI / Stable Diffusion の 1 クリックテンプレートも付属します。完全なハードウェア仕様は /gpu をご覧ください。