[Startseite](https://servprivate.com/de) /
[Datenschutz-Hosting-Leitfäden](https://servprivate.com/de/guides) /
RTX 4090 vs H100 SXM5 für KI-Inferenz (und wo RTX 5090 passt)






Kauf


# RTX 4090 vs H100 — Welche GPU für Ihre KI-Arbeitslast?



Die richtige NVIDIA-GPU für selbst gehostete KI auszuwählen ist nicht nur eine Frage des VRAM. RTX 4090 ist der Preis-Leistungs-Sweet-Spot für 7B-13B-Inferenz und Bildgenerierung; RTX 5090 (32 GB GDDR7) ist die neue mittlere Stufe für 27B-32B; H100 SXM5 (80 GB HBM3) ist für 70B-Klasse-Workloads geeignet, wo die Speicherbandbreite dominiert. Wir gehen durch die Kompromisse nach Workload-Klasse mit Durchsatzzahlen, $/Token-Ökonomie und was in jede ServPrivate-GPU-Stufe passt.


[Anleitung lesen](#guide-body)
[FAQ](#guide-faq)






#### Auf dieser Seite




- [Anleitung](#guide-body)

- [FAQ](#guide-faq)

- [Verwandte Anleitungen](#guide-related)

- [Empfohlene Seiten](#guide-cta)






Kein KYC
Nur Krypto
Keine Logs
DMCA ignoriert
Voller Root-Zugriff
NVMe SSD





7 Min. Lesezeit
Aktualisiert May 2026

Auf dieser Seite

[01Die vier Stufen in einem Absatz](#die-vier-stufen-in-einem-absatz)
[02Speicherbandbreite dominiert LLM-Inferenz](#speicherbandbreite-dominiert-llm-inferenz)
[03Was in 24 GB / 32 GB / 80 GB passt](#was-in-24-gb-32-gb-80-gb-passt)
[04Wann RTX 5090 die richtige Antwort ist](#wann-rtx-5090-die-richtige-antwort-ist)
[05Wann Sie H100 statt 4090 wollen](#wann-sie-h100-statt-4090-wollen)
[06$/Token-Ökonomie](#token-Ökonomie)
[07Bild-, Video- und Audio-Workloads](#bild--video--und-audio-workloads)
[08Was ist mit RTX 5090 vs RTX A6000 / A100?](#was-ist-mit-rtx-5090-vs-rtx-a6000-a100)
[09Was wir liefern und was Sie wählen sollen](#was-wir-liefern-und-was-sie-wählen-sollen)
[FAQHäufige Fragen](#guide-faq)
[→Empfohlene Seiten](#guide-cta)







Die Wahl zwischen einer RTX 4090, einer RTX 5090 und einer H100 SXM5 für selbst gehostetes KI-Compute im Jahr 2026 dreht sich selten um die TFLOPS-Schlagzahl. Die richtige GPU ist diejenige, deren VRAM, Speicherbandbreite und Preis pro Inferenzstunde zur Modellklasse und Batch-Form passen, die Sie tatsächlich ausführen. Dieser Leitfaden geht durch die vier GPU-Stufen, die ServPrivate liefert, die Workloads, für die jede ausgelegt ist, und wie man die Durchsatzzahlen im Diagramm liest.

## Die vier Stufen in einem Absatz

**RTX 4090 (GPU-S, $122.00-329/Monat)** liefert 24 GB GDDR6X bei ~1 TB/s Speicherbandbreite und ~83 TFLOPS FP16. Sie ist die richtige Wahl für 7B-13B-Sprachmodelle, FLUX.1 / SDXL-Bildgenerierung, Whisper-Transkription und Bark-Text-zu-Sprache. **RTX 5090 (GPU-M, $195.50-519/Monat)** erhöht auf 32 GB GDDR7 bei ~1,8 TB/s und ~104 TFLOPS FP16; die zusätzlichen 8 GB und ~80 % Bandbreiten-Uplift erschließen 27B-32B-Modelle komfortabel (Gemma-3-27B, Qwen3-32B, Mistral-Small-3) und ermöglichen das Fine-Tuning kleiner Llamas. **H100 SXM5 (GPU-L, $832.50-1899/Monat)** ist eine andere Kategorie — 80 GB HBM3 bei ~3,35 TB/s, ~989 TFLOPS FP16 (Tensor-Core), mit verfügbarem NVLink-Klasse-Fabric; ausgelegt für 70B-Klasse-Sprachmodelle, längere Kontext-Inferenz und schnelleres Training. **2× H100 SXM5 (GPU-XL, $1567.50-3599/Monat)** ist für Full-Precision-70B-Inferenz, Multi-GPU-Training und 100B+-Modelle bei Q4 / Q5.

Durchsatz vs Batch-Größe auf RTX 4090 (24 GB), RTX 5090 (32 GB) und H100 SXM5 (80 GB) — Llama-3.1-70B-Instruct quantisiert auf Q4_K_M, vLLM 0.7+, Batch 1 bis Batch 32.

## Speicherbandbreite dominiert LLM-Inferenz

Für Decoder-only-Transformer-Inferenz bei Batch-Größen bis etwa 16 ist der Flaschenhals die Speicherbandbreite, nicht die rohen FLOPS. Jedes generierte Token erzwingt ein vollständiges Lesen der Modellgewichte aus VRAM (die Prefill-Phase verwendet den K-V-Cache wieder, aber jedes neue Token liest die Gewichtsmatrizen erneut). Die 3,35 TB/s HBM3 des H100 sind das, was ihn ~3x schneller pro Token als eine 4090 bei einem 70B-Klasse-Modell macht — nicht die höhere TFLOPS-Zahl. Das ist auch der Grund, warum der RTX-5090-Sprung von GDDR6X zu GDDR7 (~1,8 TB/s vs ~1 TB/s) für die Inferenz wichtiger ist als der rohe FLOPS-Sprung. Wenn Ihre Arbeitslast von Inferenz statt Training dominiert wird, priorisieren Sie Bandbreite über TFLOPS.

## Was in 24 GB / 32 GB / 80 GB passt

Quantisierung verändert das Bild. Bei **Q4_K_M** (eine typische „gute Qualität"-Quant): ein 7B-Modell benötigt ~4,5 GB, ein 13B ~8 GB, ein 27-32B ~20 GB, ein 70B ~42 GB, ein 100B ~60 GB. Fügen Sie ~10-15 % Spielraum für K-V-Cache und CUDA-Workspace hinzu. Die praktischen Passungen: **24 GB** = 7B-13B komfortabel, 27-32B mit Offload-Schmerzen, 70B nicht möglich. **32 GB** = 27-32B komfortabel, 70B mit CPU-Offload (langsam). **80 GB** = 70B komfortabel bei Q4-Q5, 100B mit Offload. **160 GB (Dual H100)** = 70B bei FP16 / BF16, 100-180B bei Q4. Bei **FP16 / BF16** (keine Quantisierung) verdoppeln sich die Zahlen: ein 70B bei FP16 benötigt ~140 GB, weshalb 2× H100 der Einstiegspunkt für Full-Precision-Flagship-Modell-Inferenz ist.

## Wann RTX 5090 die richtige Antwort ist

Die Veröffentlichung der RTX 5090 Anfang 2025 schuf einen neuen Sweet Spot. Für die 27B-32B-Klasse-Modelle, die 2026 am meisten zählen (Gemma-3-27B, Qwen3-32B, Mistral-Small-3, Phi-4, DeepSeek-R1-Distill-Qwen-32B), hat die 5090 etwa den 2,5-fachen Durchsatz einer 4090 bei der Hälfte der Kosten eines H100. Wenn Ihre Arbeitslast „Ich brauche ein wirklich leistungsfähiges Assistenzmodell mit Reasoning, mehrsprachiger Unterstützung und einem 32K-Kontextfenster, aber ich brauche nicht 70B+" ist, ist die GPU-M-Stufe der richtige Startpunkt. Sie dient auch als großzügiges Bildgenerierungs-Rig — FLUX.1-dev läuft komfortabel mit 16 GB VRAM-Spielraum für hochauflösende Batches.

## Wann Sie H100 statt 4090 wollen

Drei Signale verschieben die Kaufentscheidung auf GPU-L (einzelner H100): (1) Sie betreiben 70B-Klasse-Modelle oder DeepSeek-R1-Distill-Llama-70B und möchten sub-sekunden Time-to-First-Token bei Batch 1; (2) Sie führen hochfrequente gleichzeitige Inferenz aus (vLLM mit Batch 16+ Benutzer), wo die Speicherbandbreite des H100 der Flaschenhals-Brecher ist; (3) Sie trainieren oder LoRA-finetunen auf Datensätzen über ~10M Tokens und möchten den FP8-Trainingspfad, den die 4090 / 5090 nicht haben. Die FP8 Transformer Engine des H100 verdoppelt den Trainingsdurchsatz gegenüber FP16, was das Fine-Tuning von 70B Llama auf einer einzelnen Karte ermöglicht.

## $/Token-Ökonomie

Für hochvolumige Workloads ist der richtige Vergleich Dollar pro Million Tokens bei nachhaltigem Durchsatz. Auf Llama-3.1-70B Q4, vLLM 0.7+, Batch 16: Eine RTX 4090 kann das Modell ohne Offload nicht hosten (CPU-RAM-Offload tötet den Durchsatz um ~10x). Eine RTX 5090 mit CPU-Offload liegt bei rund $X pro 1M Tokens (ungefähr; variiert nach Quant). Ein einzelner H100 SXM5 liegt bei etwa $1,40-2,20 pro 1M Ausgabe-Tokens bei unserem $832.50/Monat-Einstiegspreis. Vergleich: OpenAI GPT-4o-Ausgabe bei ~$10 / 1M und Claude Sonnet bei ~$15 / 1M — sobald Ihre Arbeitslast etwa 30M Tokens pro Tag erreicht, ist Self-Hosting auf einem einzelnen H100 günstiger als der Aufruf gehosteter APIs, und das Datenschutzergebnis ist lückenlos. Bei niedrigeren Volumen gewinnen gehostete APIs beim Preis.

## Bild-, Video- und Audio-Workloads

**Bildgenerierung** benötigt selten mehr als eine 4090 — FLUX.1-dev, SDXL, SD 3.5 passen alle in 24 GB in Produktionsqualität, und die ~83 TFLOPS FP16 der RTX 4090 reichen aus. Der Wechsel zu 5090 / H100 kauft hauptsächlich Batch-Größen-Spielraum (mehr gleichzeitige Generierungen) statt Geschwindigkeit pro Bild. **KI-Video** (Wan-2.1, CogVideoX-5B, Runway-Klasse-Workflows) ist anspruchsvoller — GPU-M ist der praktische Einstieg, GPU-L für Langform in Produktionsqualität. **Whisper Large v3 ASR** und **Bark TTS** laufen beide komfortabel auf der 4090; der H100 ist für sie überdimensioniert. **Fine-Tuning** mit LoRA oder QLoRA auf 7B-13B funktioniert auf einer 4090; Fine-Tuning von 32B-70B möchte realistischerweise mindestens 5090, H100 wenn Sie Zeit schätzen.

## Was ist mit RTX 5090 vs RTX A6000 / A100?

Wenn Sie sich GPU-Optionen außerhalb der Consumer-Karten-Reihe angeschaut haben, sind Sie möglicherweise auf RTX A6000 (48 GB, Datacenter-Karte) oder A100 (40 / 80 GB, ältere Generation HBM2e) gestoßen. Kurzes Urteil: Die A6000 ist grob 4090-Klasse-Compute mit doppeltem VRAM, nützlich wenn VRAM Ihr Flaschenhals ist, aber Bandbreite es nicht ist (selten); der A100 ist eine Generation hinter dem H100 und jetzt hauptsächlich auf dem Sekundärmarkt verfügbar — wenn Sie ihn günstig finden, bleibt er eine glaubwürdige 70B-Inferenz-Karte, aber Neubauten im Jahr 2026 sind typischerweise H100. Wir bieten derzeit keine A6000- oder A100-Stufen an; der Katalog springt von RTX 5090 zu H100.

## Was wir liefern und was Sie wählen sollen

Um die GPU-Kaufentscheidung in einem Satz pro Workload zusammenzufassen: **Chatbot / Coding-Assistent unter 32B** → GPU-S (RTX 4090) für 7B-13B, GPU-M (RTX 5090) für 27B-32B; **Flagship-70B-Inferenz (Llama-3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B)** → GPU-L (H100 SXM5); **Full-Precision-70B oder Multi-GPU-Training** → GPU-XL (2× H100 SXM5); **Bild-/Video-/Sprach-Generierung** → GPU-S, es sei denn, Sie brauchen Batch-Spielraum, dann GPU-M. Alle vier Stufen werden mit CUDA 12.4 + cuDNN vorinstalliert und 1-Klick-vLLM-/Ollama-/ComfyUI-/Stable-Diffusion-Templates geliefert. Die vollständige Hardware-Spezifikation ist auf [/gpu](https://servprivate.com/de/gpu).




FAQ

## GPU-Kauf — häufig gestellte Fragen





### 01
Warum ist Speicherbandbreite wichtiger als TFLOPS für die Inferenz?



Decoder-only-Transformer-Inferenz bei kleinen bis mittleren Batch-Größen ist speicherbeschränkt: Jedes generierte Token erfordert das Lesen der gesamten Gewichtsmatrix aus VRAM. Die Compute-Kernel sind schnell genug, dass die GPU die meiste Zeit damit verbringt, auf Speicherladeoperationen zu warten. Das ist der Grund, warum die 3,35 TB/s HBM3 des H100 etwa 3x schneller pro Token als die 1 TB/s GDDR6X einer 4090 beim selben 70B-Modell ist, obwohl die größere TFLOPS-Zahl des H100 fast zufällig ist.





### 02
Kann ich Llama-3.3-70B auf einer RTX 4090 ausführen?



Technisch ja, mit CPU-Offload über llama.cpp oder KTransformers — aber der Durchsatz fällt auf ~3-5 Tokens/Sekunde bei Langform-Generierung, was für Chat unbrauchbar langsam ist. Praktisch ist 70B eine H100-Arbeitslast (oder 2× RTX 5090 mit NVLink, was wir nicht anbieten). Wenn 70B das ist, was Sie brauchen, und Sie keine H100-Preise wollen, ziehen Sie DeepSeek-R1-Distill-Llama-8B oder DeepSeek-R1-Distill-Qwen-14B auf einer 4090 in Betracht — die destillierten Modelle sind beim Reasoning überraschend wettbewerbsfähig.





### 03
Ist die RTX 5090 besser als eine A100 für KI?



Für die Inferenz, meistens ja — die GDDR7 der 5090 (~1,8 TB/s) übersteigt die HBM2e der A100 40GB (~1,55 TB/s) an Bandbreite, und die FLOPS sind höher. Die 80-GB-SKU der A100 hat mehr VRAM (80 vs 32), was für 70B-Inferenz wichtig ist. Für das Training hat die A100 immer noch ECC-Speicher und den richtigen Datacenter-Featuresatz, dem der 5090 fehlt. Neubauten im Jahr 2026 wählen typischerweise H100 über A100; die 5090 füllt die Consumer-Klasse-Lücke.





### 04
Wann ist Self-Hosting tatsächlich günstiger als OpenAI / Anthropic?



Ungefähr: Ein einzelner H100 SXM5 für $832.50/Monat, der Llama-3.3-70B bei nachhaltigem Batch-16-Durchsatz ausführt, liefert ~30-50M Ausgabe-Tokens/Tag. Zu GPT-4o-Preisen ($10/1M Ausgabe) sind das $300-500/Tag gleichwertiger gehosteter Ausgaben. Der Break-even-Punkt liegt bei etwa 5-7M Ausgabe-Tokens pro Tag. Darunter gewinnen gehostete APIs; darüber gewinnt Self-Hosting. Die Break-even-Punkte für RTX 4090 / 5090 skalieren nach unten mit den kleineren Modellen, die sie aufnehmen.





### 05
Wie vergleicht sich ServPrivate-GPU mit Vast.ai oder RunPod?



Vast.ai ist bei Stunden-Spot günstiger ($0,30-0,70/h für eine 4090), aber die Qualität variiert stark (Consumer-Hardware in Privathaushalten, gemischtes Networking, Eviction-Risiko). RunPod ist konsistenter ($0,69-3,99/h On-Demand), aber US-Jurisdiktion mit E-Mail-/Zahlungsmethoden-KYC. ServPrivate ist teurer pro Stunde als Vast.ai-Spot und ungefähr vergleichbar mit RunPod-On-Demand auf monatlicher Basis, aber mit nur-Token-Anmeldung, nativem Monero, kein Eviction, kein KYC und 4 Offshore-Jurisdiktionen. Die richtige Wahl hängt davon ab, ob Datenschutz und Vorhersehbarkeit oder reine Cents-pro-Stunde mehr zählen.





### 06
Was ist mit H200 oder B200 — soll ich auf die warten?



H200 (141 GB HBM3e) ist im Katalog bei Hyperscale-Anbietern wie CoreWeave, aber das Angebot im Offshore-Datenschutz-Host-Segment wird durch den NVIDIA-Channel-Partner-Status eingeschränkt — wir evaluieren die Verfügbarkeit für 2026-Q3. B200 NVL72 ist derzeit nur für Hyperscale-Fabric und nicht für Einzel-Karten-Vermietungen praktikabel. Für die meisten Selbst-Hoster hat ein H100 SXM5 im Jahr 2026 ausreichend Leistungsfähigkeit für 70B-Klasse-Workloads — der Fall für das Warten auf H200 ist hauptsächlich multimodale Langkontext-Anwendungsfälle (200K+ Tokens).




Verwandte Anleitungen

## Weiterlesen


[### Wie Sie im Jahr 2026 die richtige Offshore-Hosting-Jurisdiktion wählen

Kauf


Ein praktischer Entscheidungsrahmen für die Wahl einer Offshore-Jurisdiktion: Datenspeicherungspflicht, MLAT-Exposition, DMCA-Haltung, Reaktionsgeschwindigkeit der Gerichte und reale Durchsetzung — Land für Land.


6-Fragen-FAQ](https://servprivate.com/de/guides/choosing-an-offshore-jurisdiction)
[### VPS vs. Dedizierter Server für datenschutzkritische Workloads

Kauf


Wann ein VPS ausreicht, wann geteilte Mieterschaft zum Risiko wird und wann Bare Metal die einzig ehrliche Antwort ist. Hardware-Isolation, Hypervisor-Risiko und Kosten vs. Bedrohungsmodell.


6-Fragen-FAQ](https://servprivate.com/de/guides/vps-vs-dedicated-for-privacy)
[### Selbst gehostetes VPN auf einem No-KYC-VPS: WireGuard vs. OpenVPN

Betrieb


Warum ein selbst gehostetes VPN kommerziellen Anbietern überlegen ist und wie WireGuard und OpenVPN im Jahr 2026 wirklich bei Datenschutz, Performance und Betriebsrisiko abschneiden.


6-Fragen-FAQ](https://servprivate.com/de/guides/self-hosted-vpn-wireguard-vs-openvpn)
[### Offshore Windows RDP für MT4 / MT5 / cTrader Forex-Trading

Betrieb


Vollständiger Leitfaden: Warum ein Windows-RDP für Forex-Trading, wie man eine latenzarme Offshore-Jurisdiktion wählt, MT4 / MT5 / cTrader / Expert-Advisor-Setup, Latenz zu Broker-Servern und der No-KYC-Checkout-Pfad.


6-Fragen-FAQ](https://servprivate.com/de/guides/offshore-windows-rdp-for-forex-trading)
[### DMCA-Ignored Hosting erklärt: Was es 2026 wirklich bedeutet

Kauf


Was „DMCA ignored“ Hosting wirklich bringt, welche Jurisdiktionen das tatsächlich unterstützen, welche Workloads es brauchen — und welche Copyright-Fallen der Begriff nicht abdeckt.


6-Fragen-FAQ](https://servprivate.com/de/guides/dmca-ignored-hosting-explained)
[### Anonyme Domain-Registrierung mit Krypto: WHOIS-Datenschutz 2026

Datenschutz


Ein praktischer Guide 2026 zur Domain-Registrierung ohne Identitätsoffenbarung: WHOIS-Regime nach TLD, Registrar-Wahl, Coin-Wahl und operative Hygiene.


6-Fragen-FAQ](https://servprivate.com/de/guides/anonymous-domain-registration-with-crypto)
[### Krypto-Zahlungen für Hosting: Monero vs. Bitcoin vs. USDT

Datenschutz


Wie die Wahl der Zahlungswährung beeinflusst, was Ihr Hoster über Sie erfährt. Datenschutz, Gebühren, Abwicklung und Chain-Analyse-Exposition für XMR, BTC und USDT — mit einer klaren Empfehlung.


6-Fragen-FAQ](https://servprivate.com/de/guides/crypto-payments-monero-vs-bitcoin-vs-usdt)
[### Was ist No-KYC-Hosting? Definition, Rechtslage und Funktionsweise

Datenschutz


Mit No-KYC-Hosting können Sie einen Server mieten, ohne jegliche Identitätsprüfung — kein Name, keine E-Mail, kein Ausweis. Hier erfahren Sie genau, was das bedeutet, wie es technisch funktioniert, ob es legal ist und wie Sie einen seriösen Anbieter erkennen.


6-Fragen-FAQ](https://servprivate.com/de/guides/what-is-no-kyc-hosting)
[### Ist Offshore-Hosting legal? Die ehrliche Antwort für 2026

Kauf


Offshore-Hosting ist legal – für Sie und für den Anbieter. Hier erfahren Sie, was der Begriff wirklich bedeutet, wo die rechtliche Grenze tatsächlich liegt, welche Mythen Sie getrost vergessen können und wie Sie es verantwortungsvoll nutzen.


6-Fragen-FAQ](https://servprivate.com/de/guides/is-offshore-hosting-legal)
[### Hosting mit Monero (XMR) bezahlen – Schritt für Schritt

Datenschutz


Eine Schritt-für-Schritt-Anleitung zur Bezahlung eines VPS oder dedizierten Servers mit Monero (XMR): warum XMR die privateste Zahlungsmethode ist, wie man es erwirbt und wie der Bezahlvorgang abläuft – vom Rechnungsstellung bis zum laufenden Server in wenigen Minuten.


6-Fragen-FAQ](https://servprivate.com/de/guides/how-to-pay-for-hosting-with-monero)
[### Wie man eine Website anonym hostet — Ein praktischer Leitfaden 2026

Datenschutz


Ein praktischer, mehrschichtiger Leitfaden zum Hosten einer Website ohne zugeordnete Identität: Konto, Zahlung, Domain, Jurisdiction, Verbindung und Inhalt — jede Schicht ausführlich erklärt.


6-Fragen-FAQ](https://servprivate.com/de/guides/how-to-host-a-website-anonymously)
[### WireGuard VPN auf einem VPS einrichten — Schritt-für-Schritt-Anleitung

Betrieb


Bauen Sie Ihr eigenes privates VPN auf einem VPS mit WireGuard: warum ein selbst gehostetes VPN kommerziellen Angeboten überlegen ist, die vollständige Einrichtung von der Installation bis zum verbundenen Client und wie Sie es absichern.


6-Fragen-FAQ](https://servprivate.com/de/guides/how-to-set-up-wireguard-vpn-on-a-vps)
[### LLM auf einem GPU-Server selbst hosten — Leitfaden 2026

Betrieb


Betreiben Sie Ihr eigenes Large Language Model auf einem gemieteten GPU-Server: Warum Self-Hosting einer API überlegen ist, welche GPU und welches Modell sich eignen, die Einrichtung mit Ollama oder vLLM und was es kostet.


6-Fragen-FAQ](https://servprivate.com/de/guides/self-host-an-llm-on-a-gpu-server)
[### Bulletproof Hosting vs. Offshore Hosting — Was ist der Unterschied?

Kauf


Bulletproof Hosting und Offshore Hosting werden ständig verwechselt — dabei sind es nicht dasselbe. Hier ist der echte Unterschied, warum er wichtig ist und welches der beiden Sie tatsächlich brauchen.


6-Fragen-FAQ](https://servprivate.com/de/guides/bulletproof-vs-offshore-hosting)
[### VPS mit Bitcoin kaufen — Schritt für Schritt (2026)

Kauf


Eine verständliche Anleitung zum Kauf eines VPS mit Bitcoin: BTC beschaffen, einen Tarif wählen, die Rechnung bezahlen und was Sie erhalten — einen laufenden Server ohne Kreditkarte und ohne hinterlegten Namen.


6-Fragen-FAQ](https://servprivate.com/de/guides/how-to-buy-a-vps-with-bitcoin)
[### Die besten Länder für DMCA-ignorierten Hosting im Jahr 2026

Kauf


Wo Sie hosten, wenn Ihre Server außerhalb der Reichweite US-amerikanischer Takedown-Mechanismen liegen sollen: die Rechtsordnungen, die funktionieren, was DMCA-ignoriert wirklich bedeutet und wie Sie die richtige Wahl treffen.


6-Fragen-FAQ](https://servprivate.com/de/guides/best-countries-for-dmca-ignored-hosting)
[### Tor Hidden Service hosten (.onion-Website) — Anleitung 2026

Betrieb


Einen Tor-Onion-Dienst auf einem VPS einrichten: was ein Hidden Service ist, warum er die stärkste Form des anonymen Hostings darstellt, die vollständige Einrichtung und wie man ihn wirklich anonym hält.


6-Fragen-FAQ](https://servprivate.com/de/guides/how-to-host-a-tor-hidden-service)
[### Offshore-Mailserver einrichten — Private E-Mails selbst hosten in 2026

Betrieb


Betreiben Sie Ihren eigenen privaten Mailserver auf einem Offshore-VPS: Warum E-Mails selbst hosten, was Sie dafür brauchen, die realistische Einrichtung mit einem All-in-One-Mailstack und wie Sie die Zustellbarkeit sicherstellen.


6-Fragen-FAQ](https://servprivate.com/de/guides/offshore-mail-server-setup)
[### Krypto-Node-Hosting-Leitfaden — Blockchain-Node auf einem VPS betreiben

Betrieb


Wie man einen Blockchain-Node auf einem Server hostet: warum man einen eigenen Node betreiben sollte, wie man den Server für Bitcoin, Ethereum, Monero und weitere Ketten dimensioniert, die Einrichtung und wie man ihn privat hält.


6-Fragen-FAQ](https://servprivate.com/de/guides/crypto-node-hosting-guide)
[### GPU-Hosting für Stable Diffusion — Eigenen Bildgenerierungsserver betreiben

Betrieb


Stable Diffusion auf einem eigenen GPU-Server betreiben: Warum selbst hosten, welche GPU die richtige ist, Einrichtung mit einer Web-Oberfläche und Kostenvergleich mit gehosteten Diensten.


6-Fragen-FAQ](https://servprivate.com/de/guides/gpu-hosting-for-stable-diffusion)
[### Server-OpSec — Anonym bleiben, wenn man einen Server betreibt

Datenschutz


Operative Sicherheit für alle, die einen anonymen Server betreiben: die Fehler, die zur Deanonymisierung führen, die Gewohnheiten, die sie verhindern, und wie man Identitäten konsequent trennt.


6-Fragen-FAQ](https://servprivate.com/de/guides/server-opsec-staying-anonymous)
[### Seedbox-Einrichtungsanleitung — Bauen Sie 2026 Ihre eigene private Seedbox

Betrieb


So bauen Sie Ihre eigene Seedbox auf einem Server: Was eine Seedbox ist, wie Sie sie dimensionieren, einen Torrent-Client mit Web-UI installieren und sie privat und sicher betreiben.


6-Fragen-FAQ](https://servprivate.com/de/guides/seedbox-setup-guide)




## Bereit, Ihre KI-Box bereitzustellen?



RTX 4090 ab $122.00/Monat, RTX 5090 ab $195.50/Monat, H100 SXM5 ab $832.50/Monat. Nur-Token-Anmeldung, Krypto-Checkout, CUDA 12 + 1-Klick-KI-Templates.


[GPU-Pläne ansehen](https://servprivate.com/de/gpu)
[No-KYC GPU Hosting](https://servprivate.com/de/no-kyc-gpu)
[Self-Host LLM](https://servprivate.com/de/uncensored-ai-hosting)


## Structured data (JSON-LD)

```json
{
    "@context": "https://schema.org",
    "@type": "Organization",
    "@id": "https://servprivate.com/#organization",
    "name": "ServPrivate",
    "alternateName": "ServPrivacy",
    "url": "https://servprivate.com",
    "description": "Offshore-VPS & Dedicated Server in 7 datenschutzfreundlichen Jurisdiktionen. Kein KYC, keine Logs, nur Krypto. Datenschutz durch Architektur.",
    "logo": {
        "@type": "ImageObject",
        "url": "https://servprivate.com/ServPrivate.webp",
        "width": 512,
        "height": 512
    },
    "foundingDate": "2025",
    "areaServed": [
        {
            "@type": "Country",
            "name": "Iceland"
        },
        {
            "@type": "Country",
            "name": "Panama"
        },
        {
            "@type": "Country",
            "name": "Moldova"
        },
        {
            "@type": "Country",
            "name": "Romania"
        },
        {
            "@type": "Country",
            "name": "Switzerland"
        },
        {
            "@type": "Country",
            "name": "Netherlands"
        },
        {
            "@type": "Country",
            "name": "Russia"
        }
    ],
    "knowsAbout": [
        "Offshore hosting",
        "Offshore VPS",
        "Bare-metal dedicated servers",
        "DMCA-ignored hosting",
        "No KYC hosting",
        "Cryptocurrency payments",
        "Privacy engineering",
        "Token-based authentication",
        "Anonymous domain name registration",
        "No-KYC domain registrar",
        "WHOIS privacy",
        "Cheap .com domains",
        "Crypto-paid domain names",
        "NVIDIA GPU compute",
        "Windows RDP hosting",
        "Agentic commerce"
    ],
    "contactPoint": {
        "@type": "ContactPoint",
        "contactType": "customer support",
        "url": "https://servprivate.com/contact",
        "availableLanguage": [
            "en",
            "ru",
            "zh",
            "es",
            "fr",
            "de",
            "pt",
            "ar",
            "ja",
            "ko",
            "hi",
            "id",
            "it",
            "tr",
            "fa",
            "vi"
        ]
    },
    "sameAs": [
        "https://servprivate.com/canary",
        "https://servprivate.com/press"
    ]
}
```

```json
{
    "@context": "https://schema.org",
    "@type": "WebSite",
    "@id": "https://servprivate.com/#website",
    "url": "https://servprivate.com",
    "name": "ServPrivate",
    "publisher": {
        "@id": "https://servprivate.com/#organization"
    },
    "inLanguage": [
        "en",
        "ru",
        "zh",
        "es",
        "fr",
        "de",
        "pt",
        "ar",
        "ja",
        "ko",
        "hi",
        "id",
        "it",
        "tr",
        "fa",
        "vi"
    ]
}
```

```json
{
    "@context": "https://schema.org",
    "@type": "Article",
    "headline": "RTX 4090 vs H100 SXM5 für KI-Inferenz (und wo RTX 5090 passt)",
    "description": "Kaufentscheidungs-Leitfaden: welche NVIDIA-GPU für selbst gehostete LLM-, Bild-, Video-, Sprach- und Fine-Tuning-Workloads im Jahr 2026. RTX 4090 vs RTX 5090 vs H100 SXM5 vs Dual H100 — VRAM, Durchsatz, $/Token, wann jede gewinnt.",
    "image": "https://servprivate.com/assets/img/guides/rtx-4090-vs-h100-for-ai-inference.webp?v=1777901067",
    "author": {
        "@type": "Organization",
        "@id": "https://servprivate.com/#editorial",
        "name": "ServPrivate Editorial",
        "url": "https://servprivate.com/about",
        "description": "Operator-side editorial team writing about offshore hosting jurisdictions, offshore server architecture, self-hosted privacy stacks and crypto payments.",
        "knowsAbout": [
            "Offshore hosting jurisdictions",
            "Data retention law",
            "MLAT and judicial cooperation",
            "WireGuard and OpenVPN deployment",
            "Tor relay operation",
            "Monero and Bitcoin payment privacy",
            "KVM virtualization and bare-metal hosting",
            "DMCA-ignored hosting"
        ],
        "parentOrganization": {
            "@id": "https://servprivate.com/#organization"
        }
    },
    "publisher": {
        "@id": "https://servprivate.com/#organization"
    },
    "datePublished": "2026-05-28T11:23:56+00:00",
    "dateModified": "2026-05-29T16:35:14+00:00",
    "mainEntityOfPage": "https://servprivate.com/guides/rtx-4090-vs-h100-for-ai-inference",
    "inLanguage": "de",
    "keywords": "RTX 4090 vs H100, best GPU for AI inference, H100 vs 4090 LLM, RTX 5090 vs H100, GPU choice for self-hosted LLM",
    "articleSection": "Kauf",
    "wordCount": 1334
}
```

```json
{
    "@context": "https://schema.org",
    "@type": "FAQPage",
    "mainEntity": [
        {
            "@type": "Question",
            "name": "Warum ist Speicherbandbreite wichtiger als TFLOPS für die Inferenz?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Decoder-only-Transformer-Inferenz bei kleinen bis mittleren Batch-Größen ist speicherbeschränkt: Jedes generierte Token erfordert das Lesen der gesamten Gewichtsmatrix aus VRAM. Die Compute-Kernel sind schnell genug, dass die GPU die meiste Zeit damit verbringt, auf Speicherladeoperationen zu warten. Das ist der Grund, warum die 3,35 TB/s HBM3 des H100 etwa 3x schneller pro Token als die 1 TB/s GDDR6X einer 4090 beim selben 70B-Modell ist, obwohl die größere TFLOPS-Zahl des H100 fast zufällig ist."
            }
        },
        {
            "@type": "Question",
            "name": "Kann ich Llama-3.3-70B auf einer RTX 4090 ausführen?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Technisch ja, mit CPU-Offload über llama.cpp oder KTransformers — aber der Durchsatz fällt auf ~3-5 Tokens/Sekunde bei Langform-Generierung, was für Chat unbrauchbar langsam ist. Praktisch ist 70B eine H100-Arbeitslast (oder 2× RTX 5090 mit NVLink, was wir nicht anbieten). Wenn 70B das ist, was Sie brauchen, und Sie keine H100-Preise wollen, ziehen Sie DeepSeek-R1-Distill-Llama-8B oder DeepSeek-R1-Distill-Qwen-14B auf einer 4090 in Betracht — die destillierten Modelle sind beim Reasoning überraschend wettbewerbsfähig."
            }
        },
        {
            "@type": "Question",
            "name": "Ist die RTX 5090 besser als eine A100 für KI?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Für die Inferenz, meistens ja — die GDDR7 der 5090 (~1,8 TB/s) übersteigt die HBM2e der A100 40GB (~1,55 TB/s) an Bandbreite, und die FLOPS sind höher. Die 80-GB-SKU der A100 hat mehr VRAM (80 vs 32), was für 70B-Inferenz wichtig ist. Für das Training hat die A100 immer noch ECC-Speicher und den richtigen Datacenter-Featuresatz, dem der 5090 fehlt. Neubauten im Jahr 2026 wählen typischerweise H100 über A100; die 5090 füllt die Consumer-Klasse-Lücke."
            }
        },
        {
            "@type": "Question",
            "name": "Wann ist Self-Hosting tatsächlich günstiger als OpenAI / Anthropic?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Ungefähr: Ein einzelner H100 SXM5 für $832.50/Monat, der Llama-3.3-70B bei nachhaltigem Batch-16-Durchsatz ausführt, liefert ~30-50M Ausgabe-Tokens/Tag. Zu GPT-4o-Preisen ($10/1M Ausgabe) sind das $300-500/Tag gleichwertiger gehosteter Ausgaben. Der Break-even-Punkt liegt bei etwa 5-7M Ausgabe-Tokens pro Tag. Darunter gewinnen gehostete APIs; darüber gewinnt Self-Hosting. Die Break-even-Punkte für RTX 4090 / 5090 skalieren nach unten mit den kleineren Modellen, die sie aufnehmen."
            }
        },
        {
            "@type": "Question",
            "name": "Wie vergleicht sich ServPrivate-GPU mit Vast.ai oder RunPod?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "Vast.ai ist bei Stunden-Spot günstiger ($0,30-0,70/h für eine 4090), aber die Qualität variiert stark (Consumer-Hardware in Privathaushalten, gemischtes Networking, Eviction-Risiko). RunPod ist konsistenter ($0,69-3,99/h On-Demand), aber US-Jurisdiktion mit E-Mail-/Zahlungsmethoden-KYC. ServPrivate ist teurer pro Stunde als Vast.ai-Spot und ungefähr vergleichbar mit RunPod-On-Demand auf monatlicher Basis, aber mit nur-Token-Anmeldung, nativem Monero, kein Eviction, kein KYC und 4 Offshore-Jurisdiktionen. Die richtige Wahl hängt davon ab, ob Datenschutz und Vorhersehbarkeit oder reine Cents-pro-Stunde mehr zählen."
            }
        },
        {
            "@type": "Question",
            "name": "Was ist mit H200 oder B200 — soll ich auf die warten?",
            "acceptedAnswer": {
                "@type": "Answer",
                "text": "H200 (141 GB HBM3e) ist im Katalog bei Hyperscale-Anbietern wie CoreWeave, aber das Angebot im Offshore-Datenschutz-Host-Segment wird durch den NVIDIA-Channel-Partner-Status eingeschränkt — wir evaluieren die Verfügbarkeit für 2026-Q3. B200 NVL72 ist derzeit nur für Hyperscale-Fabric und nicht für Einzel-Karten-Vermietungen praktikabel. Für die meisten Selbst-Hoster hat ein H100 SXM5 im Jahr 2026 ausreichend Leistungsfähigkeit für 70B-Klasse-Workloads — der Fall für das Warten auf H200 ist hauptsächlich multimodale Langkontext-Anwendungsfälle (200K+ Tokens)."
            }
        }
    ]
}
```

```json
{
    "@context": "https://schema.org",
    "@type": "BreadcrumbList",
    "itemListElement": [
        {
            "@type": "ListItem",
            "position": 1,
            "name": "Startseite",
            "item": "https://servprivate.com/"
        },
        {
            "@type": "ListItem",
            "position": 2,
            "name": "Datenschutz-Hosting-Leitfäden",
            "item": "https://servprivate.com/guides"
        },
        {
            "@type": "ListItem",
            "position": 3,
            "name": "RTX 4090 vs H100 SXM5 für KI-Inferenz (und wo RTX 5090 passt)",
            "item": "https://servprivate.com/guides/rtx-4090-vs-h100-for-ai-inference"
        }
    ]
}
```

