خانه / میزبانی هوش مصنوعی بدون سانسور — LLM خودتان را اجرا کنید
DeepSeek-R1، Llama-3.3، Qwen3 را خودتان میزبانی کنید — بدون لاگ‌گیری از استنتاج، بدون سیاست محتوا.

میزبانی هوش مصنوعی بدون سانسور — LLM خودتان را اجرا کنید

OpenAI، Anthropic، Google و xAI همگی سیاست‌های محتوا را روی endpoint‌های میزبانی‌شده خود اعمال می‌کنند — و هر پرامپت را برای طبقه‌بندی ایمنی، بهبود مدل، و پاسخ به درخواست‌های دولتی لاگ می‌کنند. میزبانی شخصی روی سرور GPU خودتان این رویه را معکوس می‌کند: هر مدل open-weight که به‌صورت قانونی تهیه کرده‌اید به‌صورت محلی اجرا می‌شود، هیچ ترافیک استنتاج از لایه شبکه ما عبور نمی‌کند، پرامپت‌ها لاگ نمی‌شوند و خروجی‌ها فیلتر نمی‌شوند. ServPrivate سرورهای GPU با RTX 4090 / RTX 5090 / H100 SXM5 را در 4 حوزه قضایی آفشور با قالب‌های vLLM، Ollama، ComfyUI، Whisper و Bark با یک کلیک ارائه می‌دهد.

بدون KYC
فقط ارز دیجیتال
بدون لاگ
DMCA نادیده گرفته می‌شود
دسترسی کامل Root
NVMe SSD
Endpoint‌های میزبانی‌شده همه چیز را لاگ می‌کنند. وزن‌های محلی هیچ چیز را لاگ نمی‌کنند.

سؤال «هوش مصنوعی بدون سانسور» در واقع یک سؤال حاکمیتی است

وقتی OpenAI API را فراخوانی می‌کنید، پرامپت‌هایتان وارد لاگ‌های تحت صلاحیت قضایی ایالات متحده می‌شوند که حداقل 30 روز (و برای دسته‌بندی‌های ایمنی بیشتر) نگهداری می‌شوند، در صورت علامت‌گذاری توسط تیم‌های ایمنی بررسی می‌گردند، و مشمول فرایند قانونی آمریکا هستند. مدل همچنین دسته‌هایی از خروجی را که RLHF ایمنی‌اش روی آن‌ها آموزش دیده رد می‌کند. وقتی Llama-3.3-70B-Instruct (یا نسخه abliterated آن) را روی GPU خودتان اجرا می‌کنید، پرامپت‌هایتان هرگز از دستگاه شما خارج نمی‌شوند، آموزش رد کردن درخواست‌ها همان چیزی است که وزن‌های پایه ارائه می‌دهند، و حوزه قضایی هر جایی است که سرور را میزبانی کرده‌اید. هر دو لایه — بدون لاگ‌گیری و وزن‌های مورد انتخاب خودتان — همان چیزی است که مردم از «هوش مصنوعی بدون سانسور» منظور دارند. ServPrivate هر دو را ارائه می‌دهد: GPU آفشور بدون ثبت ترافیک inference، به‌علاوه قالب‌های یک‌کلیکه‌ای که هر مدل HuggingFace را بدون بررسی وزن‌ها از سوی ما بارگذاری می‌کنند.

01

هر مدل open-weight دلخواه را بیاورید

Llama-3.3، DeepSeek-R1، Qwen3، Mistral-Small-3، Gemma-3، Phi-4، نسخه‌های abliterated، fine-tune های سفارشی — هر چیزی روی HuggingFace یا فایل‌های .safetensors خودتان. در صورت ارائه مسیر مخزن، پیش از راه‌اندازی سفارش از پیش دانلود می‌کنیم.

02

بدون ثبت ترافیک Inference

Inference روی GPU شما، درون مهمان KVM شما اجرا می‌شود. ما ترافیک مدل شما را پروکسی، آینه یا نمونه‌برداری نمی‌کنیم. پرامپت‌ها و خروجی‌هایتان تا زمانی که خودتان تصمیم بگیرید، محلی باقی می‌مانند.

03

حوزه قضایی آفشور

ایسلند (پناهگاه آزادی بیان، انرژی ۱۰۰٪ تجدیدپذیر)، هلند (بهترین peering اتحادیه اروپا)، رومانی (سابقه قضایی ضد نگهداری داده)، مولداوی (مقررات سبک، هزینه پایین). چارچوب قانونی متناسب با خودتان را انتخاب کنید.

04

اندپوینت عمومی HTTPS — اختیاری

در زمان سفارش فعال‌اش کنید و ما Let's Encrypt + reverse proxy روی پورت 443 را راه‌اندازی می‌کنیم — نمونه vLLM / Ollama شما در کمتر از 60 ثانیه با TLS روی یک URL عمومی در دسترس خواهد بود.

«هوش مصنوعی بدون سانسور» در سال 2026 واقعاً یعنی چه

اصطلاح «هوش مصنوعی بدون سانسور» بسته به زمینه سه معنای متمایز دارد. (1) وزن‌های بدون محدودیت‌های رد کردن — fine-tune های abliterated / بدون سانسور مدل‌های پایه (مثلاً Llama-3.3-70B-abliterated) که RLHF ایمنی‌شان از طریق ویرایش فعال‌سازی یا ablation جهتی حذف شده. آن‌ها خروجی‌هایی تولید می‌کنند که مدل instruct اصلی رد می‌کند. (2) بدون تعدیل محتوا در لایه سرویس‌دهی — اجرای همان مدل بدون classifier سیاست به سبک OpenAI در جلوی inference. (3) بدون لاگ‌گیری پرامپت/تکمیل — ورودی‌ها و خروجی‌هایتان هرگز از سرور خارج نمی‌شوند و در هیچ‌جای upstream نگهداری نمی‌گردند. ServPrivate به‌طور پیش‌فرض (2) و (3) را ارائه می‌دهد، و شما وزن‌های مدل را برای (1) فراهم می‌کنید — ما آنچه را که روی سخت‌افزار شما اجرا می‌شود بررسی یا فیلتر نمی‌کنیم.

چشم‌انداز فعلی LLM های قابل self-host در سال 2026

تا می 2026، اکوسیستم open-weight در بسیاری از وظایف واقعاً با GPT-4 / Claude / Gemini میزبانی‌شده رقابت می‌کند. DeepSeek-R1 و تقطیر آن به Llama-70B در benchmark های استدلال با GPT-4 برابری می‌کنند، آن هم با هزینه inference بسیار کمتر. Llama-3.3-70B-Instruct همچنان ابزار اصلی برای کمک عمومی است. Qwen3-32B در چندزبانگی و استدلال قوی است. Gemma-3-27B قابلیت را با شفافیت مجوز معامله می‌کند. Mistral-Small-3 نقطه تعادل سرعت/کیفیت برای وظایف کدنویسی است. Phi-4 فراتر از وزن 14B خود عمل می‌کند. FLUX.1-dev جای SDXL را برای تولید تصویر گرفته است. Whisper-Large-v3 همچنان پیشرو ASR در open-weight است. همه روی GPU های زیر اجرا می‌شوند — برای تعیین اندازه به راهنمای خرید GPU مراجعه کنید.

بهداشت عملیاتی برای یک هاست هوش مصنوعی بدون سانسور

حتی روی یک سرور GPU بدون KYC و بدون لاگ‌گیری inference، می‌توانید هویت خود را در بار کاری لو بدهید. بهداشت عملی برای self-hoster های جدی: (1) قبل از SSH از طریق Tor یا VPN به سرور متصل شوید؛ (2) از یک SSH key تازه که به حساب GitHub شما مرتبط نیست استفاده کنید؛ (3) اگر یک اندپوینت عمومی HTTPS در معرض دید قرار می‌دهید، آن را با یک API key محافظت کنید و به جای IP، بر اساس token محدودیت نرخ اعمال کنید؛ (4) وزن‌ها را به‌صورت inline در زمان سفارش از پیش دانلود کنید نه اینکه پس از استقرار با حساب HuggingFace خود آن‌ها را دریافت کنید؛ (5) برای پرامپت‌های حساس، llama.cpp یا vLLM را پشت یک network namespace ایزوله اجرا کنید. این الگوها را در hub راهنما مستند کرده‌ایم.

چه چیزی در محدوده «بدون سانسور» هست و چه چیزی نیست

در محدوده مجاز: خروجی‌های NSFW یا حساس سیاسی که RLHF ایمنی مدل پایه رد می‌کند، محتوای داستانی شامل خشونت، خروجی‌هایی که افراد یا دولت‌های نام‌برده را نقد می‌کنند، خروجی‌های تحقیقاتی dual-use (مثلاً امنیت سایبری، زیست‌شناسی، شیمی در سطح کتاب درسی)، خروجی‌ها در لحن adversarial prompt-engineering. خارج از AUP ما: CSAM (تحمل صفر، صرف‌نظر از مدل)، دستورالعمل برای حملات CBRN با تلفات انبوه (صرف‌نظر از مدل)، کمپین‌های آزاردهی هدفمند علیه افراد نام‌برده، و خروجی‌هایی که صریحاً توسط قانون کشور میزبان ممنوع شده‌اند. خود مدل تقریباً همه چیز را تعیین می‌کند؛ AUP سخت‌ترین موارد لبه را مستثنی می‌کند.

حوزه‌های قضایی

میزبانی هوش مصنوعی بدون سانسور در 4 حوزه قضایی آفشور

روسیه به دلیل تحریم‌های صادراتی NVIDIA H100 / RTX 4090+ از لیست GPU حذف شده است.

سؤالات متداول

میزبانی هوش مصنوعی بدون سانسور — پرسش‌های پرتکرار

01 آیا پرامپت‌ها یا خروجی‌های مدل را لاگ می‌کنید؟

خیر. سرور GPU مهمان KVM شماست. ما ترافیک inference شما را پروکسی نمی‌کنیم، آینه نمی‌کنیم، نمونه‌برداری نمی‌کنیم، و محتوای پرامپت یا تکمیل را به هیچ‌جا ارسال نمی‌کنیم. تنها لاگ‌هایی که نگه می‌داریم در سطح شبکه (شمارنده‌های پهنای باند) و سطح hypervisor (uptime، مصرف برق GPU) هستند.

02 آیا می‌توانم Llama-3.3-70B-abliterated یا DeepSeek-R1 را اینجا اجرا کنم؟

بله. هر مدل open-weight روی HuggingFace که به‌صورت قانونی قابل دسترس باشد — Llama-3.3-70B-Instruct، نسخه‌های abliterated، DeepSeek-R1، DeepSeek-R1-Distill-Llama-70B، Qwen3-32B، Gemma-3-27B، Mistral-Small-3، Phi-4 و دیگران. در صورت مشخص کردن مخزن HF، در زمان سفارش از پیش دانلود می‌کنیم، یا می‌توانید پس از اولین SSH login به‌صورت دستی دریافت کنید.

03 کدام اندازه مدل با کدام ردیف GPU متناسب است؟

تخمین کلی در Q4 quantization: RTX 4090 (24 GB) مدل‌های 7B تا 13B را راحت جا می‌دهد و 27 تا 32B را با درد offload. RTX 5090 (32 GB) مدل‌های 27B تا 32B را راحت و 70B را با CPU offload جا می‌دهد. H100 SXM5 (80 GB) مدل 70B را در Q4 تا Q5 راحت جا می‌دهد. دو H100 (160 GB) مدل 70B را در FP16 و 120 تا 180B را در Q4 جا می‌دهد. راهنمای خرید در /guides/rtx-4090-vs-h100-for-ai-inference ارقام throughput دقیق دارد.

04 آیا با یک سیاست محتوایی روبه‌رو خواهم شد؟

هیچ‌گونه سیاست محتوایی از سمت پلتفرم در مورد خروجی مدل شما وجود ندارد. AUP ما تنها چیزهایی را که در کشور میزبان غیرقانونی هستند ممنوع می‌کند، صرف‌نظر از نحوه تولید (CSAM، دستورالعمل‌های حمله CBRN با تلفات انبوه، آزار هدفمند افراد نام‌برده). هر چیز دیگری — از جمله محتوای NSFW، سیاسی، پژوهش‌های دوگانه‌کاربردی، و خروجی‌های برانگیخته‌شده — اجرا می‌شود.

05 آیا می‌توانم LLM خود را روی یک URL عمومی سرویس‌دهی کنم؟

بله. گزینه «Public HTTPS» را هنگام سفارش فعال کنید — ما یک گواهی Let's Encrypt و ریورس پروکسی روی پورت 443 به پورت vLLM / Ollama / Open WebUI شما تأمین می‌کنیم. مدل شما از طریق `https://.servprivate.dev` (یا دامنه خودتان در صورتی که یک رکورد A تعریف کنید) با TLS قابل دسترسی خواهد بود — بدون نیاز به تنظیم اضافی.

06 این سرویس در مقایسه با OpenAI، Anthropic یا پروکسی‌های OpenRouter چه تفاوتی دارد؟

OpenAI / Anthropic: میزبانی‌شده، سیاست محتوایی کامل، لاگ‌گیری ۳۰ روزه از پرامپت‌ها، حوزه قضایی آمریکا. OpenRouter / Together / Fireworks: همچنان میزبانی‌شده، سیاست محتوایی تعریف‌شده توسط فروشنده، لاگ‌گیری فروشنده. سلف‌هاست روی GPU آفشور: هیچ سیاست محتوایی از سمت پلتفرم، هیچ لاگ‌گیری از سوی ما، حوزه قضایی کشور میزبان. نقطه منفی: شما هزینه GPU را صرف‌نظر از میزان استفاده می‌پردازید و خودتان استک را مدیریت می‌کنید. در حجم بالا، سلف‌هاست به‌صرفه‌تر است؛ در استفاده پراکنده، API‌های میزبانی‌شده از نظر قیمت برتری دارند.

هوش مصنوعی خود را سلف‌هاست کنید — بدون لاگ، بدون سیاست

Llama، DeepSeek، Qwen، Mistral، Gemma — هر مدل متن‌باز دلخواهی بیاورید. GPU آفشور از $122.00 در ماه، CUDA 12 + vLLM آماده با یک کلیک.

شروع کنید یافتن بهترین حوزه قضایی