میزبانی هوش مصنوعی بدون سانسور — LLM خودتان را اجرا کنید
OpenAI، Anthropic، Google و xAI همگی سیاستهای محتوا را روی endpointهای میزبانیشده خود اعمال میکنند — و هر پرامپت را برای طبقهبندی ایمنی، بهبود مدل، و پاسخ به درخواستهای دولتی لاگ میکنند. میزبانی شخصی روی سرور GPU خودتان این رویه را معکوس میکند: هر مدل open-weight که بهصورت قانونی تهیه کردهاید بهصورت محلی اجرا میشود، هیچ ترافیک استنتاج از لایه شبکه ما عبور نمیکند، پرامپتها لاگ نمیشوند و خروجیها فیلتر نمیشوند. ServPrivate سرورهای GPU با RTX 4090 / RTX 5090 / H100 SXM5 را در 4 حوزه قضایی آفشور با قالبهای vLLM، Ollama، ComfyUI، Whisper و Bark با یک کلیک ارائه میدهد.
«بدون سانسور» اینجا واقعاً به چه معناست
- بدون لاگگیری استنتاج — پرامپتهای شما ضبط نمیشوند
- بدون سیاست محتوا — وزنهای مدلی که میآورید بدون تغییر اجرا میشوند
- مدلهای open-weight از قبل در زمان سفارش دانلود شدهاند
- بهصورت پیشفرض از APIهای هوش مصنوعی شخص ثالث ایزوله شده
- CUDA 12 + vLLM / Ollama / ComfyUI با یک کلیک آماده است
سؤال «هوش مصنوعی بدون سانسور» در واقع یک سؤال حاکمیتی است
وقتی OpenAI API را فراخوانی میکنید، پرامپتهایتان وارد لاگهای تحت صلاحیت قضایی ایالات متحده میشوند که حداقل 30 روز (و برای دستهبندیهای ایمنی بیشتر) نگهداری میشوند، در صورت علامتگذاری توسط تیمهای ایمنی بررسی میگردند، و مشمول فرایند قانونی آمریکا هستند. مدل همچنین دستههایی از خروجی را که RLHF ایمنیاش روی آنها آموزش دیده رد میکند. وقتی Llama-3.3-70B-Instruct (یا نسخه abliterated آن) را روی GPU خودتان اجرا میکنید، پرامپتهایتان هرگز از دستگاه شما خارج نمیشوند، آموزش رد کردن درخواستها همان چیزی است که وزنهای پایه ارائه میدهند، و حوزه قضایی هر جایی است که سرور را میزبانی کردهاید. هر دو لایه — بدون لاگگیری و وزنهای مورد انتخاب خودتان — همان چیزی است که مردم از «هوش مصنوعی بدون سانسور» منظور دارند. ServPrivate هر دو را ارائه میدهد: GPU آفشور بدون ثبت ترافیک inference، بهعلاوه قالبهای یککلیکهای که هر مدل HuggingFace را بدون بررسی وزنها از سوی ما بارگذاری میکنند.
هر مدل open-weight دلخواه را بیاورید
Llama-3.3، DeepSeek-R1، Qwen3، Mistral-Small-3، Gemma-3، Phi-4، نسخههای abliterated، fine-tune های سفارشی — هر چیزی روی HuggingFace یا فایلهای .safetensors خودتان. در صورت ارائه مسیر مخزن، پیش از راهاندازی سفارش از پیش دانلود میکنیم.
بدون ثبت ترافیک Inference
Inference روی GPU شما، درون مهمان KVM شما اجرا میشود. ما ترافیک مدل شما را پروکسی، آینه یا نمونهبرداری نمیکنیم. پرامپتها و خروجیهایتان تا زمانی که خودتان تصمیم بگیرید، محلی باقی میمانند.
حوزه قضایی آفشور
ایسلند (پناهگاه آزادی بیان، انرژی ۱۰۰٪ تجدیدپذیر)، هلند (بهترین peering اتحادیه اروپا)، رومانی (سابقه قضایی ضد نگهداری داده)، مولداوی (مقررات سبک، هزینه پایین). چارچوب قانونی متناسب با خودتان را انتخاب کنید.
اندپوینت عمومی HTTPS — اختیاری
در زمان سفارش فعالاش کنید و ما Let's Encrypt + reverse proxy روی پورت 443 را راهاندازی میکنیم — نمونه vLLM / Ollama شما در کمتر از 60 ثانیه با TLS روی یک URL عمومی در دسترس خواهد بود.
«هوش مصنوعی بدون سانسور» در سال 2026 واقعاً یعنی چه
اصطلاح «هوش مصنوعی بدون سانسور» بسته به زمینه سه معنای متمایز دارد. (1) وزنهای بدون محدودیتهای رد کردن — fine-tune های abliterated / بدون سانسور مدلهای پایه (مثلاً Llama-3.3-70B-abliterated) که RLHF ایمنیشان از طریق ویرایش فعالسازی یا ablation جهتی حذف شده. آنها خروجیهایی تولید میکنند که مدل instruct اصلی رد میکند. (2) بدون تعدیل محتوا در لایه سرویسدهی — اجرای همان مدل بدون classifier سیاست به سبک OpenAI در جلوی inference. (3) بدون لاگگیری پرامپت/تکمیل — ورودیها و خروجیهایتان هرگز از سرور خارج نمیشوند و در هیچجای upstream نگهداری نمیگردند. ServPrivate بهطور پیشفرض (2) و (3) را ارائه میدهد، و شما وزنهای مدل را برای (1) فراهم میکنید — ما آنچه را که روی سختافزار شما اجرا میشود بررسی یا فیلتر نمیکنیم.
چشمانداز فعلی LLM های قابل self-host در سال 2026
تا می 2026، اکوسیستم open-weight در بسیاری از وظایف واقعاً با GPT-4 / Claude / Gemini میزبانیشده رقابت میکند. DeepSeek-R1 و تقطیر آن به Llama-70B در benchmark های استدلال با GPT-4 برابری میکنند، آن هم با هزینه inference بسیار کمتر. Llama-3.3-70B-Instruct همچنان ابزار اصلی برای کمک عمومی است. Qwen3-32B در چندزبانگی و استدلال قوی است. Gemma-3-27B قابلیت را با شفافیت مجوز معامله میکند. Mistral-Small-3 نقطه تعادل سرعت/کیفیت برای وظایف کدنویسی است. Phi-4 فراتر از وزن 14B خود عمل میکند. FLUX.1-dev جای SDXL را برای تولید تصویر گرفته است. Whisper-Large-v3 همچنان پیشرو ASR در open-weight است. همه روی GPU های زیر اجرا میشوند — برای تعیین اندازه به راهنمای خرید GPU مراجعه کنید.
بهداشت عملیاتی برای یک هاست هوش مصنوعی بدون سانسور
حتی روی یک سرور GPU بدون KYC و بدون لاگگیری inference، میتوانید هویت خود را در بار کاری لو بدهید. بهداشت عملی برای self-hoster های جدی: (1) قبل از SSH از طریق Tor یا VPN به سرور متصل شوید؛ (2) از یک SSH key تازه که به حساب GitHub شما مرتبط نیست استفاده کنید؛ (3) اگر یک اندپوینت عمومی HTTPS در معرض دید قرار میدهید، آن را با یک API key محافظت کنید و به جای IP، بر اساس token محدودیت نرخ اعمال کنید؛ (4) وزنها را بهصورت inline در زمان سفارش از پیش دانلود کنید نه اینکه پس از استقرار با حساب HuggingFace خود آنها را دریافت کنید؛ (5) برای پرامپتهای حساس، llama.cpp یا vLLM را پشت یک network namespace ایزوله اجرا کنید. این الگوها را در hub راهنما مستند کردهایم.
چه چیزی در محدوده «بدون سانسور» هست و چه چیزی نیست
در محدوده مجاز: خروجیهای NSFW یا حساس سیاسی که RLHF ایمنی مدل پایه رد میکند، محتوای داستانی شامل خشونت، خروجیهایی که افراد یا دولتهای نامبرده را نقد میکنند، خروجیهای تحقیقاتی dual-use (مثلاً امنیت سایبری، زیستشناسی، شیمی در سطح کتاب درسی)، خروجیها در لحن adversarial prompt-engineering. خارج از AUP ما: CSAM (تحمل صفر، صرفنظر از مدل)، دستورالعمل برای حملات CBRN با تلفات انبوه (صرفنظر از مدل)، کمپینهای آزاردهی هدفمند علیه افراد نامبرده، و خروجیهایی که صریحاً توسط قانون کشور میزبان ممنوع شدهاند. خود مدل تقریباً همه چیز را تعیین میکند؛ AUP سختترین موارد لبه را مستثنی میکند.
میزبانی هوش مصنوعی بدون سانسور در 4 حوزه قضایی آفشور
روسیه به دلیل تحریمهای صادراتی NVIDIA H100 / RTX 4090+ از لیست GPU حذف شده است.
ایسلند
پناهگاه آزادی بیانقوانین قوی حریم خصوصی، انرژی تجدیدپذیر، خارج از EU.
پاناما
بدون نگهداری دادهبدون قوانین نگهداری داده، بدون MLAT با اکثر کشورهای غربی.
مولداوی
آفشور اقتصادیمقررات سبک، قیمتهای پایین، همکاری بینالمللی ناچیز.
رومانی
ضد نگهداری دادهدادگاهها قوانین نگهداری داده را باطل کردند. اتصالپذیری عالی EU.
سوئیس
حریم خصوصی پریمیومقوانین سختگیرانه حریم خصوصی، بیطرفی سیاسی، زیرساخت درجه یک.
هلند
بهترین پیرینگاتصالپذیری عالی، میزبانی آزاداندیش، پیرینگ AMS-IX.
روسیه
مصون از دسترسی غربیخارج از حوزه قضایی غرب. تابع قوانین روسیه.
میزبانی هوش مصنوعی بدون سانسور — پرسشهای پرتکرار
01 آیا پرامپتها یا خروجیهای مدل را لاگ میکنید؟
خیر. سرور GPU مهمان KVM شماست. ما ترافیک inference شما را پروکسی نمیکنیم، آینه نمیکنیم، نمونهبرداری نمیکنیم، و محتوای پرامپت یا تکمیل را به هیچجا ارسال نمیکنیم. تنها لاگهایی که نگه میداریم در سطح شبکه (شمارندههای پهنای باند) و سطح hypervisor (uptime، مصرف برق GPU) هستند.
02 آیا میتوانم Llama-3.3-70B-abliterated یا DeepSeek-R1 را اینجا اجرا کنم؟
بله. هر مدل open-weight روی HuggingFace که بهصورت قانونی قابل دسترس باشد — Llama-3.3-70B-Instruct، نسخههای abliterated، DeepSeek-R1، DeepSeek-R1-Distill-Llama-70B، Qwen3-32B، Gemma-3-27B، Mistral-Small-3، Phi-4 و دیگران. در صورت مشخص کردن مخزن HF، در زمان سفارش از پیش دانلود میکنیم، یا میتوانید پس از اولین SSH login بهصورت دستی دریافت کنید.
03 کدام اندازه مدل با کدام ردیف GPU متناسب است؟
تخمین کلی در Q4 quantization: RTX 4090 (24 GB) مدلهای 7B تا 13B را راحت جا میدهد و 27 تا 32B را با درد offload. RTX 5090 (32 GB) مدلهای 27B تا 32B را راحت و 70B را با CPU offload جا میدهد. H100 SXM5 (80 GB) مدل 70B را در Q4 تا Q5 راحت جا میدهد. دو H100 (160 GB) مدل 70B را در FP16 و 120 تا 180B را در Q4 جا میدهد. راهنمای خرید در /guides/rtx-4090-vs-h100-for-ai-inference ارقام throughput دقیق دارد.
04 آیا با یک سیاست محتوایی روبهرو خواهم شد؟
هیچگونه سیاست محتوایی از سمت پلتفرم در مورد خروجی مدل شما وجود ندارد. AUP ما تنها چیزهایی را که در کشور میزبان غیرقانونی هستند ممنوع میکند، صرفنظر از نحوه تولید (CSAM، دستورالعملهای حمله CBRN با تلفات انبوه، آزار هدفمند افراد نامبرده). هر چیز دیگری — از جمله محتوای NSFW، سیاسی، پژوهشهای دوگانهکاربردی، و خروجیهای برانگیختهشده — اجرا میشود.
05 آیا میتوانم LLM خود را روی یک URL عمومی سرویسدهی کنم؟
بله. گزینه «Public HTTPS» را هنگام سفارش فعال کنید — ما یک گواهی Let's Encrypt و ریورس پروکسی روی پورت 443 به پورت vLLM / Ollama / Open WebUI شما تأمین میکنیم. مدل شما از طریق `https://
06 این سرویس در مقایسه با OpenAI، Anthropic یا پروکسیهای OpenRouter چه تفاوتی دارد؟
OpenAI / Anthropic: میزبانیشده، سیاست محتوایی کامل، لاگگیری ۳۰ روزه از پرامپتها، حوزه قضایی آمریکا. OpenRouter / Together / Fireworks: همچنان میزبانیشده، سیاست محتوایی تعریفشده توسط فروشنده، لاگگیری فروشنده. سلفهاست روی GPU آفشور: هیچ سیاست محتوایی از سمت پلتفرم، هیچ لاگگیری از سوی ما، حوزه قضایی کشور میزبان. نقطه منفی: شما هزینه GPU را صرفنظر از میزان استفاده میپردازید و خودتان استک را مدیریت میکنید. در حجم بالا، سلفهاست بهصرفهتر است؛ در استفاده پراکنده، APIهای میزبانیشده از نظر قیمت برتری دارند.
هوش مصنوعی خود را سلفهاست کنید — بدون لاگ، بدون سیاست
Llama، DeepSeek، Qwen، Mistral، Gemma — هر مدل متنباز دلخواهی بیاورید. GPU آفشور از $122.00 در ماه، CUDA 12 + vLLM آماده با یک کلیک.