홈 / 무검열 AI 호스팅 — 나만의 LLM 셀프 호스팅

DeepSeek-R1, Llama-3.3, Qwen3를 셀프 호스팅하세요 — 추론 로그도, 콘텐츠 정책도 없습니다.

무검열 AI 호스팅 — 나만의 LLM 셀프 호스팅

OpenAI, Anthropic, Google, xAI는 hosted endpoint에서 콘텐츠 정책을 집행하고, safety classification, 모델 개선, 정부 요청 대응을 위해 모든 prompt를 기록합니다. 자체 GPU 박스에서 self-hosting하면 구조가 반대로 바뀝니다. 합법적으로 얻을 수 있는 모든 open-weight 모델은 로컬에서 실행되고, inference 트래픽은 우리 네트워크 plane을 지나지 않으며, prompt는 기록되지 않고, 응답은 필터링되지 않습니다. ServPrivate는 RTX 4090 / RTX 5090 / H100 SXM5 GPU 서버를 4개 오프쇼어 관할권에서 제공하며 vLLM, Ollama, ComfyUI, Whisper, Bark 1-click 템플릿을 포함합니다.

VPS 요금제 보기 최적 관할권 찾기

여기서 말하는 “무검열”의 실제 의미

추론 로그 없음 — 프롬프트가 기록되지 않습니다
콘텐츠 정책 없음 — 직접 가져온 모델 가중치가 수정 없이 그대로 실행됩니다
주문 시점에 미리 다운로드되는 오픈 웨이트 모델
기본적으로 타사 AI API와 완전히 분리됨
CUDA 12 + vLLM / Ollama / ComfyUI 원클릭 준비 완료

KYC 없음

암호화폐 결제 전용

로그 없음

DMCA 무시

전체 root 권한

NVMe SSD

호스팅형 엔드포인트는 모든 것을 기록합니다. 로컬 가중치는 아무것도 기록하지 않습니다.

'검열되지 않은'이라는 질문은 실은 주권에 관한 질문입니다

OpenAI API를 호출하면 프롬프트는 최소 30일간 보관되는(안전 분류 대상은 더 길게) 미국 관할권 로그에 기록되고, 플래그가 지정되면 안전팀의 검토를 거치며, 미국 법적 절차의 적용을 받습니다. 또한 모델은 안전 RLHF 학습 과정에서 정해진 특정 범주의 출력을 거부합니다. 반면 귀하의 GPU에서 Llama-3.3-70B-Instruct(또는 그 abliterated 파생 모델)를 실행하면 프롬프트가 귀하의 기기를 벗어나지 않고, 거부 여부는 오직 사용하는 가중치에 달려 있으며, 법적 관할권은 서버를 호스팅한 위치에 따라 결정됩니다. 로그를 남기지 않는다는 점과 원하는 가중치를 선택할 수 있다는 점, 이 두 가지가 바로 사람들이 말하는 “무검열 AI”입니다. ServPrivate는 두 가지를 모두 제공합니다: 추론 네트워크를 캡처하지 않는 오프쇼어 GPU, 그리고 저희가 가중치를 검사하지 않고 어떤 HuggingFace 모델이든 불러오는 원클릭 템플릿입니다.

모든 오픈 웨이트 모델 지원

Llama-3.3, DeepSeek-R1, Qwen3, Mistral-Small-3, Gemma-3, Phi-4, 검열 해제 포크, 커스텀 파인튜닝 — HuggingFace의 모든 모델 또는 직접 보유한 .safetensors 파일. 리포지토리 경로를 제공하면 주문 시 미리 다운로드해 드립니다.

추론 트래픽 캡처 없음

추론은 귀하의 KVM 게스트 내 GPU에서 이루어집니다. 당사는 모델 트래픽을 프록시하거나 미러링하거나 샘플링하지 않습니다. 프롬프트와 생성 결과는 귀하가 달리 선택할 때까지 로컬에 유지됩니다.

오프쇼어 관할권

아이슬란드 (표현의 자유 안식처, 재생에너지 100%), 네덜란드 (최고의 EU 피어링), 루마니아 (데이터 보존 반대 판례), 몰도바 (느슨한 규제, 저렴한 비용). 귀하에게 맞는 법적 프레임워크를 선택하세요.

공개 HTTPS 엔드포인트 — 선택 사항

주문 시 켜두면 Let's Encrypt + 리버스 프록시를 포트 443에 자동으로 프로비저닝합니다 — 60초 이내에 TLS가 적용된 공개 URL에서 귀하의 vLLM / Ollama 인스턴스에 접근할 수 있습니다.

2026년 기준 “무검열 AI”의 실제 의미

“검열 없는 AI”라는 표현은 문맥에 따라 세 가지 의미를 가집니다. 1. 거부 응답을 제거한 가중치 — Llama-3.3-70B-abliterated처럼 activation editing이나 directional ablation으로 안전성 RLHF를 제거한 베이스 모델 또는 파인튜닝 모델입니다. 원래 Instruct 모델이 거부하는 출력도 생성합니다. 2. 제공 레이어에 콘텐츠 모더레이션이 없는 것 — 같은 모델을 OpenAI식 정책 분류기를 앞단에 두지 않고 실행하는 구성입니다. 3. 프롬프트와 완성을 로그하지 않는 것 — 입력과 출력이 고객 머신 밖으로 나가지 않고 상류에서 보관되지 않는 구성입니다. ServPrivate는 기본적으로 2와 3을 제공하며, 1은 고객이 모델 가중치를 준비합니다. 당사는 고객 하드웨어에서 실행되는 내용을 검사하거나 필터링하지 않습니다.

2026년 자체 호스팅 가능한 LLM 현황

2026년 5월 기준 open-weight 생태계는 많은 작업에서 hosted GPT-4, Claude, Gemini와 실제로 경쟁합니다. DeepSeek-R1과 Llama-70B distillation은 훨씬 낮은 추론 비용으로 추론 벤치마크에서 GPT-4에 근접합니다. Llama-3.3-70B-Instruct는 범용 assistant의 기본 workhorse입니다. Qwen3-32B는 다국어와 reasoning에 강합니다. Gemma-3-27B는 성능보다 라이선스 명확성을 중시합니다. Mistral-Small-3는 코드 작업에서 속도와 품질의 균형이 좋습니다. Phi-4는 14B 크기 이상의 성능을 냅니다. FLUX.1-dev는 이미지 생성에서 SDXL을 대체했고, Whisper-Large-v3는 여전히 open-weight ASR의 선두입니다. 모두 아래 GPU 티어에서 실행됩니다. 크기 산정은 GPU 구매 가이드를 참고하세요.

무검열 AI 호스트를 위한 운영 보안 수칙

KYC 없음 GPU 박스와 inference 무로그 구성에서도 워크로드 안으로 신원이 새어 나갈 수 있습니다. 진지한 self-hoster를 위한 실무 위생은 다음과 같습니다. (1) SSH 전에 Tor 또는 VPN으로 접속합니다. (2) GitHub 계정과 연결되지 않은 새 SSH 키를 사용합니다. (3) 공개 HTTPS endpoint를 열면 API key로 보호하고 IP가 아니라 token 기준으로 rate-limit합니다. (4) 배포 후 HuggingFace 계정으로 받기보다 주문 시 weights를 미리 다운로드합니다. (5) 민감한 prompt는 격리된 network namespace 뒤에서 llama.cpp 또는 vLLM을 실행합니다. 이 패턴은 guides hub에 문서화되어 있습니다.

“검열 없음”의 범위와 제외 대상

허용 범위에는 base model의 safety-RLHF training이 거부할 NSFW 또는 정치적으로 민감한 output, 폭력이 포함된 fictional content, 특정 named individual이나 government를 비판하는 output, textbook level의 cybersecurity, biology, chemistry 같은 dual-use research output, adversarial prompt-engineering tone의 output이 포함됩니다. AUP상 금지 범위에는 CSAM(모델과 무관하게 zero tolerance), mass-casualty CBRN attack 지침(모델과 무관), named individual을 겨냥한 targeted harassment campaign, host country law가 명시적으로 금지하는 output이 포함됩니다. 거의 모든 것은 model 자체가 결정하지만, AUP는 가장 어려운 case만 잘라냅니다.

관할권

Uncensored AI hosting의 4 오프쇼어 관할권

러시아는 NVIDIA H100 / RTX 4090 이상 모델의 수출 제재로 인해 GPU 라인업에서 제외됩니다.

아이슬란드

표현의 자유 친화적

강력한 프라이버시 법률, 재생에너지, EU 외부.

$10.00/mo VPS $63.00/mo 전용 서버

파나마

데이터 보존 없음

데이터 보존 의무 없음, 대부분의 서방 국가와 MLAT 없음.

$8.50/mo VPS $53.50/mo 전용 서버

몰도바

저비용 오프쇼어

규제가 가볍고 가격이 낮으며 국제 사법 공조가 적습니다.

$7.50/mo VPS $48.50/mo 전용 서버

루마니아

반(反) 보존

법원이 데이터 보존 법률을 위헌으로 판단했습니다. EU 연결성도 뛰어납니다.

$8.50/mo VPS $53.50/mo 전용 서버

스위스

프리미엄 프라이버시

엄격한 프라이버시 법률, 정치적 중립, 최고 수준 인프라.

$11.00/mo VPS $68.00/mo 전용 서버

네덜란드

최고의 피어링

탁월한 연결성, 관대한 호스팅 환경, AMS-IX 피어링.

$9.00/mo VPS $58.50/mo 전용 서버

러시아

서방 법적 영향에 강함

서방 법적 영향권 밖. 러시아 국내법 적용.

$7.50/mo VPS $48.50/mo 전용 서버

FAQ

무검열 AI 호스팅 — 자주 묻는 질문

01 프롬프트나 모델 출력 결과를 기록합니까?

아니요. GPU 박스는 사용자의 KVM 게스트입니다. 우리는 추론 트래픽을 프록시하거나, 복제하거나, 샘플링하거나, 프롬프트와 응답 내용을 어디로도 전달하지 않습니다. 보관하는 로그는 네트워크 수준의 대역폭 카운터와 하이퍼바이저 수준의 가동 시간 및 GPU 전력 사용량뿐입니다.

02 여기서 Llama-3.3-70B-abliterated나 DeepSeek-R1을 실행할 수 있습니까?

가능합니다. vLLM, Ollama, llama.cpp, ComfyUI, Whisper, Bark 같은 stack을 직접 실행합니다. 모델과 prompt는 사용자의 machine 안에 머물며, 우리는 inference request를 proxy하거나 inspect하지 않습니다.

03 어떤 크기가 어떤 GPU 등급에 맞나요?

Q4 양자화 기준 대략적인 모델 크기 적합도: RTX 4090(24 GB)은 7B-13B를 여유롭게 처리하며 27-32B는 오프로드 부담이 있습니다. RTX 5090(32 GB)은 27B-32B를 여유롭게, 70B는 오프로드를 동반해 처리합니다. H100 SXM5(80 GB)는 Q4-Q5에서 70B를 여유롭게 처리합니다. 듀얼 H100(160 GB)은 FP16에서 70B, Q4에서 120-180B를 처리합니다. 자세한 처리량 수치는 /guides/rtx-4090-vs-h100-for-ai-inference 구매 가이드를 참조하세요.

04 Is there a 콘텐츠 정책 I will hit?

Model output에 대한 platform-level content policy는 없습니다. 당사 AUP는 생성 방식과 관계없이 host country에서 illegal인 것만 금지합니다: CSAM, mass-casualty CBRN attack instructions, specific named individuals에 대한 targeted harassment. 그 외 NSFW, political, dual-use research, adversarial-prompted output은 실행될 수 있습니다.

05 serve my LLM on a 공개 URL할 수 있나요?

예. 주문 시 “Public HTTPS”를 켜면 Let's Encrypt 인증서와 포트 443 리버스 프록시를 vLLM / Ollama / Open WebUI 포트로 자동 구성합니다. 모델은 `https://.servprivate.dev`에서 접속할 수 있습니다. 자체 도메인의 A 레코드를 연결해도 TLS가 적용되며 추가 설정은 필요 없습니다.

06 OpenAI, Anthropic, 또는 OpenRouter 프록시와 비교하면 어떤 차이가 있습니까?

OpenAI / Anthropic은 hosted 방식이고, full content policy와 30일 prompt logging, US legal jurisdiction이 적용됩니다. OpenRouter / Together / Fireworks도 hosted이며, vendor-defined content policy와 vendor logging이 있습니다. Offshore GPU의 self-hosted 방식은 platform-level policy가 없고, 우리는 logging하지 않으며, host-country jurisdiction이 적용됩니다. trade-off는 GPU time을 사용 여부와 관계없이 지불하고 stack을 직접 운영해야 한다는 점입니다. 대량 사용에서는 self-hosted가 유리하고, sporadic use에서는 hosted API가 비용 면에서 이깁니다.

이용 방법

How to 배포 an 오프쇼어 서버의 5 분

관할권을 선택하고, 요금제를 고른 다음 암호화폐로 결제하고, 토큰을 받아 배포합니다.

1

선택 귀하의 관할권

귀하의 법적 요구에 맞는 국가를 선택하세요 — 표현의 자유(아이슬란드), 데이터 비보존(파나마), DMCA 면제(러시아) 등. 잘 모르시겠다면 저희 관할권 선택기를 이용하세요.
2

Pick a 요금제

VPS 또는 전용 서버 요금제를 둘러보세요. 모든 플랜에는 NVMe SSD, 무제한 대역폭, DDoS 방어, IPv6가 포함됩니다.
3

암호화폐로 결제하기

Bitcoin, Monero, Ethereum, Tether 또는 그 외 지원되는 5개 암호화폐 코인 중 아무거나로 결제하세요. 이메일, 이름, 전화번호, ID가 전혀 필요하지 않습니다. 법정화폐는 받지 않습니다.
4

액세스 토큰 받기

결제가 승인되면 고유 토큰을 받습니다. 이 토큰이 모든 계정 인증 정보를 대체합니다. 안전하게 보관하세요.
5

Connect to 귀하의 서버

서버는 5분 이내에 자동으로 프로비저닝됩니다. 제공된 자격 증명으로 SSH 접속하세요. 완전한 root 권한과 VNC 콘솔을 사용할 수 있습니다.

나만의 AI를 셀프 호스팅하세요 — 로그도, 정책 제한도 없음

Llama, DeepSeek, Qwen, Mistral, Gemma — 원하는 오픈 웨이트 모델을 자유롭게 사용하세요. 오프쇼어 GPU는 월 $122.00부터, CUDA 12와 원클릭 vLLM이 준비되어 있습니다.

시작하기 최적 관할권 찾기