Confidential AI Models

Private LLMs.
Verified results.

Frontier inference without exposing prompts, tools, or memory.

OpenAI-compatible APIs run inside hardware-backed TEEs and return proof of the runtime that handled the request.

KI-Aufrufe tragen mehr als nur Prompts.

TEE-Grenze

Phala private LLM

same SDK
TEE endpoint
Hardware-Beleg

Private AI calls prompts, keys, tools, and memory stay inside the runtime. providers route the request without becoming the trust boundary. Proof follows the answer. verify GPU, container, model route, and response. same API shape, hardware-backed receipt, private inference. streaming, tool calls, and agent memory keep their normal developer flow. auditors can inspect evidence without reading the prompt. users get answers plus runtime proof, not another black box.

Private LLM catalog

Frontier models with private runtime.

OpenAI-compatible models with hardware-backed privacy and verification. Keep your SDK flow, change the endpoint, and copy the real call when you need it.

verschlüsselt

Qwen: Qwen3.5-122B-A10B

262K Kontext

$0.46/M input

Details prüfen
verschlüsselt

Qwen: Qwen3 32B

41K Kontext

$0.12/M input

Details prüfen
verschlüsselt

Google: Gemma 4 31B

262K Kontext

$0.15/M input

Details prüfen
verschlüsselt

Qwen: Qwen3.6 35B A3B

262K Kontext

$0.20/M input

Details prüfen
verschlüsselt

DeepSeek: DeepSeek V4 Pro

800K Kontext

$1.50/M input

Details prüfen
verschlüsselt

Phala: Gemma-4 26B-A4B Uncensored (Heretic)

66K Kontext

$0.15/M input

Details prüfen
verschlüsselt

Phala: Qwen3.6 35B-A3B Uncensored (Aggressive)

131K Kontext

$0.30/M input

Details prüfen
verschlüsselt

MoonshotAI: Kimi K2.6

262K Kontext

$1.09/M input

Details prüfen
verschlüsselt

Z.ai: GLM 5.1

203K Kontext

$1.21/M input

Details prüfen
verschlüsselt

Qwen: Qwen3.5-27B

262K Kontext

$0.30/M input

Details prüfen
verschlüsselt

Qwen: Qwen3.5 397B A17B

262K Kontext

$0.55/M input

Details prüfen
verschlüsselt

MiniMax: MiniMax M2.5

197K Kontext

$0.20/M input

Details prüfen
Model requests are routed through confidential AI providers with TEE support.
Check all

Integrate in minutes

Same SDK, Change Endpoint, Verify E2EE.

Keep your OpenAI-compatible client. Point it at the private endpoint, choose a Phala model slug, and read the proof when the output needs an audit trail.

selected proof

Private LLM Gateway

The OpenAI-compatible endpoint terminates inside the verified gateway boundary.

reporttls_endpointreceiptgateway_app_idstatusverified
app_idlinked
endpointlinked
policylinked
app_certlinked
drag · zoom · click node

KI-Lösungswege

Verwenden Sie private Modelle, wenn KI mit Geheimnissen interagiert.

Der private Modell-Endpunkt ist der erste Einstiegspunkt. Dieselbe Datenschutz-Primitive lässt sich auf Agents, Daten-Workflows und Training ausweiten.

LLM API

Private AI-Inferenz

OpenAI-kompatible Modellaufrufe bereitstellen, bei denen Prompts, Outputs und Kundenkontext Schutz durch Verschlüsselung während der Nutzung benötigen.

Lösung öffnen
encrypted

DeepSeek V3.1

128K

$0.27/M input

encrypted

Qwen3 Coder

256K

$0.40/M input

encrypted

Llama 3.3 70B

128K

$0.15/M input

encrypted

GPT OSS 120B

128K

$0.10/M input

encrypted

Claude Sonnet 4.5

200K

$3.00/M input

encrypted

Gemini 2.5 Pro

1M

$1.25/M input

Agents

Private KI-Agenten

Agenten mit Schlüsseln, Tools, Speicher und Aktionen in einer verifizierten Laufzeit ausführen statt in einer sichtbaren Automatisierungs-Cloud.

Lösung öffnen
Training

Private Modelltrainings

Passe Modelle an proprietäre Daten an, während Datensätze, Gradients, Checkpoints und Evaluations-Traces innerhalb der Grenze bleiben.

Lösung öffnen

private training run

Observe without exposing weights.

H100 CC

01

dataset

sealed

02

fine-tune

running

03

eval

private

04

checkpoint

verified

loss curve

proof attached

attestation.json

Data

Private KI-Daten

Modelle zu sensiblen Datensätzen verschieben und freigegebene Ausgaben zurückgeben, ohne Rohdaten dem Modellbetreiber offenzulegen.

Lösung öffnen

source

EHR data

source

Customer records

source

Internal docs

TEE clean room

query without raw access

approved output

aggregate only
no row exportproof linked

Fragen

Was Teams fragen, bevor sie umsteigen.

Private LLMs sind nicht nur ein weiterer Endpoint. Sie sind eine Deployments-Entscheidung zwischen SaaS-Komfort und selbst betriebener AI-Infrastruktur.

1

Worin unterscheidet sich das von einer normalen LLM-API?

Eine normale LLM-API verlangt, dass Sie der Anbietergrenze vertrauen. Phala führt den Modellaufruf in hardware-gestützten TEEs aus und kann einen Laufzeitnachweis anhängen, der zeigt, was die Anfrage geschützt hat.

2

Wie unterscheidet sich das von der Ausführung von Modellen On-Prem?

On-Prem gibt Kontrolle, aber Sie betreiben GPUs, Modell-Serving, Upgrades und Kapazität. Phala behält den API-Workflow bei und ergänzt private Ausführung sowie verifizierbaren Laufzeitstatus.

3

Wie schwierig ist es, private LLMs in meine bestehende App zu integrieren?

Verwenden Sie die OpenAI-kompatible API-Struktur: Base-URL ändern, einen privaten Modell-Slug auswählen und Ihr bestehendes SDK oder Agenten-Framework beibehalten.

4

Welche Modelltypen sind verfügbar?

Der Katalog umfasst Coding-, Reasoning-, General-Chat- und Open-Weight-Modellfamilien von Anbietern wie DeepSeek, Qwen, Meta, Mistral, Google und OpenAI OSS.

5

Wie können Kunden verifizieren, dass Daten geschützt waren?

Das Trust Center macht Attestierungsberichte in einer prüfbaren Ansicht von Hardware-, Quell-, Laufzeit- und Netzwerkintegritätsstatus zugänglich.

6

Wann sollte ich einen dedizierten privaten Stack verwenden?

Nutzen Sie einen dedizierten Stack, wenn Sie benutzerdefinierte Modelle, reservierte GPUs, kundenspezifische Deployments oder eine stärkere Compliance- und Audit-Grenze als bei gemeinsam genutzter Inference benötigen.

Jetzt starten

Bauen Sie KI, die Sie beweisen können.

Stellen Sie private Workloads bereit, verifizieren Sie die Ausführung und skalieren Sie von Modellen bis zu GPU-Jobs.