Confidential AI Models

Private LLMs.
Verified results.

Frontier inference without exposing prompts, tools, or memory.

OpenAI-compatible APIs run inside hardware-backed TEEs and return proof of the runtime that handled the request.

Les appels IA transportent plus que le prompt.

Frontière TEE

LLM privé Phala

same SDK
TEE endpoint
reçu matériel

Private AI calls prompts, keys, tools, and memory stay inside the runtime. providers route the request without becoming the trust boundary. Proof follows the answer. verify GPU, container, model route, and response. same API shape, hardware-backed receipt, private inference. streaming, tool calls, and agent memory keep their normal developer flow. auditors can inspect evidence without reading the prompt. users get answers plus runtime proof, not another black box.

Private LLM catalog

Frontier models with private runtime.

OpenAI-compatible models with hardware-backed privacy and verification. Keep your SDK flow, change the endpoint, and copy the real call when you need it.

chiffré

Qwen: Qwen3.5-122B-A10B

262K contexte

$0.46/M input

Vérifier le détail
chiffré

Qwen: Qwen3 32B

41K contexte

$0.12/M input

Vérifier le détail
chiffré

Google: Gemma 4 31B

262K contexte

$0.15/M input

Vérifier le détail
chiffré

Qwen: Qwen3.6 35B A3B

262K contexte

$0.20/M input

Vérifier le détail
chiffré

DeepSeek: DeepSeek V4 Pro

800K contexte

$1.50/M input

Vérifier le détail
chiffré

Phala: Gemma-4 26B-A4B Uncensored (Heretic)

66K contexte

$0.15/M input

Vérifier le détail
chiffré

Phala: Qwen3.6 35B-A3B Uncensored (Aggressive)

131K contexte

$0.30/M input

Vérifier le détail
chiffré

MoonshotAI: Kimi K2.6

262K contexte

$1.09/M input

Vérifier le détail
chiffré

Z.ai: GLM 5.1

203K contexte

$1.21/M input

Vérifier le détail
chiffré

Qwen: Qwen3.5-27B

262K contexte

$0.30/M input

Vérifier le détail
chiffré

Qwen: Qwen3.5 397B A17B

262K contexte

$0.55/M input

Vérifier le détail
chiffré

MiniMax: MiniMax M2.5

197K contexte

$0.20/M input

Vérifier le détail
Model requests are routed through confidential AI providers with TEE support.
Check all

Integrate in minutes

Same SDK, Change Endpoint, Verify E2EE.

Keep your OpenAI-compatible client. Point it at the private endpoint, choose a Phala model slug, and read the proof when the output needs an audit trail.

selected proof

Private LLM Gateway

The OpenAI-compatible endpoint terminates inside the verified gateway boundary.

reporttls_endpointreceiptgateway_app_idstatusverified
app_idlinked
endpointlinked
policylinked
app_certlinked
drag · zoom · click node

Parcours de solution IA

Utilisez des modèles privés lorsque l’IA accède à des secrets.

Le point de terminaison du modèle privé est le premier point d’entrée. Le même principe de confidentialité s’étend aux agents, aux workflows de données et à l’entraînement.

LLM API

Inférence IA privée

Diffuser des appels de modèles compatibles OpenAI où les prompts, sorties et le contexte client nécessitent une protection chiffrée en cours d’utilisation.

Ouvrir la solution
encrypted

DeepSeek V3.1

128K

$0.27/M input

encrypted

Qwen3 Coder

256K

$0.40/M input

encrypted

Llama 3.3 70B

128K

$0.15/M input

encrypted

GPT OSS 120B

128K

$0.10/M input

encrypted

Claude Sonnet 4.5

200K

$3.00/M input

encrypted

Gemini 2.5 Pro

1M

$1.25/M input

Agents

Agents IA privés

Exécutez des agents avec clés, outils, mémoire et actions dans un runtime vérifié au lieu d’un cloud d’automatisation visible.

Ouvrir la solution
Training

Entraînement de modèle privé

Adaptez les modèles sur des données propriétaires tout en conservant les jeux de données, gradients, checkpoints et traces d’évaluation à l’intérieur de la frontière.

Ouvrir la solution

private training run

Observe without exposing weights.

H100 CC

01

dataset

sealed

02

fine-tune

running

03

eval

private

04

checkpoint

verified

loss curve

proof attached

attestation.json

Data

Données d’IA privées

Déplacez les modèles vers des dossiers sensibles et renvoyez des résultats approuvés sans exposer les données brutes à l’opérateur du modèle.

Ouvrir la solution

source

EHR data

source

Customer records

source

Internal docs

TEE clean room

query without raw access

approved output

aggregate only
no row exportproof linked

Questions

Ce que les équipes demandent avant de basculer.

Les LLM privés ne sont pas qu’un simple endpoint. C’est un choix de déploiement entre la simplicité du SaaS et une infrastructure IA autogérée.

1

En quoi est-ce différent d’une API LLM classique ?

Une API LLM classique vous demande de faire confiance au périmètre du fournisseur. Phala exécute l’appel du modèle dans des TEE adossés au matériel et peut joindre une preuve d’exécution montrant ce qui a protégé la requête.

2

En quoi est-ce différent d’exécuter des modèles on-prem ?

L’on-premise donne le contrôle, mais vous opérez les GPU, le service de modèles, les mises à niveau et la capacité. Phala conserve le workflow API tout en ajoutant une exécution privée et un état d’exécution vérifiable.

3

Quelle est la difficulté d’intégrer des LLM privés dans mon application existante ?

Utilisez la forme d’API compatible avec OpenAI : changez l’URL de base, sélectionnez un identifiant de modèle privé et conservez votre SDK ou framework d’agent existant.

4

Quels types de modèles sont disponibles ?

Le catalogue inclut des familles de modèles pour le code, le raisonnement, le chat général et les poids ouverts provenant de fournisseurs tels que DeepSeek, Qwen, Meta, Mistral, Google et OpenAI OSS.

5

Comment les clients peuvent-ils vérifier que les données ont été protégées ?

Le Trust Center transforme les rapports d’attestation en une vue inspectable du matériel, du code source, du runtime et de l’état de vérification réseau.

6

Quand dois-je utiliser une pile privée dédiée ?

Utilisez une stack dédiée lorsque vous avez besoin de modèles personnalisés, de GPU réservés, de déploiements spécifiques à chaque client, ou d’un périmètre de conformité et d’audit plus strict que l’inférence mutualisée.

Commencer à construire

Construisez une IA que vous pouvez prouver.

Déployez des charges de travail privées, vérifiez l’exécution et passez à l’échelle, des modèles aux jobs GPU.