Supervised fine-tuning
TRL SFTTrainer of Unsloth. unwrap_dataset() haalt per-eigenaar sleutels op via dstack-guest-agent — je trainingsloop blijft ongewijzigd. Uitvoer: een verzegeld checkpoint plus een ondertekend manifest.
Preference / RL alignment
DPOTrainer / IPOTrainer voor optimalisatie van voorkeurspaar-combinaties, of volledige RLHF met een reward model + PPO. Verzegelde prompts, verzegelde voorkeursdata, geattesteerd reward model.
PEFT · LoRA / QLoRA
HuggingFace PEFT. Train low-rank adapters tegen een bevroren basismodel; de LoRA-gewichten worden verzegeld aan de compose-hash en samengevoegd bij geattesteerde herafleiding. 4-bit QLoRA voor geheugenbeperkte runs.
Continued pre-training
Pas een basismodel aan op verzegelde token-corpora. De streaming-dataloader pakt shards uit in TDX-geheugen; de run produceert één ondertekend manifest met token-hashes, hyperparameters en het finale checkpoint.