Gözetimli ince ayar
TRL SFTTrainer veya Unsloth. unwrap_dataset(), dstack-guest-agent üzerinden her sahibi için anahtarları çeker — eğitim döngünüz değişmeden kalır. Çıktı: mühürlü bir checkpoint ve imzalı bir manifesto.
Tercih / RL hizalama
Tercih-çifti optimizasyonu için DPOTrainer / IPOTrainer veya reward model + PPO ile tam RLHF. Mühürlü istemler, mühürlü tercih verisi, doğrulanmış reward model.
PEFT · LoRA / QLoRA
HuggingFace PEFT. Dondurulmuş bir temel modele karşı düşük-rank adapter’lar eğitin; LoRA ağırlıkları compose-hash’e mühürlenir ve doğrulanmış yeniden türetmede birleştirilir. Bellek kısıtlı işler için 4-bit QLoRA.
Sürekli ön eğitim
Sealed token korpusları üzerinde bir temel modeli alanınıza uyarlayın. Streaming dataloader, shard’ları TDX belleğinde açar; çalışma, token-hash’leri, hiperparametreleri ve son checkpoint’i kapsayan tek bir imzalı manifesto üretir.