D

Distillation

La distillation est un processus de séparation qui utilise la chaleur pour séparer les composants en fonction de leurs points d’ébullition.

Distillation de connaissances, also called distillation de modèle, transfers learning from a large “teacher” AI model to a smaller “student” model. This makes the smaller model nearly as capable but faster and cheaper to run on devices like phones.


Concept de base
L’enseignant traite les données et produit des sorties (comme distributions de probabilité or “soft targets”). The student trains to match these, capturing nuances that hard labels alone miss.


Méthodes clés
Response-based: Student mimics teacher’s output probabilities (logits).
Feature-based: Student copies teacher’s internal layers or activations.
Autodistillation : Le modèle distille à partir de its ses propres points de contrôle ultérieurs.

La distillation réduit considérablement la taille des modèles — comme ChatGPT Turbo à partir de versions plus grandes — tout en maintenant une haute performance.

oEmbed (JSON) + /