Wissensdistillation, also called Modell-Distillation, transfers learning from a large “teacher” AI model to a smaller “student” model. This makes the smaller model nearly as capable but faster and cheaper to run on devices like phones.
Kernkonzept
Der Lehrer verarbeitet Daten und erzeugt Ausgaben (wie Wahrscheinlichkeitsverteilungen or “soft targets”). The student trains to match these, capturing nuances that hard labels alone miss.
Wichtige Methoden
Response-based: Student mimics teacher’s output probabilities (logits).
Feature-based: Student copies teacher’s internal layers or activations.
Selbst-Distillation: Das Modell destilliert aus its seinen eigenen späteren Checkpoints.
Destillation verkleinert Modelle erheblich—wie ChatGPT Turbo im Vergleich zu größeren Versionen—und erhält dabei die Leistung.