Destilação de conhecimento, also called destilação de modelo, transfers learning from a large “teacher” AI model to a smaller “student” model. This makes the smaller model nearly as capable but faster and cheaper to run on devices like phones.
Conceito Central
O professor processa dados e produz saídas (como distribuições de probabilidade or “soft targets”). The student trains to match these, capturing nuances that hard labels alone miss.
Métodos Principais
Response-based: Student mimics teacher’s output probabilities (logits).
Feature-based: Student copies teacher’s internal layers or activations.
Autodistilação: Modelo destila de its seus próprios checkpoints posteriores.
A destilação reduz drasticamente os modelos—como ChatGPT Turbo de versões maiores—mantendo o desempenho elevado.