Destilación de conocimiento, also called destilación de modelos, transfers learning from a large “teacher” AI model to a smaller “student” model. This makes the smaller model nearly as capable but faster and cheaper to run on devices like phones.
Concepto Central
El maestro procesa datos y produce salidas (como distribuciones de probabilidad or “soft targets”). The student trains to match these, capturing nuances that hard labels alone miss.
Métodos Clave
Response-based: Student mimics teacher’s output probabilities (logits).
Feature-based: Student copies teacher’s internal layers or activations.
Auto-distilación: El modelo destila desde its sus propios puntos de control posteriores.
La destilación reduce drásticamente los modelos—como ChatGPT Turbo de versiones más grandes—manteniendo un alto rendimiento.