D

蒸留

蒸留は、沸点の違いに基づいて成分を分離するために熱を使用する分離プロセスです。

知識蒸留, also called モデル蒸留, transfers learning from a large “teacher” AI model to a smaller “student” model. This makes the smaller model nearly as capable but faster and cheaper to run on devices like phones.


コアコンセプト
教師はデータを処理し、出力(例: 確率分布 or “soft targets”). The student trains to match these, capturing nuances that hard labels alone miss.


主要な方法
Response-based: Student mimics teacher’s output probabilities (logits).
Feature-based: Student copies teacher’s internal layers or activations.
自己蒸留:モデルは its 自身の後期チェックポイントから蒸留します。

蒸留はモデルを劇的に縮小します— ChatGPT Turboのように大きなバージョンから—一方で性能を高く保ちます。

コントロール + /