AI Glossary: 不均衡なデータセット Terms & Definitions

ボーダーライン-SMOTE

Borderline-SMOTEは、不均衡なデータセットにおいて合成サンプルを生成するための高度な手法であり、境界付近のインスタンスに焦点を当てています。

不均衡なデータは、データセット内のクラスが均等に表現されていない場合に発生し、偏ったモデル予測につながることがあります。

ラベル不均衡は、AIモデルの訓練に使用されるデータセット内のクラスの不均等な分布を指します。

最頻クラスは、データセット内で最も多く出現するカテゴリを指します。

マイノリティクラスのオーバーサンプリングは、不均衡なデータセットのバランスを取るために、マイノリティクラスのインスタンス数を増やす手法です。

SMOTEは、過少表現クラスの合成例を生成することでデータセットのバランスを取るための手法です。