Borderline-SMOTE, or Borderline Synthetic Minority Over-sampling Technique, is an enhancement of the original SMOTE (Synthetic Minority Over-sampling Technique) algorithm, specifically designed to address the challenges of 不均衡なデータセット in classification タスク。
In many real-world scenarios, datasets are often skewed, with a significantly lower number of instances from the 少数派クラス compared to the majority class. This imbalance can lead to biased models that fail to generalize well to unseen data. Borderline-SMOTE improves upon this by focusing on the instances that lie on the モデリングに焦点を当てています between the minority and majority classes. These borderline instances are critical because they are often the most difficult to classify correctly.
このプロセスは、マイノリティクラスの境界線上のインスタンスを特定することから始まります。これらのインスタンスは、メジャリティクラスのインスタンスに囲まれています。これらのインスタンスを特定した後、Borderline-SMOTEは、これらの境界線上のインスタンスと同じマイノリティクラスの最も近い隣接点との間で補間を行い、合成サンプルを生成します。これにより、マイノリティインスタンスの数が増えるだけでなく、決定境界もより堅牢になり、分類性能が向上します。
By creating synthetic data points that are strategically placed, Borderline-SMOTE helps reduce the likelihood of overfitting, a common concern when merely duplicating instances or generating random samples. The technique is particularly useful in scenarios such as 不正検出, medical diagnosis, and other applications where class imbalance is prevalent.