Klassenungleichgewicht
Klassenungleichgewicht bezieht sich auf eine Situation in maschinellem Lernen and Datenwissenschaft where the distribution of examples across different categories (or classes) is not uniform. For instance, in a dataset used for binärer Klassifikation, if there are 90 instances of Class A and only 10 instances of Class B, this creates a significant imbalance.
Dieses Ungleichgewicht kann zu mehreren Herausforderungen führen in Training von Machine-Learning-Modellen. Most notably, models may become biased towards the majority class, resulting in poor predictive performance for the minority class. In the example above, a model might predict Class A for almost all instances, achieving high accuracy overall, but failing to correctly identify instances of Class B.
Class imbalance can arise in various domains, such as fraud detection, medical diagnosis, and customer Churn-Vorhersage, where the event of interest (e.g., fraud, disease, churn) is rare compared to the normal instances.
Um das Klassenungleichgewicht zu beheben, können verschiedene Techniken eingesetzt werden:
- Neuabtastung: This involves either oversampling the minority class (adding more instances) or undersampling die Mehrheitsklasse (Reduzierung der Instanzen), um einen ausgewogeneren Datensatz zu erstellen.
- Algorithmische Anpassungen: Some algorithms can be modified to give more weight to the minority class during training, helping to balance the influence of both classes.
- Verwendung spezieller Metriken: Instead of accuracy, which can be misleading, metrics such as precision, recall, F1-score, and the area under the ROC curve (AUC-ROC) can provide better insights into Modellleistung in unausgewogenen Szenarien.
Das Verständnis und die Behebung von Klassenungleichgewicht sind entscheidend für die Entwicklung robuster maschineller Lernmodelle, die in allen Klassen gut abschneiden.