AI Glossary: What Is Model Poisoning (MP)? Definition & Meaning

L'empoisonnement de modèle est un type de attaque adversariale on apprentissage automatique systems where an attacker intentionally manipulates the données d'entraînement used to build a model. This manipulation can lead to the modèle apprenne incorrect patterns or making biased predictions, ultimately undermining its reliability and effectiveness. The attacker typically aims to introduce harmful data points into the dataset, which are designed to mislead the model during the training phase.

En pratique, l'empoisonnement de modèle peut se produire dans divers scénarios, notamment dans l'apprentissage collaboratif environments where multiple participants contribute to a shared model. For instance, in federated learning, where multiple devices train a model collectively without sharing their data, an attacker may alter their local dataset to influence the overall model’s performance negatively.

Il existe plusieurs techniques que les attaquants peuvent utiliser lors d'une attaque d'empoisonnement de modèle. Par exemple, ils peuvent injecter des données qui déforment la véritable distribution des données, créer des valeurs aberrantes qui faussent l'apprentissage du modèle, ou introduire des exemples spécifiques qui poussent le modèle à faire des prédictions incorrectes sur des tâches critiques. L'impact de l'empoisonnement de modèle peut aller d'une dégradation subtile des performances à des défaillances catastrophiques lorsque le modèle est déployé dans des applications réelles.

To defend against model poisoning, researchers and practitioners employ various strategies, such as la détection d'anomalies to identify suspicious data, robust learning algorithms that are less sensitive to outliers, and regular audits of the training data to ensure its integrity. Understanding model poisoning is crucial for developing resilient AI systems that maintain their performance and ethical standards in the face of potential attacks.