AI Glossary: What Is Model Inversion (MI)? Definition & Meaning

Modellinversion is a Technik im maschinellen Lernen and Datenschutz that allows an adversary to infer sensitive information about the Trainingsdaten used to build a model. This is achieved by exploiting the outputs of a model to reconstruct features of the original dataset, often targeting personal or confidential information.

Im Kontext von KI können Modellinversion-Angriffe auftreten, wenn ein maschinelles Lernmodell für Benutzer zugänglich ist. Wenn beispielsweise ein Modell auf Bildern von Gesichtern trainiert wurde, könnte ein Angreifer das Modell mit verschiedenen Eingaben abfragen und die Ausgaben analysieren, um Informationen über die ursprünglichen Bilder zusammenzufügen, sie möglicherweise rekonstruieren oder sensible Attribute offenbaren.

Der Prozess umfasst typischerweise die Generierung einer Reihe von Anfragen und das Empfangen von Ausgaben, die die Wahrscheinlichkeit bestimmter Merkmale anzeigen. Durch systematisches Verfeinern dieser Anfragen basierend auf den Antworten kann der Angreifer schrittweise eine Darstellung der Daten erstellen, auf denen das Modell trainiert wurde.

This poses significant privacy risks, particularly in applications involving personal data, such as healthcare or finance. To mitigate such risks, researchers and practitioners are developing techniques like differentielle Privatsphäre, which aims to provide guarantees that the inclusion or exclusion of a single data point does not significantly affect the output of the model.

Understanding model inversion is crucial for developing robust AI systems that respect user privacy and comply with legal standards, especially as concerns about Datensicherheit im digitalen Zeitalter weiter wachsen.